谷歌近日发布了一个名为PaLM-E的大模型,它拥有5620亿参数,是目前已知的最大规模的视觉语言模型。它能够处理多模态信息,包括语言、图像、场景表征和物体表征,并且具有强大的逻辑思维能力。它甚至可以根据一句话指令,让机器人去厨房抽屉里拿薯片,并且不会被中途干扰而放弃任务。
PaLM-E是由谷歌和柏林工业大学联合打造的,它实际上是将两个模型结合起来的结果:一个是参数量为5400亿的语言模型PaLM,另一个是参数量为220亿的视觉Transformer(ViT)。PaLM是基于Pathways架构训练出来的,它能通过“思考过程提示”获得更准确的逻辑推理能力,减少AI生成内容中的错误和胡言乱语。ViT则是计算机视觉领域的经典工作之一,它可以将图像或传感器数据编码为一系列与语言标记大小相同的向量。
PaLM-E在多个领域任务上都展现出了惊人的表现。比如,在OK-VQA基准上达到了新SOTA,在模拟环境下也完成了多种任务。它还能从一堆图片里判断出哪个物体能滚动,或者看图做算数。更令人惊叹的是,它做出这些判断和回答完全是基于自己从网络上学习到的“经验”,而不需要预先理解环境或进行预处理。
这项工作引发了学术圈和业界圈的广泛关注和讨论。有人认为这项工作比ChatGPT更接近AGI(人工通用智能),因为它把大模型能力拉入到具象化层面,打破了AI和物理世界之间的结界。也有人认为这项工作再次验证了“大力出奇迹”的说法,并且显示了多模态信息处理在未来AI发展中所占据的重要地位。
当然,这项工作也存在一些局限性和挑战。首先,如何有效地训练如此庞大规模的模型仍然是一个难题;其次,如何保证模型生成内容中不含有有害或不道德信息也需要注意;最后,如何评估并提高模型在真实环境中与机器人交互时所需具备的安全性、可靠性和鲁棒性也值得进一步探索。
花粉社群VIP加油站
猜你喜欢