比ChatGPT恐怖的谷歌5620亿参数大模型，机器人都能用-花粉乐享

> 乐学堂 > > 比ChatGPT恐怖的谷歌5620亿参数大模型，机器人都能用

比ChatGPT恐怖的谷歌5620亿参数大模型，机器人都能用

来源：科社美

2023-04-06 16:57:12

373

管理

谷歌近日发布了一个名为PaLM-E的大模型，它拥有5620亿参数，是目前已知的最大规模的视觉语言模型。它能够处理多模态信息，包括语言、图像、场景表征和物体表征，并且具有强大的逻辑思维能力。它甚至可以根据一句话指令，让机器人去厨房抽屉里拿薯片，并且不会被中途干扰而放弃任务。

PaLM-E是由谷歌和柏林工业大学联合打造的，它实际上是将两个模型结合起来的结果：一个是参数量为5400亿的语言模型PaLM，另一个是参数量为220亿的视觉Transformer（ViT）。PaLM是基于Pathways架构训练出来的，它能通过“思考过程提示”获得更准确的逻辑推理能力，减少AI生成内容中的错误和胡言乱语。ViT则是计算机视觉领域的经典工作之一，它可以将图像或传感器数据编码为一系列与语言标记大小相同的向量。

PaLM-E在多个领域任务上都展现出了惊人的表现。比如，在OK-VQA基准上达到了新SOTA，在模拟环境下也完成了多种任务。它还能从一堆图片里判断出哪个物体能滚动，或者看图做算数。更令人惊叹的是，它做出这些判断和回答完全是基于自己从网络上学习到的“经验”，而不需要预先理解环境或进行预处理。

这项工作引发了学术圈和业界圈的广泛关注和讨论。有人认为这项工作比ChatGPT更接近AGI（人工通用智能），因为它把大模型能力拉入到具象化层面，打破了AI和物理世界之间的结界。也有人认为这项工作再次验证了“大力出奇迹”的说法，并且显示了多模态信息处理在未来AI发展中所占据的重要地位。

当然，这项工作也存在一些局限性和挑战。首先，如何有效地训练如此庞大规模的模型仍然是一个难题；其次，如何保证模型生成内容中不含有有害或不道德信息也需要注意；最后，如何评估并提高模型在真实环境中与机器人交互时所需具备的安全性、可靠性和鲁棒性也值得进一步探索。

花粉社群VIP加油站

2

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

有人月入10万，揭秘 ChatGPT聊天机器人的核心逻辑

2023-04-06 16:58

刘庆峰代表谈ChatGPT：不仅仅是一个对话式机器人

2023-04-06 16:56