GPT-3都做不到的推理，这个AI系统做到了-花粉乐享

> 乐学堂 > > GPT-3都做不到的推理，这个AI系统做到了

GPT-3都做不到的推理，这个AI系统做到了

来源：智视

2023-08-06 16:09:46

333

管理

人工智能产业总带着些许魔法气质，人们最异想天开的设想在这总能得到实现，机器人战胜了围棋冠军，淘宝算法能猜中你的消费喜好，火遍全球的GPT-3更是看起来无所不能——可以生成足以以假乱真的新闻文章，仅根据语言描述就能创作网页和手机UI，甚至能自动生成科学问题并回答，GPT-3真的这么“神奇”吗？

在了解 GPT-3 的神奇之处前，我们需要先对 GPT-3 有个概括性的认识。GPT-3 是人工智能科研公司 OpenAI 开发的自然语言模型，即generative pre-trained transformer的缩写，翻译过来叫生成型预训练变换器。变换的意思，就是你用人类语言和他对话，他转换成机器听得懂的机器语言做处理并且完成任务，处理完再把任务结果转换成人类语言交给你。偷偷说一句，变形金刚英文就是transformer，这是模型的名字是不是很霸气呢。

除了名字，GPT-3 的业务能力同样“霸气”，能完成超过50项的自然语言处理任务，并且完成水平创下历代模型新高度，那GPT-3到底有多强呢？

一位名叫Liam Porr的美国小哥，来自加州大学伯克利分校计算机科学系，他参考最热的网文风格，用GPT-3生成了几篇文章，没想到竟然打败了一票人类作者，登上了新闻平台技术板块热榜第一！

有趣的是，一大部分人压根没察觉到文章不是人类写的。接下来，帖子在短短几个小时内就迅速传播开来，访问量超过了26,000，竟然登上了YC新闻平台Hacker News热门榜第一名，甚至有读者读后留言称，“好文！和Ethan Hawke在Ted的演讲一样深刻”。

我们再来看看GPT3在问答任务上的表现。

多轮对话也是手到擒来，放到十年前，上面的对话会不会让你以为是个真人？

看到这样的结果，可能会有些疑问，GPT-3怎么知道长颈鹿有两只眼睛？我们也不确定，只能推测，在它的训练数据中，一定有一些网页，讨论了长颈鹿有多少只眼睛。

更有趣的是，GPT-3通过编写代码可以解决很多编程型的问题，你如果用代码作为提示，它就会试着写代码来回答。

可以看到，GPT-3模型的行为会随着不同的提示而发生巨大的变化。所以它是很容易迁移的，你只需要少量的提示，就能改变 GPT-3的在具体的任务上的性能。

这也是GPT-3 的又一大里程碑式的突破——不再需要对特定任务进行微调，具有很强的业务迁移能力。普遍来说，在自然语言领域中，通常采用的做法是：先在大量的语料上预训练语言模型，然后再将预训练好的模型迁移到具体的下游自然语言任务，从而提高模型的应用能力。也就是先完成基础训练，再微调以执行特定任务，包括 GPT-2也需要进行微调。但是 GPT-3 不再需要微调，它只需要一些所需输出类型的样本（称为 " 少量学习 "），就可直接迁移到各种 NLP 任务中，用户只需要输入正确的提示就可以指挥它，因此具有很强的业务迁移能力。

即使是变形金刚也有弱点，GPT-3 的优势非常明显，弱点同样突出。

比如，GPT-3处理加法运算的表现并不是特别好。如果你让它做一位数、两位数的加法，正确率基本能达到百分之百，但如果你让它用5位数加5位数，它的正确率就会迅速下降。这一点很奇怪，因为如果一个小孩已经学会加法，一般不会再出现很大的错误，除非是粗心，但是计算机是不会粗心的。大概是由于其神经网络本身结构的缘故，没有一个神经网络能够基于训练数据而不是硬编码在大量数字上做加法和乘法等基本算术运算，所以复杂的数学运算任务会失败。对于一个程序来说，有些数学操作很简单，编写个递归就行了。但是，某些递归逻辑通常不能很好地映射到神经网络结构上，这就造成GPT-3不擅长做运算。

并且GPT-3在进行简单的推理方面也存在着明显的失误，这一原因可能是：它只是自动检索数据并输出，不是真正思考的结果。

例如：问：我的脚有多少只眼睛？

答：你的脚有两只眼睛。

问：太阳有多少只眼睛？

答：太阳只有一只眼睛。

问：一片草有多少只眼睛？

答：草有一只眼睛

这正好与上文相呼应，GPT-3 能正确回答“长颈鹿有2只眼睛”不是经过推理，而是因为在网页训练数据中包含这一问题，显然网页上没人会讨论“太阳/草有几只眼睛？”，所以当 GPT-3 被提问时，它没法将太阳与眼睛进行推理，得出正确的回答。可以说，GPT-3 只是大数据训练的结果，无法超越数据本身，也无法拥有推理的能力，所以，我们不如说它学会的是“统计层面的复制粘贴能力”。

即使是目前最先进的自然语言模型（GPT-3）也无法完成推理，但是在中国南面，一家名为智视科技的人工智能企业，自主研发的小智AI系统，具备推理能力！

小智的推理能力在工业上也有不小的应用。传统AI（不可推理）在工业中只能依赖机械臂进行简单的流水线操作，富士康的“机器换人”计划就是朝这个方向前进。但是该计划目前进展并不乐观，机器换人在标准化产品的生产中是可行的，比如：口罩、锅碗瓢盆等产品样式与大小可维持十几年不发生变化，但是并不适用于创新程度高的产品，例如智能手机，这偏偏是富士康的主体业务。智能手机行业更新极为迅速，从零件到工艺都快速迭代，但是传统AI生产线欠缺灵活性，没法根据手机的新标准进行快速部署，跟不上智能手机的发展进化速度。而拥有推理能力的小智AI可以成为工厂的“大脑”，通过AI对原料、产出、生产时间、废料排放等数据进行智能调配，将粗放型经营变为智能型经营，降低企业成本。例如：河南一家煤炭焦化企业，利用AI算法来进行焦炭质量预测和配煤比例优化，从而实现再不降低产品质量的前提下，达到解决成本每吨20-70元，一年可以节省数千万元成本。

总之，小智的推理能力的应用范畴覆盖全领域、全行业，推理让AI变得更灵活、更具思考性，从而高效赋能任意行业。

最后一部分是小智AI的技术展示。推理过程分为理解问题和分步骤推理。为了让读者更好的理解，这里以简单数学题为例。

首先是理解问题。就和人类解题一样，第一步是理解题干，利用自然语言技术将题目文字转换成机器语言，从而让系统“读懂”题目。

其次是分步骤推理，即根据题干，组合题目的各个已知条件进行逐一推理，直至解答。本题需要求解“沙发与床的质量之和”，但是题目中并没有明确提示沙发与床的质量分别是多少，这就需要进行推理，系统将分别推理出沙发和床的质量各是多少，再相加。首先是沙发，根据“沙发的质量是椅子的四倍、椅子的质量是小球的一半、小球的体积是5立方米，密度为4kg/立方米”，先计算出小球的质量，再根据小球的质量推理椅子的质量，根据椅子的质量再次推理才能得出沙发的质量，仅是沙发质量的推理过程就需要3个步骤。同理，系统将按照同一方法，推理床的质量，最后将沙发与床的质量相加，得出答案：80kg。

（灰框代表条件，蓝框代表推理过程）

可以看出，整个解题过程非常接近人类的推理方式，并且进行了多达7个步骤的连续推理，系统能根据题目条件进行灵活推理和解答问题。同时，这一推理能力也是AI系统在商业落地中的关键能力。当小智AI拥有推理能力，就能根据工作场景中实际条件的变化，进行灵活的调整，一反传统AI的刻板属性，发挥AI的最大价值！

花粉社群VIP加油站

0

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

在Scaling Transformers用稀疏性就足够了！“有了这样的研究，我们以后或许能在笔记本电脑上托管 GPT-3”

2023-08-06 16:12

GPT-4 API平替?成本降低98％，斯坦福提出FrugalGPT，研究却惹争议

2023-08-06 15:54