对话出门问问李志飞：GPT-3 是「暴力美学」的一次胜利-花粉乐享

> 乐学堂 > > 对话出门问问李志飞：GPT-3 是「暴力美学」的一次胜利

对话出门问问李志飞：GPT-3 是「暴力美学」的一次胜利

来源：极客公园

2023-04-17 17:39:54

236

管理

GPT-1、GPT-2、GPT-3 的对比数据

极客公园：除了模型和数据暴力外，还有别的暴力吗？

李志飞：除了数据和模型暴力外，GPT-3 覆盖的任务多达 50 多个，论文的作者多达 31 个，这看起来也很暴力。这跟传统的学术研究有点不太一样，传统的学术研究是学校里一个教授带几个学生单兵作战，但 OpenAI 是兵团作战。传统研究涉及到多人协作时是比较松散的，但是 GPT-3 是几十人的有组织的系统性合作，有人出主意、有人搞数据、有人写代码、有人做实验、有人做评测。其实最近几年几个影响比较大的人工智能研究都是类似的模式，比如 Google 的神经机器翻译、BERT、Tensorflow 都是这种有组织的团队合作。

在论文里，还有一个很好玩的细节，在讲到防止测试数据存在于训练数据里而污染训练过程时，作者承认有一个程序 bug，但是由于重新训练模型实在太贵又经费不足就只能不管了，这在特别强调严谨性的学术界是匪夷所思的。

极客公园：暴力有技术含量吗？

李志飞：非常有。GPT 三代，数据量从几十亿词、到几百亿词、再到 5000 亿词，模型参数从 1.25 亿到 15 亿、再到 1750 亿，这本身就是巨大的工程挑战，需要那种既懂基础算法、又有超强的工程能力的科学家和工程师一起通力协作才有可能做成。比如说如果一个参数占 4 个字节，那 1750 亿参数的模型就需要 750G 内存，这远超单一 GPU 的最大显存，显然需要分布式的 CPU/GPU 异构训练系统。

这让我回想起在美国约翰霍普金斯读博士和谷歌研究院工作的两段经历。在学校读博士做机器翻译实验时，由于学校计算设施比较弱、自己单打独斗，经常需要半夜爬起来重启机器，或者拷贝数据到没有死的机器上重启训练。在谷歌做机器翻译时，由于良好的分布式计算框架以及组里几十位一流的工程师把算法框架做的非常通用可靠，做实验时只要在下午下班前提交训练任务，第二天早上邮箱里就会自动收到新模型的各种测试成绩，这实在是太轻松了，而且处理的数据量和语言种类都是学校的好几个数量级。这两段一线经历让我切身感受到了暴力规模化的难度和价值。

极客公园：所以一从工程角度看，「暴力」本身是一种美。

李志飞：暴力是不是美？这件事可以由艺术大师来阐释。但现实来看, 也许在工业界，人工智能的终极算法就是「暴力美学」。当把数据量、模型规模做到足够大时, 语言模型将会越来越通用，目前看来是可以通往更加通用 AI 的。

极客公园：「暴力美学」有尽头吗？下一步是什么？

李志飞：我相信还没有到尽头。

互联网的数据每个月都在不断增长，计算力也在不断增强；如果把人类大脑比做模型的终极目标，GPT-3 的参数规模跟人脑比还差好几个数量级；GPT-3 随着数据和参数规模增大而展现出的学习能力曲线目前也还没有要停止的意思。虽然 AI 的学习能力还没有达到大家公认的「摩尔定律」，但是过去几年确实看到模型每几个月就翻倍。可以预测到的是，GPT-4 参数又会增大至少 10 倍，而且处理的数据将会更加多模态（文字、图像、视觉、声音）。

极客公园：为什么 OpenAI 这么信仰「暴力美学」？

李志飞：OpenAI 的使命是创造更加通用的人工智能（AGI），并始终朝着这一使命努力奔赴着。关于如何实现 AGI，有两种流行的信念。一种认为现有算法原理足矣，问题只是如何规模化；另一种认为，现有的深度学习技术还不够，还需全新的算法范式。大多数研究人员都处于这两个极端之间，但 OpenAI 一直以来几乎都站在「规模化」这一极端，他们怀着对「暴力美学」的信仰，相信只要模型足够大，就能实现 AGI。过去，他们的大多数突破也都是建立在对大量计算和数据资源的投入上。

极客公园：那您信仰「暴力美学」吗？

李志飞：我以前特别反对暴力，觉得没有什么深度，研究也没有美感，不能让人内心愉悦。但是，最近的很多现实进展让我开始相信或者至少不再一味排斥「暴力美学」。我认识到，很多网络系统，它们的底层节点和节点之间交互规则非常简单，但是只要网络规模足够大、系统内节点间交互足够密集频繁，系统一层一层往上构建，假以时日就会展现出令人惊讶的「集体智能」行为。计算机、互联网、人类社会作为一个系统都是这种现象，谁说人脑就一定不是上帝的「暴力美学」呢？毕竟人脑的参数比 GPT-3 还大几个数量级呢。所以，很惭愧地说，对于「暴力美学」，我是因为看见而相信，而 OpenAI 是因为相信而看见。

坚守语言主权，做中文的 GPT-n

——「开放拥抱、先模仿再创新、与全世界共同迭代」

极客公园：GPT-3 的现实意义是什么? 将对 AI 技术带来怎样的改变？

李志飞：在我看来，GPT-3 的现实影响力可能会比 AlphaGo 更大。AlphaGo 更多是对人类心智的冲击，但他的应用层面是比较窄的，甚至没有直接可以工业应用的地方。而 GPT-3 可以应用的场景太多了，他基本是一个增强版的搜索引擎或 AI 助理, 可以回答问题、编程、写新闻稿、数学推理、做财务报表……而且一个模型就可以做所有事。这是具有巨大商业价值的一个事情，听说 OpenAI 就在考虑用户为使用语言模型而付费的这种闻所未闻的商业模式。

我相信，GPT-3 有潜力形成类似 TensorFlow/Android 上下游的生态系统，事实上，已经有很多开发者基于 GPT-3 的 API 开发了很多有意思的应用。

极客公园：GPT-3 完美吗？智能吗？

李志飞：当然不完美，现在很多拥抱 GPT-3 的早期用户，由于对技术和新鲜事物的热爱，他们的接受度比较大，所以存在一定的 hype。但是，一个新的技术要变成一个普适性的大众产品还有特别多的工程和产品细节需要打磨。

关于智能，一种观点认为，GPT-3 不具备人类的抽象和推理能力，它的表现只是对大数据的聪明记忆，无法超越数据本身；另一种观点认为，他拥有抽象理解和推理的能力。我认为目前的 GPT-3 介于这两种极端之间。

为什么呢？网上有一个例子很好的佐证这个观点。比如说 GPT-3 可以做加减法，如果是两位数，他获得 100 分，那么他是否完全「学会了」加法吗？答案是没有，因为五位数加减时只有 10% 的准确率。另外一方面，如果只是纯粹的记忆，就算记住这 10% 正确的五位数加减法，现有规模的数据里需要至少有 1% 的语言序列是关于五位数加减法的，显然互联网数据上不可能有这么高频的关于五位数加减法的语言序列，所以他不是纯粹的记忆。当然，我们确实也没有理解他到底抽象理解到了什么，这是未来很重要的研究主题。

极客公园：面对 GPT-3，我们该持什么样的态度？

李志飞：面对暴力算法，传统的学术研究很容易轻视怠慢，觉得只是数据和模型的规模更大而已。但我觉得不要因为他现有理论不够精深，或目前看起来仍有很多差错, 就急着去否定他。我认为，当你没有更加通用并且有效的方法, 我们应该从实用主义的态度上去拥抱、学习、改进它。至少目前看来，GPT-3 是有通往更加通用的人工智能的潜力。

极客公园：GPT-3 这么暴力，我们怎样去拥抱？感觉只有超级公司才能玩。

李志飞：不全是。很多模型或算法的难点在于没有实现前，我们不知道行不行。但现在 OpenAI 证明 GPT-3 是可行的。基于这个，还有很多工作可以展开。比如说，作为工程师和创业企业，可以开始用 GPT-3 的 API 去进一步验证他的强项和弱项。对于学术界，可以进行小规模可控制的实验去研究或拓展 GPT-3，也可以去做实验解释暴力为什么这么美，还可以多美？

当然，不可否认的是，我们首先得复制一个类似于 GPT-3 的系统。因为中文数据量级会比英文小很多，整个工程难度自然也会小不少，我们可以从复制一个中文 GPT-3 开始。有了这么一个基础系统后，我们才可以跟世界同步迭代、改进，并共同创新。

极客公园：出门问问会做中文的 GPT-3 吗?

李志飞：有可能，我们一直对更加通用的语言智能很有兴趣。

极客公园：GPT-3 诞生于美国，在目前的中美格局下, 中国该如何应对？

李志飞：据 OpenAI 的统计，让人类对 GPT-3 模型生成的约 500 词文章来判断这个文章到底是人类还是 GPT-3 撰写的，人类判断准确率仅仅只有 52%，即随机猜硬币正反的概率。基于这一点，我们可以预见，也许未来三五年，互联网上的大部分内容是类 GPT 模型生成或修改过的。某种程度上，因为 GPT 模型告诉你什么是更自然的语言、什么是更正确的答案，人类的语言习惯和知识体系都会被 GPT 模型大幅度影响。所以，人工智能的发展代表着语言主权的演进，且 GPT-3 将有潜力成为一种生态系统，我们必须加以重视，去创造和迭代中文的 GPT-3。

极客公园：面对 GPT-3 这个超级学霸，我们人类需要担心吗？

李志飞：需要，如果人类再不努力的话，也许明年，GPT 就比 99% 人类在语言方面更厉害了。当然，GPT-3 也只是机器迈向「智能」之峰的一级比较大的台阶，路漫漫其修远兮，AI 上下而求索。

本文作者：在野

责任编辑：宋德胜

图片来源：OpenAI、出门问问技术团队

花粉社群VIP加油站

3

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

“视觉版GPT3”上线！Meta发布史上首个能「分割一...

2023-04-17 17:41

200字带你看完一本书，GPT-3已经会给长篇小说写摘要了

2023-04-17 17:38