【重磅】OpenAI最新解密，ChatGPT的本质是无损压缩器-花粉乐享

> 乐学堂 > > 【重磅】OpenAI最新解密，ChatGPT的本质是无损压缩器

【重磅】OpenAI最新解密，ChatGPT的本质是无损压缩器

来源：36氪

2023-04-11 09:58:13

336

管理

费斌杰熵简科技CEO

作者 | 费斌杰熵简科技CEO

自从去年12月ChatGPT问世以来，AI的发展正式进入快车道，整个行业开始“按日迭代”。从1957年以来，人类在经历了数轮AI浪潮后，这次通用人工智能（AGI）是真的要来了。

我们团队在2月发表了对ChatGPT技术原理的深度剖析，得到了业内专家朋友们的广泛认可。但随着研究的深入，越来越多的问题浮出水面：

ChatGPT强大的一个重要原因是大语言模型的涌现能力（Emergent Abilities），那么涌现能力究竟为何产生呢？

GPT-5会有哪些意想不到的性能表现？

AGI会走向何方，对社会经济活动又会产生怎样的影响？

在这篇文章中，我们针对以上问题进行深入探讨，并且给出尽可能详实的分析过程。本文浓缩了我们团队的研究成果，共分为以下四个部分：

大语言模型的本质：性能强大的无损压缩器

视觉信息是知识的富矿：从文本走向多模态

大数据时代的数据荒：运用合成数据破局

AGI对人类社会经济活动影响：展望与思考

写在前面：熵简科技是一家专注于帮助资管机构实现投研数字化的科技公司，主要客户包括中金、中信、广发、建投、国信、招商、华夏、嘉实、银华、博时、汇添富、兴全、易方达等证券与基金公司。我是熵简科技的创始人费斌杰，但在写下这篇文章的时候，我更多是纯粹作为一个在新技术浪潮下，既兴奋又紧张的见证者和参与者，尽可能客观地评述分析这项新技术对我们行业会带来怎样的影响与冲击。以下分享是我们熵简团队的研究成果，LLM技术发展日新月异，当前时点的分析难免错漏，欢迎各位指正。

大语言模型的本质：性能强大的无损压缩器

在最近OpenAI的学术分享会中，Jack Rae提出了一个重要的论断：大语言模型的本质，其实是一个性能强大的数据无损压缩器。

LLM = Compression

这个论断并不是很直观，但却揭开了“通用人工智能”非常重要的一角，值得高度重视。为了让大家理解这个观点，我们从“学习”这件事本身来探讨。

上个世纪以来，人类普遍认为“学习”是一种人类特有的才能，机器无法真正地掌握“学习能力”。随着深度神经网络技术的发展，人们通过构建“人工神经元”来模拟大脑中的“生物神经元”，从而使得机器开始具备一定的学习能力。

图：生物神经元（左）与人工神经元（右）对比

而现在，OpenAI得出了关于“学习”的最新结论： “学习”这件事本身，可以理解为对有效信息进行无损压缩的过程。

为了更好地理解这个观点，让我们来做一个思想实验。假设我们需要搭建一个模型，用来处理英译中的翻译任务。

最简单粗暴的方式，就是列举出每个英文单词对应的中文，即rule-based mapping。假设我们枚举完了所有英文单词的中文对照表，写出了一本1000页的词典。

但通过这本词典，我们真的能够有效完成所有英译中的翻译任务吗？答案是否定的。因为基于规则的映射系统是非常脆弱的，只要在翻译过程中遇到一个之前没有遇到过的新单词，系统就崩溃了。

因此，这个模型的翻译性能是很弱的，可以理解为“该模型没有真正学会翻译”。

重点来了，现在请你把这本1000页的词典，“无损压缩”成一本200页的手册。字数减少了，但是信息量不能少，因此你不能简单地从1000页中抽取200页构成一本“小词典”，而需要通过对数据进行高维编码，从而实现无损压缩。

经过压缩后的这本200页的手册中，不再是简单的单词映射，而是包含了主谓宾、定状补、虚拟语气、时态、单复数在内的英语语法。相比于一本“词典”来说，它更像是一本“教材”。

图：大语言模型对互联网存量数据消耗的预测

这对于“大力出奇迹”的大语言模型来说，并不是个好消息。如果训练集体量不够，模型便无法继续scaling up，从而不断提升性能天花板。

这个时候， “合成数据”成为了重要的破局方法。顾名思义，“合成数据”（Synthetic Data）指的是通过算法生成的训练集，而非从现实世界中采集到的样本。

根据Gartner的预测，2026年模型训练数据中的50%将由合成数据构成；2030年合成数据的质量将全面超过人类标注的真实数据。

图：GPT-4技术报告中对合成数据应用的探讨

更进一步来看，如果合成数据的质量能够全面超越人类标注的质量，那么未来AGI便可以自我迭代，进化的速度会大幅提升。到这时，人类可能就成为AGI的启动脚本（Boot Loader）了。

这不禁让我联想到马斯克曾在2014年做出的预言。他认为从“物种进化的尺度”来看，以人类为代表的“碳基生命”可能只是以“AI”为代表的“硅基生命”的启动脚本。

这个预言令人毛骨悚然。放在14年那会儿，绝大部分人会认为这是危言耸听。但是当下我们再回头审视这个判断，不难发现这与“合成数据”的发展目标不谋而合。

合成数据领域的突破，可能成为AGI跨过奇点的重要里程碑，让我们拭目以待。

图：人工智能与人类智能的发展曲线

以上分析了相比于人类而言，AGI的生产力优势。但是人类在以下几个重点方面依然具备着不可替代的价值：

首先，虽然AGI在知识的广度上会远超人类，但是在具体领域的知识深度上，人类目前依然占据优势。

以金融投资为例，一位资深的投资经理可以根据不完整的市场信息做出模糊推断，从而获得超额收益；以科学研究为例，一位优秀的科学家可以从看似无关紧要的实验误差中推断出全新的理论体系。这些都是当前AGI难以企及的。

其次，社会经济活动的运转，高度依赖于人与人之间的“信任”，这种信任是AGI难以取代的。比如当你去医院看病的时候，即使AGI能够根据你的症状描述做出相当准确的诊断，你依然大概率会拿着诊断结果去咨询边上的人类医生，寻求一个值得信任的诊疗建议。类似的“信任机制”构成了医疗、教育、金融等领域中经济活动的重要基石。

随着AGI的发展，许多经济活动的游戏规则会悄然发生改变，而这个规则改变的契机，则会以AGI在该领域超过人类中的最强者作为分界线，正如AlphaGo的诞生彻底改变了围棋界的规则一样。

结语

这是最好的时代，也是最坏的时代。悲观者可能永远正确，但确实毫无意义。

纵观历史，人类科技史的发展并不是连续的，而是跳跃的。或许我们正在经历的正是一次人类科技水平的跳跃，无论如何，能够亲眼见证并参与其中，我们都是幸运的。

最后，分享一句我特别喜欢的话，这是OpenAI的CEO Sam Altman在30岁生日时给自己的人生建议：

The days are long but the decades are short.

参考文献

[1] Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." arXiv preprint arXiv:2201.02177 (2022).

[2] Bubeck, Sébastien, et al. "Sparks of artificial general intelligence: Early experiments with gpt-4." arXiv preprint arXiv:2303.12712 (2023).

[3] Eloundou, Tyna, et al. "Gpts are gpts: An early look at the labor market impact potential of large language models." arXiv preprint arXiv:2303.10130 (2023).

[4] Wu, Shijie, et al. "BloombergGPT: A Large Language Model for Finance." arXiv preprint arXiv:2303.17564 (2023).

[5] Liang, Percy, et al. "Holistic evaluation of language models." arXiv preprint arXiv:2211.09110 (2022).

[6] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.

[7] Kaplan, Jared, et al. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).

[8] Zhou, Yongchao, et al. "Large language models are human-level prompt engineers." arXiv preprint arXiv:2211.01910 (2022).

[9] Wei, Jason, et al. "Emergent abilities of large language models." arXiv preprint arXiv:2206.07682 (2022).

[10] Zellers, Rowan, et al. "HellaSwag: Can a machine really finish your sentence?." arXiv preprint arXiv:1905.07830 (2019).

[11] Barocas, Solon, Moritz Hardt, and Arvind Narayanan. "Fairness in machine learning." Nips tutorial 1 (2017): 2017.

[12] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in Neural Information Processing Systems 35 (2022): 27730-27744.

[13] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

本文来自微信公众号“熵简科技Value Simplex”（ID:Shangjian-Tech），作者：熵简CEO|费斌杰，36氪经授权发布。

花粉社群VIP加油站

0

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

ChatGPT，变革与风险

2023-04-11 10:05

涉嫌数据泄露遭封禁，ChatGPT个人信息保护之困

2023-04-11 09:57