有人预测GPT-4长这样：比GPT-3略大、纯文本、更注重最优计算与对齐-花粉乐享

> 乐学堂 > > 有人预测GPT-4长这样：比GPT-3略大、纯文本、更注重最优计算与对齐

有人预测GPT-4长这样：比GPT-3略大、纯文本、更注重最优计算与对齐

来源：AI科技评论

2023-04-23 19:18:21

236

管理

论文地址：https://arxiv.org/pdf/2001.08361.pdf

MT-NLG虽然规模很大，但在性能方面并不是最好的。事实上，它在任何单一类别基准上都不是最好的存在。像Gopher (280B)或Chinchilla (70B)这种更小的模型——哪怕仅仅是其一小部分——在任务上的表现都比MT-NLG好得多。

第二个意义是，公司开始拒绝“越大越好”的教条。虽然增加参数很简单，但是拥有更多参数只是众多可以提高性能的因素之一，而附带损害（如碳足迹、计算成本或进入死路）反而使其成为最糟糕的因素之一。如果企业能够从一个较小的模型中获得类似或更好的结果时，在构建一个庞大的模型之前就会三思而后行。

Altman说，他们不再专注于制造非常大的模型，而是致力于让较小的模型发挥最大的作用。OpenAI的研究人员是缩放假设（scaling hypothesis）早期的倡导人，但现在他们可能已经意识到其他还没走过的路可以改进模型。

相比将GPT-4做大，Alberto更倾向于认为，OpenAI会将把重点转移到其他方面——比如数据、算法、参数化或对齐——这些因素可以更显著地改进模型。

2 预测2：GPT-4试图寻找“最优”

当涉及到优化时，语言模型会遇到一个关键的问题。训练如此昂贵，以至于企业不得不在准确性和成本之间做出权衡。而这种抉择常常会导致模型明显未优化。

GPT-3只被训练了一次，仍有一些错误，这些错误在某些情况下可能会导致重新训练。由于成本太高、负担不起，OpenAI决定不进行优化，而这使得研究人员无法找到模型的最佳超参数集（例如学习速率、批尺寸、序列长度等）。

训练成本很高导致的另一个后果是模型行为的分析受到限制。当Kaplan的团队总结出模型大小是提高性能最相关的变量时，他们没有考虑到训练令牌的数量——也就是输入模型的数据量。这样做将需要大量的计算资源。

科技公司遵循Kaplan的结论，因为这已是他们所知最好的想法。讽刺的是，正是受到经济限制的影响，谷歌、微软、Facebook和其他公司在越来越大的模型上“浪费”了数百万美元，并且在这个过程中产生了大量的污染。

现在，以DeepMind和OpenAI为首的公司正在探索其他方法。他们试图找到最优模型，而不仅仅是更大的模型。

最佳参数化

上个月，微软和OpenAI证明，如果使用最优超参数训练模型，GPT-3可以得到进一步的改进。他们发现，6.7B版GPT-3的性能提高了很多，可以与最初的13B版GPT-3媲美。超参数调优（对于较大的模型来说不可行）赋予的性能提升相当于参数数量增加了一倍。

他们发现了一种新的参数化(μP)，在这种参数化中，小型模型的最佳超参数也同样适用于同类大型模型。μP使他们能够优化任意大小的模型，而且只需花费很小一部分的培训成本。然后这些超参数可以几乎不花钱地转移到更大的模型中。

最优计算模型

几周前，DeepMind重新审视了Kaplan的发现，并意识到训练令牌的数量与模型大小一样影响性能，而这与人们的看法相反。他们的结论是，随着更多的计算预算可用，应该将其平均分配给可缩放参数和数据。他们通过训练Chinchilla来证明自己的假设，Chinchilla是一个70B模型（是曾经的SOTA，比Gopher小4倍），它使用的数据是GPT-3 (1.4T令牌-来自典型的300B）以来所有大型语言模型的4倍。

结果是明确的。在许多语言基准测试中，Chinchilla“一致且显著地”优于Gopher、GPT-3、MT-NLG和所有其他语言模型，而目前的模型有过大的问题，且训练不足。

考虑到GPT-4将略大于GPT-3，根据DeepMind的发现，GPT-4需要达到计算优化的训练令牌数量将约为5万亿，比当前的数据集高出一个数量级。他们需要训练模型以达到最小训练损失的失败次数，将比他们使用GPT-3（使用Gopher的计算预算作为代替）时多10 - 20倍。

Altman在问答中说GPT-4将比GPT-3使用更多的计算时，可能就是在指这一点。

OpenAI肯定会对GPT-4进行优化相关的调查——尽管具体到什么程度还无法预测，因为他们的预算是未知的。可以肯定的是，OpenAI将专注于优化除模型大小之外的其他变量。找到超参数的最佳集合，最优计算模型大小和参数的数量可以在所有基准测试中带来难以置信的改进。如果将这些方法合并到一个模型中，那这个模型将会达到一个所有预测都难以想象的高度。

Altman还说，如果不把模型做大，人们就不会相信模型能有多好。他可能是指扩大模型尺寸的工作目前已经结束。

3 预测3：GPT-4将是一个纯文本模型

深度学习的未来是多模态模型。人类的大脑有多种感觉，这是因为我们生活在一个多模态的世界。每次只以一种模式感知世界，极大地限制了人工智能处理或理解世界的能力。

然而，良好的多模态模型比良好的仅用语言或仅用视觉的模型要难得多。将视觉信息和文本信息组合成单一的表示形式是一项艰巨的任务。我们对大脑是如何做到这一点的了解非常有限（并不是说深度学习社区考虑了认知科学对大脑结构和功能的见解），所以我们不知道如何在神经网络中实施。

Altman在问答中说GPT-4不会是多模态的（像DALL·E或LaMDA那样），而是一个纯文本模型。因此，Alberto的猜测是，在跳到下一代多模态人工智能之前，他们试图通过对模型和数据集大小等因素进行调整来达到语言模型的极限。

4 预测4：GPT-4将是一个密集模型

稀疏模型利用条件计算，使用模型的不同部分处理不同类型的输入。稀疏模型最近取得了巨大的成功，其可以很容易地扩展到超过1T参数标记，而不会产生高额的计算成本，能够在模型大小和计算预算之间创建一个看似正交的关系。然而，MoE方法的好处在非常大的模型上就没那么多了。

考虑到OpenAI关注密集语言模型的历史，Alberto认为，GPT-4大概率也将是一个密集模型。又因为Altman说GPT-4不会比GPT-3大很多，我们可以得出结论，稀疏性不是OpenAI的选择——至少目前是这样。

鉴于人工智能的灵感来源，即人类大脑，严重依赖于稀疏处理。与多模态一样，稀疏性很可能会主导未来几代的神经网络。

5 预测5：GPT-4会比GPT-3更对齐

OpenAI在解决AI对齐问题上投入了大量的精力：如何让语言模型遵循我们的意图并坚持我们的价值观——不管这到底意味着什么。这不仅是一个数学难题（例如，我们如何让人工智能准确理解我们想要的东西?），而且也是一个哲学难题（比如没有一种通用的方法可以让人工智能与人类保持一致，因为人类价值观在不同群体之间的差异是巨大的，而且常常互相冲突）。

他们使用InstructGPT进行了第一次尝试，这是一种通过人类的反馈来学习遵守指令的新GPT-3(不管这些指令是出于好意还是恶意，都没有被纳入模型中)。

InstructGPT的主要突破在于，不管其在语言基准上的结果如何，其都被人类评审认为是一个更好的模型（这些评审是一个由OpenAI员工和英语人士构成的同质的群体，所以我们应该对得出的结论保持谨慎的态度）。这显著表明，我们有必要克服把基准作为评估人工智能能力的唯一指标。人类如何感知这些模型可能同样重要，如果不是更重要的话。

考虑到Altman和OpenAI要遵守作为一个有益AGI的承诺，我相信GPT-4将实现并构建他们从InstructGPT中获得的发现。

我认为他们将改进对齐模式的方式，因为目前为这个模型制作标签的仅限于OpenAI员工和英语人士。而真正的对齐应该包括各种性别、种族、国籍、宗教等方面群体。这是一个巨大的挑战，朝着这个目标迈进的任何一步都将受到大众的欢迎。

6 总结

模型大小：GPT-4将比GPT-3大，但与目前最大的模型（MT-NLG 530B和PaLM 540B）相比不是很大。模型规模不会是一个显著的特征。

最优性：GPT-4将比GPT-3使用更多的计算。GPT-4 将实现对参数化（最优超参数）和比例法则（训练令牌的数量与模型大小同样重要）的新优化见解。

多模态：GPT-4将是一个纯文本模型，而不是多模态模型。OpenAI希望在完全跳到像DALL·E这样的多模态模型之前先充分利用好语言模型。

稀疏性：按照GPT-2和GPT-3的趋势，GPT-4将是一个密集模型（所有参数将用于处理任何给定的输入）。在未来，稀缺性将变得更加重要。

对齐：GPT-4将比GPT-3更对齐，其将从InstructGPT进行学习，而InstructGPT是根据人类的反馈进行训练的。不过，人工智能的对齐还有很长的路要走，我们应该仔细评估所做出的工作，而不应该对此进行炒作。

你怎么看？

参考链接：

https://towardsdatascience.com/gpt-4-is-coming-soon-heres-what-we-know-about-it-64db058cfd45

https://towardsdatascience.com/how-microsoft-openai-are-squeezing-the-best-out-of-gpt-3-ad0990a66cbe

https://www.metaculus.com/questions/7401/when-will-gpt-4-be-announced/

花粉社群VIP加油站

0

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

GPT-3：是富人的游戏，还是未来的电力？

2023-04-23 19:19

OpenAI的DALL-E 2模型或连接到GPT-3，进一步提升对世界关系的深层理解

2023-04-23 18:09