ChatGPT的崛起：从GPT-1到GPT-3，AIGC时代即将到来-花粉乐享

> 乐学堂 > > ChatGPT的崛起：从GPT-1到GPT-3，AIGC时代即将到来

ChatGPT的崛起：从GPT-1到GPT-3，AIGC时代即将到来

来源：乐天派許小白

2023-04-10 15:05:45

252

管理

将 GPT-3 与 GPT-4、人脑进行比较（图片来源：Lex Fridman @youtube）

据说，GPT-4 会在明年发布，它能够通过图灵测试，并且能够先进到和人类没有区别，除此之外，企业引进 GPT-4 的成本也将大规模下降。

ChatGPT 与 InstructGPT

谈到 ChatGPT，就要聊聊它的“前身”InstructGPT。

2022 年初，OpenAI 发布了 InstructGPT，在这项研究中，相比 GPT-3 而言，OpenAI 采用对齐研究（alignment research），训练出更真实、更无害，而且更好地遵循用户意图的语言模型 InstructGPT。 InstructGPT 是一个经过微调的新版本 GPT-3，可以将有害的、不真实的和有偏差的输出最小化。

InstructGPT 的工作原理是什么？

开发人员通过结合监督学习从人类反馈中获得的强化学习，来提高 GPT-3 的输出质量。在这种学习中，人类对模型的潜在输出进行排序；强化学习算法则对产生类似于高级输出材料的模型进行奖励。训练数据集以创建提示开始，其中一些提示是基于 GPT-3 用户的输入，比如“给我讲一个关于青蛙的故事”或“用几句话给一个6岁的孩子解释一下登月”。

开发人员将提示分为三个部分，并以不同的方式为每个部分创建响应：

人类作家会对第一组提示做出响应。开发人员微调了一个经过训练的 GPT-3，将它变成 InstructGPT 以生成每个提示的现有响应。下一步是训练一个模型，使其对更好的响应做出更高的奖励。对于第二组提示，经过优化的模型会生成多个响应。人工评分者会对每个回复进行排名。在给出一个提示和两个响应后，一个奖励模型(另一个预先训练的GPT-3)学会了为评分高的响应计算更高的奖励，为评分低的回答计算更低的奖励。开发人员使用第三组提示和强化学习方法近端策略优化(Proximal Policy Optimization, PPO)进一步微调了语言模型。给出提示后，语言模型会生成响应，而奖励模型会给予相应奖励。PPO 使用奖励来更新语言模型。重要在何处？

核心在于——人工智能需要是能够负责任的人工智能。

OpenAI 的语言模型可以助力教育领域、虚拟治疗师、写作辅助工具、角色扮演游戏等。在这些领域，社会偏见、错误信息和毒害信息存在都是比较麻烦的，能够避免这些缺陷的系统才能更具备有用性。

ChatGPT 与 InstructGPT 的训练过程有哪些不同？

总体来说，ChatGPT 和上文的 InstructGPT 一样，是使用 RLHF（从人类反馈中强化学习）训练的。不同之处在于数据是如何设置用于训练（以及收集）的。（这里解释一下：之前的 InstructGPT 模型，是给一个输入就给一个输出，再跟训练数据对比，对了有奖励不对有惩罚；现在的 ChatGPT 是一个输入，模型给出多个输出，然后人给这个输出结果排序，让模型去给这些结果从“更像人话”到“狗屁不通”排序，让模型学习人类排序的方式，这种策略叫做 supervised learning，本段感谢张子兼博士。）

ChatGPT 存在哪些局限性？

如下：

a) 在训练的强化学习 (RL) 阶段，没有真相和问题标准答案的具体来源，来答复你的问题。

b) 训练模型更加谨慎，可能会拒绝回答（以避免提示的误报）。

c) 监督训练可能会误导/偏向模型倾向于知道理想的答案，而不是模型生成一组随机的响应并且只有人类评论者选择好的/排名靠前的响应

注意：ChatGPT 对措辞敏感，有时模型最终对一个短语没有反应，但对问题/短语稍作调整，它最终会正确回答。训练者更倾向于喜欢更长的答案，因为这些答案可能看起来更全面，导致倾向于更为冗长的回答，以及模型中会过度使用某些短语，如果初始提示或问题含糊不清，则模型不会适当地要求澄清。

来源：https://mp.weixin.qq.com/s?src=11×tamp=1670297402&ver=4209&signature=K2rascq-O48M2JVvk1KwWV746heycx0kFllQnnZT2jYSC*dbdwS5S8X6TErw1XOh3-*wo7kEcUzk24v*fV2Wc5K0FnQnj7jp52fhjNIX8j1E9vZQ9Rf30t5QwNRukyGK&new=1

花粉社群VIP加油站

3

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

轻量版ChatGPT训练方法开源！3天围绕LLaMA打造，号称训练快15倍

2023-04-10 15:06

GPT-3 实测者报告 | 限制明显，保持理性（附 API 调用方法）

2023-04-10 15:04