花粉乐分享平台宣传视频
> 乐学堂 > > ChatGPT的崛起:从GPT-1到GPT-3,AIGC时代即将到来
ChatGPT的崛起:从GPT-1到GPT-3,AIGC时代即将到来
来源:乐天派許小白
2023-04-10 15:05:45
252
管理

将 GPT-3 与 GPT-4、 人脑进行比较(图片来源:Lex Fridman @youtube)

据说,GPT-4 会在明年发布,它能够通过图灵测试,并且能够先进到和人类没有区别,除此之外,企业引进 GPT-4 的成本也将大规模下降。

ChatGPT 与 InstructGPT

谈到 ChatGPT,就要聊聊它的“前身”InstructGPT。

2022 年初,OpenAI 发布了 InstructGPT,在这项研究中,相比 GPT-3 而言,OpenAI 采用对齐研究(alignment research),训练出更真实、更无害,而且更好地遵循用户意图的语言模型 InstructGPT。 InstructGPT 是一个经过微调的新版本 GPT-3,可以将有害的、不真实的和有偏差的输出最小化。

InstructGPT 的工作原理是什么?

开发人员通过结合监督学习 从人类反馈中获得的强化学习,来提高 GPT-3 的输出质量。在这种学习中,人类对模型的潜在输出进行排序;强化学习算法则对产生类似于高级输出材料的模型进行奖励。 训练数据集以创建提示开始,其中一些提示是基于 GPT-3 用户的输入,比如“给我讲一个关于青蛙的故事”或“用几句话给一个6岁的孩子解释一下登月”。

开发人员将提示分为三个部分,并以不同的方式为每个部分创建响应:

人类作家会对第一组提示做出响应。开发人员微调了一个经过训练的 GPT-3,将它变成 InstructGPT 以生成每个提示的现有响应。下一步是训练一个模型,使其对更好的响应做出更高的奖励。对于第二组提示,经过优化的模型会生成多个响应。人工评分者会对每个回复进行排名。在给出一个提示和两个响应后,一个奖励模型(另一个预先训练的GPT-3)学会了为评分高的响应计算更高的奖励,为评分低的回答计算更低的奖励。开发人员使用第三组提示和强化学习方法近端策略优化(Proximal Policy Optimization, PPO)进一步微调了语言模型。给出提示后,语言模型会生成响应,而奖励模型会给予相应奖励。PPO 使用奖励来更新语言模型。重要在何处?

核心在于——人工智能需要是能够负责任的人工智能。

OpenAI 的语言模型可以助力教育领域、虚拟治疗师、写作辅助工具、角色扮演游戏等。在这些领域,社会偏见、错误信息和毒害信息存在都是比较麻烦的,能够避免这些缺陷的系统才能更具备有用性。

ChatGPT 与 InstructGPT 的训练过程有哪些不同?

总体来说,ChatGPT 和上文的 InstructGPT 一样,是使用 RLHF(从人类反馈中强化学习)训练的。 不同之处在于数据是如何设置用于训练(以及收集)的。(这里解释一下:之前的 InstructGPT 模型,是给一个输入就给一个输出,再跟训练数据对比,对了有奖励不对有惩罚;现在的 ChatGPT 是一个输入,模型给出多个输出,然后人给这个输出结果排序,让模型去给这些结果从“更像人话”到“狗屁不通”排序,让模型学习人类排序的方式,这种策略叫做 supervised learning,本段感谢张子兼博士。)

ChatGPT 存在哪些局限性?

如下:

a) 在训练的强化学习 (RL) 阶段,没有真相和问题标准答案的具体来源,来答复你的问题。

b) 训练模型更加谨慎,可能会拒绝回答(以避免提示的误报)。

c) 监督训练可能会误导/偏向模型倾向于知道理想的答案,而不是模型生成一组随机的响应并且只有人类评论者选择好的/排名靠前的响应

注意:ChatGPT 对措辞敏感,有时模型最终对一个短语没有反应,但对问题/短语稍作调整,它最终会正确回答。训练者更倾向于喜欢更长的答案,因为这些答案可能看起来更全面,导致倾向于更为冗长的回答,以及模型中会过度使用某些短语,如果初始提示或问题含糊不清,则模型不会适当地要求澄清。

来源:https://mp.weixin.qq.com/s?src=11×tamp=1670297402&ver=4209&signature=K2rascq-O48M2JVvk1KwWV746heycx0kFllQnnZT2jYSC*dbdwS5S8X6TErw1XOh3-*wo7kEcUzk24v*fV2Wc5K0FnQnj7jp52fhjNIX8j1E9vZQ9Rf30t5QwNRukyGK&new=1

花粉社群VIP加油站

3
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
可乐(小蜜蜂)
文章
495
主题
0
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
3
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索