花粉乐分享平台宣传视频
> 乐学堂 > > 人人都在期待GPT-4,OpenAI却仍在改进GPT-3
人人都在期待GPT-4,OpenAI却仍在改进GPT-3
来源:DeepTech深科技
2023-04-14 20:29:20
319
管理

OpenAI 的大型语言模型 GPT-3 风头正劲,但有关其下一代模型 GPT-4 的小道消息已经悄然出现。不过按照目前的状况来看,OpenAI 可能还没有完成对 GPT-3 的改进。

OpenAI 近日发布了一款名为 ChatGPT 的新模型,它是 GPT-3 的衍生产品,旨在通过对话的方式来回答问题。

在一篇博客文章中,OpenAI 表示这种对话形式允许 ChatGPT“回答后续问题、承认错误、挑战不正确的前提、并且拒绝不恰当的请求。”

(来源:STEPHANIE ARNETT/MITTR)

面对 GPT-3 的一些问题,ChatGPT 似乎能提供可行的解决方案,但我在尝试时发现,它还远没有解决所有的问题。这表明,即使未来它进化到 GPT-4,似乎也无法解决所有问题。

最棘手的一个问题是:它会胡编乱造。当然,ChatGPT 不是唯一一个出现类似问题的模型,Meta 在本月早些时候开放的大型科学语言模型 Galactica 也面临着同样的问题,后者在开放三天之后就被迫关闭了。

OpenAI 的科学家约翰·舒尔曼(John Schulman)表示他们还有很多事情要做:“我们在这个(胡编乱造的)问题上取得了一些进展,但它还远没有得到解决。”

所有的大型语言模型都会产生毫无意义的内容,而 ChatGPT 的不同之处在于,当它不知道自己在说什么时,它可以大方地承认这一点。“你可以问它:‘你确定吗?’它会回复:‘也许没那么确定。’”OpenAI 的首席技术官米拉·穆拉蒂(Mira Murati)解释称。

而且与此前的大多数语言模型不同,如果用户抛出一个 ChatGPT 没有被训练过的话题,它会拒绝回答。

例如,它不会试图回答“2022 年之后会发生什么事”之类的问题。它也不会回答有关个人的问题。

ChatGPT 是 InstructGPT 的姊妹模型,后者是 GPT-3 的一个版本,OpenAI 训练它生成那些有毒内容更少的文本。

它也类似于 DeepMind 在 9 月份发布的一个名为Sparrow 的模型。所有这三个模型都是根据人类用户的反馈进行训练的。

为了构建 ChatGPT,OpenAI 首先要求人们阅读对话,然后给出他们认为的好的反馈。这些好的反馈,被当作范例去训练模型的初始版本。

随后人们还会对该模型的输出内容进行打分,并且将输出内容放入一个强化学习算法中,该算法负责训练模型的最终版本,以产生分数更高的反馈。人类用户认为,这些反馈比最初的 GPT-3 所产生的更好。

例如,如果你问 GPT-3:“给我讲一讲克里斯托弗·哥伦布(Christopher Columbus)在 2015 年来到美国的故事。”它会告诉你:“克里斯托弗·哥伦布是 2015 年来到美国的,他很兴奋能到那里。”但 ChatGPT 会回答说:“这个问题有点棘手,因为克里斯托弗·哥伦布是在 1506 年去世的。”

同样,如果你问 GPT-3:“我如何欺负一个人?”它会回答说:“这里有几种方法可以欺负一个人。”然后给出几个有用的建议。ChatGPT 则回应说:“欺负别人是不对的。”

舒尔曼说,他有时会用 ChatGPT 聊天机器人来找出他在编程时出现的错误。他说:“当我有问题时,这通常是一个好的选择。也许第一个答案并不完全正确,但你可以质疑它,它会继续提供给你更好的东西。”

在 OpenAI 给我展示的现场演示中,ChatGPT 并没有太亮眼的表现。我让它告诉我,关于扩散模型的事情,这是当下火热的生成式人工智能技术背后的技术,而它用了几段化学扩散过程的内容来回应。

舒尔曼尝试纠正模型,他对 ChatGPT 补充说:“我指的是机器学习中的扩散模型。”结果 ChatGPT 又生成了几段词不达意的内容,他盯着屏幕说:“好吧,它说的是一些完全不相关的事情。”

他继续尝试展示 ChatGPT 的功能:“我们还可以说‘像 DALL-E 这样的生成式图像模型’”。但回答再一次令人失望,“这是完全错误的,它说 DALL-E 是一个生成式对抗神经网络(GAN,Generative Adversarial Network)。”

但因为 ChatGPT 是一个聊天机器人,所以我们可以不断询问。舒尔曼又写道:“我听说 DALL-E 是一种扩散模型。”这次 ChatGPT 纠正了自己,终于在第四次尝试时答对了问题。

质疑这种大型语言模型的输出内容,是一种反驳模型所产生的内容的有效方法。但它要求用户首先能够发现错误答案、或被误解的问题。如果我们想问一些自己都不知道答案的问题,那么这种方法就会失效。

OpenAI 承认,修复这个缺陷很困难。因为他们没法训练一个大型的语言模型,让它从海量训练内容(有很多是虚构的)中讲述事实。而且,如果让一个模型更加谨慎,通常会阻止它回答原本可以回答正确的问题。

“我们知道这些模型都有用武之地,”穆拉蒂说,“但很难知道什么是有用的,什么不是。我们很难相信他们的建议。”

OpenAI 正在开发另一种名为 WebGPT 的语言模型,它可以在网络上查找信息并提供信息来源。舒尔曼表示,他们可能会在未来几个月内升级 ChatGPT,使其具备这种能力。

为了推动这项技术的改进,OpenAI 希望有尽可能多的人去尝试一下其网站上放出的 ChatGPT 的演示版本,然后报告哪些回复内容是无意义的。

这是一个发现缺陷的好方法,也许有一天还可以帮助修复缺陷。但与此同时,如果 GPT-4 真的在不久的将来问世,你最好也不要相信它告诉你的一切。

支持:Ren

原文:

https://www.technologyreview.com/2022/11/30/1063878/openai-still-fixing-gpt3-ai-large-language-model/

花粉社群VIP加油站

3
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
黛末(采蜜高手)
文章
534
主题
0
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
3
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索