OpenAI出手解决GPT-4数学推理：做对一步立刻奖励！直接拿下SOTA-花粉乐享

> 乐学堂 > > OpenAI出手解决GPT-4数学推理：做对一步立刻奖励！直接拿下SOTA

OpenAI出手解决GPT-4数学推理：做对一步立刻奖励！直接拿下SOTA

来源：量子位

2023-07-10 14:09:56

461

管理

明敏西风发自凹非寺

量子位 | 公众号 QbitAI

OpenAI一个简单的动作，让大模型数学能力直接达到SOTA。

而且直接开源论文数据集，包含80万个人类反馈标签！

这就是OpenAI的最新研究。基于GPT-4，他们微调了几个模型，分别采用不同的监督方法。

一种是传统的结果监督，只对最终正确答案进行奖励。

另一种则是过程监督，区别在于奖励增加，对每一个正确的推理步骤进行奖励。

结果这一点改变，让采用过程监督的模型Process Reward Model（PRM），可以解决MATH测试集代表子集中78%的问题，达到SOTA。

OpenAI表示：

我们认为探索过程监督在数学之外领域的表现非常重要。如果这些结果具有普遍性，那意味着过程监督将成为比结果监督更有效的方法。

奖励增多、效果变好

话不多说，先看OpenAI给出的具体例子。

比如这样一道三角函数的题：

OpenAI表示，这道题对于大模型来说还是比较有挑战性的，GPT-4也不太能搞定（只有0.1%的情况生成结果完全没问题）。而使用过程奖励是可以算出正确答案的。

这也是目前大语言模型比较饱受诟病的问题，容易产生逻辑错误，也被称为“幻觉”。

表现最明显的领域就是数学。

即便是先进如GPT-4，这类问题也难以避免。

而降低幻觉的出现，又被视为走向AGI的关键一步。

此前为检测幻觉所使用的是结果监督，基于最终结果提供反馈，仅仅奖励最终正确的答案。

但效果显然还不太行，所以OpenAI想了个新招，把这种奖励增加会怎么样？

于是他们提出了过程监督方法，针对思维链中的每个步骤提供反馈，奖励每个正确的推理步骤。

在第4步中，GPT-4错误地认为该序列每12项循环一次，而事实上是每10项循环一次。

而这种计数错误也迷惑到了奖励模型。

此外，OpenAI共给出了10个问题和解决方案。

可以看出，基于过程监督的奖励模型在一些问题上也会被迷惑住，但是在整体上明显表现得更好。

网友：再也不用做数学证明题了

很快，OpenAI的最新工作在各个平台上都引发了热烈讨论。

有人评价：

如果这个方法在非数学领域也能奏效，我们现在或许正处于游戏规则即将改变的时刻。

还有人说，这项工作如果用在互动、教育方面，会非常令人兴奋，尤其是数学领域。

这不，有人就说，看来以后不用再做数学家庭作业和证明题了（doge）。

值得一提的是，这种step by step的方法，不止一次在提升大模型性能上奏效。

之前，东京大学和谷歌的研究人员发现，只要在对话中加一句“Let’s think step by step”，GPT-3就能回答出以前不会的问题。

比如提问：

16个球中有一半是高尔夫球，这些高尔夫球中有一半是蓝色的，一共有几个蓝色的高尔夫球？

论文地址：https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

数据集：https://github.com/openai/prm800k

参考链接：[1]https://twitter.com/OpenAI/status/1663957407184347136[2]https://twitter.com/DrJimFan/status/1663972818160332800[3]https://twitter.com/_akhaliq/status/1663981726647894027

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

花粉社群VIP加油站

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

使用GPT3模型构建搜索引擎

2023-07-10 14:22

Windows11大更新！Copilot终于来临，全面接入GPT-4｜附更新链接

2023-07-10 14:03

相关推荐

不一样的聊天体验——用chatgpt让你的聊天更有趣

用自己的手机也能查看别人的聊天记录，操作简单，一学就会

“你聊天，我聊天，明年补考教室见……”

和ChatGPT一起了解骨科手术机器人

人工智能聊天机器人：ChatGPT和Bard，谁更厉害？

关于作者

Outlier(蜂界传说)

文章

524

主题

0

关注

0

粉丝

0

点击领取今天的签到奖励!

54个圈友 0个话题

华为手机随手拍，记录生活点滴之美好

51个圈友 0个话题

这里是华为P30pro手机交流圈，欢迎华为P30pro用户进群交流

60个圈友 2个话题

华为花粉体验官，体验官专属的交流群

登录后查看您创建的圈子

现在登陆

登录后查看您创建的圈子

现在登陆

猜你喜欢

标签云

@杭州百翼科技有限公司

杭州互联网违法和不良信息举报平台网络110报警服务

浙ICP备17046585号

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索