花粉乐分享平台宣传视频
> 乐学堂 > > OpenAI出手解决GPT-4数学推理:做对一步立刻奖励!直接拿下SOTA
OpenAI出手解决GPT-4数学推理:做对一步立刻奖励!直接拿下SOTA
来源:量子位
2023-07-10 14:09:56
461
管理

明敏 西风 发自 凹非寺

量子位 | 公众号 QbitAI

OpenAI一个简单的动作,让大模型数学能力直接达到SOTA。

而且直接开源论文数据集,包含80万个人类反馈标签!

这就是OpenAI的最新研究。基于GPT-4,他们微调了几个模型,分别采用不同的监督方法。

一种是传统的结果监督,只对最终正确答案进行奖励。

另一种则是过程监督,区别在于奖励增加,对每一个正确的推理步骤进行奖励。

结果这一点改变,让采用过程监督的模型Process Reward Model(PRM),可以解决MATH测试集代表子集中78%的问题,达到SOTA。

OpenAI表示:

我们认为探索过程监督在数学之外领域的表现非常重要。如果这些结果具有普遍性,那意味着过程监督将成为比结果监督更有效的方法。

奖励增多、效果变好

话不多说,先看OpenAI给出的具体例子。

比如这样一道三角函数的题:

OpenAI表示,这道题对于大模型来说还是比较有挑战性的,GPT-4也不太能搞定(只有0.1%的情况生成结果完全没问题)。而使用过程奖励是可以算出正确答案的。

这也是目前大语言模型比较饱受诟病的问题,容易产生逻辑错误,也被称为“幻觉”。

表现最明显的领域就是数学。

即便是先进如GPT-4,这类问题也难以避免。

而降低幻觉的出现,又被视为走向AGI的关键一步。

此前为检测幻觉所使用的是结果监督,基于最终结果提供反馈,仅仅奖励最终正确的答案。

但效果显然还不太行,所以OpenAI想了个新招,把这种奖励增加会怎么样?

于是他们提出了过程监督方法,针对思维链中的每个步骤提供反馈,奖励每个正确的推理步骤。

在第4步中,GPT-4错误地认为该序列每12项循环一次,而事实上是每10项循环一次。

而这种计数错误也迷惑到了奖励模型。

此外,OpenAI共给出了10个问题和解决方案。

可以看出,基于过程监督的奖励模型在一些问题上也会被迷惑住,但是在整体上明显表现得更好。

网友:再也不用做数学证明题了

很快,OpenAI的最新工作在各个平台上都引发了热烈讨论。

有人评价:

如果这个方法在非数学领域也能奏效,我们现在或许正处于游戏规则即将改变的时刻。

还有人说,这项工作如果用在互动、教育方面,会非常令人兴奋,尤其是数学领域。

这不,有人就说,看来以后不用再做数学家庭作业和证明题了(doge)。

值得一提的是,这种step by step的方法,不止一次在提升大模型性能上奏效。

之前,东京大学和谷歌的研究人员发现,只要在对话中加一句“Let’s think step by step”,GPT-3就能回答出以前不会的问题。

比如提问:

16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球?

论文地址:https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

数据集:https://github.com/openai/prm800k

参考链接:[1]https://twitter.com/OpenAI/status/1663957407184347136[2]https://twitter.com/DrJimFan/status/1663972818160332800[3]https://twitter.com/_akhaliq/status/1663981726647894027

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

花粉社群VIP加油站

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
Outlier(蜂界传说)
文章
524
主题
0
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索