花粉乐分享平台宣传视频
> 乐学堂 > > GPT-4数学能力大蹦极!OpenAI爆火研究「过程监督」突破78.2%难题
GPT-4数学能力大蹦极!OpenAI爆火研究「过程监督」突破78.2%难题
来源:新智元
2023-07-08 12:19:54
169
管理

编辑:编辑部

【新智元导读】chatgpt为人诟病的「数学智障」问题,有望彻底攻克!OpenAI最新研究发现,利用「过程监督」可以大幅提升GPT模型的数学能力,干掉它们的幻觉。

ChatGPT自发布以来,数学能力饱受诟病。

就连「数学天才」陶哲轩曾表示,GPT-4在自己的数学专业领域,并没有太多的增值。

怎么办,就一直让ChatGPT做个「数学智障」么?

OpenAI在努力——为了提升GPT-4的数学推理能力,OpenAI团队用「过程监督」(PRM)训练模型。

让我们一步一步验证!

此外,OpenAI发现「过程监督」在对齐上有很大的价值——训练模型产生人类认可的思维链。

最新研究当然少不了Sam Altman的转发,「我们的Mathgen团队在过程监督上取得了非常令人振奋的结果,这是对齐的积极信号。」

如图显示了所选解决方案中,取得正确最终答案的百分比,作为所考虑解决方案数量的函数。

「过程监督」奖励模型不仅在整体上表现更好,而且随着考虑每个问题的更多解决方案,性能差距也在扩大。

这表明,「过程监督」奖励模型更加可靠。

真正(TP)

先来简化个三角函数公式。

这个具有挑战性的三角函数问题,需要以一种不明显的顺序应用几个恒等式。

但是大多数解决尝试都失败了,因为很难选择哪些恒等式实际上是有用的。

虽然GPT-4通常不能解决这个问题,只有0.1%的解决方案尝试实现正确答案,但奖励模型正确地识别出这个解决方案是有效的。

真负(TN)

在步骤7中,GPT-4试图简化一个表达式,但尝试失败。奖励模型发现了这个错误。

在步骤11中,GPT-4犯了一个简单的计算错误。同样被奖励模型发现。

GPT-4在步骤12中尝试使用差平方公式,但这个表达式实际上并非差平方。

步骤8的理由很奇怪,但奖励模型让它通过了。然而,在步骤9中,模型错误地将表达式分解出因子。

奖励模型便纠出这个错误。

GPT-4在步骤9中犯了一个微妙的计数错误。

表面上,声称有5种方法可以交换同色的球(因为有5种颜色)似乎是合理的。

然而,这个计数低估了2倍,因为Bob有2个选择,即决定把哪个球给Alice。奖励模型被这个错误所欺骗。

马斯克说,我们需要的是TruthGPT

比如最近,一位美国律师在纽约联邦法院的文件中就引用了ChatGPT捏造出的案件,可能面临制裁。

OpenAI的研究者在报告中提到:“在需要多步骤推理的领域,这些幻觉尤其成问题,因为,一个简单的逻辑错误,就足以对整个解决方案造成极大的破坏。”

而且,减轻幻觉,也是构建一致AGI的关键。

怎么减少大模型的幻觉呢?一般有两种方法——过程监督和结果监督。

「结果监督」,顾名思义,就是根据最终结果给大模型反馈,而「过程监督」则可以针对思维链中的每个步骤提供反馈。

ChatGPT在数学方面超级弱。今天我试图解决一个四年级数学书上的数学问题。ChatGPT给了错误答案。我把我的答案和ChatGPT的答案,在perplexity AI、谷歌的答案,以及四年级的老师进行了核对。每个地方都可以确认,chatgpt的答案是错误的。

参考资料:

https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

花粉社群VIP加油站

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
Outlier(蜂界传说)
文章
524
主题
0
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索