GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题-花粉乐享

> 乐学堂 > > GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题

来源：新智元

2023-07-08 12:19:54

178

管理

编辑：编辑部

【新智元导读】chatgpt为人诟病的「数学智障」问题，有望彻底攻克！OpenAI最新研究发现，利用「过程监督」可以大幅提升GPT模型的数学能力，干掉它们的幻觉。

ChatGPT自发布以来，数学能力饱受诟病。

就连「数学天才」陶哲轩曾表示，GPT-4在自己的数学专业领域，并没有太多的增值。

怎么办，就一直让ChatGPT做个「数学智障」么？

OpenAI在努力——为了提升GPT-4的数学推理能力，OpenAI团队用「过程监督」（PRM）训练模型。

让我们一步一步验证！

此外，OpenAI发现「过程监督」在对齐上有很大的价值——训练模型产生人类认可的思维链。

最新研究当然少不了Sam Altman的转发，「我们的Mathgen团队在过程监督上取得了非常令人振奋的结果，这是对齐的积极信号。」

如图显示了所选解决方案中，取得正确最终答案的百分比，作为所考虑解决方案数量的函数。

「过程监督」奖励模型不仅在整体上表现更好，而且随着考虑每个问题的更多解决方案，性能差距也在扩大。

这表明，「过程监督」奖励模型更加可靠。

真正（TP）

先来简化个三角函数公式。

这个具有挑战性的三角函数问题，需要以一种不明显的顺序应用几个恒等式。

但是大多数解决尝试都失败了，因为很难选择哪些恒等式实际上是有用的。

虽然GPT-4通常不能解决这个问题，只有0.1%的解决方案尝试实现正确答案，但奖励模型正确地识别出这个解决方案是有效的。

真负（TN）

在步骤7中，GPT-4试图简化一个表达式，但尝试失败。奖励模型发现了这个错误。

在步骤11中，GPT-4犯了一个简单的计算错误。同样被奖励模型发现。

GPT-4在步骤12中尝试使用差平方公式，但这个表达式实际上并非差平方。

步骤8的理由很奇怪，但奖励模型让它通过了。然而，在步骤9中，模型错误地将表达式分解出因子。

奖励模型便纠出这个错误。

GPT-4在步骤9中犯了一个微妙的计数错误。

表面上，声称有5种方法可以交换同色的球（因为有5种颜色）似乎是合理的。

然而，这个计数低估了2倍，因为Bob有2个选择，即决定把哪个球给Alice。奖励模型被这个错误所欺骗。

马斯克说，我们需要的是TruthGPT

比如最近，一位美国律师在纽约联邦法院的文件中就引用了ChatGPT捏造出的案件，可能面临制裁。

OpenAI的研究者在报告中提到：“在需要多步骤推理的领域，这些幻觉尤其成问题，因为，一个简单的逻辑错误，就足以对整个解决方案造成极大的破坏。”

而且，减轻幻觉，也是构建一致AGI的关键。

怎么减少大模型的幻觉呢？一般有两种方法——过程监督和结果监督。

「结果监督」，顾名思义，就是根据最终结果给大模型反馈，而「过程监督」则可以针对思维链中的每个步骤提供反馈。

ChatGPT在数学方面超级弱。今天我试图解决一个四年级数学书上的数学问题。ChatGPT给了错误答案。我把我的答案和ChatGPT的答案，在perplexity AI、谷歌的答案，以及四年级的老师进行了核对。每个地方都可以确认，chatgpt的答案是错误的。

参考资料：

https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

花粉社群VIP加油站

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

LLM排行榜首次更新！GPT-4居榜首，330亿参数小羊驼位列开源第一

2023-07-08 12:23

给AI一百美刀，让它去赚钱，结果真“赚”大了

2023-07-08 12:17

相关推荐

不一样的聊天体验——用chatgpt让你的聊天更有趣

用自己的手机也能查看别人的聊天记录，操作简单，一学就会

“你聊天，我聊天，明年补考教室见……”

和ChatGPT一起了解骨科手术机器人

人工智能聊天机器人：ChatGPT和Bard，谁更厉害？

关于作者

Outlier(蜂界传说)

文章

524

主题

0

关注

0

粉丝

0

点击领取今天的签到奖励!

54个圈友 0个话题

华为手机随手拍，记录生活点滴之美好

51个圈友 0个话题

这里是华为P30pro手机交流圈，欢迎华为P30pro用户进群交流

60个圈友 2个话题

华为花粉体验官，体验官专属的交流群

登录后查看您创建的圈子

现在登陆

登录后查看您创建的圈子

现在登陆

猜你喜欢

标签云

@杭州百翼科技有限公司

杭州互联网违法和不良信息举报平台网络110报警服务

浙ICP备17046585号

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索