编辑:编辑部
【新智元导读】chatgpt为人诟病的「数学智障」问题,有望彻底攻克!OpenAI最新研究发现,利用「过程监督」可以大幅提升GPT模型的数学能力,干掉它们的幻觉。ChatGPT自发布以来,数学能力饱受诟病。
就连「数学天才」陶哲轩曾表示,GPT-4在自己的数学专业领域,并没有太多的增值。
怎么办,就一直让ChatGPT做个「数学智障」么?
OpenAI在努力——为了提升GPT-4的数学推理能力,OpenAI团队用「过程监督」(PRM)训练模型。
让我们一步一步验证!
此外,OpenAI发现「过程监督」在对齐上有很大的价值——训练模型产生人类认可的思维链。
最新研究当然少不了Sam Altman的转发,「我们的Mathgen团队在过程监督上取得了非常令人振奋的结果,这是对齐的积极信号。」
如图显示了所选解决方案中,取得正确最终答案的百分比,作为所考虑解决方案数量的函数。
「过程监督」奖励模型不仅在整体上表现更好,而且随着考虑每个问题的更多解决方案,性能差距也在扩大。
这表明,「过程监督」奖励模型更加可靠。
真正(TP)
先来简化个三角函数公式。
这个具有挑战性的三角函数问题,需要以一种不明显的顺序应用几个恒等式。
但是大多数解决尝试都失败了,因为很难选择哪些恒等式实际上是有用的。
虽然GPT-4通常不能解决这个问题,只有0.1%的解决方案尝试实现正确答案,但奖励模型正确地识别出这个解决方案是有效的。
真负(TN)
在步骤7中,GPT-4试图简化一个表达式,但尝试失败。奖励模型发现了这个错误。
在步骤11中,GPT-4犯了一个简单的计算错误。同样被奖励模型发现。
GPT-4在步骤12中尝试使用差平方公式,但这个表达式实际上并非差平方。
步骤8的理由很奇怪,但奖励模型让它通过了。然而,在步骤9中,模型错误地将表达式分解出因子。
奖励模型便纠出这个错误。
GPT-4在步骤9中犯了一个微妙的计数错误。
表面上,声称有5种方法可以交换同色的球(因为有5种颜色)似乎是合理的。
然而,这个计数低估了2倍,因为Bob有2个选择,即决定把哪个球给Alice。奖励模型被这个错误所欺骗。
马斯克说,我们需要的是TruthGPT
比如最近,一位美国律师在纽约联邦法院的文件中就引用了ChatGPT捏造出的案件,可能面临制裁。
OpenAI的研究者在报告中提到:“在需要多步骤推理的领域,这些幻觉尤其成问题,因为,一个简单的逻辑错误,就足以对整个解决方案造成极大的破坏。”
而且,减轻幻觉,也是构建一致AGI的关键。
怎么减少大模型的幻觉呢?一般有两种方法——过程监督和结果监督。
「结果监督」,顾名思义,就是根据最终结果给大模型反馈,而「过程监督」则可以针对思维链中的每个步骤提供反馈。
ChatGPT在数学方面超级弱。今天我试图解决一个四年级数学书上的数学问题。ChatGPT给了错误答案。我把我的答案和ChatGPT的答案,在perplexity AI、谷歌的答案,以及四年级的老师进行了核对。每个地方都可以确认,chatgpt的答案是错误的。
参考资料:
https://openai.com/research/improving-mathematical-reasoning-with-process-supervision
花粉社群VIP加油站
猜你喜欢