来源:OpenAI
编辑:好困 小咸鱼
【新智元导读】近日,OpenAI训练了一个系统可以解决小学数学问题。一个9-12岁的小孩子在测试中得分为60分,而OpenAI的新方法在同样的问题上可以拿到55分,已经达到了人类小学生90%左右的水平!还记得上小学时,被「口算天天练」里面的应用题绕晕的阴影吗?
来,试一道!
「小明每半小时喝一瓶水。一个普通的数独难题要花他45分钟。一个极难的数独需要4倍的时间。做一道极难的数独那段时间他喝了多少瓶水?」
不算难吧。
但这回,OpenAI要拿这些应用题去考考自家的当家模型,GPT-3。
成绩很喜人啊!
新方法可以解决小学数学问题,60亿参数的GPT-3采用新方法,准确率直接翻倍,甚至追平了1750亿参数,采用微调方法的GPT-3模型。
在GSM8K训练集上对6B模型进行微调后,当模型被允许进行1次猜测(左)或100次猜测(右)时,回答的正确率
其中,test@N来表示在允许模型对每个问题进行N次单独猜测时,至少正确解决一次问题的百分比。
test@1的性能近似单调递增,而对于test@100来说,当增加epoch的数量时,其性能比test@1的性能下降得更快。
选择一个具有良好覆盖率的模型是成功训练验证器的关键。从经验上看,test@100的性能在最初的几个epoch内达到了顶峰。
此外,在输出最终答案之前,让模型生成完整的自然语言解决方案是很重要的。如果把6B模型调整为直接输出最终答案,而不经过任何中间步骤,性能就会从20.6%急剧下降到5.2%。
让AI拥有「逻辑」的法宝:「验证器」
很明显,「微调」是无法让GPT-3学会逻辑推理的。
那这次,OpenAI是如何让GPT-3拥有「逻辑」的呢?
答案就是一个叫「验证器」的东西。
训练这个验证器(verifier),就是为了使用验证器从许多候选的解决方案中选择出最佳方案。
同时,为了评估「验证器」的表现,OpenAI收集了全新的「GSM8K数据集」并将其开源以方便研究。
6B Verification:错误
6B Fine-tuning:错误
6B Verification:错误
看来,AI做数学题还是道阻且长啊。
你要不要也来尝试一下?
参考资料:
https://openai.com/blog/grade-school-math/
https://arxiv.org/pdf/2110.14168.pdf
花粉社群VIP加油站
猜你喜欢