花粉乐分享平台宣传视频
> 乐学堂 > > OpenAI用GPT-3与小学生比数学!小模型性能翻倍追平1750亿大模型
OpenAI用GPT-3与小学生比数学!小模型性能翻倍追平1750亿大模型
来源:新智元
2023-04-07 14:42:22
220
管理

来源:OpenAI

编辑:好困 小咸鱼

【新智元导读】近日,OpenAI训练了一个系统可以解决小学数学问题。一个9-12岁的小孩子在测试中得分为60分,而OpenAI的新方法在同样的问题上可以拿到55分,已经达到了人类小学生90%左右的水平!

还记得上小学时,被「口算天天练」里面的应用题绕晕的阴影吗?

来,试一道!

「小明每半小时喝一瓶水。一个普通的数独难题要花他45分钟。一个极难的数独需要4倍的时间。做一道极难的数独那段时间他喝了多少瓶水?」

不算难吧。

但这回,OpenAI要拿这些应用题去考考自家的当家模型,GPT-3。

成绩很喜人啊!

新方法可以解决小学数学问题,60亿参数的GPT-3采用新方法,准确率直接翻倍,甚至追平了1750亿参数,采用微调方法的GPT-3模型。

在GSM8K训练集上对6B模型进行微调后,当模型被允许进行1次猜测(左)或100次猜测(右)时,回答的正确率

其中,test@N来表示在允许模型对每个问题进行N次单独猜测时,至少正确解决一次问题的百分比。

test@1的性能近似单调递增,而对于test@100来说,当增加epoch的数量时,其性能比test@1的性能下降得更快。

选择一个具有良好覆盖率的模型是成功训练验证器的关键。从经验上看,test@100的性能在最初的几个epoch内达到了顶峰。

此外,在输出最终答案之前,让模型生成完整的自然语言解决方案是很重要的。如果把6B模型调整为直接输出最终答案,而不经过任何中间步骤,性能就会从20.6%急剧下降到5.2%。

让AI拥有「逻辑」的法宝:「验证器」

很明显,「微调」是无法让GPT-3学会逻辑推理的。

那这次,OpenAI是如何让GPT-3拥有「逻辑」的呢?

答案就是一个叫「验证器」的东西。

训练这个验证器(verifier),就是为了使用验证器从许多候选的解决方案中选择出最佳方案。

同时,为了评估「验证器」的表现,OpenAI收集了全新的「GSM8K数据集」并将其开源以方便研究。

6B Verification:错误

6B Fine-tuning:错误

6B Verification:错误

看来,AI做数学题还是道阻且长啊。

你要不要也来尝试一下?

参考资料:

https://openai.com/blog/grade-school-math/

https://arxiv.org/pdf/2110.14168.pdf

花粉社群VIP加油站

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
华为派(采蜜高手)
文章
471
主题
0
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索