OpenAI用GPT-3与小学生比数学！小模型性能翻倍追平1750亿大模型-花粉乐享

> 乐学堂 > > OpenAI用GPT-3与小学生比数学！小模型性能翻倍追平1750亿大模型

OpenAI用GPT-3与小学生比数学！小模型性能翻倍追平1750亿大模型

来源：新智元

2023-04-07 14:42:22

220

管理

来源：OpenAI

编辑：好困小咸鱼

【新智元导读】近日，OpenAI训练了一个系统可以解决小学数学问题。一个9-12岁的小孩子在测试中得分为60分，而OpenAI的新方法在同样的问题上可以拿到55分，已经达到了人类小学生90%左右的水平！

还记得上小学时，被「口算天天练」里面的应用题绕晕的阴影吗？

来，试一道！

「小明每半小时喝一瓶水。一个普通的数独难题要花他45分钟。一个极难的数独需要4倍的时间。做一道极难的数独那段时间他喝了多少瓶水？」

不算难吧。

但这回，OpenAI要拿这些应用题去考考自家的当家模型，GPT-3。

成绩很喜人啊！

新方法可以解决小学数学问题，60亿参数的GPT-3采用新方法，准确率直接翻倍，甚至追平了1750亿参数，采用微调方法的GPT-3模型。

在GSM8K训练集上对6B模型进行微调后，当模型被允许进行1次猜测（左）或100次猜测（右）时，回答的正确率

其中，test@N来表示在允许模型对每个问题进行N次单独猜测时，至少正确解决一次问题的百分比。

test@1的性能近似单调递增，而对于test@100来说，当增加epoch的数量时，其性能比test@1的性能下降得更快。

选择一个具有良好覆盖率的模型是成功训练验证器的关键。从经验上看，test@100的性能在最初的几个epoch内达到了顶峰。

此外，在输出最终答案之前，让模型生成完整的自然语言解决方案是很重要的。如果把6B模型调整为直接输出最终答案，而不经过任何中间步骤，性能就会从20.6%急剧下降到5.2%。

让AI拥有「逻辑」的法宝：「验证器」

很明显，「微调」是无法让GPT-3学会逻辑推理的。

那这次，OpenAI是如何让GPT-3拥有「逻辑」的呢？

答案就是一个叫「验证器」的东西。

训练这个验证器（verifier），就是为了使用验证器从许多候选的解决方案中选择出最佳方案。

同时，为了评估「验证器」的表现，OpenAI收集了全新的「GSM8K数据集」并将其开源以方便研究。

6B Verification：错误

6B Fine-tuning：错误

6B Verification：错误

看来，AI做数学题还是道阻且长啊。

你要不要也来尝试一下？

参考资料：

https://openai.com/blog/grade-school-math/

https://arxiv.org/pdf/2110.14168.pdf

花粉社群VIP加油站

2

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

细思极恐！马斯克率千人反对，人类已无法解释，AI将如何毁灭人类？ChatGPT把方案都写好了……

2023-04-07 14:45

微软获GPT-3独家授权，可访问底层代码，API用户继续使用

2023-04-07 14:41

相关推荐

不一样的聊天体验——用chatgpt让你的聊天更有趣

用自己的手机也能查看别人的聊天记录，操作简单，一学就会

“你聊天，我聊天，明年补考教室见……”

和ChatGPT一起了解骨科手术机器人

人工智能聊天机器人：ChatGPT和Bard，谁更厉害？

关于作者

华为派(采蜜高手)

文章

471

主题

0

关注

0

粉丝

1

点击领取今天的签到奖励!

54个圈友 0个话题

华为手机随手拍，记录生活点滴之美好

51个圈友 0个话题

这里是华为P30pro手机交流圈，欢迎华为P30pro用户进群交流

60个圈友 2个话题

华为花粉体验官，体验官专属的交流群

登录后查看您创建的圈子

现在登陆

登录后查看您创建的圈子

现在登陆

猜你喜欢

标签云

@杭州百翼科技有限公司

杭州互联网违法和不良信息举报平台网络110报警服务

浙ICP备17046585号

2

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索