花粉乐分享平台宣传视频
> 乐学堂 > > 让程序员「失业」的GPT-3又要来刷面试题了?这种题小编也会
让程序员「失业」的GPT-3又要来刷面试题了?这种题小编也会
来源:新智元
2023-04-05 17:59:26
272
管理

来源:neowin

编辑:好困

【新智元导读】没想到吧,在席卷了无数头条之后,GPT-3又来了。这次为我们带来的表演竟然是做程序员的面试题,看来又有一波程序员要被「失业」了。

小编这两天看到一篇报道:「AI暂时还不会抢走程序员的工作,但是正在了」。

显然,这篇论文十分有吸引力,志同道合的朋友很快便做了十分有趣的评议。

对于这种看起来就很「标题党」的文章,还是很有必要点进来批判性地学习一下。

看了几百字的众所周知的背景介绍之后,发现原来是关于一篇论文的介绍:「用APPS衡量编码挑战能力」。

https://leetcode.com/problems/h-index/

不出所料,果然是LeetCode里一个典型的例题。

简单复述一下:给定一位研究者论文被引用次数的数组(被引用次数是非负整数),算出研究者的h指数。h指数代表总共有h篇论文分别被引用了至少 h 次。

显然,从题目中可以看出,这和现在常见的让GPT-3生成代码所用到的描述不同,既不是伪代码,也不「生成一个按钮」这种直接的命令。

对于这种描述类问题,除了要考察模型生成正确代码的能力,还考验了模型对自然语言的理解。

啥?还要考阅读理解?

还好这个问题很简单,班门弄斧一下。

def h_index(nums): nums = sorted(nums, reverse=True) for i, item in enumerate(nums): if item < i 1: return i else: continue      return len(nums)

既能训练又能测试的APPS数据集

为了测试模型对于给定问题的理解,以及写出相应代码的能力,论文引入了一个「自动化编程进度标准」(APPS)数据集。

APPS由10000个Python编程问题组成,分为三个类别(入门,面试,竞赛),并用面试中常见的简单的英语进行描述。其中5000个用作训练,剩下的5000个作为测试。

https://codeforces.com/problemset/problem/959/A

这是GPT-3解决的唯一一个作者归类为面试级的问题

GPT-3经常会出现的语法错误,就比如说这个例子中的if-else。

作者说,虽然这个代码「reasonable」(似曾相识的形容),但是if-else的格式错误造成里语法错误。你跟老师讲我这个代码是合理的只是格式错了,看他打不打你。

相比之下,参数比GPT-3少了三个数量级的GPT-2 0.1B的语法错误反而更少,而GPT-Neo 2.7B则几乎没有语法错误。

虽然没有任何代码示例,但是GPT-Neo表现最好

不知道什么原因,论文中并没有明确的GPT-Neo生成的代码。

作者表示,模型的确可以生成一些能通过测试的代码,这也就意味着这些生成的程序没有语法错误,并且可以输出正确答案。对于入门级问题,GPT-Neo获得了最好的成绩,通过了大约15%的测试。

测试的准确性方面,作者发现从GPT-2 1.5B到GPT-Neo 2.7B的性能改进要比从GPT-2 0.1B到GPT-2 1.5B的性能改进更大。由于GPT-2和GPT-Neo都在相同的GitHub代码上进行了预训练,这种现象可能意味着随着模型大小的增加,生成的代码会有更大幅度的改进,也可能是GPT-Neo具有更好的体系结构。

语法错误方面,比如符号的缺失,错误的缩进等。GPT-3在入门级问题上给出的答案大约有59%的错误,但相似架构的GPT-Neo在语法错误方面只有3%。

左图纵坐标为测试的正确率;右图纵坐标是语法错误的百分比;两者横坐标都是问题的难度,从左到右依次提高

与先前的工作侧重于从伪代码到代码的生成不同,本文的基准测试可以在给定的自然语言描述下,来衡量语言模型生成的python代码的质量。

通过利用具有质量保证,并且包括不同难度级别的数十万个测试用例和真实解决方案,本文创建了一个全面而严格的测试平台来评估模型。

本文用APPS评估了最新的生成模型,发现整体性能很低。但是,随着模型规模的增大,以及微调的引入,语法错误率便会呈指数趋势下降,比如GPT-Neo模型。

所以说,「微调」是个好东西。

网友表示:就这?

说到刷题,小编对此一无所知,

对此,网友的评价十分犀利,不仅质疑题目正确率完全无法证明模型学会了编程,更是认为模型除了虚假的关联性以外,什么都没学会。

虽然有一些跑得快的一天天的总想让程序员「失业」,但现在的GPT模型的确还无法担如此重任。可能还不如还是去写些文字,做做地下城的DM。

后记:文章拖了两天没发,结果突然发现微软似乎真的要引入GPT-3来实现自然语言编程了?

参考资料:

https://arxiv.org/pdf/2105.09938.pdf

https://github.com/hendrycks/apps

https://www.neowin.net/news/ai-wont-be-taking-up-software-engineering-jobs-any-time-soon-but-its-getting-there/

花粉社群VIP加油站

3
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
凉笙墨染(采蜜高手)
文章
509
主题
0
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
3
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索