吊打ChatGPT！GPT-4在多项考试中超过人类平均水平-花粉乐享

> 乐学堂 > > 吊打ChatGPT！GPT-4在多项考试中超过人类平均水平

吊打ChatGPT！GPT-4在多项考试中超过人类平均水平

来源：科学网

2023-04-08 14:56:08

260

管理

编译 | 高腾

2023年3月14日，GPT-4正式发布。数据显示，它在各种专业和学术基准上和人类相当，优秀到令人难以置信！

根据产品白皮书，GPT-4在人类的多项考试中表现出色，包括美国律师考试（Bar）、美国法学院入学考试（LSATs）、SAT的阅读和数学考试、GRE等。

例如，GPT-4在Bar考试里击败了90%的人类，在SAT阅读考试中击败了93%人类，在SAT数学考试里击败了89%人类。

更令人惊讶的是，它的分数几乎是其前代GPT-3的两倍。

OpenAI在其网页上这样总结：“虽然在许多现实世界场景中的GPT-4能力还不及人类，但在各种专业和学术问题上和人类表现出相同的水平。”

OpenAI开发了一系列大型语言模型（LLM，large language model）。不久前火遍全球的ChatGPT用的语言模型是 GPT-3.5。虽然ChatGPT与GPT-4在随意的谈话中看起来很相似，但OpenAI 表示，在内部评估中，GPT-4 产生正确回应的可能性要比 GPT-3.5 高出 40%。

而且，GPT-4还是多模态的，不但可以接受文本输入，还可接受图像输入。

在GPT4的发布会上，OpenAI的总裁和联合创始人Greg Brockman就展示了一段它所拥有的强大编程能力：

首先在纸上简单画一个非常粗糙的草稿图；然后拍照上传给GPT-4，告诉它要做一个网站，让它生成网站代码；大约10秒钟后，GPT-4给出了完整的网站代码。

这效果应该会让众多网站开发者感到巨大的压力和职业危机。

虽然OpenAI发布上述统计数据确实令人惊叹，但该公司也承认，GPT-4仍然存在与其前身相同的缺陷。

OpenAI在其网站上指出：GPT-4仍存在与早期GPT模型相似的局限性，它并不是“完全可靠的”，最新版本的GPT仍会“幻觉”事实并出现推断错误。

“在使用LLM输出时应格外小心，特别是在容易出错的语境下，具体的使用规则应根据具体需求来确定，例如人工审查、加强背景理解甚至完全避免高风险使用等规则。”OpenAI方面称。

尤其值得关注的是，OpenAI正在加快更新迭代速度——GPT-3于2020年夏季发布；GPT 3.5于去年12月1日推出，并给世界带来了ChatGPT；而现在，仅仅3个月左右，GPT-4就面世了。

虽然人们还在分析GPT-4的全部能力，但目前可以明确的一点是，AI领域有着不断增长的发展动力和广阔的市场前景。

如果有人想要体验GPT-4，除了申请付费版应用，也可以免费体验。因为微软已经确认，新版本Bing正在GPT-4上运行。如果在过去几周内你使用过新的Bing预览版，那么你已经体验过这个强大模型的早期版本。

原文链接：

https://futurism.com/the-byte/gpt-4-exam-scores

GPT-4白皮书：

https://cdn.openai.com/papers/gpt-4.pdf

花粉社群VIP加油站

3

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

或于今年发布！新一代语言模型GPT-4到底有多强大？

2023-04-08 14:58

LeCun力荐！哈佛博士分享用GPT-4搞科研，细到每个工作流程

2023-04-08 14:54

相关推荐

不一样的聊天体验——用chatgpt让你的聊天更有趣

用自己的手机也能查看别人的聊天记录，操作简单，一学就会

“你聊天，我聊天，明年补考教室见……”

和ChatGPT一起了解骨科手术机器人

人工智能聊天机器人：ChatGPT和Bard，谁更厉害？

关于作者

放开那只猫..(采蜜高手)

文章

548

主题

0

关注

0

粉丝

0

点击领取今天的签到奖励!

54个圈友 0个话题

华为手机随手拍，记录生活点滴之美好

51个圈友 0个话题

这里是华为P30pro手机交流圈，欢迎华为P30pro用户进群交流

60个圈友 2个话题

华为花粉体验官，体验官专属的交流群

登录后查看您创建的圈子

现在登陆

登录后查看您创建的圈子

现在登陆

猜你喜欢

标签云

@杭州百翼科技有限公司

杭州互联网违法和不良信息举报平台网络110报警服务

浙ICP备17046585号

3

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索