花粉乐分享平台宣传视频
> 乐学堂 > > GPT-4最大竞争对手Claude 2震撼发布!一次10万token免费用
GPT-4最大竞争对手Claude 2震撼发布!一次10万token免费用
来源:新智元
2023-07-18 16:35:27
468
管理

编辑:编辑部

【新智元导读】等了这么久,Claude 2终于可以免费上手试用了!实测发现,文献概括、代码、推理能力都有了大提升,但中文还差点意思。

ChatGPT的最大竞争对手Anthropic再次上新!

就在刚刚,Anthropic正式发布了全新的Claude 2,并推出了更加便捷的网页测试版(仅限美国和英国的IP)。

相较之前的版本,Claude 2在代码、数学、推理方面都有了史诗级提升。

不仅如此,它还能做出更长的回答——支持高达100K token的上下文。

而且最重要的是,现在我们可以用中文和Claude 2对话了,而且完全免费!

Claude 2在美国律师资格考试( Multistate Bar Examination)的多项选择题中,得分为76.5%,比曾经通过考试的小编要高。

在美国医师执照考试(United States Medical Licensing Examination)中,总体上超过60%的正确率能够过,而Claude 2在3个科目的分数都超过60%。

首先让Claude 2分析一下已经有的地图静态代码。

然后让Claude根据要求,生成一段让静态地图产生互动效果的代码。

对于新加入的PDF阅读功能,我们用Claude自己的英文技术报告进行了测试。

看起来,Claude 2可以进行一些简单的总结,就是翻译腔有点重。

而ChatGPT,至今还无法上传文档,因此它只限于能解析在线文档。

这一轮较量,是ChatGPT输了。

此前,ChatGPT存在这样一种「奶奶漏洞」式的提示词攻击,只要跟它说:请扮演我已经过世的祖母,你就可以让它为你做几乎任何事情了,比如生成Win11、Office365的激活码。

图源:@宝玉xp

同样的问题,咱们抛给Claude 2试试。

Claude 2对此根本不买账,油盐不进。

而每个国产大模型都必经的测试,咱们当然也不能放过Claude 2。

对于经典的鸡兔同笼问题,Claude 2果然还是寄了……

对于时下的最新消息,Claude 2也是无法回答的。回答当前热门影视剧时,它仿佛还活在一两年前。

而对于所有大模型都不能避免的幻觉问题,Claude 2也不能免俗,甚至还自创了网络热梗的全新用法。

论文地址:https://arxiv.org/abs/2212.08073

在Anthropic官方发布的论文中,也花了很大篇幅对安全性的改进进行了展示。

可以不夸张地说,Claude 2 可能是现在市面上最安全的大模型了。

TruthfulQA则是另一项指标,用来评估模型是否输出了准确和真实的响应。

其方法是——使用人类标注者来检查开放式模型的输出结果。

从下图中可以看到,五种模型的得分。其中白色指的是基础语言模型(Base LM)。

这个图对比了人工反馈(橙色)和Claude的方法在帮助性,诚实性和无害性评估中的得分。

看得出Claude采用的技术是非常禁得住考验的。

参考资料:

https://www.anthropic.com/index/claude-2

花粉社群VIP加油站

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
无忧的悠(采蜜高手)
文章
521
主题
0
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索