第一个超越ChatGPT的开源模型来了？网友并不买账-花粉乐享

> 乐学堂 > > 第一个超越ChatGPT的开源模型来了？网友并不买账

第一个超越ChatGPT的开源模型来了？网友并不买账

来源：机器之心Pro

2023-07-04 11:29:34

606

管理

机器之心报道

编辑：梓文

开源模型真的超过 ChatGPT了吗？

大模型火了起来，每天我们都能看到各种「大」新闻。

也就是上面推特截图中，两位博主宣称的开源模型超越 ChatGPT/GPT-3.5。

OpenLLM 的特色是基于 LLaMA 开源模型，在只有 6,000 个 gpt4 对话的数据集上进行微调，从而达到非常好的效果。

此次更新的模型型号与评审结果如下：

OpenChat：基于 LLaMA-13B，上下文长度为 2048。

在Vicuna GPT-4 评估中达到 ChatGPT 分数的 105.7% 。

在 AlpacaEval 上达到 80.9% 的胜率。

OpenChat-8192：基于 LLaMA-13B，扩展上下文长度为 8192。

在 Vicuna GPT-4 评估中达到 ChatGPT 分数的 106.6% 。

在 AlpacaEval 上实现 79.5% 的胜率。

也就是说，两个模型在 Vicuna GPT-4 评估榜单上结果都超越了 ChatGPT。

但这种评审宣传的方式似乎并不被大家认可。

网友：夸张

在 Twitter 讨论中，有网友表明，这就是夸张的说法。

在此「大」新闻公布后，Vicuna 官方也迅速做出了回应。

实际上，Vicuna 的测试基准已被弃用，现在使用的是更高级的 MT-bench 基准。该基准的测试，有着更加具有挑战性的任务，并且解决了 gpt4 评估中的偏差以及限制。

在 MT-bench 上，OpenChat 性能表现与 wizardlm-13b 相似。也就是说，开源模型与 GPT-3.5 仍然有着一定差距。这也正是 MT-bench 所强调的内容 —— 开源模型不是完美无缺的，但是这将迈向更好的聊天机器人评估。

前几日，机器之心报道内容《「羊驼」们走到哪一步了？研究表明：最好的能达到 GPT-4 性能的 68%》，也对开源模型的性能进行了评估。

评估还表明，在任何给定的评估中，最佳模型的平均性能达到 ChatGPT 的 83%、GPT-4 的 68%，这表明需要进一步构建更好的基础模型和指令调优数据以缩小差距。

花粉社群VIP加油站

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

首款搭载ChatGPT的自行车问世，让你骑行不再孤单

2023-07-04 11:30

ChatGPT们热度过了？看看这款产品激增的流量你可能就不这么认为了

2023-07-04 11:25

相关推荐

不一样的聊天体验——用chatgpt让你的聊天更有趣

用自己的手机也能查看别人的聊天记录，操作简单，一学就会

“你聊天，我聊天，明年补考教室见……”

和ChatGPT一起了解骨科手术机器人

人工智能聊天机器人：ChatGPT和Bard，谁更厉害？

关于作者

回眸一句草泥..(采蜜高手)

文章

791

主题

7

关注

0

粉丝

1

点击领取今天的签到奖励!

54个圈友 0个话题

华为手机随手拍，记录生活点滴之美好

51个圈友 0个话题

这里是华为P30pro手机交流圈，欢迎华为P30pro用户进群交流

60个圈友 2个话题

华为花粉体验官，体验官专属的交流群

登录后查看您创建的圈子

现在登陆

登录后查看您创建的圈子

现在登陆

猜你喜欢

标签云

@杭州百翼科技有限公司

杭州互联网违法和不良信息举报平台网络110报警服务

浙ICP备17046585号

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索