去年,我花了令人尴尬的大量时间学习击败Elden Ring最难对付的老板,我不会在普通的Reddit帖子或人类策略指南中选择一个回应。如果你看过马莱尼亚的比赛,你可能已经在游戏中投入了 80 到 100 个小时——你不是在寻找一般提示。你想要关于Elden Ring令人眼花缭乱的武器列表或Malenia独特动作的计数器的细节,如果他们提供的话,可能需要一些后续问题才能从这些引擎中获得。
Bing是这里的赢家,但主要是因为它选择一个准确的提示(Malenia容易受到出血伤害),并像Garth Marenghi读书一样重复它。值得称赞的是,它也是唯一参考玛莲尼亚独特治疗能力的引擎,尽管它没有解释它是如何工作的——这是击败她的重要关键。
巴德是唯一一个为玛莱尼亚地狱般的水禽舞动作(尽管我不认为这是最强的策略)或使用特定物品的建议(寻血猎犬的步骤,尽管它没有提到为什么它有用或该建议是否仍然适用于该物品的 2022 年中期 nerf)的人。但它的介绍感觉不对劲。例如,玛莲尼亚几乎完全是一个近战战士,而不是一个有很多远程攻击的人,而且她一点也不“非常不可预测”,只是真的很难躲避和磨损。摘要读起来更像是对视频游戏老板的一般性描述,而不是对特定战斗的描述。
ChatGPT (GPT-4) 是明显的输家,考虑到它的训练数据大多在 2021 年停止,而 Elden Ring 在第二年问世,这并不奇怪。它“阻止她的反击”的指令与你应该做的完全相反,它的整个列表有一个孩子在英语课上被点名并且没有读过这本书的氛围,它基本上是。我对其中任何一个都没有留下深刻的印象——但我特别认为这是一个犯规的音符。
给我一个巧克力蛋糕的食谱人工智能的一大讽刺是,大型语言模型是我们迄今为止最复杂的计算机程序之一,但在数学方面却出奇地糟糕。 真。在计算方面,不要相信聊天机器人会把事情做好。
在上面的例子中,我问20%的2,230增加是什么,用一些叙事框架来修饰这个问题。正确答案是 2,676,但 Bard 设法弄错了(出了 10 分),而 Bing 和 ChatGPT 做对了。在其他测试中,我要求系统将大数相乘和除以(结果好坏参半,但同样,巴德是最糟糕的),然后,为了进行更复杂的计算,要求每个聊天机器人确定每月还款额和总还款额,在125年内偿还000,25美元的抵押贷款,利息为3.9%。没有人提供几个在线抵押贷款计算器提供的答案,巴德和必应多次查询时给出了不同的结果。GPT-4 至少是一致的,但失败了,因为它坚持解释它的方法(好!),然后啰嗦,以至于没有空间回答(坏!)。
这并不奇怪。聊天机器人是在大量文本上进行训练的,因此没有硬编码的规则来执行数学计算,只有训练数据中的统计规律。这意味着当面对不寻常的金额时,他们经常会出错。不过,这些系统当然可以通过多种方式弥补这一点。例如,当我询问抵押贷款时,Bing将我引导到一个抵押贷款计算器网站,而ChatGPT即将推出的插件包括一个Wolfram Alpha选项,这对于各种复杂的金额来说应该非常棒。但与此同时,不要相信语言模型来完成数学模型的工作。只需拿一个计算器。
— 詹姆斯·文森特
结论:为工作选择合适的工具如引言中所述,这些测试揭示了每个系统的明显优势。如果你想完成口头任务,无论是创意写作还是归纳推理,那么试试 ChatGPT(特别是,但不一定是 GPT-4)。如果您正在寻找一个聊天机器人作为与网络的界面,以查找资源并回答您可能已经转向Google的问题,那么请前往Bing。如果你正在做空谷歌的股票,并想让自己放心,你做出了正确的选择,试试巴德。
不过,实际上,对这些系统的任何评估都将是部分的和暂时的,因为不仅每个聊天机器人内部的模型不断更新,而且解析和重定向命令和指令的覆盖层。实际上,我们只是在探索这些系统及其功能的浅端。(例如,为了更彻底地测试GPT-4,我推荐微软研究人员最近的这篇论文。摘要中的结论是有问题的和有争议的,但它详细介绍的测试是迷人的。换句话说,将此视为持续的对话,而不是确定的测试。如有疑问,请亲自尝试这些系统。你永远不知道你会发现什么。
原文标题:AI chatbots compared: Bard vs. Bing vs. ChatGPT
原文链接:https://www.theverge.com/2023/3/24/23653377/ai-chatbots-comparison-bard-bing-chatgpt-gpt-4
作者:JAMES VINCENT
编译:LCR
花粉社群VIP加油站
猜你喜欢