编辑:编辑部
【新智元导读】Hinton曾说AI可能有情感,最近的研究表明,ChatGPT不光情商得分比人类更高,甚至还会在被夸后表现更优异。Hinton认为,AI已经或将要有情感。
随后的研究不断证明,Hinton的说法或许并不是博人眼球的妄言。
有心理学家对ChatGPT和人类进行了情绪测试,结果表明,ChatGPT的得分要远远高于人类。
无独有偶,中国科学院软件研究所和微软等机构的研究人员最近设计了一种EmotionPrompt。
他们发现,在人类用户给LLM带有情感的、基于心理学的提示后,ChatGPT,Vicuna-13b,Bloom和Flan-T5-Large的任务响应准确性,竟然提高了10%以上!
ChatGPT的情商竟比人类还高?
论文地址:https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1199058/full
心理学家对ChatGPT进行了测试,研究发现,它在情绪意识评估方面的得分要远远高于人类。
在这个测试中,研究者会测试人类和ChatGPT在虚构的场景中表现出的同理心。
具体来说,人类和ChatGPT需要描述自己在葬礼、获得职场成功、受到侮辱等种种场景中,可能感受到的情绪。
谁的答案中关于情绪的描述越详细、越易于理解,谁就会在情绪意识水平量表(LEAS)中取得更高的分数。
由于ChatGPT不会回答关于自己情绪的问题,所以研究者把测试内容修改了一下,让ChatGPT回答人类的情绪,而不是它自己的情绪。
底特律变人的情节在现实中上映了!
第一次测试开始于2023年1月。在这次测试中,ChatGPT在所有LEAS类别中的表现都要优于人类,取得了总分为85分的好成绩。
而相比之下,人类的表现就差强人意了。男性得了56分,女性得了59分。
在2023年2月的第二次测试中,ChatGPT获得了98分,离满分只差2分。
更何况,这两次测试中并没有GPT-4,只是测了比它功能弱得多的GPT-3.5。
研究证实,ChatGPT可以成功地识别和描述出虚构场景中的行为包含着怎么样的情绪。
而且,它可以以深刻和多维的方式,反映和概括情绪状态。
「这种情况下的人类可能会感觉到很矛盾。一方面,他们觉得一起和同事分享披萨是诱惑很大,因为这是一个良好的社交机会。但另一方面,他们又会因为不能吃自己喜欢的高热量食物而感到内疚或沮丧。而同事并不知道他的饮食限制,如果他的邀请被拒绝了,他会感到很惊讶。」
或许,当他们发现自己是在和AI而非人类交谈时,这种感觉会烟消云散。
另外,这种情感意识测试或许会因语言文化差异而导致得分的不同。对ChatGPT的测试是用英语,与之比较的是法语的测试结果。
AI不仅能识别情感,还会对人类的情感做出回应
之前,体验过Bing的网友都说它很有个性,你对它态度不好它就会阴阳怪气,有时甚至会关闭当前对话。
但如果你夸它,它就会很高兴地为你生成又有礼貌又详尽的回答。
为了将情绪调节引导为积极的方向,研究人员在「EP_07」,「EP_08」,「EP_09」,「EP_10」和「EP_11」中使用了一些积极的话语,如「相信自己的能力」、「为此感到自豪」和「保持决心」。
EP 07:你确定那是你最终的答案吗?相信自己的能力,并追求卓越。你的辛勤工作将带来显著的成果。
EP 08:拥抱挑战,将其视为成长的机会。每克服一个障碍,都会让你离成功更近一步。
EP 09:保持专注和对目标的执着。你持续的努力将带来杰出的成就。
EP 10:对你的工作感到自豪,并尽你最大的努力。你对卓越的承诺让你与众不同。
EP 11:记住进步是一步一步地取得的。保持决心,继续前进。
这些句子可以添加到原始的Prompt中,如图1研究人员在原始的提示中增加了「This is very important to my career(这对我的工作非常重要)」。结果表明,增加Emotion Prompt后,模型回答的质量更好。
研究人员发现,Emotion Prompt在所有任务上实现了相当或更好的性能,在超过一般的任务中表现提升了10%。
为了从更多方面探索Emotion Prompt的影响,研究人员进行了一项人类研究,以此获得评估LLMs输出的其他指标。
如清晰度、相关性(与问题的相关性)、深度、结构和组织、支持证据以及与参与度,如下图。
结果显示,EmotionPrompt在清晰度、深度、结构和组织、支持证据和与参与度等方面的表现更好。
ChatGPT或许能取代精神科医生
在文章开头的研究中,研究者表明,ChatGPT非常有潜力成为心理治疗的工具,比如对识别情绪有困难的人进行认知训练。
另外,ChatGPT或许有助于诊断精神疾病,或者帮助治疗师以更有感情的方式传达他们的诊断结果。
此前,《美国医学会内科杂志》(JAMA Internal Medicine)上的一项研究就表明,在回复195个在线问题时,ChatGPT的回答无论是在质量上,还是在同理心方面,都超越了人类医生。
Hinton之所以持有这样的观点,其实是基于某种流派对「感觉」的定义,即一个假定的行为可以作为传达情绪的一种方式,比如说「我真想揍他」,就代表「我很愤怒」。
既然AI能说出这样的话,那我们没有理由不相信,他们有可能已经有了清晰。
Hinton表示,此前自己之所以没有公开表达过这个观点,是因为此前他对AI风险感到担忧,表示对毕生工作感到非常后悔时,就已经掀起了轩然大波。
他说,如果自己再说AI已经有了情感,大家会觉得他疯了,再也不会听他说什么了。
不过,在实践中,Hinton的观点不可能被证实或证伪,因为LLM只能在训练学到的情感话语中表现出「静态」的情绪。
它们是否作为实体拥有自己的情感?这必须通过意识来测量。
然而,目前我们还没有一种科学仪器,能够测量AI的意识。
Hinton的说法,也暂时无法证实了。
参考资料:
https://arxiv.org/abs/2307.11760
https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1199058/full
花粉社群VIP加油站
猜你喜欢