根据普渡大学的一项研究,OpenAI的聊天机器人ChatGPT在软件编程问题上的错误回答超过一半的时间。研究团队对517个Stack Overflow问题的ChatGPT回答进行了评估,分析了回答的正确性、一致性、全面性和简洁性。研究还包括了语言和情感分析以及参与者的反馈。
研究结果显示,52%的ChatGPT回答是错误的,77%的回答冗长不明确。然而,尽管如此,由于其全面性和表达清晰的语言风格,ChatGPT回答仍然在39.34%的时间内被优先选择。在被优先选择的回答中,77%是错误的。
ChatGPT的网站上承认其软件可能会提供关于人、地点或事实的不准确信息。对于普渡大学的研究,OpenAI实验室尚未对其发表评论。
研究还发现,只有当ChatGPT回答中的错误显而易见时,用户才能识别出错误。如果错误难以验证或需要外部集成开发环境或文档,用户经常无法识别出回答的不正确性或低估错误的程度。
研究人员还观察到,即使答案有明显的错误,仍有两名参与者将ChatGPT回答标记为首选。这可能是因为ChatGPT的回答采用了愉快、权威的风格。
研究人员建议Stack Overflow改进评论和回答中的有毒和负面情绪的检测方法,提高情感和礼貌。他们还建议Stack Overflow提供更具体的指导方针,帮助回答者以逐步、注重细节的方式构建答案。
ChatGPT回答与Stack Overflow回答的比较研究还发现,与Stack Overflow的帖子相比,ChatGPT的回答包含更多的"驱动属性",表明了成就或完成目标的意愿,但不经常描述风险。
此外,ChatGPT更容易出现概念性错误,而不是事实性错误。许多答案之所以错误,是因为ChatGPT无法理解被问问题的基本背景。
从语言分析和情感分析来看,ChatGPT的回答更加正式,表达更多的分析思维,展示了更多实现目标的努力,并且表现出更少的负面情绪。ChatGPT的回答表达了比Stack Overflow回答更多的积极情绪。
Stack Overflow的挑战对于Stack Overflow来说,有一些积极的消息。在一项研究中,60%的受访者发现由人类撰写的答案更正确、简洁和有用。
然而,尽管具体数量存在争议,Stack Overflow的使用似乎有所下降。根据SimilarWeb的报告,自2022年1月以来,每月访问量下降了6%,3月份下降了13.9%。这可能是由于ChatGPT的使用导致的。
Stack Overflow所属的Stack Exchange社区成员也注意到了类似的趋势,表现为新问题活动的下降、新答案的下降以及新用户注册的下降。
Stack Overflow的发言人对SimilarWeb的评估表示异议,指出公司进行了一些关于流量报告和时间比较的改变,这可能影响了报告的结果。
关于研究结果,Stack Overflow的发言人表示,公司没有时间研究这份报告。他们指出,Stack Overflow重视AI生成内容的准确性,并通过OverflowAI提供了检查、验证、归因和确认Stack Overflow社区的答案的能力。
总的来说,ChatGPT在回答软件编程问题时存在一定的错误率,但由于其全面性和表达清晰的语言风格,仍然受到用户的青睐。然而,研究表明Stack Overflow可以改进回答的可发现性、情感和礼貌,并提供更具体的指导方针。Stack Overflow也面临着来自ChatGPT的竞争,但具体的影响尚不确定。
花粉社群VIP加油站
猜你喜欢