聊天机器人ChatGPT在软件编程问题上的错误回答超过一半时间-花粉乐享

> 乐学堂 > > 聊天机器人ChatGPT在软件编程问题上的错误回答超过一半时间

聊天机器人ChatGPT在软件编程问题上的错误回答超过一半时间

来源：老孙科技前沿

2023-08-15 20:40:44

252

管理

ChatGPT错误回答问题的研究结果

根据普渡大学的一项研究，OpenAI的聊天机器人ChatGPT在软件编程问题上的错误回答超过一半的时间。研究团队对517个Stack Overflow问题的ChatGPT回答进行了评估，分析了回答的正确性、一致性、全面性和简洁性。研究还包括了语言和情感分析以及参与者的反馈。

研究结果显示，52%的ChatGPT回答是错误的，77%的回答冗长不明确。然而，尽管如此，由于其全面性和表达清晰的语言风格，ChatGPT回答仍然在39.34%的时间内被优先选择。在被优先选择的回答中，77%是错误的。

ChatGPT的网站上承认其软件可能会提供关于人、地点或事实的不准确信息。对于普渡大学的研究，OpenAI实验室尚未对其发表评论。

研究还发现，只有当ChatGPT回答中的错误显而易见时，用户才能识别出错误。如果错误难以验证或需要外部集成开发环境或文档，用户经常无法识别出回答的不正确性或低估错误的程度。

研究人员还观察到，即使答案有明显的错误，仍有两名参与者将ChatGPT回答标记为首选。这可能是因为ChatGPT的回答采用了愉快、权威的风格。

研究人员建议Stack Overflow改进评论和回答中的有毒和负面情绪的检测方法，提高情感和礼貌。他们还建议Stack Overflow提供更具体的指导方针，帮助回答者以逐步、注重细节的方式构建答案。

ChatGPT回答与Stack Overflow回答的比较

研究还发现，与Stack Overflow的帖子相比，ChatGPT的回答包含更多的"驱动属性"，表明了成就或完成目标的意愿，但不经常描述风险。

此外，ChatGPT更容易出现概念性错误，而不是事实性错误。许多答案之所以错误，是因为ChatGPT无法理解被问问题的基本背景。

从语言分析和情感分析来看，ChatGPT的回答更加正式，表达更多的分析思维，展示了更多实现目标的努力，并且表现出更少的负面情绪。ChatGPT的回答表达了比Stack Overflow回答更多的积极情绪。

Stack Overflow的挑战

对于Stack Overflow来说，有一些积极的消息。在一项研究中，60%的受访者发现由人类撰写的答案更正确、简洁和有用。

然而，尽管具体数量存在争议，Stack Overflow的使用似乎有所下降。根据SimilarWeb的报告，自2022年1月以来，每月访问量下降了6%，3月份下降了13.9%。这可能是由于ChatGPT的使用导致的。

Stack Overflow所属的Stack Exchange社区成员也注意到了类似的趋势，表现为新问题活动的下降、新答案的下降以及新用户注册的下降。

Stack Overflow的发言人对SimilarWeb的评估表示异议，指出公司进行了一些关于流量报告和时间比较的改变，这可能影响了报告的结果。

关于研究结果，Stack Overflow的发言人表示，公司没有时间研究这份报告。他们指出，Stack Overflow重视AI生成内容的准确性，并通过OverflowAI提供了检查、验证、归因和确认Stack Overflow社区的答案的能力。

总的来说，ChatGPT在回答软件编程问题时存在一定的错误率，但由于其全面性和表达清晰的语言风格，仍然受到用户的青睐。然而，研究表明Stack Overflow可以改进回答的可发现性、情感和礼貌，并提供更具体的指导方针。Stack Overflow也面临着来自ChatGPT的竞争，但具体的影响尚不确定。

花粉社群VIP加油站

2

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com