“尽管制定了购买和使用个人信息的协议,但被告采取了不同的方法:窃取。”近日,一家律师事务所用一份长达157页的诉讼将OpenAI告到法庭,指控其在利润的驱使下,窃取大量个人信息来训练人工智能模型。
随着以数据为基石的大模型百花齐放,数据安全问题正变得越来越重要。因此,OpenAI是否按照其隐私政策合法合理地收集并利用用户个人信息,以及是否有效识别并剔除其训练数据来源中“偶然”包含的个人信息,可能是该起诉讼的争议焦点所在。
这波未平,那波又起。据路透社报道,又有两名作者在美国旧金山联邦法院起诉OpenAI,他们认为OpenAI滥用其作品来训练ChatGPT,在未经许可的情况下挖掘了数千本书的数据,侵犯了作者的版权。
公开资料显示,今年3月,在ChatGPT被接连发现意外泄露用户聊天记录后,意大利数据保护局于3月底宣布将暂时禁用ChatGPT并对该工具涉嫌违反隐私规则展开调查。加拿大也对OpenAI“未经同意收集、使用和披露个人信息”的投诉进行调查。
今年4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。一时之间,围绕OpenAI的训练数据问题不断被暴露。
以大模型原理构建的生成式人工智能产品,是算力与数据加持下的“暴力美学”,数据是门槛,语料库海量数据存在高度的数据合规风险,拥有1亿用户、数十亿访问量的ChatGPT因为“树大”其问题首当其冲。
然而,这并不是OpenAI这家公司、ChatGPT这个产品的个例,其暴露出的隐私泄露、存储敏感信息、未授权访问等数据安全问题是大模型产品落地应用后可能普遍面临的问题。自ChatGPT发布后,中国企业目前已经发布了超70个基础大模型。雨后春笋般的大模型,在接下来商用过程中如何做到数据合规,已经成为每一个产品需要面对的“必答题”。
总结
AI的浪潮不会停歇,如何掌好前行的船舵,在企业生存与合规生产间找到平衡向前,已经成为第四次工业革命下的时代命题。对于已经发布或即将发布基础大模型的企业来说,确保数据合规将成为他们必须应对的问题之一。
花粉社群VIP加油站
猜你喜欢