明敏 发自 凹非寺
量子位 | 公众号 QbitAI
一天吃两起官司,ChatGPT现在有大麻烦了。
原因都和数据有关。
先是16人匿名起诉OpenAI及微软,认为他们在未经允许的情况下使用并泄露了个人隐私数据,索赔金额高达30亿美元。
紧接着,2位全职作者提出,OpenAI未经允许使用了他们的小说训练ChatGPT,构成侵权。
而且两边的原告都表示,OpenAI从互联网上搜刮的数据可太多了,除了他们以外还有非常多人的数据正在被违规使用。
网上的讨论很多,有人表示作家就是应该维权,并且获得适当的报酬。
另一边,两位美国作家也在同一天起诉OpenAI,认为他们的作品被拿去训练ChatGPT。
具体的证据是,ChatGPT能为他们的书生成“非常准确”的摘要,这足以说明这些书被收录在数据库中。
保罗·特朗布莱(Paul Tremblay)和莫娜·阿瓦德(Mona Awad)表示,ChatGPT未经许可就从数千本书中拷贝数据,这侵犯了作者们的版权。
起诉书中预估,OpenAI的训练数据中至少包含30万本书,其中很多来自侵权网站。
比如OpenAI在披露GPT-3训练数据情况时,就表示其中包含两个互联网图书语料库,大概占比为15%。起诉作者认为这些数据就是来自影子图书馆网站的,比如Library Genesis、Sci-Hub等。
以及在2018年,OpenAI透露他们给GPT-1喂的数据中包含7000 本小说。起诉方认为这些书是研究人员从一些盗版网站上复制下来的,而没有获得作者的同意或授权。
AI画画那边,Stability AI、Midjourney等也同样官司缠身。
因为发现只要输入自己的名字,就能生成个人风格的画作,画家凯利·麦柯南(Kelly McKernan)联合另外两位创作者一起提起诉讼。
律师团队和上面起诉Copilot的都是同一家。
以及网站平台方也不愿意被白嫖数据。
这不最近马斯克给推特限流,给出的理由就是“不想让AI白嫖数据了”。目前限制措施还在实行中,还不知道之后会有怎么样的变化。
Reddit则表示自家平台上的数据非常有价值,所以推出了付费API,价格并不低,这个操作导致不少第三方应用被迫关闭。
总之,AI在网络上大规模抓取数据训练后,带来的隐私安全问题、版权问题层出不穷,被牵扯进来的人也越来越多。
但目前版权问题该怎么算,业内还没有形成确定的规范。
只有日本方面传出过消息,不会对训练AI所使用的数据实施版权保护,因为这能加速AI发展。
参考链接:[1]https://www.theregister.com/2023/06/28/microsoft_openai_sued_privacy/[2]https://www.reuters.com/legal/lawsuit-says-openai-violated-us-authors-copyrights-train-ai-chatbot-2023-06-29/[3]https://www.washingtonpost.com/technology/2023/06/28/openai-chatgpt-lawsuit-class-action/
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
花粉社群VIP加油站
猜你喜欢