OpenAI推出爬虫机器人，但用户也可以选择禁止被爬-花粉乐享

> 乐学堂 > > OpenAI推出爬虫机器人，但用户也可以选择禁止被爬

OpenAI推出爬虫机器人，但用户也可以选择禁止被爬

来源：36氪

2023-08-23 16:01:58

513

管理

作者 | 虞景霖

编辑 | 邓咏仪

AI模型的升级依靠海量的公开数据，而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。

8月8日，OpenAI推出了一款名为GPTBot的网络爬虫机器人，用于收集训练AI模型所需的数据信息。有市场消息称，OpenAI将利用这些数据升级GPT-4和其他大语言模型（如可能即将推出的GPT-5和开源的G3PO）。

根据OpenAI介绍，GPTBot和其他所有网络爬虫一样，从互联网上搜集能够用于训练AI模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外，网站所有者还可以选择限制或者禁止GPTBot爬取网页数据。

如何识别GPTBot？

来源：OpenAI

如何禁止GPTBot访问？

将GPTBot添加到网站的robots.txt:

来源：OpenAI

如何限制GPTBot访问，使其只爬取网站的一部分数据？

将下列命令添加至网站的robots.txt:

来源：OpenAI

此外，根据OpenAI发布的有关GPTBot的文档，还列出了GPTBot使用的IP范围（目前只列出了一个，之后将继续添加）。

来源：OpenAI

数据的爬取是AI模型训练不可或缺的一环，而由此所带来的伦理和法律和法律问题也一直是公众关注的焦点。不少国家和地区出台了相应法案，Reddit和X（前Twitter）等网站也采取了相应措施打击AI公司爬取用户数据的行为。

喜剧演员兼作家Sarah Silverman曾在美国法院起诉OpenAI的侵权行为，原因是ChatGPT会总结她的书籍，这一行为构成了侵权。

GPTBot是对围绕版权、公开信息合理使用的一次尝试，使数据收集尽可能在监管范围之内。

网站信息和ChatGPT等大语言模型可以是相辅相成、互相促进的，但并不绝对。网络爬虫在获取网站信息的时候能够改善网站的流量，网页数据信息能够帮助大语言模型生成更加可靠完善的回答。但网络爬虫所爬取的数据并不一定是信息的源链接，因此无法为网站带去流量。

尽管如此，正如Perplexity和其他大语言模型展示的那样，生成式人工智能机器人的回答还可能包括链接和引用，在未来也有可能成为ChatGPT的特性之一。因此，网站内容发布者也可能希望网站信息被用于AI模型，以换取可能的流量。

花粉社群VIP加油站

0

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

清华发布大模型性能报告：GPT-4第一更懂中文的还是百度

2023-08-23 16:47

ChatGPT会取代科幻作家吗？

2023-08-23 15:47