输入“/”快速插入内容

OpenAI主动公开自家爬虫，只为撇清窃取数据之嫌

作者：三易菌

AI大模型需要海量的数据来“喂养”，这是毋庸置疑的，ChatGPT之所以表现得如此优秀，背后是OpenAI拿出了超过1750亿个参数。更多的数据等于更强的性能，让数据的价值在大数据时代之后又一次被放在聚光灯下。那么，AI大模型所需的数据从何而来呢？​

common.docs_name - LarkCCM_Docs_Menu_Image

摆在明面的方式是通过API向推特、Reddit等内容平台付费购买数据，摆在台面下的方式就多了，比如说不合规的网络爬虫。没错，OpenAI就被指控互联网抓取的信息来训练ChatGPT时，从互联网上窃取了3000亿个单词，它们来自“书籍、文章、网站和帖子——包括未经同意获得的个人信息”，严重侵犯了大量用户的版权和隐私。​

事实上，使用网络爬虫获取数据在过去二十余年来在全球都属于一个灰色地带，合法性始终备受争议，因为爬虫到底有没有获取有版权的内容、有没有爬取非公开数据、有没有侵犯个人隐私，在没有被抓住证据之前都处于“薛定谔状态”。为了打消外界的顾虑，OpenAI在最近公开了自己的爬虫(GPTBot)以及IP地址网段，以供有需求的网站屏蔽。​

根据OpenAI的说法，GPTBot遵守网站提供的robots.txt协议，同时会过滤掉付费才能访问的内容。并且，基于OpenAI的相关政策，如果网页中包含个人身份信息或其他违规内容，则GPTBot也会删除这部分网页。GPTBot使用的网段为40.83.2.64/28，网站站长可以使用nslookup命令来判断GPTBot爬虫的真伪。如果想禁止GPTBot抓取网站的内容，可以在robots.txt中写入指令，爬虫检测到该指令后会按照指令要求操作。​

robots.txt也被称为robots协议，这是一种存放于网站根目录下的ASCII编码的文本文件，它的唯一作用就是告诉网络爬虫，该网站中的哪些内容是不对爬虫开放，哪些内容又可以被爬取。robots协议是控制网站被搜索的内容的一种策略，该文件一般会放在网站的根目录里，，在网站域名后面加上/robots.txt，就可以直接访问到该网站的robots协议协议页面。​

这里我们以淘宝网的“https://www.taobao.com/robots.txt”为例，这家著名的电商网站采用的robots协议非常简单，“User-agent”主要作用是会告诉网站服务器，访问者是通过什么工具来请求的，后面的“Baiduspider”就是大名鼎鼎的百度搜索引擎爬虫，最后的“Disallow: /”，按照robots协议的规则，是禁止被描述的百度的爬虫访问网站。

没错，百度搜索引擎被淘宝在2008年9月的时候屏蔽，依靠的就是这简简单单的几行代码，让淘宝在战略层面掌握了竞争的主动权，避免了流量被百度搜索引擎拿走，也避免了平台内的商家要给百度竞价排名付费的可能，间接催生了淘宝的站内竞价排名体系。​

OpenAI主动公开自家爬虫，只为撇清窃取数据之嫌​

OpenAI主动公开自家爬虫，只为撇清窃取数据之嫌