Reddit周二宣布更新其机器人排除协议(robots.txt文件),告知自动网络爬虫它们是否被允许爬取网站。
历史上,robots.txt文件用于允许搜索引擎抓取网站并引导用户到内容。然而,随着AI的崛起,网站被抓取并用于训练模型,而不承认内容的实际来源。
除了更新的robots.txt文件,Reddit将继续对未知的机器人和爬虫进行速率限制和阻止,禁止其访问其平台。该公司告诉TechCrunch,如果机器人和爬虫不遵守Reddit的公共内容政策,并且没有与平台达成协议,它们将被限制速率或阻止。
Reddit表示,更新不应影响大多数用户或诚信行为者,如研究人员和组织,比如互联网档案馆。相反,更新旨在阻止AI公司在Reddit内容上训练其大型语言模型。当然,AI爬虫可能会忽略Reddit的robots.txt文件。
这一宣布是继《连线》调查发现AI技术搜索初创公司Perplexity一直在盗取和抓取内容几天后公布的。《连线》发现,Perplexity似乎无视不要抓取其网站的请求,尽管在其robots.txt文件中阻止了这家初创公司。Perplexity首席执行官Aravind Srinivas回应了这些指责,并表示robots.txt文件并非法律框架。
Reddit的即将到来的变更不会影响与之达成协议的公司。例如,Reddit与谷歌达成了价值6000万美元的协议,允许这家搜索巨头在社交平台的内容上训练其AI模型。通过这些变化,Reddit向其他希望使用Reddit数据进行AI训练的公司发出信号,他们将不得不付款。
Reddit在一篇博文中表示:“任何访问Reddit内容的人都必须遵守我们的政策,包括为了保护红迪用户而设置的政策。”“我们在与谁合作和信任大规模访问Reddit内容方面有所挑选。”
这一宣布并不令人意外,因为Reddit在几周前发布了一项新政策,旨在指导商业实体和其他合作伙伴如何访问和使用Reddit的数据。