Tech

Reddit新变更旨在保护平台免受AI爬虫的侵害

读者时代

Wednesday, October 30 2024

Reddit周二宣布更新其机器人排除协议（robots.txt文件），告知自动网络爬虫它们是否被允许爬取网站。

历史上，robots.txt文件用于允许搜索引擎抓取网站并引导用户到内容。然而，随着AI的崛起，网站被抓取并用于训练模型，而不承认内容的实际来源。

除了更新的robots.txt文件，Reddit将继续对未知的机器人和爬虫进行速率限制和阻止，禁止其访问其平台。该公司告诉TechCrunch，如果机器人和爬虫不遵守Reddit的公共内容政策，并且没有与平台达成协议，它们将被限制速率或阻止。

Reddit表示，更新不应影响大多数用户或诚信行为者，如研究人员和组织，比如互联网档案馆。相反，更新旨在阻止AI公司在Reddit内容上训练其大型语言模型。当然，AI爬虫可能会忽略Reddit的robots.txt文件。

这一宣布是继《连线》调查发现AI技术搜索初创公司Perplexity一直在盗取和抓取内容几天后公布的。《连线》发现，Perplexity似乎无视不要抓取其网站的请求，尽管在其robots.txt文件中阻止了这家初创公司。Perplexity首席执行官Aravind Srinivas回应了这些指责，并表示robots.txt文件并非法律框架。

Reddit的即将到来的变更不会影响与之达成协议的公司。例如，Reddit与谷歌达成了价值6000万美元的协议，允许这家搜索巨头在社交平台的内容上训练其AI模型。通过这些变化，Reddit向其他希望使用Reddit数据进行AI训练的公司发出信号，他们将不得不付款。

Reddit在一篇博文中表示：“任何访问Reddit内容的人都必须遵守我们的政策，包括为了保护红迪用户而设置的政策。”“我们在与谁合作和信任大规模访问Reddit内容方面有所挑选。”

这一宣布并不令人意外，因为Reddit在几周前发布了一项新政策，旨在指导商业实体和其他合作伙伴如何访问和使用Reddit的数据。

读者时代

Reddit新变更旨在保护平台免受AI爬虫的侵害

Recent Posts

欧盟呼吁帮助塑造通用人工智能规则

苹果为Siri进行AI改头换面

澳洲风险投资公司Airtree Ventures已经通过Canva回报了其第一基金，同时保留了大部分股份

Series，GenAI游戏开发平台，悄然从Netflix、戴尔、a16z等公司筹集了2800万美元

弗里曼打出2支全垒，大谷翔平偷了3个垒，道奇队以11-6获胜，4场比赛赢3场，击败钻石背队

音乐评论：J Balvin的雷鬼音乐《Rayo》是一个熟悉的派对 —— 但依然很有趣

Quora的Poe现在允许用户创建和分享Web应用

谷歌发现俄罗斯政府黑客利用由间谍软件公司NSO和Intellexa制作的漏洞攻击

排名第一的扬尼克·辛纳将在巴黎奥运会上为意大利参加单打和双打比赛

曼城边锋奥斯卡·鲍勃因受伤将错过赛季初期比赛