订阅以接收新文章的通知:

宣布独立自主使用 AI:一键阻止 AI 机器人、抓取工具和爬网程序

2024-07-03

3 分钟阅读时间
这篇博文也有 EnglishFrançaisDeutsch日本語한국어PortuguêsEspañol繁體中文版本。

为了帮助内容创作者维护安全的互联网环境,Cloudflare 刚刚推出了一个全新的“简易按钮”用于阻止所有 AI 机器人。它适用于所有客户,包括使用免费套餐的客户。

Declaring your AIndependence: block AI bots, scrapers and crawlers with a single click

生成式 AI 的普及,导致对用于训练模型或运行推理的内容需求激增。尽管一些 AI 公司明确标识了其 Web 抓取机器人,但并非所有 AI 公司都保持透明。据报道,Google 每年支付 6000 万美元以获得 Reddit 用户生成内容的使用许可;斯嘉丽·约翰逊 (Scarlett Johansson) 指控 OpenAI 在未经她本人同意的情况下,将她的声音用于新款个人助理;以及最近,Perplexity 被指控假冒合法访客从网站上抓取内容。大量原创内容的价值空前高涨。

去年,Cloudflare 宣布客户能够轻松阻止符合规范的 AI 机器人。这些机器人遵守 robots.txt 协议,且不使用未经许可的内容来训练模型或使用网站数据为 RAG 应用程序运行推理。虽然这些 AI 机器人遵守规则,但是 Cloudflare 客户绝大多数情况下选择阻止它们。

我们清楚地听到,客户表示不希望 AI 机器人访问其网站,尤其是那些通过非法方式访问网站的 AI 机器人。为此,我们增加了一个全新的一键按钮,具备阻止所有 AI 机器人的功能。它适用于所有客户,包括使用免费套餐的客户。若要启用此功能,只需导航到 Cloudflare 仪表板的“安全性”>“机器人”部分,然后单击标有“AI 抓取工具和爬网程序”的切换按钮。

我们识别机器人广泛抓取网络数据进行模型训练,随着我们越来越了解违规机器人的新特征,将逐步自动更新此功能。为确保全面了解所有 AI 爬网程序活动,我们调查了整个网络的流量情况。

如今的 AI 机器人活动

下图显示了按请求数量统计的 Cloudflare 网络上最热门的 AI 机器人。我们研究了常见的 AI 爬网程序用户代理,然后汇总了过去一年这些 AI 用户代理向 Cloudflare 平台发出的请求数量:

从向 Cloudflare 站点发出的请求数量来看,我们发现,BytespiderAmazonbotClaudeBotGPTBot 是排名前四的 AI 爬网程序。据报道,Bytespider 由 TikTok 的母公司字节跳动运营,用于为大型语言模型 (LLM) 收集训练数据,包括为其对标 ChatGPT 的竞品——豆包提供支持。AmazonbotClaudeBot 的请求数量紧随 Bytespider 之后。据报道,Amazonbot 发送的请求数量位居第二,用于为 Alexa 问答系统编制内容索引;ClaudeBot 的请求数量最近有所增加,用于训练 Claude 聊天机器人。

我们看到,在这些最流行的 AI 机器人中,Bytespider 在请求数量,以及互联网资产的爬取范围和阻止频率方面均遥遥领先。紧随其后的是 GPTBot,它在爬取范围和阻止频率方面均排名第二。GPTBot 由 OpenAI 管理,负责为其 LLM 收集训练数据,而 LLM 则为 ChatGPT 等人工智能驱动型产品提供支持。下表中“访问网站的比例”是指这些指定的 AI 机器人所访问的受到 Cloudflare 保护的网站所占比例。

.tg {border-collapse:collapse;border-color:#ccc;border-spacing:0;} .tg td{background-color:#fff;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{background-color:#f0f0f0;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top} .tg .tg-0lax{text-align:left;vertical-align:top}

AI Bot Share of Websites Accessed
Bytespider 40.40%
GPTBot 35.46%
ClaudeBot 11.17%
ImagesiftBot 8.75%
CCBot 2.14%
ChatGPT-User 1.84%
omgili 0.10%
Diffbot 0.08%
Claude-Web 0.04%
PerplexityBot 0.01%

AI 机器人

访问网站的比例

Bytespider

Top N Internet properties by number of visitors seen by Cloudflare % accessed by AI bots % blocking AI bots
10 80.0% 40.0%
100 63.0% 16.0%
1,000 53.2% 8.8%
10,000 47.99% 8.92%
100,000 44.53% 6.36%
1,000,000 38.73% 2.98%

40.40%

GPTBot

35.46%

ClaudeBot

11.17%

ImagesiftBot

8.75%

CCBot

2.14%

ChatGPT-User

1.84%

omgili

0.10%

Diffbot

0.08%

Claude-Web

0.04%

PerplexityBot

0.01%

虽然我们的分析确定了在请求数量和访问的互联网资产数量方面最热门的爬网程序,但是许多客户可能没有意识到更热门的 AI 爬网程序正在积极抓取其网站数据。我们的 Radar 团队分析了前 10,000 个互联网域中排名靠前的 robots.txt 条目,以确定最常见的 AI 机器人;查看了在受 Cloudflare 保护的网站上看到这些机器人的频率。

下图显示了这些网站禁止使用的爬网程序。我们看到,客户在 robots.txt 中经常引用 GPTBot、CCBotGoogle,但并没有明确禁止使用 BytespiderClaudeBot 等热门的 AI 爬网程序。

现如今,互联网上充斥着上述这些 AI 机器人,我们很想知道,网站运营商如何应对这种局面。6 月,AI 机器人访问的前一百万个使用 Cloudflare 的互联网资产约占 39%,但是,其中只有 2.98% 的网站采取了措施来阻止或质疑这些请求。此外,互联网资产的排名越高(越热门),越有可能成为 AI 机器人的访问目标;相应地,阻止此类请求的可能性就越大。

.tg {border-collapse:collapse;border-spacing:0;} .tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top}

Cloudflare 发现的排名前 N 的互联网资产(按访客数量)

AI 机器人访问比例

AI 机器人阻止比例

10

80.0%

40.0%

100

63.0%

16.0%

1,000

53.2%

8.8%

10,000

47.99%

8.92%

100,000

44.53%

6.36%

1,000,000

38.73%

2.98%

我们看到,网站运营商使用 robots.txt 完全阻止这些 AI 爬网程序访问其网站。然而,此类阻止依赖于机器人运营商遵守 robots.txt 协议且遵守 RFC9309 规则(确保用户所有要素的变化与产品令牌匹配),在访问互联网资产时如实地表明自己的身份;但另一方面,更改用户代理对机器人运营商来说不费吹灰之力。

我们如何发现冒充真实 Web 浏览器的 AI 机器人

遗憾的是,我们观察到机器人运营商尝试使用伪造的用户代理来伪装成真实的浏览器。我们长期以来一直在监测这一活动,我们可以自豪地说,Cloudflare 全球机器学习模型始终能够将此类活动识别为机器人访问,即使运营商撒谎使用伪造的用户代理也能识别。

其他公司观察到的隐藏其真实活动的特定机器人为例。我们进行了一项分析,以了解 Cloudflare 机器学习模型如何对源自这个机器人的流量评分。如下图所示,所有机器人分数都低于 30,这表明我们的评分机制认为这很可能是机器人活动。

此图反映了使用 Cloudflare 最新模型对众多请求的评分,其中“更热”的颜色表示处于该范围内的请求数量更多,而“更冷”的颜色则表示处于该范围内的请求数量更少。我们可以看到,绝大多数请求落入了底部的两个范围,这表明 Cloudflare 的模型给违规机器人的分数为 9 分或更低。更改用户代理(我们预计这是机器人运营商会做的第一件事)对分数没有任何影响。

如果客户使用现有 WAF 规则集来质疑机器人分数低于 30 的访客(我们建议的做法),系统会自动阻止所有此类 AI 机器人流量,无需客户执行任何新操作。对于使用类似技术来隐藏其活动的未来 AI 机器人,也是如此。

我们利用 Cloudflare 全局信号来计算上文所述的 AI 机器人的机器人分数,这反映了我们可以正确识别并将其评分为“可能的机器人”。

当恶意行为者尝试大规模抓取网站内容时,他们通常会使用我们能够识别的工具和框架。对于看到的每种特征,我们会使用 Cloudflare 网络来了解我们应该在多大程度上信任这种特征。Cloudflare 网络平均每秒处理超过 5700 万个请求。为了支持 Cloudflare 模型,我们汇总计算了许多全局信号。Cloudflare 模型能够根据这些信号,适当地将源自规避型 AI 机器人的流量(如前文所述的例子)标记为机器人。

这些汇总的全局数据带来的结果就是,我们可以立即检测新的抓取工具及其行为,无需手动标记机器人特征,从而确保客户免受最新一波机器人活动的影响。

如果您有关于 AI 机器人异常行为的密报,我们很乐意进行调查。您可以使用两个选项来报告行为不当的 AI 爬网程序:

  1. “企业级机器人管理”客户只需通过“机器人分析”,选择自己发现的不当行为的流量段,提交漏报反馈循环报告:

2. 我们还设置了一个报告工具,可供所有 Cloudflare 客户提交关于 AI 机器人未经许可抓取您网站内容的报告。

我们担心某些企图规避规则来访问内容的 AI 公司会不断适应,达到逃避机器人检测的目的。我们会继续密切关注并将更多机器人阻止规则添加到 AI 抓取工具和爬网程序,同时逐步发展我们的机器学习模型,帮助将互联网建设成为内容创作者可以施展才华的平台,并完全控制哪些模型可以使用其内容来进行训练或运行推理。

我们保护整个企业网络,帮助客户高效构建互联网规模的应用程序,加速任何网站或互联网应用程序抵御 DDoS 攻击,防止黑客入侵,并能协助您实现 Zero Trust 的过程

从任何设备访问 1.1.1.1,以开始使用我们的免费应用程序,帮助您更快、更安全地访问互联网。要进一步了解我们帮助构建更美好互联网的使命,请从这里开始。如果您正在寻找新的职业方向,请查看我们的空缺职位
BotsBot ManagementAI BotsAIMachine LearningGenerative AI

在 X 上关注

Adam Martinetti|@adamemcf
Reid Tatoris|@reidtatoris
Cloudflare|@cloudflare

相关帖子

2024年9月12日 14:15

Protecting APIs from abuse using sequence learning and variable order Markov chains

At Cloudflare, we protect customer APIs from abuse. This is no easy task, as abusive traffic can take different forms, from giant DDoS attacks to low-and-slow credential stuffing campaigns. We now address this challenge in a new way: by looking outside typical volumetric measures and using statistical machine learning to find important API client request sequences....