订阅以接收新文章的通知:

内容爬取活动增加但引用流量下降:AI 对内容提供者的影响

2025-07-01

7 分钟阅读时间
这篇博文也有 EnglishDeutsch日本語NederlandsFrançais版本。

内容发布商欢迎来自搜索引擎的爬虫和机器人,因为它们有助于为他们的站点带来流量。爬虫会查看网站上发布的内容,并将其展示给搜索该内容的用户。网站所有者可以实现内容变现,因为用户仍然需要点击页面才能访问标题以外的内容。

人工智能(AI) 机器人也会抓取网站内容,但交付模式完全不同。这些大语言模型(LLM)尽其所能读取互联网内容,以训练一个系统,重新组织内容并提供给用户,而用户无需访问原始内容。

AI 应用可能仍会尝试引用内容,但我们发现,相对于 AI 机器人抓取给定网站的频率而言,真正点击以浏览网站的用户非常少。我们已经在小范围内讨论了这一挑战,今天我们很高兴将有关研究结果发布为一个新指标,显示在 Cloudflare Radar 的 AI 洞察页面上

Cloudflare Radar 的访问者现在可以查看特定 AI 模型向站点发送流量的频率占其爬取该站点频率的比率。我们将此分析分享给广泛的受众,以便网站所有者能够获得更完善的信息,帮助他们决定允许或阻止哪些 AI 机器人,同时也让用户理解 AI 的整体使用如何影响互联网流量。

这一测量是如何进行的?

由于 HTML 页面可以说是对这些爬虫最有价值的内容,因此显示的比率是通过将来自特定搜索或 AI 平台相关用户代理(响应类型为 Content-type: text/html )的请求总数除以 Referer header 包含该搜索或 AI 平台相关主机名的 HTML 内容的请求总数而计算得出。 下图说明了两种常见的爬取场景,并显示公司可能会根据爬虫程序的目的而使用不同的用户代理。上方图代表一个简单的事务,其中示例 AI 平台为训练一个 LLM 而请求内容,其本身标记为 AIBot 。下方图表示一个场景,其中示例 AI 平台请求内容以满足一个用户请求——查找航班信息。在本例中,它将自己表示为 AIBot-User 。为便于我们分析,来自这两个用户代理的请求流量将汇总在一个平台名称下。

当用户在网站或应用上点击链接时,客户端通常会将一个 Referer: header 作为请求的一部分发送到目标站点。下图示例中,AI 平台响应用户交互返回了包含指向外部站点链接的内容。当用户点击链接时,会向内容提供者发送请求, ai.example.com 将包含在 Referer: header 中,从而让他们知道该请求流量的来源。为便于分析,主机名会与其各自的平台相关联。

观察结果

查看比例

新指标以简单表格的形式提供,将来自特定平台爬虫(用户代理)的 HTML 页面请求总数,与来自特定平台主机名引用的客户端的 HTML 页面请求数量进行比较。计算得出的比率始终基于单一引用请求进行标准化。

下表显示,在 2025 年 5 月 24 日至 30 日期间,比率范围从 Claude 的 75000:1 到 DuckDuckGo 的 0.25:1。这意味着对于 AI 平台 Claude 的每一个 HTML 页面引用,其发出了 75000 个 HTML 页面请求,而 DuckDuckGo 发送的引用请求是爬取请求的 4 倍。(不过,Claude 的原生应用所引用的流量不包含 Referer: header,我们认为其他原生应用所产生的流量也同样如此。因此,由于引用计数仅包括这些提供商的 Web 工具产生的流量,这些计算可能高估了各自的比率,但具体高估了多少并不清楚。)

当然,由于爬取模式的变化,这些比率会随着时间而变化。上表还显示了与前一周相比的比率变化,变化范围从 OpenAI 的增长 51% 到 Google 的下降 55%。 Google 比率周环比下降的原因是 5 月 23 日至 27 日期间 GoogleBot 的爬取流量增加,而 OpenAI 的周环比增长与 5 月 20 日开始的 GPTBot 爬取活动增加有关,如下图所示。

Radar 的 Data Explorer 包括一个时间序列视图,显示这些比率随时间变化的的情况 ,例如下面的百度示例。时间序列数据也可以通过 API 端点获得。

引用流量模式

基础活动的变化和趋势可以在相关 Data Explorer 视图中查看,也可以在通过 API 端点(timeseriessummary )获得的原始数据中看到。引用流量和爬取流量的比率均为相对于图中包含的引用者和爬虫的集合,而非 Cloudflare 的整体流量。

例如,下面以引用者为中心的视图中显示了 2025 年 5 月前 4 周的情况,我们可以看到引用流量由搜索平台 Google 主导,数据中可以看到相当一致的日间模式。由于使用推测规则驱动的预取,来自 Google 的自治系统编号(AS15169)的引用流量不代表内容的活跃用户消费,因此这里的分析专门予以排除。

在其他搜索平台的引用请求占比中,也可以看到明显的日间模式,尽管其请求份额仅为 Google 的一小部分。

整个 5 月,即使总体而言,AI 平台引用流量的占比也显著低于搜索平台引用流量占比。

爬取流量的变化

如上所述,比率值随时间的变化主要是由爬网活动的变化驱动的。这些变化体现在 Data Explorer 中提供的爬取流量份额中,也可以在通过 API 端点(如 timeseries summary)提供的原始数据中看到。在下面以爬虫为中心的视图中,我们可以看到在 2025 年 5 月的前四周,涉及 Google 爬取活动的请求份额(包括其 Googlebot GoogleOther 标识符)在 5 月 23 日显著下降,随后在 5 月 28 日开始恢复。这里观察到的爬取活动下降与同一时段内在 Google 的 AS15169 所观察到的 HTTP 请求流量的类似模式相吻合。此外,来自 Anthropic 的 ClaudeBot 的爬虫流量在 5 月 26 日和 27 日看起来几乎完全消失,而 OpenAI 的 GPTBot 在 5 月期间出现过多次没有观察到爬取活动的情况。

这对内容提供商意味着什么

这些比率直接影响互联网内容发布的可行性。虽然会随时间而变化,但相对而言,爬取活动增长与引用减少的趋势在持续。对于发送的每一个访问者,传统搜索索引爬虫都会对您的内容扫描几次或更少。网站对爬虫的可用性使其收入模式变得更加可行,而非反之。

我们观察到的新数据表明,情况不再如此。尽管发送到内容源的流量相同或更少,但这些模型继续更频繁地消费更多内容。 为帮助网站所有者重新掌控网站,我们在过去几个月发布了新的工具。内容发布者可一键阻止使用其数据进行训练的 AI 爬虫。我们很快将宣布新的方法,以确保价值交换对双方公平,但在此之前,我们仍然建议内容创作者审计并实施他们针对 AI 爬虫的首选策略。

我们保护整个企业网络,帮助客户高效构建互联网规模的应用程序,加速任何网站或互联网应用程序抵御 DDoS 攻击,防止黑客入侵,并能协助您实现 Zero Trust 的过程

从任何设备访问 1.1.1.1,以开始使用我们的免费应用程序,帮助您更快、更安全地访问互联网。要进一步了解我们帮助构建更美好互联网的使命,请从这里开始。如果您正在寻找新的职业方向,请查看我们的空缺职位
Radar互联网流量AI机器人

在 X 上关注

David Belson|@dbelson
Cloudflare|@cloudflare

相关帖子