訂閱以接收新文章的通知:

爬行次數遠超引薦流量:瞭解 AI 對內容提供者的影響

2025-07-01

閱讀時間:7 分鐘
本貼文還提供以下語言版本:English

內容發佈者歡迎來自搜尋引擎的網路爬蟲和機器人,因為它們有助於增加網站流量。網路爬蟲會看到網站上發佈的內容,並將該內容呈現給搜尋該內容的使用者。網站擁有者可以透過自己的網站內容獲利,因為這些使用者仍然需要點擊進入頁面才能存取短標題以外的任何內容。

人工智慧 (AI) 機器人也會爬行網站的內容,但採用完全不同的傳遞模型。這些大型語言模型 (LLM) 會盡力讀取網際網路內容,從而訓練一個系統,使其能夠為使用者重新包裝內容,而無需使用者存取原始出版物。

AI 應用程式可能仍會嘗試引用內容,但我們發現,相對於 AI 機器人抓取特定網站的頻率而言,真正點擊的使用者非常少。我們曾在小規模的討論中探討過這一挑戰,而今天,我們非常高興地宣佈,我們已將這些發現結果發佈在 Cloudflare Radar 上的「AI 深入解析」頁面中,作為一項新指標呈現

Cloudflare Radar 的訪客現在可以查看特定 AI 模型向網站傳送流量的頻率與其爬行該網站之頻率之間的關係。我們將與廣大受眾分享此分析結果,以便網站擁有者能夠獲得更完善的資訊,幫助他們決定允許或封鎖哪些 AI 機器人,並幫助使用者瞭解 AI 使用情況對網際網路流量的整體影響。

這種衡量如何運作?

由於對於這些網路爬蟲來說,HTML 頁面是最有價值的內容,因此顯示的比率計算方法如下︰將與指定搜尋或 AI 平台關聯且回應為 Content-type: text/html 的相關使用者代理程式的請求總數,除以其 Referer 標頭包含與指定搜尋或 AI 平台關聯的主機名稱的 HTML 內容的請求總數。下面的兩個圖表展示了兩種常見的爬行場景,並表明公司可能會根據網路爬蟲的用途使用不同的使用者代理程式。上圖表示一個簡單的交易,其中範例 AI 平台正在要求內容以訓練 LLM,並將自身表示為 AIBot。下圖表示範例 AI 平台正在要求內容以服務使用者請求——尋找航班資訊。在本例中,它將自身表示為 AIBot-User。為了便於分析,這兩個使用者代理程式的請求流量將匯總到同一個平台名稱下。

當使用者點擊網站或應用程式上的連結時,用戶端通常會將 Referer: 標頭作為請求的一部分傳送到目標網站。在下圖中,範例 AI 平台回應使用者互動,傳回的內容中包含指向外部網站的連結。當使用者點擊連結時,會向內容提供者發出請求,該請求在 Referer: 標頭中包含 ai.example.com,告知他們該請求流量來自何處。為了便於分析,我們將主機名稱與其各自的平台關聯起來。

觀察結果

檢閱比率

新指標以簡單表格的形式呈現,它將來自與給定平台關聯之網路爬蟲(使用者代理程式)的 HTML 頁面請求總數,與來自與給定平台關聯的主機名稱所引薦之用戶端的 HTML 頁面請求總數進行比較。計算得出的比率一律會標準化為單一轉介請求。

舉例來說,下表顯示,在 2025 年 5 月 24 日至 30 日期間,該比率高至 Claude 的 75,000:1,低至 DuckDuckGo 的 0.25:1。這意味著,AI 平台 Claude 每推薦一次 HTML 頁面,就會發出 75,000 次 HTML 頁面請求,而 DuckDuckGo 發出的引薦流量是爬行請求的 4 倍。(然而,Claude 原生應用程式引薦的流量不包含 Referer: 標頭,我們認為其他原生應用程式產生的流量也是如此。因此,由於引薦流量僅包含來自這些提供者的網頁端工具的流量,這些計算可能誇大了相應的比率,但具體誇大多少尚不清楚。)

當然,由於爬行模式的變化,這些比率也會隨時間而改變。上表也顯示了與前一週相比的比率變化,其中變化幅度從 OpenAI 的 51% 成長,到 Google 的 55% 下降不等。Google 比例的週環比下降,是因為在 5 月 23 日至 27 日期間,觀察到來自 GoogleBot 的爬行流量有所減少;而 OpenAI 的週環比增長則與自 5 月 20 日起觀察到的 GPTBot 爬行活動增加有關,詳見下方圖表。

Radar 的 Data Explorer 包含一個時間序列檢視,用於顯示這些比率隨時間的變化,例如下方的百度範例。時間序列資料也可透過 API 端點取得。

引薦流量的模式

您可以在關聯的 Data Explorer 檢視中查看底層活動的變化和趨勢,也可以透過 API 端點(時間序列摘要)取得原始資料。請注意,引薦流量和爬行流量的份額均與圖表中包含的引薦來源和網路爬蟲組相關,而非 Cloudflare 整體流量。

例如,在下方以引薦來源為中心的檢視中,涵蓋了 2025 年 5 月的前四週,我們可以看到引薦流量主要來自搜尋平台 Google,資料呈現相當一致的晝夜變化模式。由於使用推測規則推動預先擷取,來自 Google ASN (AS15169) 的引薦流量被明確排除在此處的分析之外,因為它不代表活躍使用者的內容使用情況。

其他搜尋平台的引薦請求份額也呈現出清晰的晝夜模式,不過其請求占比僅為 Google 所見的一小部分。

整個五月期間,即便將各個 AI 平台的引薦流量合計起來,其佔比仍明顯低於搜尋平台引薦的流量佔比。

爬行流量的變化

如上所述,比率值隨時間的變化主要由爬行活動的變化所驅動。這些轉變在 Data Explorer 中提供的爬行流量佔比中可以看到,在透過 API 端點提供的原始資料(時間序列摘要)中也同樣清晰可見。在下方以網路爬蟲為中心的檢視中,我們可以看到,在 2025 年 5 月的前四週,與 Google 爬行活動相關的請求份額(包括 GooglebotGoogleOther 標識符)在 5 月 23 日顯著下降,然後在 5 月 28 日開始恢復。在同一時間段內,Google AS15169 的 HTTP 請求流量也呈現類似的模式,證實了爬行活動的下降趨勢。此外,Anthropic 的 ClaudeBot 的網路爬蟲流量似乎在 5 月 26 日和 27 日實際上消失了,而 OpenAI 的 GPTBot 在整個月內也有多個時段未觀察到任何爬行活動。

這對內容提供者意味著什麼

這些比例直接影響內容在網際網路上發佈的可行性。雖然這些比例會隨時間波動,但整體趨勢仍然是:相較於引薦流量,爬行次數持續增加。舊式搜尋引擎網路爬蟲在每個訪客產生的情況下,可能只會掃描您的內容幾次,甚至更少。網站允許網路爬蟲存取,曾讓其收益模式更具可行性,而非相反。

我們觀察到的新資料表明,情況已不再如此。儘管向內容來源傳送的流量相同或更少,但這些模型在持續更頻繁地使用更多內容。我們在過去幾個月發佈了新工具,幫助網站擁有者重新取回控制權。只需點擊一下,發佈者就能封鎖那些利用其資料進行訓練的 AI 網路爬蟲。我們很快就會發佈新的方法,確保價值交換對等式雙方都公平,但在此期間,我們仍然建議內容創作者稽核並執行他們偏好的 AI 網路爬蟲政策。

我們保護整個企業網路,協助客戶有效地建置網際網路規模的應用程式,加速任何網站或網際網路應用程式抵禦 DDoS 攻擊,阻止駭客入侵,並且可以協助您實現 Zero Trust

從任何裝置造訪 1.1.1.1,即可開始使用我們的免費應用程式,讓您的網際網路更快速、更安全。

若要進一步瞭解我們協助打造更好的網際網路的使命,請從這裡開始。如果您正在尋找新的職業方向,請查看我們的職缺
Radar網際網路流量AI機器人

在 X 上進行關注

David Belson|@dbelson
Cloudflare|@cloudflare

相關貼文