訂閱以接收新文章的通知:

宣佈推出 AIndependence:一鍵封鎖 AI 機器人、剽竊者和網路爬蟲

2024-07-03

閱讀時間:3 分鐘
本貼文還提供以下語言版本:EnglishFrançaisDeutsch日本語한국어PortuguêsEspañol简体中文

為了幫助內容創作者維護安全的網際網路,我們剛剛推出了一個全新的「快速鍵」來封鎖所有 AI 機器人。所有客戶均可使用此功能,包括我們的免費方案客戶。

Declaring your AIndependence: block AI bots, scrapers and crawlers with a single click

生成式 AI 的普及使得對用於訓練模型或執行推斷的內容的需求猛增,儘管一些 AI 公司清楚地標識了他們的網路抓取機器人,但並非所有 AI 公司都是透明的。據報道,Google 每年支付 6000 萬美元來授權 Reddit 的使用者產生內容,Scarlett Johansson(史嘉蕾·喬韓森)指控 OpenAI 在未經她同意的情況下將她的聲音用於他們的新個人助理,最近,Perplexity 被指控冒充合法訪客以從網站上竊取內容。大量原創內容的價值從未如此之高。

去年,Cloudflare 宣佈客戶能夠輕鬆封鎖表現良好的 AI 機器人。這些機器人遵循 robots.txt,並且不使用未經許可的內容來訓練其模型或使用網站資料對 RAG 應用程式進行推斷。儘管這些 AI 機器人遵守規則,但 Cloudflare 客戶絕大多數選擇封鎖它們。

我們清楚瞭解客戶的心聲,他們不希望 AI 機器人造訪他們的網站,尤其是那些不誠實的 AI 機器人。為了提供幫助,我們新增了全新的一鍵式封鎖所有 AI 機器人的功能。所有客戶均可使用此功能,包括免費方案的客戶。要啟用此功能,只需導覽到 Cloudflare 儀表板的安全性 > 機器人部分,然後按一下標有 AI Scrapers and Crawlers 的切換按鈕即可。

隨著時間的推移,當我們看到我們認為廣泛抓取 Web 進行模型訓練的違規機器人的新指紋時,此功能將自動更新。為了確保我們全面瞭解所有 AI 網路爬蟲活動,我們調查了整個網路的流量。

當今的 AI 機器人活動

下圖展示了 Cloudflare 網路上最受歡迎的 AI 機器人的請求量。我們研究了常見的 AI 網路爬蟲使用者代理程式,並彙總了去年這些 AI 使用者代理程式在我們平台上發出的請求數量:

在查看對 Cloudflare 網站發出的請求數量時,我們發現 BytespiderAmazonbotClaudeBotGPTBot 是前四名的 AI 網路爬蟲。據報道,Bytespider 由擁有 TikTok 的中國公司字節跳動營運,用於收集其大型語言模型 (LLM) 的訓練資料,包括用於支援其 AI 助手豆包(ChatGPT 的競爭對手)的訓練資料。AmazonbotClaudeBot 的請求量緊接著 Bytespider。據報道,Amazonbot 用於為 Alexa 問答系統索引內容,其傳送的請求數量位居第二,而用於訓練 Claude 聊天機器人的 ClaudeBot 的請求量最近有所增加。

在我們看到的主要 AI 機器人中,Bytespider 不僅在請求數量方面領先,而且在其網際網路內容抓取的程度和被封鎖的頻率方面也領先。緊隨其後的是 GPTBot,它在抓取和被封鎖方面均排名第二。由 OpenAI 管理的 GPTBot 為其 LLM 收集訓練資料,這些資料支撐著 ChatGPT 等 AI 驅動的產品。在下表中,「存取網站佔比」是指受 Cloudflare 保護的網站被指定 AI 機器人存取的比例。

.tg {border-collapse:collapse;border-color:#ccc;border-spacing:0;} .tg td{background-color:#fff;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{background-color:#f0f0f0;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top} .tg .tg-0lax{text-align:left;vertical-align:top}

AI Bot Share of Websites Accessed
Bytespider 40.40%
GPTBot 35.46%
ClaudeBot 11.17%
ImagesiftBot 8.75%
CCBot 2.14%
ChatGPT-User 1.84%
omgili 0.10%
Diffbot 0.08%
Claude-Web 0.04%
PerplexityBot 0.01%

AI 機器人

存取網站佔比

Bytespider

Top N Internet properties by number of visitors seen by Cloudflare % accessed by AI bots % blocking AI bots
10 80.0% 40.0%
100 63.0% 16.0%
1,000 53.2% 8.8%
10,000 47.99% 8.92%
100,000 44.53% 6.36%
1,000,000 38.73% 2.98%

40.40%

GPTBot

35.46%

ClaudeBot

11.17%

ImagesiftBot

8.75%

CCBot

2.14%

ChatGPT-User

1.84%

omgili

0.10%

Diffbot

0.08%

Claude-Web

0.04%

PerplexityBot

0.01%

雖然我們的分析根據請求量和存取的網際網路內容數量確定了最熱門的爬蟲,但許多客戶可能並不知道更流行的 AI 網路爬蟲正在積極抓取他們的網站。我們的 Radar 團隊對排名前 10,000 個網際網路網域的排名靠前的 robots.txt 項目進行了分析,以識別最常執行動作的 AI 機器人,然後查看我們在受 Cloudflare 保護的網站上看到這些機器人的頻率。

在下圖中,我們查看了這些網站不允許的爬蟲,我們發現客戶最常在 robots.txt 中參照 GPTBot、CCBotGoogle,但並沒有明確禁止流行的 AI 網路爬蟲,例如 BytespiderClaudeBot

現在,網際網路上充斥著這些 AI 機器人,我們很好奇網站營運商如何應對。6 月,AI 機器人存取了使用 Cloudflare 的前 100 萬個網際網路內容中的約 39%,但其中只有 2.98% 採取措施封鎖或質詢這些請求。此外,網際網路內容的排名越高(越受歡迎),就越有可能成為 AI 機器人的目標,相應地,就越有可能封鎖此類請求。

.tg {border-collapse:collapse;border-spacing:0;} .tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top}

Cloudflare 觀察到的訪客數量排名前 N 的網際網路內容

AI 機器人存取百分比

封鎖 AI 機器人的百分比

10

80.0%

40.0%

100

63.0%

16.0%

1,000

53.2%

8.8%

10,000

47.99%

8.92%

100,000

44.53%

6.36%

1,000,000

38.73%

2.98%

我們看到網站營運商使用 robots.txt 完全封鎖對這些 AI 網路爬蟲的存取。然而,只有當機器人營運者尊重 robots.txt 並遵守 RFC9309(確保使用者的變化與所有產品權杖相符),在造訪網際網路內容時誠實地標識自己的身分時,這些封鎖才能生效,但機器人營運者可以輕鬆變更使用者代理程式。

我們如何發現 AI 機器人偽裝成真實的 Web 瀏覽器

遺憾的是,我們觀察到機器人營運者試圖透過使用欺騙性使用者代理程式來偽裝成真正的瀏覽器。我們一直在監控這種活動,而且我們可以很自豪地說,我們的全球機器學習模型始終會將這項活動識別為機器人,即使營運者使用謊稱的使用者代理程式也是如此。

在這裡,我們用其他人觀察到的隱藏其活動的特定機器人來進行說明。我們進行了分析,看看我們的機器學習模型如何對來自該機器人的流量進行評分。在下圖中,您可以看到所有機器人分數都低於 30,這表示我們的評分認為此活動很可能來自機器人。

該圖反映了使用我們的最新模型對請求進行的評分,其中暖色調表示該範圍內的請求較多,冷色調表示該範圍內的請求較少。我們可以看到絕大多數請求都落在底部的兩個範圍內,這表明 Cloudflare 的模型給違規機器人的分數為 9 或更低。使用者代理程式的變更對分數沒有影響,因為這是我們預期機器人營運者首先會做的事情。

設定了 WAF 規則來對機器人分數低於 30(我們的建議)的訪客進行質詢的客戶都會自動封鎖所有這些 AI 機器人流量,而無需採取任何新動作。對於使用類似技術來隱藏其活動的未來 AI 機器人也是如此。

我們利用 Cloudflare 全球訊號來計算我們的機器人分數,對於像上面這樣的 AI 機器人來說,這反映了我們正確地識別並將它們評分為「可能為機器人」。

當不良行為者試圖大規模抓取網站時,他們通常會使用我們能夠識別的工具和架構。對於我們看到的每個指紋,我們使用 Cloudflare 的網路(平均每秒處理超過 5700 萬個請求)來瞭解我們應該在多大程度上信任該指紋。為了支援我們的模型,我們計算許多訊號的全球彙總。基於這些訊號,我們的模型能夠適當地將來自模棱兩可的 AI 機器人的流量標記為機器人,就像上面提到的範例一樣。

這種全球彙總資料的結果是,我們可以立即偵測新的抓取工具及其行為,而無需手動對機器人進行指紋識別,從而確保客戶免受最新一波機器人活動的影響。

如果您有關於 AI 機器人行為異常的線索,我們很樂意進行調查。您可以使用兩個選項來報告行為不當的 AI 網路爬蟲:

  1. 企業方案機器人管理客戶只需選擇他們注意到不當行為的流量部分,即可透過機器人分析提交誤判回饋迴圈報告:

2. 我們還設定了一個報告工具,任何 Cloudflare 客戶都可以提交有關 AI 機器人未經許可抓取您網站的報告。

我們擔心,一些有意規避規則來存取內容的 AI 公司將持續調整以逃避機器人偵測。我們將繼續關注並為我們的 AI Scrapers and Crawlers 規則新增更多機器人封鎖,並發展我們的機器學習模型,以幫助保持網際網路成為內容創作者可以蓬勃發展的地方,並完全控制將內容用於訓練或執行推斷的模型。

我們保護整個企業網路,協助客戶有效地建置網際網路規模的應用程式,加速任何網站或網際網路應用程式抵禦 DDoS 攻擊,阻止駭客入侵,並且可以協助您實現 Zero Trust

從任何裝置造訪 1.1.1.1,即可開始使用我們的免費應用程式,讓您的網際網路更快速、更安全。

若要進一步瞭解我們協助打造更好的網際網路的使命,請從這裡開始。如果您正在尋找新的職業方向,請查看我們的職缺
BotsBot ManagementAI BotsAIMachine LearningGenerative AI

在 X 上進行關注

Adam Martinetti|@adamemcf
Reid Tatoris|@reidtatoris
Cloudflare|@cloudflare

相關貼文