在過去 24 個月中,AI 的持續成長從根本上改變了網際網路。AI 越來越普遍,Cloudflare 正在充分瞭解其帶來的新機遇和挑戰。在今年的 Cloudflare 生日之際,我們擴展了 AI 助理的能力以幫助您構建新的 WAF 規則,在 Cloudflare Radar 上新增了 AI 機器人流量深入解析,並為客戶提供了新的 AI 機器人封鎖功能。
WAF 規則建立器的 AI 助理
Cloudflare 始終會傾聽您的意見反應,並努力使我們的產品對使用者友好並盡可能強大。我們明確聽到大家回饋的一個方面是,為我們的 Web 應用程式防火牆 (WAF) 建立自訂和限速規則的複雜性。有鑑於此,我們很高興推出一項新功能,讓您能夠更輕鬆、更直觀地建立規則:WAF 規則建立器的 AI 助理。
只需輸入自然語言提示,您就可以產生符合您需求的自訂規則或限速規則。例如,您現在不必手動設定複雜的規則匹配條件,只需輸入「匹配機器人分數較低的請求」之類的內容,該助理即可您產生規則。這並不能一步到位建立完美的規則,而是提供一個可以在此基礎上進行構建的堅實基礎。
該助理將在所有 WAF 使用者的自訂和限速規則建立器中可用。我們正在向所有客戶推出這一功能的測試版,歡迎試用。我們期待聽到您的意見反應(透過 UI 本身),並將繼續完善和增強此工具以滿足您的需求。
Cloudflare Radar 上的 AI 機器人流量深入解析
AI 平台提供者使用機器人爬行和抓取網站,獲取資料以用於模型訓練。這通常是在未經內容擁有者和提供者許可或與其建立業務關係的情況下進行的。今年 7 月,Cloudflare 敦促內容擁有者和提供者「宣佈 AIndependence」,為他們提供一鍵封鎖 AI 機器人、剽竊工具和網路爬蟲的方法。除了這種所謂的「簡易按鈕」方法之外,網站還可以透過 robots.txt 檔案中的指令為這些機器人提供更具體的指導,明確規定允許和禁止存取的內容。無論客戶選擇封鎖還是允許來自 AI 相關機器人的請求,Cloudflare 都可以深入瞭解這些機器人的請求活動,以及相關流量隨時間變化的趨勢。
追蹤 AI 機器人的流量趨勢可以幫助我們更好地瞭解它們隨時間變化的活動——哪些機器人最具攻擊性、發出的請求數量最多,哪些機器人定期啟動爬行,等等。Radar 流量頁面上新的 AI 機器人和網路爬蟲流量圖表,提供了對在選定時間段內收集的主要已知 AI 機器人的流量趨勢的深入解析。此處追蹤的機器人的關聯清單基於 ai.robots.txt 清單,並將在識別到新的機器人時進行更新。還可從 Radar API 獲得時間序列和摘要資料。(可以在新的 Data Explorer 中檢視全套 AI 機器人和網路爬蟲的流量趨勢。)
封鎖更多 AI 機器人
在 Cloudflare 生日之際,我們將跟進之前的部落格文章《宣佈您的 AIndependence》,並更新我們為封鎖 AI 機器人而新增的新偵測功能。尚未封鎖 AI 機器人的客戶只需按一下按鈕即可封鎖 AI 機器人,為其網站獲得更多保護。
為 AI 機器人規則啟用動態更新
舊按鈕允許客戶封鎖經過驗證的 AI 網路爬蟲,即那些尊重 robots.txt 和爬行速率,並且不會試圖隱藏其行為的 AI 網路爬蟲。我們向該清單新增了新的網路爬蟲,但我們也擴展了之前的規則,現在包括不遵循規則的 AI 機器人的 27 個簽章(且數量還在增加)。我們想藉此機會向所有花時間使用我們的「情報熱線」向我們介紹新 AI 機器人的使用者表示感謝。這些情報非常有用,可讓我們更快地發現一些原本不會那麼快出現在我們視野中的機器人。
對於我們新增的每個機器人,我們也會將其新增到我們的「絕對自動化」定義中。因此,如果您是使用 Super Bot Fight 模式的自助服務方案客戶,那麼您已經受到保護。Enterprise 方案 Bot Management 客戶將看到更多請求從「疑似機器人」範圍轉移到「絕對自動化」範圍,我們將在下文中對此進行詳細討論。
在後台,我們已將此規則邏輯轉換為 Cloudflare 受管理規則(與支援 Cloudflare WAF 的架構相同)。這讓我們的安全分析師和工程師能夠安全地即時推送規則更新,類似於快速交付新的 WAF 規則變更,以確保我們的客戶免受最新的 CVE 攻擊。如果自我們發佈上一版本的 AI 機器人防護以來您還沒有重新登入機器人儀表板,請再次按一下按鈕以更新到最新防護。
新指紋對模型的影響
對新的 AI 機器人進行指紋辨識的一個隱藏受益者是我們的 ML 模型。正如我們之前討論過的,我們的全球 ML 模型使用監督式機器學習,並大大受益於更多帶標籤的機器人資料來源。下面可以看到,在我們更新按鈕並新增新規則之前和之後,我們的 ML 模型將這些請求識別為自動化的情況。為簡單起見,我們在圖表中僅顯示了請求量排名前 5 的機器人。透過引入我們的新受管理規則,我們觀察到我們對大多數 AI 機器人的偵測能力有所提升。Button v1 代表舊選項,讓客戶僅封鎖經過驗證的 AI 網路爬蟲,而 Button v2 是新引入的功能,包括受管理規則偵測。
那麼,我們是如何使我們的偵測更加可靠的呢?正如我們之前提到的,有時僅僅一個屬性就能洩露機器人的身分。我們開發了一套為這些 AI 機器人量身定制的複雜啟發式方法,能夠輕鬆而準確地對它們進行分類。儘管我們的 ML 模型之前已經能夠偵測到絕大多數此類請求,但與額外的啟發式方法整合之後,顯著提高了每個機器人的偵測率,並確保我們 100% 正確地對每個請求進行評分。從純粹的機器學習方法過渡到結合啟發式方法有幾個優勢,包括偵測時間更快和分類更準確。雖然部署機器學習模型複雜且耗時,但可以在幾分鐘內建立新的啟發式方法。
AI 機器人封鎖按鈕的首次推出受到了廣泛好評,目前已被超過 133000 個網站使用,即使在 Free 層客戶中採用率也很高。這個新近更新的按鈕於 2024 年 8 月 20 日推出,並迅速受到關注。已有超過 90000 個區域採用了新規則,每小時大約有 240 個新網站採用該規則。總體而言,我們正在幫助保護超過 146000 個網站的智慧財產權免受 AI 機器人侵害,目前我們這一新規則目前每天封鎖 6600 萬次請求。此外,我們很高興地宣佈,我們將在今年年底前提供透過 Terraform 設定 AI 機器人保護的支援,為管理機器人保護設定提供更大的靈活性和控制力。
機器人行為
隨著我們偵測能力的增強,有必要評估這些變化對網際網路上機器人活動的影響。自更新的 AI 機器人封鎖按鈕推出以來,我們一直在密切監視機器人活動和適應策略的任何變化。我們用來識別 AI 機器人的最基本的指紋辨識技術,會尋找簡單的使用者-代理程式匹配。監視使用者-代理程式匹配非常重要,因為它們表明機器人在爬行網站時透明地宣佈了它們的身分。
下圖顯示了在過去兩個月中我們標記為 AI 機器人的流量數量。藍線表示每日請求數,紅線表示月平均請求數。在過去的兩個月中,我們看到平均減少了近 3000 萬個請求,最近一個月減少了 4000 萬個請求。這一下降與 Button v1 和 Button v2 的發佈相吻合。我們的假設是,利用新的 AI 機器人封鎖功能,Cloudflare 會封鎖大多數此類機器人,從而阻止它們爬行。
幾個主要 AI 網路爬蟲的請求量下降證實了這一假設。具體而言,從 6 月底到 8 月底,Bytespider 機器人的每日請求量從大約 1 億次減少到僅 5000 萬次(見下圖)。這一減少可歸因於幾個因素,包括我們的新 AI 機器人封鎖按鈕以及網路爬蟲策略的變更。
我們還觀察到一些 AI 網路爬蟲的可問責性增強。我們用來識別 AI 機器人的最基本的指紋辨識技術,會尋找簡單的使用者-代理程式匹配。監視使用者-代理程式匹配非常重要,因為它們表明機器人在爬行網站時透明地宣佈了它們的身分。這些網路爬蟲現在更頻繁地使用其代理程式,反映了其行為向更透明、更負責的方向轉變。值得注意的是,來自 Perplexity 使用者代理程式的請求數量急劇增加。這一增長可能與之前關於 Perplexity 沒有正確呈現其使用者代理程式的指控有關,這可能促使他們改變方法以確保更好的可識別性和合規性。
這些趨勢表明,我們的更新可能會影響 AI 網路爬蟲與內容互動的方式。我們將繼續監視 AI 機器人的活動,以幫助使用者控制誰可以存取其內容以及如何存取。透過密切關注新出現的模式,我們旨在為使用者提供所需的工具和深入解析,以便他們在流量管理方面做出明智的決定。
總結
我們將繼續探索 AI 領域,以尋找更多方法讓 Cloudflare 儀表板變得更加實用,或者尋找需要防範的新威脅。Cloudflare Radar 上的 AI 深入解析近乎即時更新,因此,請與我們一起關注新趨勢的出現,並在 Cloudflare 社群中進行討論吧。