Cloudflare 的 AI 稽核儀表板可讓您輕鬆瞭解 AI 公司和服務如何存取您的內容。AI 稽核提供按機器人細分的要求計數摘要、詳細的路徑摘要(以獲得更精細的見解),以及按 AI 搜尋或 AI 網路爬蟲等類別進行篩選的能力。
今天,我們將更進一步。現在,您可以快速查看哪些 AI 服務遵守您的 robots.txt 原則,哪些未遵守,然後以程式設計方式強制執行這些原則。
Robots.txt 是託管在您網域上的純文字檔案,它實作機器人排除通訊協定,該標準自 1994 年以來就一直存在。此檔案會告訴 Google、Bing 和許多其他網路爬蟲,它們被允許存取您網站的哪些部分(如果有)。
網站擁有者想要定義允許網路爬蟲存取其網站的哪些部分,這樣做的原因有很多:他們可能不希望某些內容在搜尋引擎或社交網路上可用,他們可能對一個平台的信任程度高於另一個平台,或者他們可能只是想要以減少到達其伺服器的自動化流量。
隨著生成式 AI 的出現,AI 服務已經開始在網際網路上爬行來收集其模型的訓練資料。這些模型通常是專有的和商業的,用於產生新的內容。除了傳統的搜尋引擎外,許多想要控制其內容使用方式的內容創作者和發佈者也開始使用 robots.txt 來聲明涵蓋這些 AI 機器人的原則。
以下是一個頂級線上新聞網站的 robots.txt 原則的簡短真實範例:
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
此原則聲明該新聞網站不希望 ChatGPT、Anthropic AI、Google Gemini 或 ByteDance 的 Bytespider 爬行其任何內容。
一直以來,遵守《机器人排除通訊協定》都是自願性質。
這就是我們的新功能的用武之地。我們延伸了 AI 稽核,讓客戶既能瞭解 AI 服務提供者對其 robots.txt 原則的遵守情況,又可以在 WAF 的網路層級強制執行這些原則。
您的 robots.txt 檔案聲明了您的原則,而現在我們可以幫助您強制實施該原則。您甚至可以稱它為您的機器人警察。
AI 稽核會從您的 Web 內容中擷取 robots.txt 檔案,對其進行剖析,然後將其規則與我們看到的所選內容的 AI 機器人流量進行比對。摘要表格為您提供了我們在所有路徑中看到的每個機器人的要求和違規數量的匯總檢視。如果將滑鼠懸停在 Robots.txt 欄上,我們將在工具提示中顯示為每個機器人定義的原則。您也可以從頁面頂部按違規行為進行篩選。
在「最常用的路徑」部分中,每當您網站中的路徑收到違反原則的流量時,我們都會進行標記,以方便查看。理想情況下,您不會在 Robots.txt 欄中看到違規行為——如果您確實看到了違規行為,則表明有人沒有遵守。
但這並不是全部……更重要的是,AI 稽核可讓您在網路層級強制執行您的 robots.txt 原則。按下摘要表格頂部的「強制執行 robots.txt 規則」按鈕,我們會自動將您的 robots.txt 中為 AI 機器人定義的規則轉換為進階防火牆規則,將您重新導向到 WAF 設定螢幕,並允許您在我們的網路中部署該規則。
這是上述 robots.txt 原則轉換後的樣子:
一旦您部署了根據 robots.txt 原則構建的 WAF 規則,您就不再只是要求 AI 服務遵守您的原則,而是強制執行它。
透過 AI 稽核,我們讓客戶能夠更深入瞭解 AI 服務如何存取其內容,協助他們定義原則,然後在網路層級強制執行。
此功能現已對所有 Cloudflare 客戶開放。只需登入儀表板並導覽至您的網域,即可開始稽核來自 AI 服務的機器人流量並強制執行您的 robots.txt 指令。