訂閱以接收新文章的通知:

開始稽核並控制存取您的內容的 AI 模型

2024-09-23

閱讀時間:9 分鐘
本貼文還提供以下語言版本:EnglishFrançaisDeutsch日本語한국어Español简体中文

網站擁有者無法確定 AI 服務如何將其內容用於訓練或其他目的。今天,Cloudflare 發佈了一套工具,讓網站擁有者、建立者和發佈商可以輕鬆重新控制如何將其內容提供給與 AI 相關的機器人和爬蟲。所有 Cloudflare 客戶現在都可以稽核和控制 AI 模型存取其網站內容的方式。

此次發佈首先提供對爬行網站的 AI 服務及其存取的具體內容的詳細分析檢視。客戶可以按 AI 提供者、機器人類型以及網站上最受歡迎的區段來查看活動。這些資料可供 Cloudflare 上的每個網站使用,且無需任何設定。

我們認為,這種新的可見性層級將促使團隊就是否接納 AI 爬蟲做出決定。為了留出時間讓他們做出決定,Cloudflare 現在在我們的儀表板中提供了一個一鍵式選項,可以立即封鎖任何 AI 爬蟲存取任何網站。然後,團隊可以利用這個「暫停」的空隙,來決定是否允許特定的 AI 提供者或機器人類型繼續進行。做出決定後,這些管理員只需點擊幾下即可使用 Cloudflare 儀表板中的新篩選器來實施這些原則。

一些客戶已經決定直接與 AI 公司談判交易。其中許多合約都包含有關掃描頻率和可存取內容類型的條款。我們希望這些發佈商擁有工具來衡量這些交易的執行情況。在今天的公告中,我們特此宣佈,Cloudflare 客戶現在可以一鍵產生報告,該報告可用於稽核這些安排中允許的活動。

我們還認為,任何規模的網站都應該能夠確定因 AI 模型對其內容的使用而獲得怎樣的補償。今天的公告預先介紹了一項新的 Cloudflare 貨幣化功能,該功能將為網站擁有者提供工具來設定價格、控制存取以及獲取內容掃描的價值。

問題是什麼?

直到最近,網際網路上的機器人和剽竊程式大多分為兩類:善意和惡意。搜尋引擎爬蟲之類的善意機器人幫助受眾發現您的網站並為您帶來流量。惡意機器人試圖摧毀您的網站、搶在客戶之前插隊或剽竊競爭資料。我們構建了 Cloudflare Bot Management 平台,讓您能夠區分這兩大類,並允許或封鎖它們。

AI 大型語言模型 (LLM) 和其他生成式工具的興起創造了一個更加模糊的第三類別。與惡意機器人不同,與這些平台關聯的爬蟲不會主動嘗試使您的網站離線或妨礙您的客戶。它們不會嘗試竊取敏感性資料,只是想要掃描您網站上已經公開的內容。

然而,與有用的機器人不同,這些與 AI 相關的爬蟲不一定會給您的網站帶來流量。AI Data Scraper 機器人會掃描您網站上的內容以訓練新的 LLM。然後,您的資料將被放入一種混合器中,與其他內容混合在一起,並用於回答使用者的問題,無需註明出處,也無需使用者造訪您的網站。另一種類型的爬蟲,即 AI Search Crawler 機器人,會掃描您的內容並在回應使用者的搜尋時嘗試引用它。缺點是這些使用者可能只是停留在該介面內,而不是造訪您的網站,因為答案就在他們面前的頁面上。

這種模糊性讓網站擁有者很難做出決定。價值交換尚不明確。網站擁有者在追趕過程中處於劣勢。許多網站允許這些 AI 爬蟲掃描他們的內容,因為這些爬蟲在很大程度上看起來像「善意」機器人——只是結果意味著他們網站的流量更少,因為他們的內容被重新封裝在 AI 寫的答案中。

我們認為,這會對開放的網際網路構成風險。如果沒有控制掃描和實現價值的能力,網站擁有者將不願意推出或維護網際網路內容。創作者將更多的內容隱藏在付費牆後面,而最大的出版商將達成直接交易。反過來,AI 模型提供者將很難在小型網站上找到並存取高品質的有效內容。

雙方都缺乏工具來建立健康、透明的權限和價值交換。從今天開始,Cloudflare 為網站擁有者提供解決此問題所需的服務。我們制定了一系列步驟,建議所有客戶遵循這些步驟以開始入手。

第 1 步:瞭解 AI 模型如何使用您的網站

現在,Cloudflare 上的每個網站都可以存取新的分析檢視,該檢視總結了熱門和已知 AI 服務的爬行行為。您可以透過在儀表板中選擇網站並導覽到左側導覽列中的 AI 稽核索引標籤來開始查看此資訊,以瞭解 AI 對內容的掃描情況。

BLOG-2509 2

當 AI 模型提供者存取您網站上的內容時,他們依賴稱為「機器人」或「爬蟲」的自動化工具來掃描頁面。機器人將請求您的頁面內容、擷取回應,並將其儲存並作為未來資料訓練集的一部分,或記住它以在將來的 AI 搜尋引擎結果中使用。

這些機器人通常透過在其請求中包含稱為 User Agent 的 HTTP 標頭來向您的網站(和 Cloudflare 的網路)標識自己的身分。但在某些情況下,來自這些 AI 服務之一的機器人可能不會傳送標頭,Cloudflare 轉而依賴 IP 位址或行為等其他啟發式方法來識別它們。

當機器人確實標識自己的身分時,標頭將包含一串帶有機器人名稱的文字。例如,Anthropic 有時會使用名為 ClaudeBot 的機器人來爬行網際網路上的網站。當該服務從 Cloudflare 上的網站請求網頁內容時,Cloudflare 會將 User Agent 記錄為 ClaudeBot

BLOG-2509 3

Cloudflare 會在造訪您的網站時收集記錄,並尋找與已知 AI 機器人和爬蟲相符的使用者代理程式。我們總結了各個網路爬蟲的活動,並為您提供了篩選器來僅查看特定 AI 平台的活動。許多 AI 公司依賴多個爬蟲來服務不同的目的。當 OpenAI 掃描網站進行資料剽竊時,他們依賴 GPTBot,但當他們為新的 AI 搜尋引擎爬行網站時,他們使用  OAI-SearchBot。

這些差異很重要。從不同的機器人類型進行掃描可能會影響您網站的流量或內容的歸屬。AI 搜尋引擎通常會連結到網站作為其回應的一部分,可能會將訪客引導到您的目的地。在這種情況下,您可能會接受這些類型的機器人來爬行您的網際網路內容。另一方面,AI Data Scraper 的存在只是為了盡可能多地閱讀網際網路資訊,以訓練未來的模型或改進現有模型。

我們認為,您應該知道機器人爬行您網站的原因以及爬行時間和頻率。今天發佈的版本提供了一個篩選器,可讓您按 AI Data Scraper、AI Search Crawler 和 Archiver 等類別查看機器人活動。

BLOG-2509 4

有了這些資料,您就可以開始分析 AI 模型如何存取您的網站。這些資訊可能會讓人不知所措,特別是如果您的團隊還沒有時間決定您希望如何處理掃描內容的 AI。如果您不確定如何回應,請繼續執行步驟 2。

第 2 步:讓自己暫停一下,決定下一步該怎麼做

我們與幾個組織進行了交談,他們知道自己的網站是 AI 爬蟲有價值的目的地,但他們還不知道該怎麼做。這些團隊需要一個「暫停時間」,以便他們可以就如何向這些服務提供資料做出明智的決定。

Cloudflare 現在為您提供了這個簡單的按鈕。任何方案的任何客戶都可以選擇封鎖所有 AI 機器人和爬蟲,讓自己暫停一下,以便決定允許哪些內容。

若要實施該選項,請導覽至 Cloudflare 儀表板 [安全性] 索引標籤下方的 [機器人] 區段。依照右上角的藍色連結,設定 Cloudflare 的代理如何處理機器人流量。接下來,將「封鎖 AI 剽竊程式和爬蟲」卡片中的按鈕切換到「開啟」位置。

BLOG-2509 5

一鍵式選項會根據 Cloudflare 維護的清單,封鎖已知的 AI 相關機器人和爬蟲存取您的網站。設定封鎖後,您和團隊可以停下來慢慢思考,就接下來要如何處理您的內容做出從容的決策。

第 3 步:控制您希望允許的機器人

暫停按鈕為您的團隊贏得時間,來決定您希望這些爬蟲與您的內容之間建立什麼樣的關係。在您的團隊做出決定後,您就可以開始依賴 Cloudflare 的網路來實作該原則了。

如果該決定是「我們不會允許任何爬行」,那麼您可以將上面討論的封鎖按鈕保留為「開啟」狀態。如果您想選擇性地允許一些掃描,今天發佈的版本為您提供了選項,以允許某些類型的機器人,或僅允許來自某些提供者的機器人存取您的內容。

部分團隊可能會決定允許與 AI 搜尋引擎相關聯的機器人掃描其網際網路內容,因為這些工具仍然可以為網站帶來流量。其他組織可能會與具體的模型提供者簽署交易,並希望允許該提供者的任何類型的機器人存取其內容。客戶現在可以導覽至 Cloudflare 儀表板的 WAF 區段,來實作這些類型的原則。

BLOG-2509 6

例如,管理員還可以建立規則,封鎖除來自特定平台的機器人之外的所有 AI 機器人。如果團隊對大多數 AI 平台持懷疑態度,但對一個 AI 模型提供者及其原則感到滿意,則可以部署這些類型的篩選器。這些類型的規則還可用於實施合約,其中網站擁有者經過交涉,允許從單一提供者進行掃描。網站管理員需要建立規則來封鎖所有類型的 AI 相關機器人,然後新增例外以允許特定機器人或來自其 AI 合作夥伴的機器人。

BLOG-2509 7

除了套用這些新篩選器之外,我們還建議客戶考慮更新其服務條款以涵蓋此新使用案例。我們已經記錄了我們建議「良好公民」機器人和爬蟲對 robots.txt 檔案採取的步驟。作為這些最佳做法的擴展,我們在該文件中新增了一個新部分,其中提供了一個範例服務條款部分,網站擁有者可以考慮使用該部分來確定 AI 掃描需要遵循您在 robots.txt 檔案中定義的原則。

第 4 步:稽核您現有的掃描安排

越來越多的網站直接與模型提供者簽署協議,用許可使用其內容來換取付款。其中許多交易包含的規定決定了網站某些部分或整個網站的爬行速率。Cloudflare 的 AI 稽核索引標籤為您提供監控此類合約的工具。

AI 稽核工具底部的表格現在列出了您網站上最受歡迎的內容,根據頁面頂部設定的篩選器,依照在一段時間內的掃描次數進行排名。您可以點擊匯出為 CSV 按鈕,快速下載包含此處所示詳細資料的檔案,您可以使用該檔案來討論與您允許存取內容的 AI 平台之間的任何差異。

BLOG-2509 8

今天,呈現給您的資料代表我們從採用此類安排的客戶那裡聽到的關鍵指標:針對特定頁面的請求和針對整個網站的請求。

第 5 步:讓網站做好準備以從 AI 掃描中獲取價值

並非每個人都有時間或人脈與 AI 公司談判交易。到目前為止,只有網際網路上最大的出版商才有資源設定這些條款並因提供內容而獲得報酬。

在如何處理其資料方面,其他所有人只有兩個基本選擇:封鎖所有掃描或允許不受限制的存取。今天的發佈為內容創作者提供了更多的可見度和控制權,讓他們不再僅限於這兩個選項,但是網際網路上的網站有效內容仍然缺乏獲利的途徑。

我們認為,任何規模的網站都應因其內容的使用而獲得公平的補償。Cloudflare 計劃推出儀表板的新元件,而不僅僅是封鎖和分析爬行。網站擁有者能夠為其網站或網站的某些部分設定價格,然後根據模型提供者的掃描和您設定的價格向他們收費。其餘的交給我們,您只需專注於為受眾創作精彩內容。

做好準備以透過這一新元件獲取價值的最快方法是確保您的網站使用 Cloudflare 的網路。我們計劃根據網站首次加入 Cloudflare 的日期邀請他們參與測試。希望在此功能可用時收到通知嗎?請在這裡告訴我們

BLOG-2509 9

我們保護整個企業網路,協助客戶有效地建置網際網路規模的應用程式,加速任何網站或網際網路應用程式抵禦 DDoS 攻擊,阻止駭客入侵,並且可以協助您實現 Zero Trust

從任何裝置造訪 1.1.1.1,即可開始使用我們的免費應用程式,讓您的網際網路更快速、更安全。

若要進一步瞭解我們協助打造更好的網際網路的使命,請從這裡開始。如果您正在尋找新的職業方向,請查看我們的職缺
Birthday WeekAI BotsAILLM

在 X 上進行關注

Cloudflare|@cloudflare

相關貼文