新規投稿のお知らせを受信されたい方は、サブスクリプションをご登録ください:

AIndependence(AIとの分立)を宣言しましょう:AIボット、スクレイパー、クローラーをワンクリックでブロック

2024-07-03

2分で読了
この投稿はEnglish繁體中文FrançaisDeutsch한국어PortuguêsEspañol简体中文でも表示されます。

コンテンツ制作者が安全なインターネットを維持するために、当社はすべてのAIボットをブロックする全く新しい「簡単なボタン」を発表しました。これは無料プランをご利用のお客様を含め、すべてのお客様にご利用いただけます。

Declaring your AIndependence: block AI bots, scrapers and crawlers with a single click

生成AIの人気の高まりにより、モデルのトレーニングや推論の実行に使われるコンテンツの需要が急増しています。一部のAI企業は自社のWebスクレイピングボットを明確に識別していますが、すべてのAI企業が透明性を確保しているわけではありません。報道によると、GoogleはRedditにユーザーが投稿したコンテンツを利用するライセンス契約に年間6000万ドルを支払ったとされています。また、Scarlett JohanssonはOpenAIに音声アシスタントの新しい声のひとつとして彼女の声が無断で使用された疑いがあると声をあげています。最近ではPerplexityが正当なWeb訪問者になりすましてWebサイトからコンテンツをスクレイピングしたとして非難されています。大量のオリジナルコンテンツの価値はかつてないほど高まっています。

昨年、Cloudflareは行儀の良いAIボットを簡単にブロックできる機能をお客様に向けて発表しました。これらのボットはrobots.txtに従うもので、無許可のコンテンツをモデルのトレーニングやWebサイトのデータを使用したRAGアプリケーションの推論の実行に使用しないなど、ルールに従った動作を行うものですが、Cloudflareのお客様の多くはこれらをブロックすることを選択しています。

私たちは、お客様が管理するWebサイトにAIボットが訪問することを望んでいないことを明確に耳にしています。特に、不正に訪問してくるボットは望ましくありません。そこで、当社はワンクリックですべてのAIボットをブロックする機能を新たに追加しました。無料プランをご利用のお客様を含め、すべてのお客様にご利用いただけます。これを有効にするには、Cloudflareダッシュボードの[セキュリティ > ボット]セクションに移動し、「AIスクレイパーとクローラー」のラベルが付いたトグルをクリックするだけです。

この機能は、当社が「モデルのトレーニングのためにWebを広くスクレイピングしている」と判断した、問題のあるボットの新しいフィンガープリントを確認した時点で経時的に自動的に更新されます。AIクローラーの活動を包括的に把握するため、ネットワーク全体のトラフィックの調査を行いました。

現在のAIボット活動

下のグラフは、Cloudflareのネットワークで見られた最も人気のあるAIボットによるリクエストの量を示すものです。私たちは一般的なAIクローラーユーザーエージェントを調査し、過去1年間でこれらのAIユーザーエージェントから行われた当社のプラットフォームに対するリクエスト数を集計しました。

Cloudflareのサイトへのリクエスト数を見ると、BytespiderAmazonbotCludeBot、_GPTBot_がAIクローラーの上位4つであることがわかります。TikTokを所有する中国企業ByteDanceが運営する_Bytespider_は、ChatGPTの競合企業であるDoubaoをサポートするモデルを含む、同社の大規模言語モデル(LLM)のトレーニングデータを収集するために使用されていると言われています。リクエスト量では、_Amazonbot_と_ClaudeBot_が_Bytespider_に続いています。Alexaの質問応答用にコンテンツをインデックスするために使用されていると言われている_Amazonbot_は、2番目に多くのリクエストを送信しており、Claudeチャットボットをトレーニングするために使用される_ClaudeBot_のリクエスト量も最近増加しています。

当社が観測した上位のAIボットの中で、_Bytespider_はリクエスト数だけでなく、インターネットプロパティのクローリングの程度とブロック頻度の両方でもリードしています。これに僅差で続いたのは_GPTBbot_で、クローリングとブロックの両方で2位にランクインしています。OpenAIが管理する_GPTBot_は、ChatGPTなどのAI駆動型製品の土台となるLLMのためのトレーニングデータを収集しています。下表の「アクセスしたWebサイトの割合」は、Cloudflareによって保護されたWebサイトのうち、特定のAIボットによってアクセスされたWebサイトの割合を示しています。

.tg {border-collapse:collapse;border-color:#ccc;border-spacing:0;} .tg td{background-color:#fff;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{background-color:#f0f0f0;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top} .tg .tg-0lax{text-align:left;vertical-align:top}

AI Bot Share of Websites Accessed
Bytespider 40.40%
GPTBot 35.46%
ClaudeBot 11.17%
ImagesiftBot 8.75%
CCBot 2.14%
ChatGPT-User 1.84%
omgili 0.10%
Diffbot 0.08%
Claude-Web 0.04%
PerplexityBot 0.01%

AIボット

アクセスしたWebサイトの割合

Bytespider

Top N Internet properties by number of visitors seen by Cloudflare % accessed by AI bots % blocking AI bots
10 80.0% 40.0%
100 63.0% 16.0%
1,000 53.2% 8.8%
10,000 47.99% 8.92%
100,000 44.53% 6.36%
1,000,000 38.73% 2.98%

40.40%

GPTBot

35.46%

ClaudeBot

11.17%

ImagesiftBot

8.75%

CCBot

2.14%

ChatGPT-User

1.84%

omgili

0.10%

Diffbot

0.08%

Claude-Web

0.04%

PerplexityBot

0.01%

私たちの分析では、リクエスト量とアクセスされたインターネットプロパティ数の観点から最も人気のあるクローラーを特定しましたが、多くのお客様は自身のサイトを積極的にクロールしている人気のあるAIクローラーについて、それほど意識していない可能性があります。当社のRadarチームは、上位1万件のインターネットドメインにおけるrobots.txtエントリの分析を通じて、最も一般的に使用されるAIボットを特定し、それらがCloudflareで保護されたサイトで観測された頻度を調査しました。

これらのサイトで許可されないクローラーを示す下のグラフでは、お客様がrobots.txtで_GPTBot、CCBot_、_Google_を最も頻繁に参照している一方で、_Bytespider_や_Cloudflare_のような人気のAIクローラーを特に禁止していないことがわかります。

こうしたAIボットでインターネットが氾濫している今、Webサイトの運営者の既存の対応策について、気になるところです。6月には、Cloudflareを使用するインターネットプロパティの上位100万件の約39%にAIボットによるアクセスがありましたが、これらのリクエストに対してブロックまたはチャレンジを発行する措置を講じたのは、これらのプロパティのうち2.98%のみでした。また、インターネットプロパティのランキング(人気)が高いほど、AIボットの標的となる可能性が高く、それに応じて、そうしたリクエストをブロックする可能性も高くなります。

.tg {border-collapse:collapse;border-spacing:0;} .tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top}

Cloudflareが観測した上位N番インターネットプロパティ(Web訪問者別)

AIボットがアクセスした割合

AIボットをブロックした割合

10

80.0%

40.0%

100

63.0%

16.0%

1,000

53.2%

8.8%

10,000

47.99%

8.92%

100,000

44.53%

6.36%

1,000,000

38.73%

2.98%

Webサイトの運営者はrobots.txtを使用して、これらのAIクローラーからのアクセスを完全にブロックしています。ただし、これらのブロックは、ボットの運営者がrobots.txtを尊重し、インターネットプロパティにアクセスする際に自分たちの身元を明らかにするためにRFC9309(ユーザーエージェントが製品トークンと一致するようにする)に従うことに依存しています。そして、ユーザーエージェントはボットの運営者にとって簡単に変更できるものです。

本物のWebブラウザを装うAIボットの発見方法

残念ながら、ボットの運営者は、スプーフィングされたユーザーエージェントを使用することで、本物のブラウザであるかのように見せかけようとしています。私たちはこの活動を長期にわたって監視し、運営者がユーザーエージェントに偽りの情報を与えた場合も、私たちのグローバル機械学習モデルは、常にこの活動をボットとして認識してきました。このことは私たちの誇りです。

たとえば、他の人活動を隠蔽していると観察した特定のボットの例を考えてみましょう。私たちは、機械学習モデルがこのボットからのトラフィックをどのようにスコアリングしているかを分析しました。下の図では、すべてのボットのスコアが30未満(当社のスコアがこのアクティビティがボットからのものである可能性が高いと判断したもの)であることがわかります。

この図は、当社の最新モデルを使用したリクエストのスコアを反映したもので、その帯域に分類されるリクエスト数の多寡をそれぞれ「暖色」と「寒色」で示しています。リクエストの大部分が下の2つの帯域に分類され、Cloudflareのモデルが問題のボットに与えたスコアが9以下であることを示しています。ユーザーエージェントの変更はボット運営者が最初に行うと予想されることであるため、スコアに影響しません。

ボットスコアが30未満であるWeb訪問者にチャレンジを与える既存のWAFルールセット(当社の推奨)を使用するお客様は、このAIボットトラフィックをすべて自動的にブロックしました。お客様側での新たなアクションは必要ありません。将来的に、同様のテクニックを使って活動を隠蔽するAIボットについても、同じことが言えます。

当社では、Cloudflareのグローバルシグナルを活用してボットスコアを算出しています。これにより、上記のようなAIボットを正しく識別し、「ボットの可能性が高い」としてスコアリングしています。

悪意のある行為者がWebサイトを大規模にクロールしようとする際に使用するツールとフレームワークは、通常、当社がフィンガープリントを採取できるものを使用します。私たちは、見かけるすべてのフィンガープリントに対して、毎秒平均5,700万件以上ものリクエストを処理するCloudflareのネットワークを利用し、そのフィンガープリントをどれだけ信頼すべきかを理解します。モデルを強化するために、多くのシグナルについて世界規模で集計しました。これらのシグナルに基づいて、私たちのモデルは、前述の例のような回避的なAIボットからのトラフィックにボットとして適切にフラグを立てることができました。

このグローバルに集計されたデータの利点は、新しいスクレイピングツールやその挙動を手動でフィンガープリントする必要なく即座に検出できることです。これにより、最新のボット活動からお客様を常に保護することができます。

挙動がおかしいAIボットの情報をお持ちでしたら、ぜひ調査してみてください。AIクローラーの不正動作を報告するために使用できるオプションは2つあります:

  1. Enterpriseのボット管理を利用するお客様は、不正な動作に気付いたトラフィックのセグメントを選択するだけで、ボット分析を通じて偽陰性フィードバックループレポートを送信できます。

2. また、すべてのCloudflareのお客様が、AIボットが許可なくWebサイトをスクレイピングしていることを報告できる 報告ツールも用意しています。

ルールを回避してコンテンツにアクセスしようとする一部のAI企業が、執拗にボット検出を回避するための措置を講じる可能性を懸念しています。引き続き監視を続け、AIスクレイパーとクローラーのルールにボットブロックを追加し、機械学習モデルを進化させ、インターネットをコンテンツ制作者が活躍し、コンテンツがトレーニングや推論に使用されるモデルを完全に制御できる場所に保つよう努めます。

Cloudflareは企業ネットワーク全体を保護し、お客様がインターネット規模のアプリケーションを効率的に構築し、あらゆるWebサイトやインターネットアプリケーションを高速化し、DDoS攻撃を退けハッカーの侵入を防ぎゼロトラスト導入を推進できるようお手伝いしています。

ご使用のデバイスから1.1.1.1 にアクセスし、インターネットを高速化し安全性を高めるCloudflareの無料アプリをご利用ください。

より良いインターネットの構築支援という当社の使命について、詳しくはこちらをご覧ください。新たなキャリアの方向性を模索中の方は、当社の求人情報をご覧ください。
BotsBot ManagementAI BotsAIMachine LearningGenerative AI

Xでフォロー

Adam Martinetti|@adamemcf
Reid Tatoris|@reidtatoris
Cloudflare|@cloudflare

関連ブログ投稿

2024年9月12日 14:15

Protecting APIs from abuse using sequence learning and variable order Markov chains

At Cloudflare, we protect customer APIs from abuse. This is no easy task, as abusive traffic can take different forms, from giant DDoS attacks to low-and-slow credential stuffing campaigns. We now address this challenge in a new way: by looking outside typical volumetric measures and using statistical machine learning to find important API client request sequences....