過去24か月間で、AIの継続的な成長はインターネットに大きな変化をもたらしました。AIはますます身近な存在となっており、Cloudflareはそれがもたらす新たな機会と課題に積極的に取り組んでいます。今年のCloudflareバースデーでは、新しいWAFルールの構築を支援するAIアシスタント機能を拡張し、Radarに新しいAIボットとクローラートラフィックのインサイトを追加し、お客様に新しいAIボットブロック機能を提供いたしました。
WAFルール作成時のAIアシスタント
Cloudflareでは、常にお客様からのご意見に耳を傾け、当社の製品をできるだけ使いやすくユーザーフレンドリーかつ強力なものにするために努めています。特に、Webアプリケーションファイアウォール(WAF)でのカスタムルールやレート制限ルールの作成が複雑だというご意見を多くいただいていました。こういった意見を真摯に受け止め、今回ルール作成をより簡単かつ直感的に行う新機能、WAFルール作成用AIアシスタントを導入しました。
自然言語の指示を入力するだけで、ニーズに合わせたカスタムルールやレート制限ルールを生成することができます。たとえば、複雑なルールの一致基準を手動で設定する代わりに、「ボットスコアが低いリクエストと一致させる」のように入力することで、アシスタントがルールを自動的に生成してくれます。一歩で完璧なルールを作るのではなく、基盤となるルールを提供し、それをもとにさらに調整できるようにするための機能です。
このアシスタント機能は、すべてのWAFユーザー向けのカスタムおよびレート制限ルールビルダーでご利用いただけます。この機能は、すべてのお客様向けにベータ版として提供されます。ぜひお試しください。お客様のご要望に合わせて今後さらにこのツールの改良と強化を続けて行きたいと考えているため、お客様からのフィードバック(UIから送信可能)をお待ちしております。
Cloudflare RadarでのAIボットトラフィックの洞察
モデルのトレーニングに使用するため、AIプラットフォームプロバイダーはボットを使用してWebサイトをクロールおよびスクレイピングし、そのデータをバックアップします。これは多くの場合、コンテンツの所有者や提供者の許可を得ず、ビジネス関係がないまま行われます。7月にCloudflareはコンテンツ所有者やプロバイダーに対して「AIとの分立宣言」を呼びかけ、ワンクリックでAIボット、スクレイパー、クローラーをブロックする方法を提供しました。このいわゆる「簡単なボタン」のアプローチに加えて、サイトは、robots.txtファイルのディレクティブを通じて、これらのボットにアクセスを許可しないものについて、より具体的なガイダンスを提供することができるものです。AI関連ボットからのリクエストをブロックしているお客様にも、許可されているお客様にも、Cloudflareはこれらのボットからのリクエストアクティビティと関連するトラフィックの経時的な傾向について洞察を提供します。
AIボットによるトラフィックの傾向を追跡することで、最も活発でリクエスト量が多いもの、定期的にクロールを行うものなど、活動内容を経時的によりよく理解することができます。Radarのトラフィックページにある新しいAIボットとクローラーのトラフィックグラフを使用すると、選択した期間に収集されたこれらのトラフィックの傾向と上位のAIボットに関するインサイトを見ることができます。ここで追跡されたボットの関連リストは、ai.robots.txtリストに基づいており、新しいボットが識別されるたびに更新されます。時系列データと要約データはRadar APIからも利用可能です。(AIボットおよびクローラーの完全なセットに関するトラフィックの傾向は、新しい Data Explorerで見ることができます。)
より多くのAIボットをブロック
Cloudflareのバースデーウィークに合わせて紹介した以前のブログ記事「AIとの分立を宣言しましょう」に続き、AIボットを阻止するために追加した新しい検出に関する最新情報をお知らせします。まだ設定されていないお客様は、ボタンをクリックするだけの、AIボットのブロックしてWebサイトの保護を強化できる機能をお試しください。
AIボットルールの動的更新を有効にする
従来のボタンでは、robots.txtを遵守し、クロール頻度を守り、自らを隠さない検証済みのAIクローラーをブロックすることができました。今回、新たなクローラーをリストに追加しただけでなく、以前のルールも拡大し、ルールに従わないAIボットの27のシグネチャ(今後も増加予定)を含めました。新しいAIボットを見つけるために「情報提供窓口」を利用していただいた皆様に、この場を借りて感謝を申し上げます。これらの情報提供は、私たちがすぐに気づけなかったボットを発見するのに非常に役立ちました。
追加した各ボットは、「Definitely automated(確実に自動化されている)」の定義にも追加されます。そのため、Super Bot Fightモードをご利用のセルフサービスプランのお客様であれば、すでに保護されているということになります。Enterpriseのボット管理をご利用のお客様では、「Likely Bot(ボットの可能性が高い)」から「Definitely automated(確実に自動化されている)」に分類されるリクエストが増えることになります。この点については、後ほど詳しく説明します。
今回、このルールロジックを内部的にCloudflareマネージドルール(WAFを動作させるのと同じフレームワーク)に変換しました。これにより、セキュリティアナリストやエンジニアがリアルタイムで安全にルールを更新できるようになり、WAFの新しいルールが迅速に提供されるのと同様に、最新の脆弱性(CVE)からお客様を保護できます。以前のバージョンのAIボット保護が発表されてから現在までBotsダッシュボードにまだログインされていない方は、最新の保護に更新するために再度ボタンをクリックしていただく必要があります。
新しいフィンガープリンティングがモデルに与える影響
新しいAIボットのフィンガープリンティングの隠れた恩恵の1つは、当社のMLモデルです。以前お話したように、当社のグローバルMLモデルは教師ありの機械学習を使用しており、ラベル付きのボットデータのソースがより充実することから大きな恩恵を受けています。以下のグラフでは、ボタンを更新し、新しいルールを追加する前と後で、MLモデルがこれらのリクエストを自動化されたものとしてどの程度認識したかをご覧いただけます。シンプルにするために、リクエスト量で分類した際の上位5件のボットのみを表示しています。新しい管理ルールを導入したことで、これらのAIボットの大部分について検出能力の向上が見られました。ボタンv1は古いオプション(検証済みのAIクローラーのみをブロックできるもの)を表し、ボタンv2は新たに導入された機能(マネージドルールによる検出を含む)です。
では、どのように検出の信頼性を高めたのでしょうか?以前にも述べたように、時には一つの属性がボットを見分ける手がかりになる場合があります。このようなAIボットに合わせた高度なヒューリスティック(経験則)セットを開発し、容易かつ正確にAIボットを分類できるようにしました。当社のMLモデルは既にこれらの大部分のリクエストを検出していましたが、追加のヒューリスティックを統合したことで、各ボットの検出率が顕著に上昇し、すべてのリクエストを100%正しくスコアリングできるようになりました。純粋な機械学習によるアプローチからヒューリスティックを組み込むことには、検出時間の短縮、分類の確実性の向上など、いくつかの利点があります。機械学習モデルのデプロイは複雑で時間がかかりますが、新しいヒューリスティックは数分で作成することができます。
AIボットブロックボタンの初回導入は高く評価され、現在13万3000以上のWebサイトで使用されており、当社の無料枠のお客様にも広く導入されています。2024年8月20日にリリースされた新しく更新されたボタンは急速な支持を受け、すでに9万以上のゾーンがこの新しいルールを採用しており、毎時約240の新しいサイトが統合しています。全体として、14万6,000以上のサイトの知的財産をAIボットから保護するのに役立っており、現在、この新しいルールは1日あたり6,600万件のリクエストをブロックしています。さらに、今年年末までにTerraformを介したAIボット保護の設定のサポートが利用可能になる予定です。これにより、ボット保護設定の管理でより柔軟に、制御できるようになります。
ボットの挙動
検出能力の向上に伴い、これらの変更がインターネット上のボット活動に与える影響を評価することが重要です。アップデートしたAIボットブロックボタンのリリース以来、私たちはボットの活動と適応戦略の変化を注意深く監視してきました。私たちがAIボットを識別するために使用する最も基本的なフィンガープリンティング技術は、シンプルなユーザーエージェントの一致を探すことです。ユーザーエージェントとの一致を監視することは、ボットがWebサイトをクロールしているときに自分の身分を明かしていることを示すため重要です。
以下のグラフは、過去2か月間にAIボットとラベル付けされたトラフィックの量を示しています。青い線は日々のリクエスト数を示し、赤色の線は月ごとの平均リクエスト数を表しています。過去2か月間で平均3,000万件近くのリクエストが減少しており、直近の月は4,000万件減少しました。この減少は、ボタンv1とボタンv2のリリースの時期と一致しています。私たちの仮説は、新しいAIボットブロック機能により、Cloudflareがこれらのボットの大部分をブロックし、ボットがクロールするのを妨げているというものです。
この仮説は、いくつかの上位AIクローラーからのリクエストの減少によって裏付けられています。具体的には、6月末に1日あたり約1億件あったBytespiderボットのリクエストが、8月末までにわずか5,000万件にまで減っています(下のグラフ参照)。この減少は、新しいAIボットのブロックボタンやクローラー戦略の変更など、いくつかの要因に起因すると考えられます。
いくつかのAIクローラーの自身の行為における責任が向上していることも観察されています。私たちがAIボットを識別するために使用する最も基本的なフィンガープリンティング技術は、シンプルなユーザーエージェントの一致を探すことです。ユーザーエージェントとの一致を監視することは、ボットがWebサイトをクロールしているときに自分の身分を明かしていることを示すため重要です。最近では、これらのクローラーが自らのエージェントを使用する頻度が増えており、より透明で責任ある行動へのシフトが見られます。特に、Perplexityユーザーエージェントからのリクエスト数が大幅に急増しています。この増加は、Perplexityがユーザーエージェントを適切に提示しなかったという以前の指摘に関連している可能性があり、より優れた識別とコンプライアンスを確保するためのアプローチの変化を促した可能性があります。
これらの傾向は、当社のアップデートがAIクローラーのコンテンツとのインタラクションに影響を与えている可能性を示唆しています。引き続きAIボットの活動を監視し、ユーザーが自分のコンテンツに誰が、どのようにアクセスするかを制御できるようにしていきます。私たちは、新たなパターンに目を光らせることで、トラフィック管理に関する意思決定を行うために必要なツールとインサイトをユーザーに提供することを目指しています。
まとめ
Cloudflareのダッシュボードをさらに使いやすくする方法や、防御すべき新しい脅威を見つけるなど、AI環境を探求し続けることを楽しみにしています。Radarでの当社のAIインサイトはほぼリアルタイムで更新されます。新しいトレンドが出現した際は、Cloudflareコミュニティでその話題について共有してください。