新規投稿のお知らせを受信されたい方は、サブスクリプションをご登録ください:

コンテンツにアクセスするAIモデルの監査と制御を開始

2024-09-23

1分で読了
この投稿はEnglish繁體中文한국어Español简体中文でも表示されます。

サイト所有者はこれまで、AIサービスが自分の管理するコンテンツを、どのような目的(トレーニングやその他の目的)で使用できるかを制御する手段を持っていませんでした。本日、Cloudflareは、サイト所有者、クリエイター、パブリッシャーが、AI関連のボットやクローラーに、自分のコンテンツの利用方法を簡単に制御できる一連のツールをリリースします。Cloudflareのすべてのお客様は、AIモデルがお客様のサイト上のコンテンツにアクセスする方法を監査および制御できるようになります。

この発表では、AIサービスがお客様のサイトをクロールしてアクセスした特定のコンテンツの詳細な分析ビューが提供されますアクティビティはそれぞれグループ化して(AIプロバイダー別、ボットのタイプ別、サイト内で最も人気のあるセクション別)確認することができます。このデータは、追加の設定なしでCloudflare上のすべてのサイトで利用できます。

チームはこの新しいレベルで可視化できる機能を使用して、AIクローラーに対してどこまでを許可するかを判断する必要があります。この決断を下す時間を確保するため、Cloudflareは現在、AIクローラーがどのサイトにもアクセスできないようにワンクリックでブロックできるオプションをダッシュボードに提供しました。チームはこの「一時停止」を利用して、特定のAIプロバイダーやボットの種類を許可させるかどうかを決定することができます。決定後、管理者はCloudflareダッシュボードで新しいフィルターを使用し、わずか数クリックでこれらのポリシーを適用することができます。

一部のお客様は、すでにAI企業と直接交渉することを決めています。これらの契約の多くには、スキャンの頻度やアクセス可能なコンテンツの種類に関する条件が盛り込まれています。当社は、これらのパブリッシャーがこれらの契約の実施を測定するためのツールを持つことを望んでいます。本日の発表の一環として、Cloudflareのお客様は、これらの取り決めで許可されているアクティビティの監査に使用できるレポートをワンクリックで作成できるようになりました。

また、私たちはどのような規模のサイトも、AIモデルが自分のコンテンツを利用することに対して、その対価を徴収できる方法を決められるべきだと考えています。本日の発表では、Cloudflareの新しい収益化機能(サイト所有者が、価格設定、アクセス制御、コンテンツスキャンによる対価を得るためのツール)をプレビューします。

そもそも何が問題か?

最近まで、インターネット上のボットやスクレイパーは主に「良性」と「悪性」の2つのカテゴリに分類されていました。検索エンジンクローラーのような「良性」のボットは、閲覧者が自分のサイトを見つけて訪問者数を獲得するのに役立ちます。「悪性」ボットは、サイトをダウンさせたり、アクセスを横入したり、競合他社のデータのスクレイピングを試みます。お客様がこの2つの幅広いカテゴリを区別し、許可またはブロックできるようにするために、Cloudflareボット管理プラットフォームを構築しました。

AI大規模言語モデル(LLM)やその他の生成系ツールの台頭により、より厄介な3番目のカテゴリが生まれました。これらのプラットフォームに関連付けられたクローラーは、「悪性」ボットとは異なり、サイトをオフラインにしたり、閲覧者の邪魔をしたりすることはありません。このボットは機密データを盗むことを目的としておらず、単にサイトですでに公開されているものをスキャンすることを目的としています。

ただし、役に立つボットとは異なり、これらのAI関連のクローラーは、必ずしもサイトへの訪問者の増加につながりません。AIデータスクレイパーボットは、お客様のサイトのコンテンツをスキャンして新しい大規模言語モデル(LLM)のトレーニングに使用します。その後、素材はミキサーのようなものに入れられ、他のコンテンツと混ぜ合わせられ、ユーザーの質問に答えるために使われますが、その際には出所が明示されず、ユーザーがお客様のサイトを訪れる必要もありません。別のタイプのクローラーであるAI検索クローラーボットは、お客様のコンテンツをスキャンし、ユーザーの検索に対する回答としてそれを引用しようとします。そのデメリットは、閲覧者はAIによって回答が得られた画面に満足し、お客様のサイトを訪れない可能性があるということです。

この不透明さにより、サイトの所有者は難しい決断を迫られています。サイト所有者は遅れを取り戻そうとする間、不利な立場に置かれます。多くのサイトでは、これらのクローラーはほとんどが「良性」ボットのように見えるため、これらのAIクローラーにコンテンツをスキャンさせることを許可していますが、その結果、AIによって再加工された回答が作成されるため、自分のサイトを訪問する人はますます減少します。

これはオープンなインターネットにリスクをもたらすと私たちは考えています。スキャンを制御し、価値を実現できなければ、サイト所有者はインターネットプロパティを立ち上げたり維持したりすることに意欲を失ってしまいます。クリエイターは、自分のコンテンツを有料の壁の後ろに隠すようになり、最大手のパブリッシャーは直接契約を結ぶようになるでしょう。その結果、AIモデルプロバイダーによって、小さなサイトにある良質なコンテンツを見つけてアクセスすることが困難なものになります。

両者とも、健全で透明性のある権限と価値の交換を行うためのツールを欠いています。本日より、Cloudflareはサイト所有者に、この問題の解決に必要なサービスを提供します。私たちは、すべてのお客様が取り組むべき一連のステップを提案します。

ステップ1:AIモデルが自分のサイトをどのように使用するかを理解する

Cloudflare上のすべてのサイトは、人気のある既知のAIサービスのクロール動作を要約する新しい分析ビューにアクセスできるようになりました。ダッシュボードでサイトを選択し、左側のナビゲーションバーの [AI監査] タブに移動すると、自分のコンテンツに対するAIスキャンの状況を把握することができます。

BLOG-2509 2

AIモデルプロバイダーは、サイトのコンテンツにアクセスするときに、「ボット」または「クローラー」と呼ばれる自動化されたツールを使用してページをスキャンします。ボットはページのコンテンツを要求し、応答をキャプチャし、将来のデータトレーニングセットの一部として保存したり、将来のAI検索エンジンの結果のために記憶します。

これらのボットは、多くの場合、クロール対象のサイトやCloudflareのネットワークに対して身分を明かすために、ユーザーエージェントと呼ばれるリクエストにHTTPヘッダーを含めます。ただし、これらのAIサービスの1つのボットがヘッダーを送信しないこともあり、その際はCloudflareがIPアドレスや行動などの他の手がかりを使って識別します。

身分を明かすボットのヘッダーには、ボット名を含むテキスト文字列の記載があります。たとえば、Anthropicは「ClaudeBot」というボットを使用してインターネット上のサイトをクロールすることがあります。そのサービスがCloudflare上のサイトからページのコンテンツをリクエストすると、CloudflareはユーザーエージェントをClaudeBotとして記録します。

BLOG-2509 3

Cloudflareは、サイトへの訪問から収集したログを取得し、既知のAIボットやクローラーと一致するユーザーエージェントを探します。個々のクローラーのアクティビティを要約し、特定のAIプラットフォームのアクティビティだけをレビューするフィルターも提供します。多くのAI企業は、異なる目的を果たす複数のクローラーを使用しています。OpenAIがサイトをスキャンしてデータスクレイピングを行う場合はGPTBotを使用しますが、新しいAI検索エンジン用にサイトをクロールする場合はOAI- SearchBotを使用します。

こうした違いは重要です。多様な種類のボットからのスキャンは、サイトへの訪問者数やコンテンツの出所に影響を与える可能性があります。AI検索エンジンは、応答の一部としてサイトへのリンクを提供して訪問者を目的のサイトに送る可能性があります。その場合、そういったボットがあなたのインターネットプロパティをクロールことに対してオープンである可能性があります。一方、AIデータスクレイパーは、将来のモデルのトレーニングや既存のモデルの改善のために、インターネットをできるだけ多く読み取るために存在しています。

私たちは、いつ、どのくらいの頻度で、ボットがお自分のサイトをクロールするのかを知る必要があると考えています。本日のリリースでは、「AIデータスクレイパー」、「AI検索クローラー」、「アーカイバー」などのカテゴリごとにボットアクティビティを確認できるフィルターが提供されます。

BLOG-2509 4

このデータを使用して、AIモデルの自分のサイトに対するアクセス状況を分析することができます。特に、コンテンツに対するAIスキャンの処理方法をチームがまだ決めていない場合、この情報の多さにどうすれば良いか分からないと思います。その場合は、ステップ2に進んでください。

ステップ2:次に何をするか決めるために一旦立ち止まる

私たちは、AIクローラーにとって自分たちのサイトが価値ある目的地だと認識しているものの、まだどう対処すべきか分からない複数の組織と話をしました。これらのチームは、自分たちのデータをこれらのサービスにどのように提供するかを慎重に決めるための「タイムアウト」が必要です。

Cloudflareはその簡単なボタンを今すぐ提供します。どのプランのお客様でも、すべてのAIボットとクローラーをブロックすることができ、許可する内容を決めるまで一旦立ち止まることができます。

このオプションを実装するには、Cloudflareダッシュボードの [セキュリティ] タブにある「ボット」セクションに移動します。右上隅にある青いリンクを使用して、Cloudflareのプロキシがボットトラフィックを処理する方法を設定します。次に、「AIスクレイパーとクローラーをブロックする」カードのボタンを「オン」の位置に切り替えます。

BLOG-2509 5

ワンクリックオプションを使用すると、Cloudflareが管理するリストに基づいて、既知のAI関連ボットやクローラーが自分のサイトにアクセスするのをブロックすることができます。ブロックを有効にすると、お客様とチームがコンテンツに関しての処理方法を多少時間をかけて決めることができます。

ステップ3許可したいボットを制御する

一時停止ボタンを使用することで、チームはクローラーに対する自分のコンテンツの向き合い方を多少の時間をかけて決めることができます。チームが決定を下したら、Cloudflareのネットワークを活用してそのポリシーを実行することができます。

その決定が、「どのようなクローリングも許可しない」となった場合、上記のブロックボタンを「オン」に切り替えたままにすることができます。スキャンを選択的に許可したい場合、本日のリリースで提供される、特定の種類のボット、または特定のプロバイダーからのボットのみのコンテンツへのアクセスを許可するオプションを使用することができます。

AI検索エンジンに関連するボットであれば、自分のサイトに訪問者を誘導できる可能性があるため、スキャンを許可したいというチームもあるでしょう。その他に、特定のモデルプロバイダーと契約を結んでおり、そのプロバイダーのものであれば全種類のボットにコンテンツへのアクセスを許可したいと考える組織もいるでしょう。お客様はCloudflareダッシュボードのWAFセクションから、これらを実現できるポリシーを実装することができるようになりました。

BLOG-2509 6

また、管理者は、例えば特定のプラットフォームからのAIボットを除くすべてのAIボットをブロックするルールを作成することもできます。チームがある1つのAIモデルプロバイダーとそのポリシーに満足しており、その他のAIプラットフォームに対して懐疑的である場合、このタイプのフィルターを導入できます。この種のルールは、サイト所有者が単一プロバイダーからのスキャンを許可するよう交渉した場合の契約の実装にも使用できます。サイト管理者は、すべての種類のAI関連ボットをブロックするルールを作成し、特定のボット(またはAIパートナーからのボット)を許可する例外を追加する必要があります。

BLOG-2509 7

また、これらの新しいフィルターの適用に加え、この新しいユースケースをカバーするようにサービス利用規約を更新することを検討することをお勧めします。私たちは、「善良な市民」ボットやクローラーがrobots.txtファイルに従うべき手順を文書化しています。そのベストプラクティスの延長として、新たに利用規約のサンプルセクションを文書に追加しました。このセクションでは、サイト所有者が、AIスキャンがrobots.txtファイルに定めたポリシーに従う必要があることを明確にするために使用することを検討できるサンプルのサービス利用規約セクションを提供します。

ステップ4:既存のスキャン設定を監査する

コンテンツの読み取りへの対価について、モデルプロバイダーと直接契約を交わすサイトが増えています。これらの契約の多くには、特定のセクションまたはサイト全体のクロール頻度に対する取り決めについて記載された規定があります。Cloudflareの [AI監査] タブでは、その種の契約を監視するためのツールが提供されています。

AI監査ツールの下部にある表には、ページ上部で設定したフィルターに基づいた期間内で最も多くスキャンされたサイトの人気コンテンツが、スキャン回数順に一覧表示されます。[CSVにエクスポート] ボタンをクリックすれば、ここに表示された詳細をファイルにダウンロードすることができ、コンテンツへのアクセスを許可しているAIプラットフォームとの矛盾について議論する際に使用することができます。

BLOG-2509 8

現在、利用可能なデータは、特定のページに対するリクエストやサイト全体に対するリクエストなど、このような契約を結んでいるお客様から提供された主要な指標を反映しています。

ステップ5:AIスキャンから対価を得るための準備をする

誰もがAI企業と契約内容を交渉できるだけの時間や人脈を持っているわけではありません。これまでは、インターネット上の大手パブリッシャーのみが、そのような条件を設定し、自分たちのコンテンツに対して報酬を得るためのリソースを持っていました。

それ以外の人たちは、自分のデータがどのように扱われるかについて、「すべてのスキャンをブロックする」か、「無制限にアクセスを許可する」かの2つの基本的な選択肢しかありません。本日のリリースにより、コンテンツクリエーターたちはこの2つの選択肢だけでなくより多くの可視性とコントロールを得ることができますが、インターネット上の多くのサイトは、収益化の道筋がまだ整っていません。

私たちは、どのような規模のサイトでも、コンテンツの使用に対して公平な対価が支払われるべきだと考えています。Cloudflareでは、単にクロールをブロックして分析するだけに留まらない、ダッシュボードの新しいコンポーネントを立ち上げる予定です。サイト所有者は、サイトまたはサイトのセクションの価格を設定し、スキャンと設定された価格に基づいてモデルプロバイダーに請求することができます。残りの作業はCloudflareが行いますので、お客様は訪問者のための素晴らしいコンテンツの制作に集中できます。

この新しいコンポーネントを通じて対価を得るための最速の方法は、お客様のサイトがCloudflareのネットワークを使用していることを確認することです。サイトが最初にCloudflareに参加した日付に基づいて、ベータ版への参加を招待する予定です。利用可能になり次第、お知らせを受け取りたい方は、こちらからお知らせください

BLOG-2509 9

Cloudflareは企業ネットワーク全体を保護し、お客様がインターネット規模のアプリケーションを効率的に構築し、あらゆるWebサイトやインターネットアプリケーションを高速化し、DDoS攻撃を退けハッカーの侵入を防ぎゼロトラスト導入を推進できるようお手伝いしています。

ご使用のデバイスから1.1.1.1 にアクセスし、インターネットを高速化し安全性を高めるCloudflareの無料アプリをご利用ください。

より良いインターネットの構築支援という当社の使命について、詳しくはこちらをご覧ください。新たなキャリアの方向性を模索中の方は、当社の求人情報をご覧ください。
Birthday WeekAI BotsAILLM

Xでフォロー

Cloudflare|@cloudflare

関連ブログ投稿

2024年9月23日 13:00

Network performance update: Birthday Week 2024

Since June 2021, we’ve been measuring and ranking our network performance against the top global networks in the world. We use this data to improve our performance, and to share the results of those initiatives. In this post, we’re going to share with you how network performance has changed since our last post in March 2024, and discuss the tools and processes we are using to assess network performance. ...