新規投稿のお知らせを受信されたい方は、サブスクリプションをご登録ください:

Redirects for AI Trainingによる正規コンテンツの適用

2026-04-17

7分で読了
この投稿はEnglishおよび한국어でも表示されます。

このコンテンツは自動機械翻訳サービスによる翻訳版であり、皆さまの便宜のために提供しています。原本の英語版と異なる誤り、省略、解釈の微妙な違いが含まれる場合があります。ご不明な点がある場合は、英語版原本をご確認ください。

CloudflareのWrangler CLIは、過去6年間で複数のメジャーバージョンを公開しており、それぞれにコマンド、設定、または開発者がプラットフォームとやり取りする方法に対するいくつかの重大な変更が含まれています。積極的に維持されているオープンソースプロジェクトと同様に、古いバージョンのドキュメントも用意しています。v1 ドキュメント には、非推奨バナー、noindex メタタグ、および現在のドキュメントを指す canonical タグが含まれています。どのアドバイザリーシグナルも同じことを言っています。「このコンテンツは時代遅れです。他の場所を探してください」と。AIの学習用クローラーは、これらのシグナルを確実に尊重しません。

AI Crawl Controldevelopers.cloudflare.com で使用しています。そのため、AIクローラーカテゴリーのボットは過去30日間に480万回訪問し、非推奨のコンテンツを現在のコンテンツと同じ速度で消費したことがわかります。アドバイザリーシグナルは測定可能な違いをもたらしませんでした。AIエージェントは常にライブコンテンツをフェッチするわけではないため、この影響が出ます。訓練されたモデルに基づいていますクローラーが非推奨のドキュメントを読み込むと、エージェントは古い基盤を引き継ぎます。

本日、AIトレーニングのRedirectsを開始し、検証済みのAIトレーニングクローラーを最新のコンテンツにリダイレクトすることを強制できるようにします。既存の正規タグは、すべての有料Cloudflareプランで、1つのトグルで自動的に、検証済みAIトレーニングクローラーのHTTP 301リダイレクトになります。

また、ステータスコードは最終的にはWebがクローラーにポリシーを伝える方法であるため、 RadarのAI Insights ページには、さまざまなタイプ( 成功 2xx )、 リダイレクト ( 3xx )、 クライアントエラー 4xx )、および サーバーエラー 5xx ))を示すレスポンスステータスコード分析 が含まれるようになりました。これは、AIクローラーがすべてのCloudflareトラフィックで受信するステータスコードを、今日のWebがAIクローラーにどのように応答しているかを示すものとして表示します。

AI学習用クローラーの限界に直面

検索エンジンにとって、noindexはリッチシグナルシステムとして機能しますが、ページが「これでトレーニングしないでください」と示すような同等のインラインディレクティブはありません。非推奨のページを警告バナーで公開すれば、人間は通知を読んで移動するので、機能するかもしれませんが、AIの学習に利用されるクローラーは全文を取り込み、バナーを単なる段落として扱って、警告が表示された後も何千回も返される危険性があります。可視化が可能です。

ブロッキングは独自の問題を引き起こします。クローラーが代わりに学習すべきことについてのシグナルがない、空が生成されるのです。robots.txtは限定的な保護を提供しますが、自動化されたトラフィックが増加するにつれて、クローラーごと、パスごと、コンテンツ更新ごとのディレクティブを維持するには、多大な手作業による維持管理が必要です。クローラーに必要なのは、「現在のコンテンツはここにあります」という具体的な指示です。

<link rel="canonical">タグは、RFC 6596で定義されているHTML要素で、検索エンジンと自動システムに、どのURLがページの正規バージョンを表しているかを伝えます。すでにWebページの65-69%に存在しており、EmDash、WordPress、Contentfulなどのプラットフォームによって自動的に生成されています。そのインフラストラクチャが、コンテンツの現在のバージョンを宣言し、AIトレーニング用リダイレクトがそれを強制します。

仕組み

AIトレーニングのリダイレクトは、Cloudflareのcf.verified_bot_categoryフィールドと、既存のHTMLにある<link rel="canonical">タグの2つの入力に基づいて動作します。AIクローラーカテゴリは、GPTBot、ClaudeBot、Bytespiderなど、AIモデルのトレーニングのためにクロールするボットを対象とし、AIエージェントを対象とするAIアシスタントおよびAI Searchカテゴリとは異なります。

検証済みのAIクローラーからリクエストが届くと、CloudflareはレスポンスのHTMLを読みます。自己参照しないcanonicalタグが存在する場合、Cloudflareはレスポンスを返す前に、正規のURLに301 Moved Permanentlyを発行します。人間のトラフィック、検索インデックス作成、その他の自動トラフィックには影響がありません。

非推奨のパスへのGPTBotリクエストの交換は以下のようなものです:

GET /durable-objects/api/legacy-kv-storage-api/

Host: developers.cloudflare.com

User-Agent: Mozilla/5.0 (compatible; GPTBot/1.1; +https://openai.com/gptbot)
HTTP/1.1 301 Moved Permanently

Location: https://developers.cloudflare.com/durable-objects/api/sqlite-storage-api/

この機能でできないこと

既に取り込まれたトレーニングデータに遡って修正したり、AIクローラーボットカテゴリ外の未検証のクローラーを対象にしたりすることはありません。非推奨のページを訪問した人間やAIエージェントはリダイレクトされません。また、クロスオリジン正規化(異なるドメインの希望するURLに誘導するタグ)は、コンテンツの鮮度ではなくドメインの統合に使われることが多いため、設計上除外しています。ループを回避するために、自己参照の正規表現(それ自体のURLを指すページ上のタグ)もリダイレクトをトリガーしません。

リダイレクトルールを使用しない理由は?

単一リダイレクトルールは、ユーザーエージェント文字列でAIクローラーをターゲットにでき、サイトに既知の非推奨パスがほんの数個しかない場合、それで機能します。しかし、規模を拡大できません。新しい非推奨パスへのアクセスはすべてルールの変更が必要で、ユーザーエージェントは手動で追跡する必要があります。そうしなければ、キャンペーンのURLやドメインの移行に使われる可能性のあるプラン制限につながってしまいます。リダイレクトルールは、canonicalタグがすでに宣言しているものを手動で再エンコードすることもでき、コンテンツの変更に伴って同期ができなくなります。

当社のドキュメントサイトで見つかったもの

当社の経験上、この問題は現実的なものとなっています。AI Crawl Controlは、developers.cloudflare.comを、Cloudflareのすべてのお客様が利用できるのと同じダッシュボードを使って実行します。2026年3月、レガシーWorkersドキュメントは、OpenAIによって約46,000回、Anthropicによって3,600回、Metaによって1,700回クロールされました。

この非推奨ページのクローリングは、2026年4月に主要なAIアシスタントに「Wrangler CLIを使用してKV値を書き込むにはどうすればいいですか?」と質問したところ、「Cloudflare KVにはCloudflare KVに書き込みます。Cloudflare KVにはkv:key putコマンドを使って、Wrangler CLIを開始します。」

実際、(2026年4月現在)正しい構文はwrangler kv key put;コロン構文(kv:key put)は、Wrangler 3.60.0で廃止されました。当社のドキュメントにはインライン廃止通知が記載されていますが、トレーニングパイプラインがそれらをどのように解釈するかは不明です。

そこで、developers.cloudflare.comでAIトレーニングのRedirectsを有効にし、応答を測定しました。最初の7日間、AIトレーニングクローラーによる、非自己参照のcanonicalタグを持つページへのリクエストの100%がリダイレクトされ、非推奨のコンテンツは提供されませんでした。

クローラーを現在のコンテンツにリダイレクトすることで、最終的にレガシーツールに関するAIの生成した回答が改善されると期待しています。トレーニングパイプラインの閉鎖的な性質と再クロールタイミングの変動性を考えると、これは私たちが検証を続ける仮説です。しかし、クローラーがアクセスした時点で受信するものは、すぐに改善が見られました。

有効化する方法

サイトにCanonicalタグがある場合、既存のコンテンツ階層を検証済みのAIトレーニングクローラーに対して適用することが可能になります。Cloudflareの検証済みボット分類は、クローラーの識別を自動的に処理します。

ダッシュボードで:任意のドメインで、AI Crawl Control > Quick Actions > AIトレーニング用リダイレクト > オンに切り替えます。

Configuration RulesとCloudflare for SaaSを使用したパス固有の制御については、ドキュメント完全版をご覧ください。

AIクローラーに対するWebの応答方法

AIトレーニング用リダイレクトは、あるステータスコード、301 Moved Permanently をコンテンツポリシーの実施メカニズムに変換します。しかし、301は、オリジンとクローラーの間のより広範な会話における1つのシグナルです。200 OKは、コンテンツが提供されたことを意味します。403 Forbiddenは、アクセスがブロックされたことを意味します。402 Payment Requiredは、クライアントにアクセスの対価を支払う必要があることを伝えます。まとめると、AIクローラーのトラフィック全体におけるステータスコードの分布は、Webが実際に大規模なクローラーに対してどのように応答しているかを明らかにします。

Radarの AI Insightsページには、AIクローラートラフィックにおける上位のレスポンスステータスコードまたはレスポンスステータスコードグループ (ドロップダウンから選択可能)の分布を示すレスポンスステータスコード分析グラフが含まれるようになりました。データは業界セットごとにフィルタリングできます。クロール目的フィルターは、Data Explorerでも適用できます。フィルタリング分析により、特定の種類のクローラーが異なる動作をするか、またはリクエストパターンと分布が業界によって異なるかを把握できます。

以下に示す一般的な例では、グラフでカバーされた期間において、リクエストの70%強が正常に処理され(200)、リクエストの10.1%が別のURLにリダイレクトされ(301302)、3.7%が見つからなかったファイル(404)であったことがわかります。コンテンツへのアクセスはリクエストの8.3%でブロックされ、403レスポンスステータスコードを受信しました。グループ化すると、リクエストのほぼ74%が正常なレスポンス2xx)を受信し、13.7%がクライアントエラーレスポンス4xx)、11.3%がリダイレクトメッセージ3xx)、1.2%がサーバーエラーレスポンス5xx)を送信したことがわかります。

BLOG-3263 2
BLOG-3263 3

この分析は、個々のボットページにも追加されており、クローラーの行動のこの側面についての洞察を提供します。以下に示すGPTBotの例では、グラフでカバーされた期間において、リクエストの80%強が正常に処理され(200)、リクエストの4.7%が別のURLにリダイレクトされ(301302)、見つからなかったファイルはわずか2.7%でした(404)。6%近くがブロックされ、Cloudflareは403レスポンスステータスコードを返しました。グループ化すると、リクエストの83%が正常なレスポンス(2xx)、約10%がクライアントエラーレスポンス4xx)、5.1%がリダイレクトメッセージ3xx)、残りの2.2%がサーバーエラーレスポンス5xx)を受信したことがわかります。

BLOG-3263 4
BLOG-3263 5

前述の通り、RadarのData Explorerでは、追加のフィルターを適用してデータをさらに掘り下げることができます。例えば、どのクローラーが最も多くの存在しないコンテンツを要求しているか(結果として404応答ステータスコードが返される)、そしてその要求トラフィックが時間の経過とともにどのように変化するか、あるいはどの業界リダイレクト3xx)応答ステータスコードをトレーニングクローラーに最も多く送信しているか、そしてそのアクティビティが時間の経過とともにどのように変化するかなどを調べることができます。

BLOG-3263 6
BLOG-3263 7

レスポンスステータスコードデータは、集約およびボットごとに、Cloudflare Radar APIからも利用可能です。

AIトレーニング用リダイレクトにより、クローラーがオリジンから受け取る内容を制御できます。また、Radarのステータスコード分析で、他のWebサイトがどのように対応しているかを確認できます。AI Crawl Control > 概要 > クイックアクションでAIトレーニングのリダイレクトを有効にして、サイトでアドバイザリーシグナルを強制的な結果に置き換えることを今すぐ開始してください。

質問がある場合、または表示されている内容を共有したいですか?Cloudflareコミュニティでディスカッションに参加するか、Discordで私たちを見つけてください。

Cloudflare TVで視聴する

Cloudflareは企業ネットワーク全体を保護し、お客様がインターネット規模のアプリケーションを効率的に構築し、あらゆるWebサイトやインターネットアプリケーションを高速化し、DDoS攻撃を退けハッカーの侵入を防ぎゼロトラスト導入を推進できるようお手伝いしています。

ご使用のデバイスから1.1.1.1 にアクセスし、インターネットを高速化し安全性を高めるCloudflareの無料アプリをご利用ください。

より良いインターネットの構築支援という当社の使命について、詳しくはこちらをご覧ください。新たなキャリアの方向性を模索中の方は、当社の求人情報をご覧ください。
Agents WeekエージェントAIRadarボット管理開発者プラットフォーム開発者

Xでフォロー

David Belson|@dbelson
André Cruz|@edevil
Cloudflare|@cloudflare

関連ブログ投稿

2026年5月01日

動的ワークフローの紹介:テナントに従う耐久性の高い実行

Dynamic Workflowsは、テナントが提供するコードへの耐久性の高い実行をオンザフライでルーティングできるライブラリです。Dynamic Workers上に構築されるため、プラットフォームはアイドル状態のコストをほぼゼロで数百万のユニークワークフローに対応できます。...

2026年4月30日

エージェントは、Cloudflare アカウントの作成、ドメインの購入、デプロイができるようになりました

本日より、エージェントはCloudflareのお客様になります。彼らはCloudflareアカウントを作成し、有料サブスクリプションを開始し、ドメインを登録し、APIトークンを返して、すぐにコードをデプロイできます。人間はループ内で許可を与えますが、ダッシュボードにアクセスしたり、APIトークンをコピー&ペーストしたり、クレジットカードの詳細を入力したりする必要はありません。 ...

2026年4月28日

閉鎖、停電、紛争:2026年第1四半期におけるインターネット障害を振り返る

2026年第1四半期には、ウガンダやイランでの全国的な閉鎖から、クラウドインフラへの前例のないドローン攻撃まで、インターネット障害が急増しました。Cloudflare Radarを使って、これらの事件の裏にあるデータを探ります。...

2026年4月22日

Rust Workersを信頼性を高める:Wasm-bindgenでのパニックと回復を中断する

Rust Workersのパニックは以前は致命的で、インスタンス全体が汚染されていました。Rust Workersは、Wasm-bindgenプロジェクトでアップストリームと共同作業することによって、WebAssembly Integration 全体を使用したパニックからの解消を含む、回復力のある重大なエラーの復旧をサポートするようになりました。...