Webクローラーは新しいものではありません。World Wide Web Wandererは1993年にデビューしましたが、クローラーとインデクサーを本格的に使用した最初のWeb検索エンジンはJumpStationとWebCrawlerでした。クローラーは、インターネットの成功の基盤の1つである検索の一部です。主な目的は、インターネット全体のWebサイトのコンテンツにインデックスを付け、Webサイトが検索エンジンの結果に表示され、ユーザーを適切に誘導できるようにすることです。このブログ記事では、AIの台頭に伴い、新たに重要で複雑な役割を果たすようになったWebクローリングの最近の傾向を分析しています。
すべてのクローラーが同じというわけではありません。ボット、インターネット上でタスクを実行する自動スクリプトには、さまざまな形態があります。「良性」と見なされるもの(APIクライアント、Googlebotのような検索インデックス作成ボット、ヘルスチェックツールなど)や、「悪性」と見なされるもの(クレデンシャルスタッフィング、スパム、許可なくコンテンツをスクレイピングするものなど)です。実際、Cloudflare Radarのデータによると、現在世界の世界のWebトラフィックの約30%がボットから来ており、場所によっては人間のインターネットトラフィックを超えています。
AIクローラーという新しいカテゴリーが近年登場しました。こうしたボットは、Web全体からデータを収集してAIモデルを訓練し、ツールや体験を改善する一方で、コンテンツの権利、無許可使用、インフラの過負荷といった問題も引き起こします。当社では、検索クローラーとAIクローラーの両方の成長を確認し、特定のAIクローラーを調査し、より広範なクローラーの使用状況を理解することを目指しました。
AIの急速な導入、コンテンツ権利に関する懸念の増大、データプライバシーに関する議論が進む中で、これはますます関連性を増しています。一部のサイトやクリエイターは、robots.txt
やファイアウォールルールのようなツールを使ってAIクローラーを制限またはブロックしようとしています。また、オランダのインディーズゲームメーカーで起業家のPieter Levels氏は、次のように受け入れています。「AIクローラーは100%問題ありません…非常に重要なのはLLM[大規模言語モデル]のランキングの方です」
クローラーにはさまざまな目的があることに留意することが重要です。たとえば、facebookexternalhit
ボットは、Facebookが共有リンクのプレビューを生成する際にページコンテンツを取得するために使用しているため、この分析には含まれていません。ただし、この投稿では、Webサイトのコンテンツをインデックス化またはスクレイピングしているAIおよび検索クローラーにのみ焦点を当てています。
AIクローラーのみの視点
まずは、Cloudflare Radarで現在把握している、AI関連と明示されているクローラーに限定した「AIクローラーのみの視点」から始めましょう。これらを特定するために、主にLLM(大規模言語モデル)の訓練に使用されるAIクローラーへのアクセス管理に役立つオープンソースプロジェクトから派生したリストを使用しています。また、robots.txt
ファイルに何を記載すべきかに関するガイドラインも提供しています(これについては後述)。以下に示すデータは、クローラー名とHTTPリクエストのユーザーエージェントの文字列の照合に基づいています(この方法と、1件の例外を含む詳細については、ブログ記事の末尾に記載しています)。
AIクローラーの状況は、2024年5月から2025年5月の間に大きく変化しました。GPTBot
(OpenAI)が5%から30%に急上昇し、支配的な存在となりました。また、Meta-ExternalAgent
(Meta)が19%のシェアで強力な新規参入を果たしました。この成長は、以前のリーダーであったBytespider
の42%から7%への急落や、ClaudeBot
やAmazonbot
といった他のAIクローラーの減少によって生じたものです。当社のデータは、主要AIクローラーの序列が変化し、OpenAIとMetaの存在感がこの分野で急速に高まっていることを明確に示しています。
2024年5月
2025年5月
ランク | ボット名 | シェア(2024年5月) | ランク | ボット名 | シェア(2025年5月) |
1 | Bytespider | 42% | 1 | GPTBot | 30% |
2 | ClaudeBot | 27% | 2 | ClaudeBot | 21% |
3 | Amazonbot | 21% | 3 | Meta-ExternalAgent | 19% |
4 | GPTBot | 5% | 4 | Amazonbot | 11% |
5 | Applebot | 4.1% | 5 | Bytespider | 7.2% |
ランク | ボット名 | シェア(2024年5月) | ランク | ボット名 | シェア(2025年5月) |
---|---|---|---|---|---|
1 | Bytespider | 42% | 1 | GPTBot | 30% |
2 | ClaudeBot | 27% | 2 | ClaudeBot | 21% |
3 | Amazonbot | 21% | 3 | Meta-ExternalAgent | 19% |
4 | GPTBot | 5% | 4 | Amazonbot | 11% |
5 | Applebot | 4.1% | 5 | Bytespider | 7.2% |
追加の文脈として、以下のリストには、上記のクローリングシェアが高いボットに関するさらなる情報が含まれています。この情報は、上述と同じオープンソースのリストやOpenAIなどの企業による、クローラーの使用方法を説明した出版物から得たものです。
GPTBot – ChatGPTのような大規模な言語モデルの改善と訓練に使用されるOpenAIのクローラー。
ClaudeBot – Claude AIアシスタントのトレーニングと更新のためのAnthropicのクローラーです。
Meta-ExternalAgent – LLMのトレーニングや微調整のためのデータ収集に使われる可能性が高いMetaのボット。
Amazonbot – 検索やAIアプリケーションのためにデータを収集するAmazonのクローラー。
Bytespider – ByteDanceのAIデータコレクターで、ErnyやTikTok関連のAIなどのトレーニングモデルにリンクされていることが多いです。
Applebot – 主にSiriやSpotlight検索用のAppleのWebクローラーで、AI開発で使用される可能性があります。
OAI-SearchBot – OpenAIの検索に特化したクローラーで、モデル用のリアルタイムWeb情報を取得するために使用される可能性が高いです。
ChatGPT-User – ユーザーとのインタラクションに関連する、ChatGPTのAPIベースまたはブラウザの使用状況を示します。
PerplexityBot – Perplexity.aiのクローラーで、リアルタイムのWebデータを利用してAI応答エンジンを強化します。
Webマスターは、robots.txt
というファイルにルールを設定することで、これらのボットやクローラーが自分のコンテンツにアクセスするかどうかをクローラーオペレーターに通知できます。クローラーにどのページにアクセスすべきか、またはアクセスすべきでないかを伝えます。近年見られるように、クローラーがrobots.txt
ポリシーを遵守することは任意ですが、CloudflareはAI Auditのようなツールを発表し、コンテンツクリエイターがそれを強制できるようにしています。
これまで見てきたように、Webクローリングの状況は検索エンジンとAIの役割の融合によって急速に進化しています。AIは今や検索に深く統合されており、GoogleのAI OverviewやAI Modeに見られるだけでなく、Instagram上のMeta AIのようなソーシャルメディアプラットフォームにも見られます。それでは、これらのより広範なAI駆動型クロール活動を含めて、分析を広げましょう。
一般的なAIと検索クローリングの成長:+18%
より広い視点で見ると、2025年の最初の数か月間に検索とAIクローラーの両方からのクローリングトラフィックが増加していることが明らかになります。顧客成長のバイアスを取り除くために、特定の週(Cloudflare Radar Year in Reviewで使用した方法)を用いてトレンドを分析します。具体的には、2024年5月の第1週、2024年11月の任意の週、2025年4月の第1週が対象です。
この方法により、2024年5月から2025年5月にかけてAIと検索クローラーのトラフィックが18%増加したことがわかりました(各月の全期間を比較)。この期間中に追加されたCloudflareの新規顧客を含めると、増加率は48%に達しました。AIのピークと検索クローリングトラフィックは2025年4月に発生し、2024年5月と比較して32%増加しました。これにより、クローリングトラフィックが過去1年間で明らかに増加したことが確認されますが、その成長は常に一定ではないことも示されています。Googleは依然として支配的なプレーヤーであり、次のセクションで見るように、そのシェアも拡大しています。
次のグラフが示すように、クローリングトラフィックは2025年3月と4月に急増し、5月にはわずかに低下したものの、高い水準を維持しました。
上記のクローリングチャートのパターンは、より広範な季節的パターンと一般的な人間のインターネットトラフィックパターンを反映しているようです。2024年、北半球では夏にトラフィックが減少し、8月と9月が最も活動が少ない月でした。そして、過去の分析でも見られたように、ショッピングや季節的な習慣により人々がオンラインになる傾向のある11月には、インターネットトラフィック全体と同様に再び増加しました。
Googlebotのクローリングは1年間で96%増加
Google検索のためにコンテンツをインデックス化するGooglebot
は、この期間を通じて明らかにトップのクローラーであり、力強い成長を示しました。2024年5月から2025年5月の間で、Googlebotのクローリングは96%増加し、Googleによるクローリング活動の増加を反映しています。クローリングトラフィックのピークは2025年4月に記録され、2024年5月と比較して145%高い水準に達しました。また、Googleがこの時期に検索エンジンの変更を行い、AI Overviewを検索エンジンでローンチしたことにも言及する必要があります。まず、2024年5月に米国で開始し、その後さらに多くの国でサービスを開始しました。
Google関連クローラーの日次データを見ると、下のグラフに示されているように、2つの傾向が際立っています。1つ目は、Googlebot
と最近のGoogleOther
(「調査開発」向けの2023年からのWebクローラー)が、Googleによるクローリング活動の大部分を占めていることです。2つ目は、クローリングトラフィックの目に見える減少が2つありました。1つは2024年12月14日(Google検索アップデート前後)、もう1つは2025年5月20日から5月28日にかけてでした。5月20日のトラフィック低下は、米国でのGoogle検索におけるAIモードの導入とほぼ同時期に発生しましたが、このタイミングは偶然かもしれません。
上位20のAIおよび検索Webクローラーの内訳
クローラーを総リクエスト数に占めるシェアによりランク付けすることで、特に検索とAIに焦点を当てたボットの中で、どのボットが勢力を増しているか、または勢力を失いつつあるのかをより明確に把握することができます。以下の表から、一部のAIボットは昨年以降急速に増加しています(増加は以前から始まっています)。その一方で、従来の検索クローラーの多くは横ばいまたはシェアを失いました(BingとそのBingbot
クローラーのケースのように)。主要な例外はGooglebot
です。
次の表は、Cloudflareが2024年5月および2025年5月に観測した30以上のAIおよび検索クローラーの特定のコホートによって生成された全クローリングトラフィックに占める各クローラーのシェアを示しています。以下の表には、パーセンテージポイントの変化とリクエストの実数の増減も含まれています。クローラーは2025年5月のシェアによってランク付けされています。主なクローラーの変化には、GPTBot
が急上昇(+305%)したのに対し、Bytespider
は大幅に減少(-85%)しています。
ランク | ボット名 | シェア 2024年5月 | シェア 2025年5月 | Δパーセントポイントの変化 | リクエストの実数の増加(2024年5月~2025年5月) |
1 | Googlebot | 30% | 50% | +20 pp | 96% |
2 | Bingbot | 10% | 8.7% | -1.3 pp | 2% |
3 | GPTBot | 2.2% | 7.7% | +5.5 pp | 305% |
4 | ClaudeBot | 11.7% | 5.4% | -6.3 pp | -46% |
5 | GoogleOther | 4.4% | 4.3% | -0.1 pp | 14% |
6 | Amazonbot | 7.6% | 4.2% | -3.4 pp | -35% |
7 | Googlebot-Image | 4.5% | 3.3% | -1.2 pp | -13% |
8 | Bytespider | 22.8% | 2.9% | -19.8 pp | -85% |
9 | Yandex | 2.8% | 2.2% | -0.7 pp | -10% |
10 | ChatGPT-User | 0.1% | 1.3% | +1.2 pp | 2,825% |
11 | Applebot | 1.9% | 1.2% | -0.7 pp | -26% |
12 | Timpibot | 0.3% | 0.6% | +0.3 pp | 133% |
13 | Baiduspider | 0.5% | 0.4% | -0.1 pp | 7% |
14 | PerplexityBot | <0.01% | 0.2% | +0.2 pp | 157.490% |
15 | DuckDuckBot | 0.2% | 0.1% | -0.1 pp | -16% |
16 | SeznamBot | 0.1% | 0.1% |
| 2% |
17 | Yeti | 0.1% | 0.1% |
| 47% |
18 | coccocbot | 0.1% | 0.1% |
| -3% |
19 | Sogou | 0.1% | 0.1% |
| -22% |
20 | Yahoo! Slurp | 0.1% | 0.0% | -0.1 pp | -8% |
ランク | ボット名 | 2024年5月のシェア | 2025年5月のシェア | Δパーセントポイントの変化 | リクエストの実数の増加(2024年5月~2025年5月) |
---|---|---|---|---|---|
1 | Googlebot | 30% | 50% | +20 pp | 96% |
2 | Bingbot | 10% | 8.7% | -1.3 pp | 2% |
3 | GPTBot | 2.2% | 7.7% | +5.5 pp | 305% |
4 | ClaudeBot | 11.7% | 5.4% | -6.3 pp | -46% |
5 | GoogleOther | 4.4% | 4.3% | -0.1 pp | 14% |
6 | Amazonbot | 7.6% | 4.2% | -3.4 pp | -35% |
7 | Googlebot-Image | 4.5% | 3.3% | -1.2 pp | -13% |
8 | Bytespider | 22.8% | 2.9% | -19.8 pp | -85% |
9 | Yandex | 2.8% | 2.2% | -0.7 pp | -10% |
10 | ChatGPT-User | 0.1% | 1.3% | +1.2 pp | 2,825% |
11 | Applebot | 1.9% | 1.2% | -0.7 pp | -26% |
12 | Timpibot | 0.3% | 0.6% | +0.3 pp | 133% |
13 | Baiduspider | 0.5% | 0.4% | -0.1 pp | 7% |
14 | PerplexityBot | <0.01% | 0.2% | +0.2 pp | 157.490% |
15 | DuckDuckBot | 0.2% | 0.1% | -0.1 pp | -16% |
16 | SeznamBot | 0.1% | 0.1% | 2% | |
17 | Yeti | 0.1% | 0.1% | 47% | |
18 | coccocbot | 0.1% | 0.1% | -3% | |
19 | Sogou | 0.1% | 0.1% | -22% | |
20 | Yahoo!Slurp | 0.1% | 0.0% | -0.1 pp | -8% |
このデータに基づくと、2024年5月~2025年5月にかけてWebクローリングに2つの大きな変化が起こりました。
1. 一部のAIクローラーが急上昇
GPTBot
(OpenAI)はシェアが2.2%から7.7%に増加し(+5.5 pp)、リクエスト数は305%増加しました。これは、ChatGPTのような大規模言語モデルを訓練するためのデータ需要の高まりを浮き彫りにしています。GPTBot
は、2024年5月時点で9位だったのが、2025年5月には3位にまで急上昇しました。
別のOpenAIクローラーであるChatGPT-User
では、リクエスト数が2,825%急増し、シェアは1.3%に達しました。これは、Webコンテンツへのアクセスを伴うChatGPTユーザーアクティビティやAPIベースのインタラクションが大幅に増加したことを反映しています。PerplexityBot
(Perplexity.ai)は、0.2%という小さなシェアにもかかわらず、リクエストの実数で157,490%という驚異的な増加率を記録しました。
一方、AIクローラーの中には急激な減少が見られたものもあります。ClaudeBot
(Anthropic)は、全トラフィックに占めるシェアが11.7%から5.4%に低下し、リクエスト数は46%減少しました。Bytespider
はリクエスト数が85%急減し、クローラーのシェアは2位から8位にまで転落しました(現在はわずか2.9%)。
Amazonbot
とApplebot
の両方がAIクローラーと見なされ、シェアとリクエストの実数の両方で減少が見られました(それぞれ–35%と–26%)。
2. Googleの支配力が拡大
Googlebot
のシェアは30%から50%に上昇し、検索インデックス作成をサポートしましたが、AI関連の目的もある可能性があります(Google検索の新しいAI概要など)。そして、GoogleOther
(2023年に導入されたクローラー)でも、クローリングトラフィックが14%増加しました。Googlebot-News
のように、上位20に入っていない他のGoogleクローラーも大幅に増加しています(リクエスト数が71%増)。Google関連のWebクローラーは、AIと検索の統合に多額の投資が行われている時期に、成長の明確な傾向を示しています。
また、検索カテゴリでは、Bingbot
(Microsoft)のシェアが10%から8.7%にわずかに減少したものの(-1.3pps)、リクエストの実数は2%と控えめに増加しています。
これらの傾向は、WebクローリングがGoogleとOpenAIのボットによってますます支配されており、1年を通じた明確な変化を反映しています。Googleはまた、従来の検索とAI駆動型機能の両方をサポートするために、データ収集方法を調整しているようです。
また、注目すべきは、2025年5月現在でトップ20から脱却したFriendlyCrawler
です(現在は35位)。2024年5月はシェア0.2%で14位でしたが、2025年5月までにリクエストが100%減少しました。このボットは、Webサイトのコンテンツにインデックスを付け、分析することで知られていますが、その所有者や目的は不明です。通常、このようなクローラーは、検索結果、市場調査、または分析の改善に使用されます。
robots.txtとAIボット:GPTBotが2倍のリードを取る
2025年6月6日時点のCloudflare Radarのデータによると、robots.txtファイルを検出できた3,816のドメイン(上位10,000から)のうち、546のドメイン(約14%)が、特にAIボットを標的とした「allow(許可)」または「disallow(拒否)」の指示(完全または部分的)を含んでいました。
これは、多くのサイト運営者がrobots.txtをAIクローラー管理にどの程度有効活用できているかが不透明であることを示しています。AIボットに特化して使用することを考えていないサイト運営者もいれば、特に新しい、または透明性の低いクローラーに対してAIボットがrobots.txtのルールを遵守するかどうか不安に思うサイト運営者もいます。また、部分的なルールを使用してアクセスを微調整し、完全にオプトインまたはオプトアウトすることなく、可視性と保護のバランスを取ろうとするサイトもあります。
「非許可」ルールは「許可」ルールよりもはるかに頻繁に現れます。最も多くブロックされたボットはGPTBot
で、312ドメインがこれを拒否しており(完全拒否250、部分拒否62)、次いでCCBot
とGoogle-Extended
が続きます。
ただし、GPTBot
は最も多くブロックされた一方で、最も多く明示的に許可されたAIボットでもあります。61のドメインがアクセスを許可しています(18は完全許可、43は部分許可)。それでも、AIボットをオープンに明示的に許可しているサイトはごくわずかで、許可されている場合でも通常は限定セクションに限られています。サイトのrobots.txtに記載されていないボットは、デフォルトで事実上許可されていることに注意してください。
AIクローリングが増えるにつれて、robots.txtのような受動的信号から、Webアプリケーションファイアウォールのような能動的な防御手段へと移行するWebサイトが増えています。エコシステムは変化しており、強制力のある制御手段に重点が置かれるようになっています。
注意:クローラートラフィックを分析する際、robots.txtファイルに記載されたユーザーエージェントトークン(AIクローラー向けのものなど)と、HTTPリクエストに含まれる実際のユーザーエージェント文字列を比較します。Google-Extendedなど、一部のrobots.txtトークンはユーザーエージェントの部分文字列ではないことに注意が必要です。RFC 9309に記載されているように、これらのトークンの目的の1つは、クローラーの目的を知らせることかもしれません。たとえば、Googleはrobots.txtでGoogle-Extendedを使用して、コンテンツがAIトレーニングに使用可能かどうかを確認しますが、トラフィック自体は依然としてGooglebotのような標準的なGoogleユーザーエージェントから発生します。このため、すべてのrobots.txtエントリがHTTPリクエストログで直接一致するとは限りません。
まとめ
AIクローラーがインターネットを再構築する中で、Webサイトはオンラインプレゼンスを管理する際に、新たな課題と機会の両方に直面しています。
この分析は、WebクローリングにおけるAIの影響が増大していることを浮き彫りにし、従来の検索インデックス作成からAIモデルのトレーニング用データ収集への明確な移行を示しています。Googlebotの継続的な成長やAI特化型クローラーの急増などの詳細な統計は、この分野がどのように進化しているか、そしてそれがWebコンテンツアクセスの将来にどのような影響を与えるかを理解するための文脈を提供します。
Cloudflareも投資しているように、より強力で強制力のあるブロッキング手法への移行という傾向は、今後WebサイトがAIシステムとのやり取りをどのように制御するかに大きな変化を示しています。