2026年4月16日

CloudflareのAIプラットフォーム：エージェント用に設計された推論レイヤー

9分で読了

このコンテンツは自動機械翻訳サービスによる翻訳版であり、皆さまの便宜のために提供しています。原本の英語版と異なる誤り、省略、解釈の微妙な違いが含まれる場合があります。ご不明な点がある場合は、英語版原本をご確認ください。

AIモデルは急速に変化しています。現在エージェンティックコーディングに使用するのに最適なモデルも、3か月後には別のプロバイダーからまったく別のモデルになっているかもしれません。その上、現実世界のユースケースでは、複数のモデルを呼び出す必要がある場合がよくあります。カスタマーサポートエージェントは、高速で安価なモデルを使用してユーザーのメッセージを分類するかもしれません。大規模な推論モデルでアクションを計画軽量なモデルで個々のタスクを実行します。

つまり、単一のプロバイダーに財務的・運用的に縛られることなく、すべてのモデルにアクセスする必要があるのです。また、プロバイダー全体のコストを監視し、1つのプロバイダーで障害が発生したときの信頼性を確保し、ユーザーの居場所にかかわらず遅延を管理するために、適切なシステムを導入する必要があります。

こうした課題は、AIで構築する際には必ず発生するものですが、エージェントの構築時はさらに緊急を要する課題となります。単純なチャットボットは、ユーザーのプロンプトごとに1回の推論呼び出しを行うかもしれません。エージェントが1つのタスクを完了するために10回のコールを連鎖させた場合、突然、1つの遅いプロバイダーが50ミリ秒を追加するのではなく、500ミリ秒を追加します。1つの失敗したリクエストは、リトライではなく、突然、ダウンストリームの障害が連鎖して発生します。

AI GatewayとWorkers AIのリリース以来、Cloudflare上でAI搭載アプリケーションを構築する開発者からの多大な採用が見られ、それに対応するために急速に製品を提供してきました。この数か月で、ダッシュボードを刷新し、ゼロセットアップのデフォルトゲートウェイを追加し、アップストリーム障害発生時の自動リトライを実行し、よりきめ細かいログ制御を実装しました。これにより、Cloudflareを統合推論レイヤーにします。1つのAPIが、あらゆるプロバイダーからあらゆるAIモデルにアクセスでき、高速で信頼性が高いものになるように構築しています。

1つのカタログ、1つの統合エンドポイント

本日より、同じAI.run()を使ってサードパーティモデルを呼び出すことができます。Workers AIで既にお使いのバインディングです。Workersを使用している場合、CloudflareがホストするモデルからOpenAI、Anthropic、またはその他のプロバイダーのモデルへの切り替えは1行の変更です。

const response = await env.AI.run('anthropic/claude-opus-4-6',{
input: 'What is Cloudflare?',
}, {
gateway: { id: "default" },
});

Workersをご利用でない方のために、REST APIサポートを今後数週間のうちにリリースする予定です。これにより、どの環境からでもモデルのフルカタログにアクセスできるようになります。

また、12以上のプロバイダーにわたり、70以上のモデルにアクセスできるようになったこともお知らせできて嬉しく思います。すべてを1つのAPI、1つのコードで切り替える仕組み、そしてそれらに対する支払いに1セットのクレジットをご利用いただけるようになりました。そして、当社はこれを急速に拡大していきます。

当社のモデルカタログでは、Cloudflare Workers AIでホストされているオープンソースモデルから、主要なモデルプロバイダーが提供する独自のモデルまで、ユースケースに最適なモデルを見つけることができます。Alibaba Cloud、AssemblyAI、Bytedance、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway、Viduからのモデルへのアクセスを拡大できることを嬉しく思います。これらの企業はAI Gatewayを通してモデルを提供します。特に、モデルの提供を拡大して、画像、動画、音声モデルを含め、マルチモーダルアプリケーションの構築を可能にしています

1つのAPIを通じてすべてのモデルにアクセスできるということは、すべてのAI関連の支出を1つの場所で管理できるということです。現在、ほとんどの企業は、複数のプロバイダーにまたがって平均3.5個のモデルを呼び出しています。つまり、AIの利用状況を全体的に把握できるプロバイダーはひとつもないということです。AI Gatewayを使用すれば、AI支出の監視と管理を一元的に行うことができます。

リクエストにカスタムメタデータを含めることで、無料ユーザーと有料ユーザー、個々の顧客、アプリの特定のワークフロー別の支出など、最も関心を持つ属性におけるコスト内訳を把握することができます。

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5',
      {
prompt: 'What is AI Gateway?'
      },
      {
metadata: { "teamId": "AI", "userId": 12345 }
      }
    );

独自モデルの持ち込み（BYOIP）

AI Gatewayは、1つのAPIを通じてすべてのプロバイダーからのモデルにアクセスできるようにします。しかし、時には独自のデータで微調整したモデルや、特定のユースケースに最適化したモデルを実行する必要がある場合があります。そのため、ユーザーが独自のモデルをWorkers AIに持ち込める取り組みを進めています。

当社のトラフィックの圧倒的多数は、当社のプラットフォームでカスタムモデルを実行しているEnterpriseのお客様の専用インスタンスから発生しており、当社はこれをより多くのお客様に提供したいと考えています。そのために、ReplicateのCog技術を活用して、機械学習モデルのコンテナ化を支援します。

Cogは非常にシンプルに設計されています。必要なのは、cog.yamlファイルに依存関係を記述し、Pythonファイルに推論コードを記述することだけです。Cogは、CUDAの依存関係、Pythonのバージョン、重みの読み込みなど、MLモデルのパッケージ化に関する難しいことをすべて抽象化します。

cog.yamlファイルの例：

build:
  python_version: "3.13"
  python_requirements: requirements.txt
predict: "predict.py:Predictor"

以下は、モデルをセットアップする関数と、推論リクエスト（予測）を受け取ったときに実行される関数を含むpredict.pyファイルの例です。

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
    def setup(self):
        """Load the model into memory to make running multiple predictions efficient"""
        self.net = torch.load("weights.pth")

    def predict(self,
            image: Path = Input(description="Image to enlarge"),
            scale: float = Input(description="Factor to scale image by", default=1.5)
    ) -> Path:
        """Run a single prediction on the model"""
        # ... pre-processing ...
        output = self.net(input)
        # ... post-processing ...
        return output

次に、cog buildを実行してコンテナ画像を構築し、CogコンテナをWorkers AIにプッシュします。モデルは当社がデプロイして提供しますので、ご利用中のWorkers AI APIからご利用いただけます。

私たちは、これをより多くのお客様に提供できるよう、いくつかの大きなプロジェクトに取り組んでいます。たとえば、お客様向けのAPIやWranglerコマンドを使用することで、お客様は独自のコンテナをプッシュできます。また、GPUスナップショットによるコールドスタートの高速化などです。これは、Cloudflareチームと、私たちのビジョンを示してくれる社外のお客様を対象に、社内でテストを行ってきました。当社とのデザインパートナーになることに関心をお持ちの方は、ご連絡ください。間もなく、誰でも自分のモデルをパッケージ化し、Workers AIを通じて使用できるようになります。

最初のトークンまでの最短パス

Workers AIモデルとAI Gatewayの併用は、ライブエージェントの構築に特に強力です。ユーザーの速度に対する認識は、完全な応答時間ではなく、最初のトークンまでの時間（TTFB）やエージェントが応答開始する速さで決まります。たとえ合計推論が3秒であっても、最初のトークンを50ミリ秒速くすることで、エージェントがスピーディに感じるものと遅く感じられるものの差が生まれます。

世界330都市に広がるCloudflareのデータセンターネットワークにより、AI Gatewayはユーザーと推論エンドポイントの両方の近くに配置され、ストリーミング開始前のネットワーク時間を最小限に抑えることができます。

Workers AIは、公開カタログでオープンソースモデルもホストしており、現在、Kimi K2.5やリアルタイムの音声モデルなど、エージェント向けに特別に構築された大規模なモデルが含まれています。これらのCloudflareのホスト型モデルをAI Gatewayを通じて呼び出すと、コードと推論が同じグローバルネットワーク上で実行されるため、パブリックインターネットを介した余分なホップはなく、エージェントの遅延を可能な限り最小化することができます。

自動フェイルオーバーによる信頼性の確保

エージェントを構築する際、ユーザーが重要視する要素は速度だけではありません。信頼性も重要です。エージェントワークフローのすべてのステップは、その前のステップによって異なります。1つの呼び出しの失敗が下流の連鎖全体に影響を与える可能性があるため、信頼できる推論はエージェントにとって非常に重要です。

AI Gatewayを通じて、複数のプロバイダーで利用可能なモデルを呼び出す場合、1つのプロバイダーがダウンした場合、フェイルオーバーロジックを作成することなく、別の利用可能なプロバイダーに自動的にルーティングします。

Agents SDKを使用して長時間実行されるエージェントを構築している場合、ストリーミング推論呼び出しも切断に強いです。AI Gatewayは、エージェントの有効期間に関係なく、生成されたストリーミングレスポンスをバッファリングします。エージェントが推論の途中で中断された場合、AI Gatewayに再接続してレスポンスを取得するために、新たな推論呼び出しを行ったり、同じ出力トークンに対して2回支払いをしたりする必要はありません。Agents SDKに組み込まれたチェックポイントと組み合わせることで、エンドユーザーは決して気付くことはありません。

Replicate

Replicateチームは正式にAIプラットフォームチームに加わりました。もはや別々のチームだとすら考えていません。ReplicateとCloudflareの統合に尽力し、ReplicateモデルをすべてAI Gateway上に取り込み、ホストされたモデルをCloudflareインフラストラクチャ上でリプラットフォームしました。近日中に、Replicateで使用したモデルにAI Gatewayを通じてアクセスし、ReplicateにデプロイしたモデルをWorkers AIでもホストできるようになります。

利用開始

まずは、AI Gateway または Workers AI のドキュメントをご覧ください。Cloudflare上でのエージェント構築の詳細については、Agents SDKをご覧ください。

CloudflareのAIプラットフォーム：エージェント用に設計された推論レイヤー

1つのカタログ、1つの統合エンドポイント

独自モデルの持ち込み（BYOIP）

最初のトークンまでの最短パス

自動フェイルオーバーによる信頼性の確保

Replicate

利用開始

Cloudflare TVで視聴する

関連するタグ

1つのカタログ、1つの統合エンドポイント

独自モデルの持ち込み（BYOIP）

最初のトークンまでの最短パス

自動フェイルオーバーによる信頼性の確保

Replicate

利用開始

Cloudflare TVで視聴する

関連するタグ

新しい投稿のお知らせを受け取るように登録する