AI 模型發展迅速:今日用於智慧編碼的最佳模型,三個月後可能就變成來自不同提供者的完全不同的模型。除此之外,實際應用情境往往需要呼叫多個模型。您的客服智慧體可能會使用一個快速、便宜的模型來對使用者的訊息進行分類;一個大型的推斷模型來規劃行動;以及一個輕量級的模型來執行個別任務。
這意味著您需要能夠存取所有模型,同時在財務與營運上不被單一供應商綁死。您還需要適當的系統來監控跨提供者的成本、在其中一個提供者服務中斷時確保可靠性,以及無論使用者身在何處都能管理延遲。
這些挑戰在您使用 AI 進行開發時始終存在,但在建置智慧體時變得更加迫切。一個簡單的聊天機器人可能針對每個使用者提示進行一次推斷呼叫。而一個智慧體可能會為了完成單一任務而串聯十次呼叫,此時某個緩慢的提供者就不只是增加 50 毫秒,而是增加 500 毫秒。一個失敗的請求也不只是重試一次那麼簡單,而是可能引發一連串的下游故障。
自從推出 AI Gateway 與 Workers AI 以來,我們看到在 Cloudflare 上建置 AI 應用程式的開發人員採用的程度高得驚人,我們也不斷快速推出新功能以跟上腳步!僅僅在過去幾個月,我們已經更新了儀表板、新增了零設定的預設閘道、上游故障時的自動重試,以及更細緻的記錄控制功能。今天,我們要把 Cloudflare 打造成一個統一的推斷層:只要一個 API,就能存取任何提供者的任何 AI 模型,而且速度快、可靠性高。
從今天開始,您可以使用與 Workers AI 相同的 AI.run() 繫結來呼叫第三方模型。如果您正在使用 Workers,將 Cloudflare 代管的模型切換到 OpenAI、Anthropic 或任何其他提供者的模型,只需要改一行程式碼。
const response = await env.AI.run('anthropic/claude-opus-4-6',{
input: 'What is Cloudflare?',
}, {
gateway: { id: "default" },
});
對於不使用 Workers 的開發人員,我們將在接下來幾週內推出 REST API 支援,讓您能從任何環境存取完整的模型目錄。
我們也很高興地宣布,您現在將可以存取橫跨 12 家以上提供者的 70 多個模型——全部透過一個 API、一行切換模型的程式碼,以及一套付費點數就能搞定。而且我們正在持續快速擴充中。
您可以瀏覽我們的模型目錄,為您的使用情境找到最適合的模型,從 Cloudflare Workers AI 代管的開源模型,到各大模型提供者的專有模型。我們很高興能擴展對來自 Alibaba Cloud、AssemblyAI、Bytedance、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway 和 Vidu 之模型的存取——這些提供者將透過 AI Gateway 提供他們的模型。值得注意的是,我們正在擴展我們的模型供應,納入影像、影片和語音模型,讓您能夠建置多模態應用程式。
透過單一 API 存取所有模型,也代表您可以在同一個地方管理所有的 AI 支出。現今多數公司平均呼叫來自多個提供者的 3.5 個模型,這意味著沒有任何單一提供者能為您提供 AI 使用狀況的全面檢視。有了 AI Gateway,您將獲得一個集中位置來監控和管理 AI 支出。
透過在請求中加入自訂的中繼資料,您可以根據自己最關心的屬性(例如免費與付費使用者的支出、個別客戶的支出,或應用程式中特定工作流程的支出)來細分您的成本。
const response = await env.AI.run('@cf/moonshotai/kimi-k2.5',
{
prompt: 'What is AI Gateway?'
},
{
metadata: { "teamId": "AI", "userId": 12345 }
}
);
AI Gateway 讓您可以透過一個 API 存取所有提供者的模型。但有時候,您需要執行一個基於自有資料進行微調的模型,或是針對特定使用情境最佳化的模型。為此,我們正在努力讓使用者能夠將自己的模型帶到 Workers AI 上。
我們絕大部分的流量來自企業客戶的專用執行個體,這些客戶在我們的平台上執行自訂模型。我們希望能將此功能推廣給更多客戶。為了做到這一點,我們利用 Replicate 的 Cog 技術來協助您將機器學習模型容器化。
Cog 的設計相當簡單:您只需要在 cog.yaml 檔案中寫下相依項,並在一個 Python 檔案中撰寫推斷程式碼即可。Cog 抽象化了打包 ML 模型時的所有困難部分,例如 CUDA 相依性、Python 版本、權重載入等。
cog.yaml 檔案範例:
build:
python_version: "3.13"
python_requirements: requirements.txt
predict: "predict.py:Predictor"
predict.py 檔案範例,其中包含一個設定模型的函數,以及一個在收到推斷請求(預測)時執行的函數:
from cog import BasePredictor, Path, Input
import torch
class Predictor(BasePredictor):
def setup(self):
"""Load the model into memory to make running multiple predictions efficient"""
self.net = torch.load("weights.pth")
def predict(self,
image: Path = Input(description="Image to enlarge"),
scale: float = Input(description="Factor to scale image by", default=1.5)
) -> Path:
"""Run a single prediction on the model"""
# ... pre-processing ...
output = self.net(input)
# ... post-processing ...
return output
接著,您可以執行 cog build 來建置您的容器映像檔,然後將您的 Cog 容器推送到 Workers AI。我們將為您部署並提供模型,之後您就可以透過平常使用的 Workers AI API 來存取它。
我們正在進行一些大型專案,希望能將此功能推廣給更多客戶,例如面向客戶的 API 和 Wrangler 指令,讓您可以推送自己的容器,以及透過 GPU 快照來實現更快的冷啟動。目前,我們正與 Cloudflare 內部團隊及部分外部客戶合作進行內部測試。如果您有興趣成為我們的設計夥伴,請與我們聯絡!很快,任何人都將能夠打包他們的模型並透過 Workers AI 使用。
如果您正在建置即時智慧體,將 Workers AI 模型與 AI Gateway 搭配使用會特別強大——因為使用者對速度的感受取決於「首個詞元回應時間」或智慧體開始回應的速度,而非整個回應需要多長時間。即使總推斷時間長達 3 秒,只要能讓第一個詞元提早 50 毫秒送達,就能讓一個智慧體從看似反應遲鈍,變得感覺靈敏快速。
Cloudflare 遍布全球 330 座城市的資料中心網路,意味著 AI Gateway 同時鄰近使用者與推斷端點,能將串流開始前的網路時間降到最低。
Workers AI 也在其公開目錄中代管了多個開源模型,現在更包含了專為智慧體打造的大型模型,例如 Kimi K2.5 以及即時語音模型。當您透過 AI Gateway 呼叫這些 Cloudflare 代管的模型時,完全不需要額外經過公開網際網路的跳轉,因為您的程式碼與推斷在同一個全球網路上執行,能為您的智慧體提供最低的可能延遲。
在建置智慧體時,速度並非使用者唯一關心的因素——可靠性也同樣重要。智慧體工作流程中的每一個步驟,都依賴於它之前的步驟。可靠的推斷對智慧體至關重要,因為一個呼叫失敗可能會影響整個下游鏈。
透過 AI Gateway,如果您呼叫的模型在多個提供者上都有提供,而其中一個提供者發生服務中斷,我們會自動將請求路由到另一個可用的提供者,您完全不需要自己撰寫任何容錯移轉邏輯。
如果您使用 Agents SDK 來建置長時間執行的智慧體,您的串流拖段呼叫同樣具備針對連線中斷的復原能力。AI Gateway 會在串流回應產生時將其暫存,這與您的智慧體的生命週期無關。如果您的智慧體在推斷中途被打斷,它可以重新連線到 AI Gateway 並取回回應,而不必重新進行一次推斷呼叫,也不必為相同的輸出詞元重複付費。再結合 Agents SDK 內建的檢查點功能,最終使用者完全不會察覺到任何異狀。
Replicate 團隊已經正式加入我們的 AI 平台團隊,我們甚至不再認為我們是兩個分開的團隊。我們一直致力於 Replicate 和 Cloudflare 之間的整合,包括將所有 Replicate 模型導入 AI Gateway,並將託管模型遷移到 Cloudflare 基礎架構上。很快地,您將能夠透過 AI Gateway 存取您在 Replicate 上喜愛的模型,也能將您部署在 Replicate 上的模型託管到 Workers AI 上。
要開始使用,請查閱我們的 AI Gateway 或 Workers AI 技術文件。深入瞭解如何利用 Agents SDK 在 Cloudflare 平台上建立智慧體。