訂閱以接收新文章的通知:

AI Gateway 已正式上市:用於管理和擴展生成式 AI 工作負載的統一介面

2024/05/22

閱讀時間:8 分鐘
AI Gateway is generally available: a unified interface for managing and scaling your generative AI workloads.

在 2024 年 4 月的 Developer Week 期間,我們宣佈 Workers AI 正式發佈,今天,我們很高興地宣佈 AI Gateway 也正式發佈。自 2023 年 9 月生日週期間推出測試版以來,我們已代理了超過 5 億個請求,現在已準備好供您在生產中使用它。

AI Gateway 是一個 AI 操作平台,提供統一的介面來管理和擴展生成型 AI 工作負載。從本質上講,它充當您的服務和推理提供程式之間的代理,無論您的模型在哪裡執行。只需一行程式碼,您就可以解鎖一組專注於效能、安全性、可靠性和可觀察性的強大功能,您可以將其視為 AI 操作的控制平面。這僅僅只是一個開始——我們制定了藍圖,將在不久的將來推出一系列令人興奮的功能,任何想要從 AI 工作負載中獲得更多收益的組織都會使用 AI Gateway。

說明將 AI Gateway 設定為正向代理的架構圖

為什麼要新增代理以及為什麼選擇 Cloudflare?

AI 領域發展迅速,似乎每天都有新的模型、提供者或框架。鑒於如此高的變化率,很難對 AI 進行追蹤,當您使用多個模型或提供者時則尤為如此。這是推出 AI Gateway 的驅動因素之一——我們希望為您的所有模型和工具提供一個一致的控制平面,即使它們每天都在發生變化,也可從同一個控制平面進行控制。

我們已經與許多構建 AI 應用程式的開發人員和組織進行了交談,有一點很明確:他們希望圍繞 AI 操作提供更多的可觀察性、控制力和工具。這是許多 AI 提供者所缺乏的,因為他們非常關注模型開發,而不是平台功能。

為什麼選擇 Cloudflare 作為您的 AI Gateway?從某些方面來說,這是天作之合。在過去 10 多年裡,我們透過執行全球最大的網路之一來協助構建更好的網際網路,為世界各地的客戶提供效能、可靠性和安全性——Cloudflare 被近 20% 的網站用作反向代理。憑藉我們的專業知識,這感覺就像是一個自然的進展:只需變更一行程式碼,我們就可以協助您提高 AI 應用程式的可觀察性、可靠性和控制能力,所有這些都在一個控制平面中,而您則可以重新專注於構建。

下面是使用 OpenAI JS SDK 時的一行程式碼變更。歡迎查看我們的文件,瞭解其他提供者、SDK 和語言的情況。

import OpenAI from 'openai';

const openai = new OpenAI({
apiKey: 'my api key', // defaults to process.env["OPENAI_API_KEY"]
	baseURL: "https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug}/openai"
});

目前包含哪些功能?

與客戶交談後,我們明確了一點,即我們需要先關注一些基本功能,然後再轉向一些更進階的功能。雖然我們對將要推出的功能非常期待,但以下是 GA 版目前提供的主要功能:

分析:聚合來自多個提供者的指標。查看流量模式和使用情況,包括一段時間內的請求數、權杖數和成本。

AI Gateway 儀表板的 [分析] 索引標籤

即時記錄:在構建過程中深入瞭解請求和錯誤。

向 Cohere 執行三個請求的即時記錄

快取:啟用自訂快取規則並使用 Cloudflare 的快取來處理重複請求,而不是存取原始模型提供者 API,從而幫助您節省成本並減少延遲。

設定快取要求的規則

限速:透過限制應用程式接收的請求數量來控制應用程式的擴展,以控制成本或防止濫用。

設定流量限速規則

支援您最喜歡的提供者:截至 2024 年 5 月中旬,AI Gateway 現在原生支援 Workers AI 以及 10 個最受歡迎的提供者,包括 Groq 和 Cohere

來自三個 LLM 提供者(Cohere、Groq 和 OpenAI)的即時記錄

通用端點:如果出現錯誤,可以透過定義到另一個模型或推理提供程式的請求回退來提高復原能力。

curl https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug} -X POST \
  --header 'Content-Type: application/json' \
  --data '[
  {
    "provider": "workers-ai",
    "endpoint": "@cf/meta/llama-2-7b-chat-int8",
    "headers": {
      "Authorization": "Bearer {cloudflare_token}",
      "Content-Type": "application/json"
    },
    "query": {
      "messages": [
        {
          "role": "system",
          "content": "You are a friendly assistant"
        },
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  },
  {
    "provider": "openai",
    "endpoint": "chat/completions",
    "headers": {
      "Authorization": "Bearer {open_ai_token}",
      "Content-Type": "application/json"
    },
    "query": {
      "model": "gpt-3.5-turbo",
      "stream": true,
      "messages": [
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  }
]'

後續計畫

我們從開發人員那裡得到了很多意見反應,一些顯而易見的功能即將推出,例如持久記錄和自訂中繼資料——這些基礎功能將有助於在未來釋放真正的魔力。

但讓我們退後一步,分享一下我們的願景。在 Cloudflare,我們相信我們的平台作為一個統一的整體比作為各個部分的集合更強大。將這種理念套用到我們的 AI 產品,則意味著它們應該易於使用、組合和協調執行。

讓我們想像一下接下來的旅程。您最初加入 Workers AI 是為了使用最新的開放原始碼模型進行推理。接下來,您啟用 AI Gateway,以獲得更好的可見性和控制,並開始儲存持久記錄。然後您想要開始調整推理結果,於是您利用持久記錄、我們的提示管理工具和內建評估功能。現在您正在做出分析決策以改進推理結果。隨著每一次資料驅動的改進,您都想要獲得更多。因此,您實施我們的意見反應 API,幫助注釋輸入/輸出,本質上是構建結構化資料集。此時,您離可以立即部署到我們全球網路的一鍵微調只有一步之遙,而且還不止於此。隨著您繼續收集記錄和意見反應,您可以不斷重建微調配接器,以便為終端使用者提供最佳結果。

目前這只是一個理想的故事,但這是我們對 AI Gateway 和整個 AI 套件的未來的設想。您應該能夠從最基本的設定開始,逐步進入更進階的工作流程,全程無需離開 Cloudflare 的 AI 平台。最後,它看起來可能與上面描述的不完全一樣,但您可以確信我們致力於提供最好的 AI 操作工具,將 Cloudflare 打造成 AI 的最佳場所。

我應如何開始?

AI Gateway 即日起可在所有方案中使用。如果您尚未使用 AI Gateway,請查看我們的開發人員文件並立即開始使用。AI Gateway 現已免費提供核心功能,只需一個 Cloudflare 帳戶和一行程式碼即可開始使用。將來,將提供更多進階功能,例如持久記錄和祕密管理,但需付費使用。如果您有任何疑問,請造訪我們的 Discord 頻道

我們保護整個企業網路,協助客戶有效地建置網際網路規模的應用程式,加速任何網站或網際網路應用程式抵禦 DDoS 攻擊,阻止駭客入侵,並且可以協助您實現 Zero Trust

從任何裝置造訪 1.1.1.1,即可開始使用我們的免費應用程式,讓您的網際網路更快速、更安全。

若要進一步瞭解我們協助打造更好的網際網路的使命,請從這裡開始。如果您正在尋找新的職業方向,請查看我們的職缺
Developer Platform (TW)Developers (TW)Open Source (TW)Workers AI (TW)AI Gateway (TW)AI (TW)繁體中文

在 X 上進行關注

Kathy Liao|@kathyyliao
Michelle Chen|@_mchenco
Phil Wittig|@pdwittig
Cloudflare|@cloudflare

相關貼文

2024年4月05日 下午1:01

Browser Rendering API 正式上市,推出 Cloudflare Snippets、SWR,並向所有使用者提供 Workers for Platforms

Browser Rendering API 現已向所有付費 Workers 客戶提供,並改進了工作階段管理...

2024年4月02日 下午1:01

升級 Workers AI:正式上市以及更多新功能

今天,我們發佈了一系列公告,包括 Cloudflare 的推斷平台 Workers AI 正式上市,以及使用 LoRA 和 HuggingFace 的一鍵部署支援經過微調的模型。Cloudflare Workers 現可支援 Python 程式設計語言等...

2024年4月02日 下午1:00

使用 LoRA 在 Workers AI 上執行經過微調的模型

Workers AI 現在支援使用 LoRA 進行微調的模型。但是,什麼是 LoRA,它又是如何運作的呢?在本貼文中,我們將深入探討微調、LoRA 甚至某些數學原理,來分享有關它如何在後台運作的詳細資料...