订阅以接收新文章的通知:

AI Gateway 正式发布:用于管理和扩展生成式 AI 工作负载的统一界面

2024/05/22

8 分钟阅读时间
AI Gateway is generally available: a unified interface for managing and scaling your generative AI workloads.

在 2024 年 4 月的 Developer Week 期间,我们宣布 Workers AI 正式发布,今天,我们很高兴地宣布 AI Gateway 也正式发布。自 2023 年 9 月生日周期间推出测试版以来,我们已代理了超过 5 亿个请求,现在已准备好供您在生产中使用它。

AI Gateway 是一个 AI 操作平台,提供统一的界面来管理和扩展生成型 AI 工作负载。从本质上讲,它充当您的服务和推理提供程序之间的代理,无论您的模型在哪里运行。只需一行代码,您就可以解锁一组专注于性能、安全性、可靠性和可观察性的强大功能,您可以将其视为 AI 操作的控制平面。这仅仅只是一个开始——我们制定了路线图,将在不久的将来推出一系列令人兴奋的功能,任何想要从 AI 工作负载中获得更多收益的组织都会使用 AI Gateway。

说明将 AI Gateway 设置为正向代理的架构图

为什么要添加代理以及为什么选择 Cloudflare?

AI 领域发展迅速,似乎每天都有新的模型、提供商或框架。鉴于如此高的变化率,很难对 AI 进行跟踪,当您使用多个模型或提供商时则尤为如此。这是推出 AI Gateway 的驱动因素之一——我们希望为您的所有模型和工具提供一个一致的控制平面,即使它们每天都在发生变化,也可从同一个控制平面进行控制。

我们已经与许多构建 AI 应用程序的开发人员和组织进行了交谈,有一点很明确:他们希望围绕 AI 操作提供更多的可观察性、控制力和工具。这是许多 AI 提供商所缺乏的,因为他们非常关注模型开发,而不是平台功能。

为什么选择 Cloudflare 作为您的 AI Gateway?从某些方面来说,这是天作之合。在过去 10 多年里,我们通过运行全球最大的网络之一来帮助构建更好的互联网,为世界各地的客户提供性能、可靠性和安全性——Cloudflare 被近 20% 的网站用作反向代理。凭借我们的专业知识,这感觉就像是一个自然的进展:只需更改一行代码,我们就可以帮助您提高 AI 应用程序的可观察性、可靠性和控制能力,所有这些都在一个控制平面中,而您则可以重新专注于构建。

下面是使用 OpenAI JS SDK 时的一行代码更改。欢迎查看我们的文档,了解其他提供商、SDK 和语言的情况。

import OpenAI from 'openai';

const openai = new OpenAI({
apiKey: 'my api key', // defaults to process.env["OPENAI_API_KEY"]
	baseURL: "https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug}/openai"
});

目前包含哪些功能?

与客户交谈后,我们明确了一点,即我们需要先关注一些基本功能,然后再转向一些更高级的功能。虽然我们对将要推出的功能非常期待,但以下是 GA 版目前提供的主要功能:

分析:聚合来自多个提供商的指标。查看流量模式和使用情况,包括一段时间内的请求数、令牌数和成本。

AI Gateway 仪表板的“分析”选项卡

实时日志:在构建过程中深入了解请求和错误。

向 Cohere 运行三个请求的实时日志

缓存:启用自定义缓存规则并使用 Cloudflare 的缓存来处理重复请求,而不是访问原始模型提供商 API,从而帮助您节省成本并减少延迟。

设置缓存请求的规则

速率限制:通过限制应用程序接收的请求数量来控制应用程序的扩展,以控制成本或防止滥用。

设置流量速率限制规则

支持您最喜欢的提供商:截至 2024 年 5 月中旬,AI Gateway 现在原生支持 Workers AI 以及 10 个最受欢迎的提供商,包括 Groq 和 Cohere

来自三个 LLM 提供商(Cohere、Groq 和 OpenAI)的实时日志

通用端点:如果出现错误,可以通过定义到另一个模型或推理提供程序的请求回退来提高恢复能力。

curl https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug} -X POST \
  --header 'Content-Type: application/json' \
  --data '[
  {
    "provider": "workers-ai",
    "endpoint": "@cf/meta/llama-2-7b-chat-int8",
    "headers": {
      "Authorization": "Bearer {cloudflare_token}",
      "Content-Type": "application/json"
    },
    "query": {
      "messages": [
        {
          "role": "system",
          "content": "You are a friendly assistant"
        },
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  },
  {
    "provider": "openai",
    "endpoint": "chat/completions",
    "headers": {
      "Authorization": "Bearer {open_ai_token}",
      "Content-Type": "application/json"
    },
    "query": {
      "model": "gpt-3.5-turbo",
      "stream": true,
      "messages": [
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  }
]'

后续计划

我们从开发人员那里得到了很多反馈,一些显而易见的功能即将推出,例如持久日志和自定义元数据——这些基础功能将有助于在未来释放真正的魔力。

但让我们退后一步,分享一下我们的愿景。在 Cloudflare,我们相信我们的平台作为一个统一的整体比作为各个部分的集合更强大。将这种理念应用到我们的 AI 产品,则意味着它们应该易于使用、组合和协调运行。

让我们想象一下接下来的旅程。您最初加入 Workers AI 是为了使用最新的开源模型进行推理。接下来,您启用 AI Gateway,以获得更好的可见性和控制,并开始存储持久日志。然后您想要开始调整推理结果,于是您利用持久日志、我们的提示管理工具和内置评估功能。现在您正在做出分析决策以改进推理结果。随着每一次数据驱动的改进,您都想要获得更多。因此,您实施我们的反馈 API,帮助注释输入/输出,本质上是构建结构化数据集。此时,您离可以立即部署到我们全球网络的一键微调只有一步之遥,而且还不止于此。随着您继续收集日志和反馈,您可以不断重建微调适配器,以便为最终用户提供最佳结果。

目前这只是一个理想的故事,但这是我们对 AI Gateway 和整个 AI 套件的未来的设想。您应该能够从最基本的设置开始,逐步进入更高级的工作流程,全程无需离开 Cloudflare 的 AI 平台。最后,它看起来可能与上面描述的不完全一样,但您可以确信我们致力于提供最好的 AI 操作工具,将 Cloudflare 打造成 AI 的最佳场所。

我如何开始?

AI Gateway 即日起可在所有计划中使用。如果您尚未使用 AI Gateway,请查看我们的开发人员文档并立即开始使用。AI Gateway 现已免费提供核心功能,只需一个 Cloudflare 帐户和一行代码即可开始使用。将来,将提供更多高级功能,例如持久日志记录和秘密管理,但需付费使用。如果您有任何疑问,请访问我们的 Discord 频道

我们保护整个企业网络,帮助客户高效构建互联网规模的应用程序,加速任何网站或互联网应用程序抵御 DDoS 攻击,防止黑客入侵,并能协助您实现 Zero Trust 的过程

从任何设备访问 1.1.1.1,以开始使用我们的免费应用程序,帮助您更快、更安全地访问互联网。要进一步了解我们帮助构建更美好互联网的使命,请从这里开始。如果您正在寻找新的职业方向,请查看我们的空缺职位
Developer Platform (CN)Developers (CN)Open Source (CN)Workers AI (CN)AI Gateway (CN)AI (CN)简体中文

在 X 上关注

Kathy Liao|@kathyyliao
Michelle Chen|@_mchenco
Phil Wittig|@pdwittig
Cloudflare|@cloudflare

相关帖子

2024年4月05日 13:01

Browser Rendering API GA,推出 Cloudflare Snippets 、SWR,并向所有用户提供 Workers for Platforms

Browser Rendering API 现已向所有付费 Workers 客户提供,并改进了会话管理功能...

2024年4月02日 13:01

升级版 Workers AI:现已正式发布且具备更多新增功能

今天,我们欣然发布包括 Workers AI、Cloudflare 的推理平台进入 GA 阶段以及支持使用 LoRA 对模型进行微调,并支持从 HuggingFace 进行一键部署等一系列消息。 Cloudflare Workers 现已支持 Python 编程语言及更多功能...