升级版 Workers AI：现已正式发布且具备更多新增功能

欢迎来到星期二——Developer W eek 2024 的人工智能日！本文概述我们的最新人工智能产品公告和愿景，包括 Workers AI 正式发布并提供更理想的定价，GPU 硬件更新动态，我们 Hugging Face 合作伙伴关系扩大，自带 LoRA 微调推理，Workers 的 Python 支持，AI Gateway 增加更多提供商，以及 Vectorize 元数据过滤等消息。

Leveling up Workers AI: general availability and more new capabilities

Workers AI 正式发布

今天，我们欣然宣布，我们的 Workers AI 推理平台现已正式发布。经过几个月的公测，我们改进了服务，提高了可靠性和性能，公布了定价，并在目录中增加了更多模型。

提高性能和可靠性

通过 Workers AI，我们的目标是使 AI 推理像 Cloudflare 网络的其余部分一样可靠易用。在幕后，我们已经升级了 Workers AI 中内置的负载平衡。现在，请求可以路由到更多城市中的更多 GPU，且每个城市都知道 AI 推理的总可用容量。如果请求在当前城市必须排队，它可被路由到另一个位置，以便在高流量情况下更快地将结果返回给您。同时，我们已经提高了所有模型的速率限制，大多数 LLM 现在每分钟可处理 300 个请求，而不是测试期间的每分钟 50 个请求。较小的模型有每分钟 1500-3000 个请求的限制。请查看我们的开发人员文档，了解各个模型的速率限制。

降低热门模型的成本

在 Workers AI 正式发布的同时，我们还在本月初公布了 10 个非测试版模型的定价计算器。我们希望 Workers AI 成为运行推理最经济、最便捷的解决方案之一，因此对我们的模型进行了一些优化，使它们更经济实惠。现在，与我们最初在 3 月 1 日公布的数据相比，Llama 2 的运行成本降低了 7 倍多，Mistral 7B 的运行成本降低了 14 倍多。我们希望继续成为 AI 推理的最佳平台，并将在可能的情况下继续向客户推出优化措施。

提醒一下，我们从 4 月 1 日开始对Workers AI 的非测试版模型计费，而测试版模型仍然是免费和无限制的。我们每天免费向所有客户提供 10000 个神经元。Workers Free 客户在 24 小时内使用 10000 个神经元后将遇到严格速率限制，而 Workers Paid 客户每增加 1000 个神经元将产生 0.011 美元的费用。请阅读我们的Workers AI 定价开发人员文档，了解有关定价的最新信息。

全新仪表板和演练场

最后，我们改造了 Workers AI 仪表板和 AI 演练场。Cloudflare 面板中的 Workers AI 页面现在可显示各个模型的使用分析，包括神经元计算，以帮助您更好地预测定价。AI 演练场可让您快速测试和比较不同的模型，并配置提示词和参数。我们希望这些新工具能帮助开发人员开始在 Workers AI 上进行无缝构建——欢迎尝试！

在分布在全球 150 多个城市的 GPU 上运行推理

2023 年 9 月宣布 Workers AI 时，我们就开始在世界各地的数据中心部署 GPU。我们计划兑现这一承诺，于 2024 年底前在几乎所有地方部署经过推理微调的 GPU，使我们成为分布最广泛的云人工智能推理平台。目前，我们已在 150 多个城市部署了 GPU，并将在全年继续推出更多 GPU。

我们还将在 2024 年第二季度推出配备 GPU 的下一代计算服务器。这意味着与前几代产品相比，下一代产品具有更高的性能、能效和可靠性。我们在 2023 年 12 月发表的一篇博客文章中提供了第 12 代计算服务器设计的预览，更多细节将陆续公布。通过第 12 代和未来计划推出的硬件，下一步是支持更大的机器学习模型，并在我们的平台上提供微调。这将使我们能够为生产工作负载实现更大的推理吞吐量、更低的延迟和更高的可用性，并扩大对微调等新型工作负载的支持。

Huggingface 合作伙伴关系

我们很高兴能推进与 Hugging Face 之间的合作关系，致力于为我们的客户提供最好的开源技术。现在，您可以访问 Hugging Face 上一些最受欢迎的模型，如果该模型在我们的平台上可用，您可以轻松点击该模型并在 Workers AI 上运行。

我们欣然宣布与 Hugging Face 合作为我们的平台添加了 4 个模型。您现在可以访问改进了上下文窗口的全新 Mistral 7B v0.2 模型、 Nous Research 的 Hermes 2 Pro 微调版 Mistral 7B 、Google 的 Gemma 7B 和来自 OpenChat 的 Starling-LM-7B-beta 微调版。目前，我们与 Hugging Face 合作管理着 14 个模型，用于在 Cloudflare 的 Workers AI 运行无服务器 GPU 推理，更多模型即将推出。这些模型均使用 Hugging Face 的技术通过 TGI 后端提供服务，我们与 Hugging Face 团队密切合作，共同策划、优化和部署这些模型。

“我们很高兴能与 Cloudflare 合作，让开发人员更容易利用人工智能。对 Hugging Face 社区来说，通过全球 GPU 网络支持的无服务器 API 提供最流行的开放模型是一个非常棒的提议，我迫不及待想看看他们会用它构建什么。”- Julien Chaumond，联合创始人兼首席技术官，Hugging Face

您可以在 Hugging Face Collection 中找到 Workers AI 支持的所有开放模型，“部署到 Cloudflare Workers AI” 按钮位于每个模型卡的顶部。要了解更多信息，请阅读 Hugging Face 的博客文章并查看我们的开发人员文档。您有一个希望在 Workers AI 上看到的模型？请在 Discord 上向我们提出您的请求。

支持微调推理 —— 自带 LoRA

微调推理是呼声最高的 Workers AI 功能之一，现在我们离自带 (BYO) LoRA 又近了一步。研究人员利用流行的低阶适应（Low-Rank Adaptation）方法，找到了如何对一个模型根据手头的任务调整_部分_模型参数的方法，而不是重写_所有_模型参数（就像完全微调模型一样）。这意味着，无需付出完全微调模型的计算费用，您就可以获得微调模型的输出。

const response = await ai.run(
  "@cf/mistralai/mistral-7b-instruct-v0.2-lora", //the model supporting LoRAs
  {
      messages: [{"role": "user", "content": "Hello world"],
      raw: true, //skip applying the default chat template
      lora: "00000000-0000-0000-0000-000000000", //the finetune id OR name 
  }
);

我们现在支持将经过训练的 LoRA 带到 Workers AI，我们在运行时将 LoRA 适配器应用于基础模型，为您提供经过微调的推理，成本、大小和速度仅为完全微调模型的一小部分。未来，我们希望能够在我们的平台上直接支持微调任务和完全微调模型，但我们很高兴今天能通过 LoRA 更进一步。

BYO LoRAs 自今日起开放测试，适用于 Gemma 2B 和 7B、Llama 2 7B 和 Mistral 7B 模型，LoRA 适配器大小不超过 100MB，最高 8 阶，每个账户最多 30 个 LoRA。一如既往，我们希望您在使用 Workers AI 和新的 BYO LoRA 功能时遵守我们的服务条款，包括模型许可条款中包含的任何模型特定使用限制。

阅读技术深入剖析博客文章和开发人员文档，以开始使用。

用 Python 编写 Workers

Python 是世界上第二流行的编程语言（仅次于 JavaScript），也是构建 AI 应用程序的首选语言。今天开始，在公测版中，您可以用 Python 编写 Cloudflare Workers。Python Workers 支持与 Cloudflare 资源的所有绑定，包括 Vectorize、D1、KV、R2 等。

LangChain 是构建由 LLM 驱动的应用程序的最流行框架，就像 Workers AI 与 langchain-js 协作一样， Python LangChain 库也能在 Python Workers 上运行，就像 FastAPI 等其他 Python 软件包一样。

from js import Response

async def on_fetch(request, env):
    return Response.new("Hello world!")

用 Python 编写 Workers 与使用 JavaScript 编写 Workers 一样简单：

name = "hello-world-python-worker"
main = "src/entry.py"
compatibility_date = "2024-03-18"
compatibility_flags = ["python_workers"]

……只需指向在 Wrangler.toml中指向一个 .py 文件即可进行配置：

无需额外的工具链或预编译步骤。 Pyodide Python 执行环境由 Workers 运行时直接提供，工作方式与 JavaScript 编写的 Workers 如出一辙。

还有更多值得深入探讨内容——欢迎查看文档，并阅读我们的配套文章，了解有关 Python Workers 在幕后如何运行的细节。

AI Gateway 现在支持 Anthropic、Azure、AWS Bedrock、Google Vertex 和 Perplexity

我们的 AI Gateway 产品帮助开发人员更好地控制和观察他们的人工智能应用，提供分析、缓存、速率限制等功能。我们正继续为产品添加更多供应商，包括今天加入的 Anthropic、Google Vertex 和 Perplexity。我们在 2023 年 12 月悄然推出了对 Azure 和 Amazon Bedrock 的支持，这意味着最流行的提供商现在都可以通过 AI Gateway 获得支持，包括 Workers AI 本身。

查看我们的开发人员文档以开始使用 AI Gateway。

即将推出：持久日志（Persistent Logs）

在2024 年第二季度，我们将推出持久日志，以便将日志（包括提示词和响应）推送到对象存储；自定义元数据，以便使用用户 ID 或其他标识符标记请求；机密管理，以便安全地管理应用程序的 API 密钥。

我们希望 AI Gateway 成为您的 AI 应用程序控制平面，允许开发人员动态评估并将请求路由到不同的模型和提供商。通过持久日志功能，我们希望让开发人员能够使用他们记录的数据一键微调模型，最终在我们的 Workers AI 平台上直接运行微调任务和微调模型。AI Gateway 只是我们人工智能工具包中的一个产品，但我们对它能为在我们平台上开发的开发人员解锁的工作流程和用例感到兴奋，希望您也能为之兴奋。

Vectorize 元数据过滤，正式版将支持百万向量索引

Vectorize 是我们 AI 应用程序工具包的另一个组件。自 2023 年 9 月公测以来，Vectorize 允许开发人员持久化嵌入（向量），例如从 Workers AI 文本嵌入模型生成的那些，并查询最接近的匹配，以支持相似性搜索或推荐等用例。如果没有向量数据库，模型输出会被遗忘而无法调用，除非投入额外成本并重新运行模型。

// Insert vectors with metadata
const vectors: Array<VectorizeVector> = [
  {
    id: "1",
    values: [32.4, 74.1, 3.2],
    metadata: { url: "/products/sku/13913913", streaming_platform: "netflix" }
  },
  {
    id: "2",
    values: [15.1, 19.2, 15.8],
    metadata: { url: "/products/sku/10148191", streaming_platform: "hbo" }
  },
...
];
let upserted = await env.YOUR_INDEX.upsert(vectors);

// Query with metadata filtering
let metadataMatches = await env.YOUR_INDEX.query(<queryVector>, { filter: { streaming_platform: "netflix" }} )

自 Vectorize 公测发布以来，我们增加了元数据过滤功能。元数据过滤让开发人员能够将向量搜索与任意元数据过滤结合起来，支持人工智能应用中的复杂查询。我们全力以赴为 Vectorize 正式发布做准备，目标日期为 2024 年 6 月，其中将包括对百万级索引的支持。

构建人工智能应用的最全面开发人员平台

在 Cloudflare 开发人员平台上，我们认为所有开发人员都应该能够快速构建和发布全栈应用，其中也包括人工智能体验。通过 Workers AI 正式版、Workers AI 的 Python 支持、AI Gateway、Vectorize 以及与 Hugging Face 的合作关系，扩大了在我们的平台上构建 AI 应用程序的可能性。我们希望您和我们同样兴奋——查看我们的全部开发人员文档以开始，并告诉我们您构建了什么。

Cloudflare 博客

升级版 Workers AI：现已正式发布且具备更多新增功能

Workers AI 正式发布

支持微调推理 —— 自带 LoRA

用 Python 编写 Workers

AI Gateway 现在支持 Anthropic、Azure、AWS Bedrock、Google Vertex 和 Perplexity

即将推出：持久日志（Persistent Logs）

Vectorize 元数据过滤，正式版将支持百万向量索引

构建人工智能应用的最全面开发人员平台

Shedding old code with ecdysis: graceful restarts for Rust services at Cloudflare

Introducing Markdown for Agents

Building vertical microfrontends on Cloudflare’s platform

Introducing Moltworker: a self-hosted personal AI agent, minus the minis