The Cloudflare Blog

AI Agent 的临时 Cloudflare 账户

Sid Chatterjee — Fri, 19 Jun 2026 13:00:00 GMT

如今，人人都在使用 AI 智能体编写代码。但是，一旦智能体需要部署某些内容，以及需要注册并创建账户时，就会撞上针对真人用户设计的一堵墙：基于浏览器的 OAuth 流程、需要点击浏览的仪表板、需要复制粘贴的 API 令牌，以及需要满足的多因素身份验证提示词。对于辅助开发人员的交互式助手来说，这很烦人。对于后台智能体来说，这简直是难以逾越的障碍。

今天，我们推出了面向智能体的临时 Cloudflare 账户。

现在，智能体可以立即部署网站、API 和代理程序，无需首先注册账户。

现在，任何智能体都可以运行 wrangler deploy --temporary 命令，将 Worker 部署到 Cloudflare。这种临时部署会保持 60 分钟的活跃状态，在此期间，您可以认领临时账户，使其永久归您所有。如果您不认领，它会自动失效。

我们的目标是什么？让智能体编写并发布代码。

为什么无摩擦部署对 AI 智能体至关重要

无摩擦临时账户比看上去更加重要，因为：

后台 AI 会话无需人工干预，并且逐渐成为常态。任何需要打开浏览器、复制粘贴，或执行“60 秒后点击此处”的身份验证步骤都会导致智能体卡住，并且可能选择部署到其他地方。
试错是智能体的超能力。智能体需要一个紧凑的“编写 → 部署 → 验证”循环。它们需要廉价的一次性部署目标，以便可以运行 curl 命令，自行检查输出并判断是否正确。
智能体平台正在构建自己的代码部署方式，以便能够“开箱即用”，而无需额外的步骤或凭证。用户开始期望这个流程能够正常运作，无需注册他们之前从未使用过或听说过的其他服务。

工作原理

临时账户是围绕我们的开发人员平台命令行界面 (CLI) 工具 Wrangler 构建，此工具支持开发人员启动新项目、管理配置和资源，以及部署和更新项目。

网上有大量文档记录了 Wrangler 的使用方法，并且智能体对此非常熟悉。但是，如果您尚未登录并授予 Wrangler 访问自己 Cloudflare 账户的权限，则智能体在尝试部署时就会卡在注册和身份验证步骤。合理的情况下，您可能会问：智能体和 LLM 如何知道 Wrangler 中存在新的 --temporary 标志，从而在无需真人明确告知的情况下使用它？

为了解决这个问题，我们更新了 Wrangler，让它向智能体发送一则消息，告知其存在 --temporary 标志：

当智能体发现标志后，再次运行包含 --temporary 标志的 Wrangler deploy 时，Cloudflare 会配置一个临时账户供智能体使用，向 Wrangler 提供一个配套 API 令牌，并提供一个声明 URL 让智能体将其返回给用户。

让我们来逐步查看整个流程

部署和迭代新项目

请务必使用最新的 Wrangler 版本，启动常用的编程智能体，并编写一个提示词，在构建模式中部署一个“Hello World”应用：

Make a very simple hello world Cloudflare Worker in TypeScript and deploy it using wrangler, don't ask me questions, do the best you can

智能体将运行 Wrangler，从输出消息中获取 --temporary 标志，构建脚本并立即部署，无需人工干预：

正如您所见，智能体编写了脚本，使用 --temporary 标志进行部署，使用 curl 命令访问了从输出中获取的预览链接，并且验证了结果与代码匹配。

这很棒，但智能体编码通常不仅仅局限于单次部署。一个会话可能会经历多次代码更改。这不是问题：智能体可以在 Worker 脚本上进行迭代，并在 60 分钟的声明窗口期内根据需要，进行任意次数的重新部署更改。请输入这个提示词：

Now change hello world to "hello cloudflare" and redeploy

查看智能体如何更改源代码、重新使用之前创建的临时账户、重新部署新版本并重新检查结果：

认领账户

您可以随时认领临时账户，使其永久归您所有。点击认领链接后，系统会引导您进入一个页面，您可以在该页面注册或登录 Cloudflare，然后认领您的 Worker 部署到的临时账户。这不仅仅包括认领 Workers，还包括数据库和其他绑定等资源。

如果您在 60 分钟内未认领这些临时账户，它们将被自动删除。

实现无摩擦智能体部署

这是我们为消除智能体注册障碍采取的多种方式之一。我们最近宣布了与 Stripe 建立合作关系，并共同设计了一项新协议，让智能体可以代表用户配置 Cloudflare，包括创建账户、启动订阅、注册域名，以及获取用于部署代码的 API 令牌，而无需复制粘贴令牌或输入信用卡详细信息。上个月，我们与 WorkOS 合作推出了 auth.md，这是可供任何用户采用的协议，以便让智能体使用成熟的现有 OAuth 标准来配置新账户。

这个领域正在发生很多变化，我们非常高兴能够不断简化智能体使用 Cloudflare 的流程，以及帮助开发人员构建自己的智能体就绪应用。临时帐户是实现无摩擦智能体部署的又一个重要步骤。更多精彩内容，敬请期待！

临时账户存在一些局限性，其功能可能会逐渐发生变化；请查看开发人员文档，以了解更多信息，然后开始构建应用。将智能体指向 Cloudflare，观察它可以实现哪些功能，并告诉我们哪些方面有待改进或哪些方面让您感到满意。欢迎您分享自己在 X 上创建的应用，或者加入 Cloudflare 社区。

庆祝 Project Galileo 12 周年

Jocelyn Woolbright — Thu, 18 Jun 2026 13:00:00 GMT

本月正值 Cloudflare 启动 Project Galileo 十二周年。该项目源于一个朴素的理念：人们不应因权势者的异议而被迫下线。如今，Project Galileo 为 120 个国家的记者、人权维护者和其他非营利组织的 3,400 多个网站提供免费的网络安全服务。我们始终相信，更好的互联网应当让任何有想法的人都能触达全球受众。

每年的 Project Galileo 周年纪念日，我们都会宣布新产品、计划和战略合作伙伴关系。值此十二周年之际，我们隆重发布聚焦公民社会所受网络攻击的首份综合性报告，同时公布对 16 家 Project Galileo 参与机构安全需求的案例研究，并宣布新的项目合作伙伴。

发布聚焦全球公民社会所受网络攻击的全新年度报告

由于 Project Galileo 目前涵盖来自 120 多个国家的组织所持有的 3400 个域名，Cloudflare 能够获取关于针对公民社会（全球民主的关键支柱）的网络威胁、攻击及趋势的独特数据。此外，鉴于 Cloudflare 网络已遍及 125 个国家和地区的 335 座以上城市，且为全球逾 20% 的网站提供防护服务，我们能够系统性地比较针对公民社会的网络攻击与面向整个互联网的攻击模式。您可在此处查阅完整报告。

今年的数据表明，公民社会组织开展的网络活动遭受攻击的频率更高，且强度往往超过其他互联网用户。网络攻击往往与公民社会的关键工作节点同步发生，例如发布调查报告或开展公共倡导活动时。我们的主要发现包括：

DDoS 攻击是针对公民社会的最常见网络威胁。此类攻击的典型特征是持续时间较长，部分持续长达数天甚至数周。
公民社会团体遭遇网站漏洞利用尝试的频率较其他 Cloudflare 客户高出七倍以上。媒体机构受到的冲击尤为严重。
流亡记者遭遇的恶意流量频率近四倍于新闻机构整体水平。
Cloudflare 为公民社会处理的邮件中，近 10% 包含潜在钓鱼内容。

我们在报告结尾提出行动倡议：确保所有人都能获得简单且经济的网络安全防护，提高网络攻击和互联网中断事件的透明度，并在安全工具中默认集成 AI 与后量子保护功能。我们希望本报告能为公民社会、政策制定者及广大公众提供参考，助力各方理解并应对网络攻击。今后，我们将每年发布此报告，以便追踪网络威胁趋势的演变。

除了本报告之外，Cloudflare 还发布了下列定性案例研究，为各参与组织的具体安全需求提供背景说明。

组织	描述	运营所在国家／地区
SHARE Foundation	致力于倡导隐私、言论自由及其他数字权利的非营利组织。	塞尔维亚
Hledaczvirat	寻找走失宠物、连接失主与动物收容所的在线平台/数据库。	捷克共和国
Iran Watch / The Wisconsin Project	由威斯康星核军控项目（Wisconsin Project on Nuclear Arms Control）运营的研究项目，致力于追踪伊朗的武器能力及相关防扩散议题。	美国
原子科学家公告	报道核风险、气候变化和颠覆性技术的非营利媒体组织。	美国
英国皇家气象学会	[仅提供英文版] 天气与气候科学协会，支持气象学研究、教育和职业认证。	英国
Project Ainita	工程协作组织，致力于为在高风险环境中开展工作的维权组织、律师和活动人士开发工具并开展研究。	全球
乌克兰战争档案库	记录并保存俄罗斯—乌克兰战争中战争罪行及相关事件证据的数字档案库。	乌克兰
Our World in Data	关于贫困、健康和气候等全球性议题的研究与数据发布。	英国
海牙法律创新研究所（HiiL）	“思行合一”智库，致力于构建用户友好的司法体系，并为全球民众解决司法问题。	荷兰
美国进步中心	致力于进步主义公共政策研究与倡导的智库。	美国
海洋守护者巴西分部（Sea Shepherd Brazil）	海洋保护组织 Sea Shepherd 巴西分会，致力于保护海洋野生动物及其生态系统。	巴西
elTOQUE	独立数字媒体机构，报道古巴的新闻、经济和汇率跟踪。	全球
Humanitix	该非营利票务平台将预订手续费捐赠给儿童教育与健康领域的慈善机构。	澳大利亚
有组织犯罪和腐败报告项目（OCCRP）	全球调查新闻网络，揭露有组织犯罪和腐败。	荷兰
Activist Rights	为活动人士提供关于抗议与倡导活动中权利及法律风险的法律信息资源。	澳大利亚
China Digital Times	双语新闻网站，报道中国境内的审查、人权与政治议题。	美国

欢迎新合作伙伴加入

Project Galileo 的成功离不开其 59 家公民社会合作伙伴的支持。所有申请该计划的组织均须经由其中一家合作伙伴审核并批准。这些组织自愿贡献时间和专业知识，通常每天审核多份申请，以确保我们的服务能够提供给符合条件的组织。

长期以来，这些合作关系不仅推动了 Project Galileo 发展为如今的项目形态，还催生了全新的倡议，例如我们与 Protect.ngo（前身为 CyberPeace Institute）在电子邮件安全领域的合作，以及通过联合国儿童基金会（UNICEF）的 Giga 项目支持公立学校互联网测量的工作。

多年来，Project Galileo 的目标之一一直是覆盖北美和欧洲以外地区的更多组织。此项工作的举措之一是参与区域性会议，如 2023 年于哥斯达黎加及 2025 年于台湾举行的 RightsCon 全球数字权利峰会，旨在与当地数字权利组织开展直接对话。我们还迎来了新的合作伙伴，他们将自身活跃的网络与社区引入本计划。例如，去年，我们宣布了亚太地区的两个新合作伙伴：EngageMedia 和 OpenCulture Foundation。

鉴于我们近期为 Project Galileo 新增了帮助本地新闻机构防范 AI 爬虫的内容保护服务，今年我们的合作伙伴重点聚焦于服务记者的组织。为此，我们隆重宣布三个新的合作伙伴：

组织	描述	运营所在国家／地区
国际记者中心（International Center for Journalists）	致力于推广高质量独立新闻的非营利组织。为记者提供培训、研究员资助、导师指导和资金支持，专注于协助记者运用数字技术。	总部位于美国，为 180+ 国家/地区的记者提供支持。
挪威媒体集群（Media Cluster Norway）	专注于下一代媒体技术的创新中心。为 100 余家内容创作者与本地新闻机构提供协作研究空间、资金支持、创业孵化及交流活动。	挪威
非政府组织-ISAC	专注于保护公民社会免受网络安全威胁的非营利网络。向其由 1000 多个非营利组织组成的网络提供威胁情报、防御协调、培训和支持。	美国

持续保护全球公民社会

本次推出的新报告、实践案例及新加入的合作伙伴，皆旨在推进 Project Galileo 的核心使命——保障新闻业与人权等高危关键领域的组织不因网络攻击而被迫沉默。

展望未来，我们将持续探索新途径，将防护能力扩展至全球高风险群体。如您的组织希望加入 Project Galileo 获得防护，请访问 cloudflare.com/galileo。

隆重推出 Cloudflare One stack ：智能体驱动的部署

AJ Gerstenhaber — Wed, 17 Jun 2026 13:00:00 GMT

部署或迁移至 Zero Trust 网络架构往往令人望而生畏。在修改任何策略之前，团队必须先厘清其网络的实际构建方式：现有哪些应用、它们的认证与授权机制如何设计、应用间的流量如何流转，以及当前架构所依赖的全部假设。这一实操过程要求安全从业者解读现有每一条安全策略与路由策略背后的意图。

今天，我们正式推出 Cloudflare One Stack，这是一套您可以赋予智能体的技能集合，用于配置、部署和管理 Zero Trust 环境。此工具包可助您自动完成全新安全套件的学习，并将现有安全套件无缝迁移至 Cloudflare。

Cloudflare 已帮助成千上万的客户完成了这一过程。通过以上反复实践获得的经验，我们得以掌握迁移卡点、高频问题及推进落地的核心要素。Cloudflare One Stack 凝聚了这些专业经验，让其触手可及。

网络安全领域的智能体能力缺失

团队现已利用智能体编写代码、处理告警分级，并实现工作流自动化。越来越多的组织希望 Cloudflare 提供专用工具，赋能智能体高效执行安全工作流。智能体本身并未接受有关训练，不掌握组织特定网络拓扑或供应商配置的细节。

组织若能获得明确可行且具备权威性的操作指引，便可将其上下文信息整合至现有工具体系中，充分释放已部署安全产品的效能。

Cloudflare 长期以来一直是市场上最容易部署的 SASE 供应商。本套件将这一理念延伸至智能体：为其提供在企业安全基础设施上运作所需的上下文、工具和结构化推理能力。

什么是 Cloudflare One Stack？

Cloudflare One 套件是一套专为智能体设计的技能集合。与任何技能一样，可单独使用，融入您自身的上下文，或在其基础上构建工具。它专门用于在评估、部署和管理 Cloudflare One 的整个生命周期为安全从业者提供协助。

本套件是通过整合拥有数万小时 Cloudflare One 产品客户服务经验的员工所精心整理的知识而构建。其中包含各种工具，用于规划、管理及实现您在 Cloudflare 上的用户和智能体安全基础设施。其中还集成了专为从 Zscaler、Palo Alto Networks 等传统安全厂商迁移而精心设计的逻辑。

配合 Cloudflare 代码模式 MCP 服务器使用时，该套件可为智能体提供一个具备类型支持的 Cloudflare API 接口。智能体可通过一套由 Cloudflare 官方推荐的标准化工作流，查询您的实时账户、核查配置并执行修改操作，而非采用临时调用 API 的方式。

套件内容

Cloudflare One stack 以两份轻量技能文件的形式交付：cloudflare-one 与 cloudflare-one-migration。二者结合完整覆盖 Cloudflare One 部署全流程：平台迁移、方案实施、日常管理及故障排查：

通过 Cloudflare Access 实现远程访问及 VPN 替代
通过 Cloudflare Gateway 保障用户、网络、设备与数据安全
通过 Cloudflare Tunnel、Cloudflare Mesh 和 Cloudflare WAN 的构建网络连接能力
迁移指南，包含从其他 SASE 厂商迁移的明确详细信息
网络拓扑图解析与生成，便于您和团队清晰、直观地可视化有关网络的拟议变更方案
供应商概念转化，建立不同 SASE 厂商间术语概念的对应映射，降低评估与更换服务商的门槛
故障排除和运营，使用 Digital Experience Monitoring（DEX）工具包和自动规则建议

工作原理

该套件已上架 Cloudflare Skills 代码仓库。每个技能文件均包含结构化知识库、决策树及工具定义，由智能体在上下文匹配时自动加载。将此信息提供给您的代理，让它帮助您设置、配置和管理您的 Zero Trust 环境：

cloudflare-one 技能文件提供各类产品通用使用指引。例如，如果您向智能体询问如何使用 Cloudflare Tunnel 或 Cloudflare Mesh 替代您的 VPN 基础设施，该技能知道如何：

盘点您的现有 VPN 应用，并确定各应用所需的网络连接模式
将各应用映射至适配的 Cloudflare 基础组件：自托管 Access 应用、通过 Tunnel 连接的服务，或通过 Mesh 连接的网段
生成推荐部署顺序，最大限度减少割接期间业务中断
生成配置汇总文档，供您的团队在执行变更前复核审阅

cloudflare-one-migration 技能文件涵盖不同服务商之间的概念对照转换。例如，如果您要求智能体将 Zscaler Private Access 应用迁移到 Cloudflare Access，该技能知道如何：

将 Zscaler 应用定义映射至 Cloudflare Access 应用定义
将 Zscaler 用户组和策略转换为 Cloudflare Access 策略
使用 Cloudflare API 在您的帐户中创建等效资源
生成迁移内容汇总，并标注需人工复核的项目

该套件内置的迁移逻辑，与 Cloudflare 的 Descaler 及 Deskope 程序所采用的逻辑完全一致。借助上述程序，企业客户可在数小时内（而非耗时数月）完成从 Zscaler、Netskope 至 Cloudflare One 的迁移工作。该套件可为任意客户或合作伙伴随时提供上述能力，无需等待预约服务。

使用套件的更多方式

Cloudflare One stack 还可以：

根据您真实帐户中的流量推荐安全规则
自动将您现有的 Zscaler Private Access 应用迁移到自托管的 Cloudflare Access 应用
调查安全 Web 网关 HTTP 日志中的异常并构建规则以解决用户遇到的问题
使用 DEX 工具包报告用户在关键场景中的稳定性，并采取措施改善用户访问延迟

无论是从智能体加载技能，还是在其上构建自定义工具，Cloudflare One stack 均可覆盖上述全部场景，并满足其他使用需求。

合作伙伴亦可使用

该套件不仅能够为部署 Cloudflare One 产品套件的客户简化日常运维工作，也为 Cloudflare 合作伙伴网络提供了一个实用工具。合作伙伴可利用它来帮助客户更快地部署、更有效地管理、更准确地排除故障，并推动问题得到解决。

下一步

您现在就可以开始使用 Cloudflare One stack。若要充分发挥该套件的全部能力，请搭配 Cloudflare code mode MCP 服务器一同使用。MCP 服务器使您的智能体通过单个压缩接口实时访问 Cloudflare API，使身份验证凭据保持在模型上下文之外。

Cloudflare One stack 将随着 Cloudflare One 产品的发展而继续扩展。支持更多迁移来源的新技能以及更完善的高级故障排查流程现已进入开发阶段。

随着我们进一步了解客户和合作伙伴如何利用这些技能文件，我们计划围绕这些技能构建更强大的工具。若您是客户或合作伙伴，且希望反馈该套件后续需新增支持的功能，可联系专属客户经理，或在代码仓库中提交 issue。

吸纳 Ensemble AI 团队人才，壮大 Cloudflare AI 团队

Alex Reneau — Mon, 15 Jun 2026 13:00:00 GMT

今天，我们很高兴地宣布，Ensemble AI 团队核心成员将加入 Cloudflare，帮助我们加速推进 AI 基础设施建设，让开发人员能够更轻松、高效地大规模运行强大的 AI 模型。

2023 年，Ensemble AI 在旧金山成立。该公司过去几年来一直专注于解决 AI 领域最重要的挑战之一：在维持大模型性能的情况下，加快推理速度、缩小模型体积并降低部署成本。团队开发了新的模型压缩和高效推理方法，旨在降低大语言模型和多模态架构的内存、计算和部署开销。

随着 AI 逐渐成为开发人员构建应用的核心组成部分，推理的经济效益变得空前重要。模型规模日益增大，工作负载也变得更加动态波动。客户越来越希望 AI 模型随时随地可用：全球分布、快速、可靠且经济实惠。Ensemble AI 团队的加入将增强 Cloudflare 实现这一目标的能力。

整合 Ensemble 的专业知识

Ensemble AI 团队始终致力于降低模型的运行成本，同时保护现代 AI 模型的内部结构。Ensemble 没有将模型效率仅视为量化或硬件问题，而是探索了新的模型构建基块，从架构层面提高神经网络的紧凑性和效率。

其中的核心工作是开发了 NdLinear，这是 Transformer 模型架构中标准线性层的即插即用替代方案，它会直接处理多维激活数据，而不是像传统方法那样对数据进行扁平化处理。这让模型能够保持有意义的轴，例如头、通道、空间维度或其他结构化表示，同时减少参数数量和计算量。Ensemble 还开发了 NdLinear-LoRA，这是一种高效的自适应方法，旨在减少微调大模型所需的可训练参数。

这些方法与其他效率提高技术（包括量化、向量量化）相辅相成。它们共同指向一个未来：开发人员能够以更低的内存、计算和成本需求，运行功能强大的 AI 模型。

提高 AI 推理效率

Cloudflare Workers AI 让开发人员能够访问 Cloudflare 全球网络上基于 GPU 的无服务器推理功能。随着开发人员构建的原生 AI 应用变得更多，高效地提供模型服务成为平台的重要组成部分。

推理成本是扩展 AI 应用的最大障碍之一。模型规模、内存占用、吞吐量和 GPU 利用率的每一次改进，都能让开发人员更易于访问 AI，并为客户降低成本。随着 AI 工作负载从简单的文本生成扩展到智能体、多模态模型、个性化、微调、检索和强化学习等领域，这一点尤为重要。

Cloudflare 将加大对核心机器学习功能的投入，以提高 Workers AI 的运行速度和灵活性，使其更具成本效益。这建立在我们现有提高模型效率的工作基础之上，包括我们的推理引擎 Infire、Unweight 等张量压缩技术，以及用于运行超大语言模型的平台。团队将专注于提高大语言模型和其他先进 AI 架构的经济效益，重点关注模型效率、GPU 利用率和可扩展部署。

构建适应下一代 AI 工作负载的基础设施

AI 基础设施正在进入一个新阶段。开发人员不再只需要访问模型，还需要能够可靠、经济高效地运行模型且靠近用户位置的基础设施。他们需要具备试验不同规模的模型、微调方法和部署模式的能力，而不会受到成本或运维复杂性的限制。

Cloudflare 拥有独特的优势来帮助解决这个问题。Cloudflare 全球网络、开发人员平台和无服务器架构为我们奠定了基础，让 AI 基础设施可以更接近应用运行的地点。Workers AI 机器学习工程团队将帮助我们优化用户体验背后的底层效率。

通过整合 Cloudflare 全球基础设施与 Ensemble 在模型压缩和高效架构方面的工作，双方可以继续构建一个平台，让开发人员能够以更低的成本、更高的性能以及更少的运维开销部署 AI 应用。

下一步

我们将携手合作，继续构建必要的基础设施，让 AI 更高效、更易于访问，且对世界各地的开发人员更加实用。我们的目标很简单：帮助开发人员在全球范围内运行强大的 AI 工作负载，同时改善 Cloudflare 平台推理功能的经济效益。如果您希望加入我们一起践行 Cloudflare 使命，请访问我们的招聘页面。

宣布 Cloudflare CASB 支持 Claude Compliance API

Abe Carryl — Thu, 21 May 2026 17:00:00 GMT

今天，我们将扩展 Cloudflare 的云访问安全代理 (CASB)，以支持 Claude Compliance API。安全和合规团队现在可以直接在 Cloudflare 仪表板中监控 Claude 的使用情况。无需终结点智能体。

长期以来，企业安全团队一直在努力了解用户如何与已批准和未批准的应用程序进行交互。AI 应用程序的快速采用使这一问题更加困难。员工花费大量时间在这些新的接触面上，他们的互动方式与传统 SaaS 不同：用户上传文件、共享自由格式的提示词，服务提供商生成可能包含敏感数据的内容。

Cloudflare CASB 可帮助解决这个问题。通过一次 API 集成，让您能够对组织使用的应用进行带外可视化和控制。此集成在我们现有对 AI 治理的支持基础上进行扩展，覆盖安全团队现在管理的最常用工具。

安全 AI 落地的快速路径

AI 的采用速度超过了安全治理。IT 和安全团队虽争先恐后地推动 AI 工具以提升生产力，但控制措施却未能跟上。如今，大多数组织都面临有限的可见性：他们可在网络层阻止未经授权的 AI 工具，但无法看到授权工具内部发生的情况。

这很重要，因为 AI 工具不同于传统的 SaaS 应用程序。它们通过 API 和智能体框架深度集成到工作流程中，特点为对话式和持久性。员工可能将客户数据粘贴到提示词中。开发人员可能会不小心分享 API 密钥，并且数月不更新。AI 应用程序可能会生成包含公司机密的内容。这些行为都会产生合规风险，而传统的安全工具无法检测到。

企业正在迅速采用 AI，但这些工具需要不同的安全模型。它们不仅仅是读取数据；还生成数据、执行操作，并在单一工作流程中连接到多个记录系统。安全性需要覆盖整个生命周期：从应用程序如何调用 API，到其处理的数据内容，再到数据在静止时的存储位置。Cloudflare 为组织在工作流程的每个环节提供相应工具：

Cloudflare AI Gateway 位于您的应用程序和 Anthropic 等 AI 提供商之间，为您提供请求、令牌支出和模型性能的可观测性。这使管理员能够强制执行速率限制、缓存响应并做出精细的路由决策。
Cloudflare Gateway 和数据丢失防护检查 AI 流量中的敏感数据，阻止包含客户个人可识别信息或机密材料的提示词在到达模型之前被发送。
Cloudflare Access 与 MCP 服务器门户将智能体与企业工具的连接集中到单一受保护终结点后面。管理员可以控制哪些用户和智能体可以访问哪些系统，并且每个请求都会被记录以供审计。
Cloudflare CASB 现已将同一统一方法扩展至 Claude 内的静态数据扫描，无需终结点智能体，即可侦测错误配置和敏感数据。

这些功能并排运行在相同的硬件上，使每项服务都具有可组合性和可编程性。更重要的是，这意味着流量无需经过多个供应商或云进行安全处理。

使用 Cloudflare CASB 实现更深入的洞察和控制

Cloudflare CASB 帮助组织通过轻量级 API 集成连接、扫描和监控第三方 SaaS 应用程序是否存在配置错误、数据共享不当和其他安全风险。组织可以重新获得对 SaaS 应用不断增长的投资的可见性和控制力。

随着企业大规模部署 Claude，安全和合规团队对 Claude 使用情况的可见性需要与其技术栈中的其他企业应用程序相同。Anthropic 认识到这一差距，构建了 Claude Compliance API，使企业能够以编程方式访问有关其 Claude 组织、工作区和使用情况的安全相关数据。

Cloudflare CASB 现在使用此终结点来提供可执行的安全发现，而无需内联流量检查或终结点智能体。

Claude Compliance API 的内容

通过此集成，Cloudflare One 客户可以使用他们已经依赖的检测和修复工作流程来监控 Claude Enterprise 活动。Cloudflare CASB 通过 Compliance API 连接到 Claude，扫描安全问题。

从今天开始，Cloudflare 支持以下资产的安全发现：

项目：检测整个组织或部分用户和群组共享的项目
项目附件：违反数据丢失防护 (DLP) 策略的项目文件和文档
聊天文件：用户上传和提供方生成的违反数据丢失防护 (DLP) 策略的文件
聊天消息：违反数据丢失防护 (DLP) 策略的用户提示词和提供商响应
工件：违反数据丢失防护 (DLP) 策略的提供商生成文档和文件

这些发现会直接出现在 Cloudflare 仪表板中，与您其他 SaaS 应用中的安全状态和内容发现并列。发现按类别分组，按严重级别排序。安全团队可以使用与 Microsoft 365、Google Workspace 或 Salesforce 相同的工作流程来分类、分配和解决 Claude 特定风险。

支持 Claude Enterprise 和 Claude Platform

对于 Claude Enterprise，CASB 显示合规数据，如组织、项目、聊天和角色。它还通过专用的只读终结点检索对话内容，包括消息和上传的文件，以防止数据丢失。

对于Claude Platform，CASB 将继续显示成员和工作空间的更改、API 密钥的创建，以及文件创建或下载事件。在不久的将来，我们将添加对活动提要的支持。

CASB 将发现结果转化为行动。在 Claude 中检测到的安全发现，例如用户上传包含敏感数据的文件，可以在几分钟内成为 Gateway 策略。您可以使用 Gateway 阻止特定用户上传到 Claude，完全限制该应用程序的访问，或限制功能直到问题解决。这将通过将 CASB 的发现与 Cloudflare 现有的内联策略引擎相结合，使安全团队从可见性转向行动。

开始使用

要启用 Claude Compliance API 集成：

请确保您拥有 Claude Enterprise 账户。
请从 Claude 请求您组织的 Compliance API 访问权限。
在 Cloudflare 仪表板中，转到 Zero Trust > 集成 > 云和 SaaS。
选择“添加集成” > Anthropic，然后输入您的 Compliance API 密钥。
如果您希望扫描上传文件中的敏感数据，请配置数据丢失防护 (DLP) 配置文件。

集成会立即开始扫描，并在几分钟内在仪表板中显示结果。

对于新的 Cloudflare 客户，您可以注册并免费开始使用前两个集成。现有客户可以直接在仪表板中启用集成。

下一步

随着供应商发布新的企业安全 API，我们将继续扩展 CASB 对 AI 工具的覆盖范围。我们还将加强 CASB 内部的集成，使客户能够创建自定义发现并构建自动修复安全发现的工作流程。

代理型 AI 的转变已经到来，我们相信帮助组织安全采用它的最佳方式是提供一个统一的平台来构建、部署和管理智能体。要保持更新，请查看我们的开发人员文档，或订阅以自动获取更新。

宣布在 Cloudflare 上推出 Claude Managed Agents

Mike Nomitch — Tue, 19 May 2026 13:00:00 GMT

Cloudflare 和 Anthropic 已合作将 Claude Managed Agents 集成到 Cloudflare Sandboxes。我们的新集成为您提供更多的智能体沙盒控制，保障与私有服务的连接安全，并提升可观测性。

在过去一年里，Cloudflare 的开发人员平台经过扩展，为更多开发人员提供了大规模运行智能体的工具。包括：

Sandboxes，大规模运行完整有状态的 Linux 微虚拟机
Agents SDK，提供简单且可定制的智能体框架
Browser Run，为智能体提供完全可编程和可观察的浏览器
Dynamic Workers，支持大规模动态沙盒代码执行

我们的目标是让 Cloudflare 成为智能体最简单、最安全、最具可编程性的云服务。

与 Claude Managed Agents 集成是朝这一方向迈出的又一步。您可以在 Claude 平台上运行您的智能体循环，同时使用 Cloudflare 来执行代码、保护连接并运行自定义工具调用。

为了能在几分钟内开始使用，我们创建了一个默认部署模板，您将获得以下内容：

增强安全性 - 通过可自定义的代理运行所有智能体流量。这使您能够安全地注入凭据、防止数据泄露，并更好地观察您的智能体如何与外界互动。
沙盒控制和可观测性 - 获取详细的沙盒指标和日志。使用 SSH 连接到正在运行的机器。自定义沙盒镜像。
轻量级沙盒 - 可以在传统 microVM 或轻量级隔离环境中编写和执行不受信任的代码。这使您能够实现大规模扩展，以毫秒级启动沙盒，并最大限度地降低基础设施支出。
私有服务连接 - 将智能体连接到私有内部服务，无需将其暴露于互联网。
浏览器控制和可观测性 - 获取每个智能体浏览器会话的审计追踪，包括会话录制和人工干预流程。
邮箱 - 为您的每个智能体提供专属电子邮件地址及发送邮件的能力。
自定义工具 - 无需额外基础设施即可扩展您的智能体。只需编写函数并部署。

在部署集成时，您默认可以获得所有这些功能，如果需要更多功能，可以轻松自定义。

我们来简要了解一下 Claude Managed Agents，看看如何集成基于 Cloudflare 的环境，然后探索如何在 Cloudflare 上充分利用 Claude。

Claude Managed Agents 概述

Claude Managed Agents 允许开发人员在 Anthropic 平台上轻松定义和运行智能体。在这些托管环境中，Claude 可以读取文件、运行命令、浏览网页和执行代码。该工具支持内置提示词缓存、压缩和各种以智能体优先的性能优化。

直到现在，使用 Claude Managed Agents 意味着需要在 Anthropic 提供的基础设施上运行整个堆栈。尽管这对某些开发人员来说是个不错的选择，但其他开发人员可能需要对他们的基础设施选择有更多的控制，无论是出于安全、合规还是性能的原因。自托管 Claude 智能体环境恰好提供了这样的功能。

Anthropic 将其描述为“将大脑与双手分离”。核心智能体循环运行在 Anthropic（即“大脑”），但用于运行和执行代码的基础设施（即“双手”）可以在任何地方运行，包括 Cloudflare。

Cloudflare 环境

我们的新集成让您的智能体能够在几分钟内在基于 Cloudflare 的环境中运行和执行代码。

请按照入门指南开始。然后将存储库分叉，根据您的需求自定义集成。

设置完成后，当 Claude 智能体开启会话时，它会向您基于 Cloudflare 的新控制平面发送消息。基于 Workers 的控制平面为每个智能体会话提供一个沙盒环境，用于执行代码、开发应用程序、运行 CLI 工具等。状态在会话休眠期间会自动保持。

^{沙盒会在响应基于 Claude 的智能体循环时写入文件和执行代码}

您可以选择配置沙盒实例的大小，或自定义在基于 VM 的沙盒中运行的容器镜像。每个沙盒可以在 Cloudflare 仪表板中监控，沙盒日志可以查询或传输给 Datadog 或 Splunk 等外部提供商。控制平面配有内置的用户界面，便于跟踪沙盒状态或通过 SSH 访问特定机器。

^{使交互式 Shell 会话进入您的智能体沙盒}

在互联网规模上启用智能体

如果您的智能体后台在几毫秒内启动，而且运行智能体时无需为完整虚拟机的资源付费，这会怎么样？

在大规模采用智能体时，行业需要一个轻量级沙盒机制，而我们正致力于构建这一点。

但是随着模型的不断改进，我们预计会有越来越多的工作流程由智能体管理。您的每位客户都应该能够同时运行多个智能体；您的每位员工都应该同时运行几十个智能体。如果我们不断为每个智能体运行完整的微型虚拟机，那么我们将在实现此规模时不必要地消耗大量资源和资金。

因此，我们为您的 Claude 智能体提供更快、更便宜的沙盒环境。此沙盒基于 AgentsSDK。您可以在 Dynamic Workers 中使用 Codemode 执行任意代码，并且您仍然获取文件系统，但您的智能体是在 V8 isolate 中完成这些操作，而不是在 microVM 中。

如果您需要智能体来充当开发人员，构建完整的应用程序并运行基于 Linux 的工具，您仍可以选择使用基于 microVM 的沙盒。为此，我们提供 Cloudflare Containers，Claude Managed Agents 也可以使用。

但如果您想要一个更快、更便宜且更易扩展的替代方案，您可以轻松使用隔离技术而不是 microVM。在设置智能体时，请选择“隔离”作为后端类型。

^{设置“隔离”后端可为您提供轻量级 V8 隔离沙盒，而不是 microVM}

如果您想处理成千上万甚至更多的并发智能体请求，使用隔离技术将使您能够以虚拟机解决方案无法实现的方式进行扩展。

保护您的智能体工作负载

当智能体与您的组织背景相连接时，他们的能力会更强。这通常意味着访问私有服务和数据。

正如我们之前所述，Cloudflare 上的沙盒工作负载可以使用出站代理，实现沙盒与外部服务之间完全动态、可定制的 Zero Trust 身份验证。这使您可以在沙盒外部将机密信息注入请求，从而保证智能体无法访问这些信息。这可以防御数据泄露攻击。

有时，内部服务永远不应暴露在开放的互联网中。我们最近推出了 Cloudflare Mesh 和 Cloudflare Workers VPC，无论这些私有服务是在 AWS 等云提供商上运行，还是在本地运行，均可实现更好的连接。这使您能够使用后量子加密网络连接内部服务，而无需 VPN 或堡垒主机。

Claude Managed Agents 可以通过头部注入或私有 VPC/Mesh 隧道轻松连接到私有服务。这是通过可定制的出站代理完成的。您可以定义出口策略，仅向您选择的智能体沙盒公开您选择的服务。您可以将特定终结点加入允许列表，执行加密凭据的 Zero Trust 注入，通过 Cloudflare Mesh 访问私有服务，甚至编写自定义代理中间件。

^{该集成使用 Outbound Workers 来根据您的需求处理外发流量}

您可以根据所需的元数据为每个租户、每个智能体应用策略。这使您对智能体如何连接到外部服务拥有完全控制权。

充分利用 Cloudflare 开发人员平台

智能体不仅仅需要一个代码执行环境。Cloudflare 开发人员平台默认提供所需工具，让您的智能体更加高效。

^{Sandboxs 可以在 Cloudflare 上进行工具调用，并安全地访问外部服务。}

以下是在 Cloudflare 上部署智能体时，您会发现最有用的一些工具：

通过 Claude 使用 Browser Run

智能体需要的最常用工具之一是浏览器。虽然 curl 功能很强大，但当您希望智能体像人类一样工作时，这通常意味着需要像人类那样与网络互动：渲染 JS 密集型应用程序、拍摄 QA 验证截图、填写表单等。Browser Run 是 Cloudflare 为智能体提供浏览器的工具。

^{Browser Run 会话录制让您可以观看您的智能体如何使用浏览器。众多内置工具之一。}

Claude Managed Agents 集成提供了多种与浏览器相关的工具，可以立即启用。其中包括 browser_search、browser_execute、screenshot、browse、fetch_to_markdown，以及特定于 Cloudflare 的 web_fetch 实现，使您的智能体能够控制在 Cloudflare 基础设施上运行的浏览器。这不仅让您的智能体能够做更多事情，而且还使您能轻松审查智能体浏览器在网络上执行的每个操作，对浏览器会话应用允许列表和拒绝列表，并保存浏览器会话的录制文件以供日后调试。

智能体收件箱

集成还带有内置的电子邮件支持，具备 send_email、email_read 和 email_list 工具。

您还可以通过电子邮件启动新会话，或配置智能体使用任何域和地址，通过 Cloudflare Email Service 发送电子邮件。这允许智能体在需要时代表您采取行动，回复转发电子邮件中的上下文，并通过电子邮件自主与他人互动。

自定义工具及其他

其他内置工具包括 call_service（它使用 Cloudflare Mesh 或 Workers VPC 连接到私有服务）和 image_generate（它使用 Workers AI 在 Cloudflare 上生成图像）。这与 Claude 提供的文本推理非常相配。

此外，我们建议将存储库分叉，以轻松添加自定义工具。例如，您可以添加自定义工具，在Cloudflare 的 R2 对象存储上托管公共文件。只需在 Wrangler 配置中添加相关绑定，编写 zod 定义，并在 custom-tools.js 中编写简短函数：

defineTool({
  name: "r2_host_file",
  description: "Upload from sandbox to R2 and get a public URL.",
  inputSchema: z.object({
    key: z.string().describe("Object key"),
    content: z.string().describe("UTF-8 file body"),
    contentType: z.string().describe("MIME type"),
  }),
  run: async ({ key, content, contentType }, { env }) => {
    await env.PUBLIC_BUCKET.put(
      key, content, { httpMetadata: { contentType }}
    );
    return `${env.PUB_R2_URL.replace(/\/$/, "")}/${encodeURI(key)}`;
  }
}),

Cloudflare 开发人员平台为扩展您的智能体提供了各种可能性：为每个智能体会话提供一个支持 git 的存储库，使用 Artifacts，通过 Workers AI 运行边缘推理，利用 Dynamic Workers 即时托管应用程序等。

您无需担心基础设施或扩展问题，只需编写几行代码并点击部署即可。

Claude + Cloudflare

我们很高兴与 Anthropic 合作，将 Cloudflare 的灵活性、规模和安全性带给更多用户。无论您是想使用隔离技术运行数千万智能体，还是通过 Workers VPC 安全连接私人服务，或者编写自定义工具以充分利用 Cloudflare，我们的新集成都能让这一切变得简单。

请参见 Managed Agents 入门指南，即可在几分钟内将 Claude Managed Agents 设置到 Cloudflare。

Project Glasswing：Mythos 为我们揭示的发现

Grant Bourzikas — Mon, 18 May 2026 06:00:00 GMT

近几个月来，我们一直在自有基础设施上测试一系列专注于安全的大语言模型。这些大语言模型帮助我们识别系统中的潜在漏洞，以便及时修复 —— 同时也向我们展示了攻击者能够借助最新模型进行的操作。

在所有这些大型语言模型中，来自 Anthropic 的 Mythos Preview 比任何其他模型都更引人注目。几周前，作为 Project Glasswing 的一部分，我们受邀使用了 Mythos Preview。我们很快就将其指向了我们自己的五十多个代码库，以观察它能发现什么，并了解其工作原理。

本文介绍了我们的观察结果、模型的优势与不足之处，以及在规模化场景中应用需要进行的架构和流程改进。

Mythos Preview 的改进之处

Mythos Preview 是一项真正的进步，在深入讨论其他问题之前，有必要明确指出这一点。我们已经在自有代码库上使用模型进行测试已有一段时间，从之前通用型前沿模型的能力水平到 Mythos Preview 今天的表现，这不仅仅对之前工作的改进，而是质的飞跃。

这是一种全新的工具，执行全新的工作，因而难以与早期模型进行直接对比。因此，与其试图将 Mythos Preview 与通用前沿模型进行性能对标，不如描述它实际能做什么更有意义。我们在使用 Mythos Preview 进行的工作中发现了两项突出的特性：

漏洞利用链构造—— 现实中的攻击很难仅靠一个漏洞完成，而是将多个微小的攻击原语串联成一个可实际运行的漏洞利用工具。例如，它可能将一个use-after-free（释放后重用）漏洞转化为任意读写原语，劫持控制流，并使用返回导向编程 (ROP) 链来完全控制系统。Mythos Preview 能够采用多个此类原语，并通过推理来确定如何将其整合为可行的概念验证。其推理过程看起来更像是高级研究员的工作成果，而不是自动扫描器的输出。
证明生成 - 发现漏洞和证明其可被利用是两件不同的事情，Mythos Preview 可以同时做到这两点。它会编写能够触发疑似漏洞的代码，在临时沙箱环境中编译并运行该代码。若程序运行结果与模型预判一致，即可作为漏洞实证。否则，模型将分析失败原因、调整推演假设并重新尝试。这套循环验证流程与其挖掘出的漏洞同等重要，因为缺乏有效实证的疑似缺陷仅为主观推测，而 Mythos Preview 可自主补齐这一短板。

上文所述的某些功能特性不完全是 Mythos Preview 独有的。当我们用同一套驾驭框架运行其他通用前沿模型时，它们发现了许多相同的底层漏洞，在某些情况下，它们在推理能力上的表现也超出了我们的预期。其不足之处在于将各个部分拼接在一起的环节。某个模型只会识别出值得关注的漏洞，条理清晰地阐述其重要性，随后便终止操作，既无法完成完整攻击链推演，也无法判定该漏洞是否具备可利用性。Mythos Preview 改变了这一点——现在模型能够将这些低风险漏洞（这些漏洞按传统做法会被忽视、隐藏在待办事项中，无人关注）链接成一个更严重的漏洞利用。

合法漏洞研究中的模型拒绝

Anthropic 作为 Project Glasswing 的一部分提供的 Mythos Preview 模型，并未配置一般可用模型（如 Opus 4.7 或 GPT-5.5）所具备的额外安全防护措施。

然而，该模型对某些请求会主动拒绝——如同赋予它漏洞研究能力的网络安全功能一样，它也自然产生了内在的安全防护机制，有时会拒绝合法的安全研究请求。但我们发现，这些自发的拒绝行为并不稳定。同样的任务用不同的方式表述或在不同的背景下提出，模型的响应会完全不同，下面的例子就体现了这一点。

^{Mythos Preview 拒绝构建可运行概念验证的示例}

例如，模型最初拒绝对一个项目进行漏洞研究，但在该项目环境发生无关的变化后，又同意对相同代码进行相同研究。被分析的代码没有任何变化。在另一个案例中，模型成功发现并验证了代码库中若干严重的内存漏洞，却拒绝了编写漏洞利用演示代码的请求。同一请求若以不同方式表述，模型给出的回答会有所不同；即使是完全相同的请求，由于模型固有的随机性，在不同的运行中也可能产生截然不同的结果。语义等价的任务由于呈现方式和时机的不同，可能在模型中产生相反的结果。

这很重要，因为模型的自发拒绝/防护机制虽然真实存在，但一致性不足，无法构成完整的安全边界。因此，未来任何向公众发布的高能力网络安全模型都必须在既有防护基础上加入额外的安全措施，方能用于 Project Glasswing 受控研究之外的更广泛场景。

信噪问题

安全漏洞分类中最具挑战性的工作是判断哪些缺陷是真实的、哪些是可被利用的、以及哪些需要立即修复。即便在 AI 出现之前，这也是一个难题。AI 漏洞扫描器和 AI 生成代码使问题更加复杂，为此 Cloudflare 建立了多层后置验证机制来加以处理。

两个关键因素主导了噪声率：

编程语言——C 和 C++ 提供直接内存控制，随之带来了缓冲区溢出、越界读写等缺陷类别，Rust 等内存安全语言则能在编译时消除这些问题。我们观察到，使用内存不安全语言编写的项目产生的误报率始终更高。
模型偏差 ——优秀的人类研究者会阐明其研究发现及其置信度。模型不会这样做。让一个模型寻找缺陷，它就会发现缺陷，无论代码是否真正存在这些漏洞。发现结果充斥着“或许”、“潜在”、“理论上可能”等模糊表述，此类模棱两可的结果数量远超确凿可靠的结论。对于一个探索性工具来说，这样的偏向是合理的。但这对于漏洞分级处置队列而言弊端极大，每一条推测性漏洞结论都需要耗费人力与算力资源进行剔除，数千条此类结论叠加将导致成本累计攀升。

Mythos Preview 在这里表现出明显的改进，特别是在其连接原语的能力方面——将多个漏洞组合成一个可行的概念验证，而不是单独报告。附带 PoC 的漏洞发现结果可让您直接着手处置，还能大幅减少您耗费精力去核实漏洞真伪的时间。

我们的驾驭框架被刻意调整为过度报告，这样我们能看到更多（并漏掉更少），但这也带来更多噪音。然而在漏洞分类环节，Mythos Preview 的输出质量明显更高：减少了推测性发现、提供了更明确的复现步骤，大幅降低了安全人员做出修复或排除决策的工作量。

为什么通用编码智能体无法胜任代码库分析任务

当我们去年首次开始 AI 辅助的漏洞研究时，我们的直觉是显而易见的做法：把一个通用编码智能体指向一个任意的代码库，然后要求它发现漏洞。这种方法从表面上看是可行的——模型确实会产生发现结果，但它无法对实际代码库进行有效的覆盖分析，也无法识别真正有价值的发现。主要原因有两个：

上下文 —— 编码智能体针对单一的专注工作流进行了优化调整：功能实现、缺陷修复和代码重构。它们摄入大量源代码，每次持有单一假设，并对其进行迭代。这对漏洞研究而言是完全错误的方式——漏洞研究的本质是狭窄且并行的工作流。人类研究员选择一个特定目标并对其进行深入调查。那个特定目标可能是一个复杂功能、跨越安全边界的转移，或特定漏洞类型（如命令注入），其中的攻击者输入最终被作为 shell 命令执行。随后，研究员在代码库中反复进行同样的工作——针对不同的功能、安全边界或漏洞类型，重复这个过程数千次。单个智能体会话（即使包含子智能体），面对一个十万行的代码库，在模型的上下文窗口填满并进行压缩之前，有效覆盖比例可能还不到千分之一，从而丢弃早期的潜在重要发现。
吞吐量 —— 单流智能体一次处理一项任务，而真实代码库需要同时针对多个组件提出多个假设，并在发现有价值的目标时能进一步扩展探索。您可以让单个智能体更加高效，但到了某一阶段，限制不再来自模型本身，而是来自交互形式本身的限制。对于已有具体线索并寻求辅助视角的人工调查场景，直接使用模型的编码智能体确实是可行的。然而，这不是实现高覆盖率的合适工具。认识到这一点后，我们不再试图让 Mythos Preview 执行不适合的任务，而是转向围绕它构建驾驭框架。

驾驭框架解决了什么问题

大规模运行这项任务产生了四个关键经验教训，每一个都指向同样的需求：构建一个驾驭框架来统筹整体执行：

范围越窄，结果越好—— 要求模型“在此代码库中寻找漏洞”会导致它漫无目的地游荡。直接告诉它：”查找此特定函数中的命令注入，采用这一信任边界，这是架构文档和这一区域的现有覆盖情况“，可引导模型以更接近人类研究员实际工作的方式运行。
对抗性审查能降低噪声——在初始发现和队列之间插入第二个智能体，该智能体采用不同的提示词、不同的模型，且不能自主生成发现。这种设计能捕获第一个智能体检查自身工作时会遗漏的大量噪声。事实证明，让两个智能体故意产生分歧，比仅仅告诉一个智能体要小心更加有效。
将推理链拆分到多个智能体可产生更优质的推理——”这段代码有 bug 吗？“和”攻击者能从系统外部到达这个 bug 吗？“是两个不同的问题。当分别提问时，模型在每个问题上的表现都更好，因为每个问题的范围比组合版本更窄。
多个并行的狭窄任务优于单个穷举式智能体——当多个智能体分别处理范围明确的问题，随后对结果进行去重时，覆盖率提升效果显著。这优于让单个智能体力图穷尽所有情况。

这些观察结果都涉及模型行为，综合起来，它们描述的已经不再是一个聊天界面。这是一种帮助您实现最终结果的工具。构建控制框架的初期步骤很简单——您可以请模型协助完成，这正是我们所做的。我们使用 Mythos Preview 来构建、定制和改进最初的驾驭框架，使其更好地发挥 Mythos Preview 的优势。下面介绍一个驾驭框架在实际应用中的示例。

我们的漏洞发现驾驭框架

以下将分阶段呈现我们的漏洞发现驾驭框架。该框架用于扫描我们实时运行的代码——从运行时环境、边缘数据路径、协议栈、控制平面，到依赖的开源项目。

阶段	作用	为何重要
侦察	智能体从代码库从上到下扫描代码库，扩展至负责各个子系统的子智能体，生成一份架构文档，涵盖构建命令、信任边界、入口点及可能的攻击面。同时为下一个阶段生成初始任务队列。	为每个下游智能体提供共享上下文。消除了”游荡“问题。
狩猎	每个任务对应一种攻击类型，具有范围提示。猎手（负责实际寻找漏洞的智能体）并发执行，通常约 50 个同时运行，每个猎手向若干个探索子智能体分配任务。每个猎手都可以访问一个工具集，用于在每个任务的专用临时目录中编译并运行概念验证代码。	这就是大部分工作进行之处。多个狭窄范围的任务并发运行，而非一个穷尽性的智能体。
验证	一个独立智能体重新读取代码，并尝试推翻原始发现。它使用不同的提示词，且不能独立生成新的发现。	捕获到猎手审查自身工作时会遗漏的一部分重要噪音。
补漏	猎手标注其接触但未深入探测的区域。这些区域会被重新加入队列，进行另一轮探索。	抵消模型向其已取得成功的攻击类别漂移的倾向。
去重	具有相同根因的发现合并为单条记录。	变体分析是一个特性，而非通过重复发现来扩大队列规模的方式。
追踪	对于共享库中的每个确认发现，追踪智能体会逐一展开（每个消费者库一个实例），使用跨库符号索引，并判断攻击者控制的输入是否确实从系统外部到达漏洞。	将”存在缺陷“转化为“存在可达漏洞“。这是最重要的阶段。
反馈	可达追踪结果转化为新的狩猎任务，在漏洞实际暴露的消费仓库中执行。	完成闭环。这个流程的性能将随着运行而不断提高。
报告	智能体基于预定义的架构编写结构化报告，针对该架构自动修复任何验证错误，然后将报告提交至摄入 API。	输出是可查询数据，而非自由格式文本。

这对安全团队意味着什么

来自其他安全负责人对 Mythos Preview 最强烈的反应集中在速度上——扫描更快、修复更快、压缩响应周期。我们接触的多个安全团队现在实行从 CVE 发布到生产补丁部署不超过两小时的 SLA。这种本能是可以理解的：当攻击者的时间线缩短时，防御者的时间线也必须随之缩短。速度更快还不足够，我们认为很多团队将会花费大量时间、精力和金钱，通过艰难的方式了解到这一点。

加快补丁发布的速度不会改变生成补丁的流程。倘若回归测试需要耗时一整天，若想达成两小时的 SLA，就只能省略测试环节；而省略试后上线版本所带入的漏洞，往往比您原本计划修复的漏洞问题更为严重。我们曾经有过切身体验：尝试让模型自主编写补丁后发现，部分上线补丁虽修复了原有漏洞，却悄无声息地破坏了代码所依赖的其他功能逻辑。

更为棘手的问题在于，漏洞周边的架构应当是什么样子。原则是，即时存在漏洞，也要增加攻击者利用该漏洞的难度，以此缩小漏洞披露至漏洞修复这段空窗期所带来的安全影响。这意味着在应用前端部署防护机制，阻断漏洞被触达利用。这意味着应用的设计应确保代码的一个部分存在缺陷时，攻击者无法借此访问其他部分。这意味着可以在代码运行的每个地方同时推出修复方案，而不需等待各个团队各自部署。

我们也认识到这个话题是一把双刃剑。这一能力帮助我们找到自身代码中的漏洞，但若落入不法之徒手中，将加速针对互联网上所有应用的攻击。Cloudflare 部署在数百万个互联网应用前端，而我们的产品构建时正是代表客户应用了上述原则。未来数周内，我们将为您详细说明此举会为客户带来怎样的影响。

如果您的团队正在从事类似工作并希望交流经验，请通过 security-ai-research@cloudflare.com 联系我们。

我们基于 Mythos Preview 开展的相关研究，均在受控环境下针对自有代码完成；本次研究过程中发现的所有漏洞，均严格按照 Cloudflare 标准漏洞管理流程完成分级研判、有效性核验，并对需处置的漏洞完成修复整改。

这项工作是一项团队努力。感谢 Albert Pedersen、Craig Strubhart、Dan Jones、Irtefa Fairuz、Martin Schwarzl 和 Rohit Chenna Reddy 对本文背后的研究、工程和分析所做出的贡献。

我们的计费流程管道突然变慢了。问题的起因在于 ClickHouse 中隐藏的瓶颈

James Morrison — Thu, 14 May 2026 13:00:00 GMT

我们在 Cloudflare 内部大量使用 ClickHouse，这是一个开源的联机分析处理 (OLAP) 数据库。每天，我们会向 ClickHouse 发出数百万次调用，以确定应该向使用 Cloudflare 产品的用户收取多少费用。如果我们不及时完成这些任务，将很难进行发票对账。

此管道为数亿美元的使用收入、反欺诈系统等提供支持，因此其延迟会对后续流程产生重大影响。

正因如此，当 ClickHouse 中负责确保 Cloudflare 账单正常发出的每日汇总任务处理速度在迁移后显著减缓时，我们才意识到这是一个严重问题。所有常见检查指标看起来都正常：I/O、内存、扫描的行数、读取的片段。这些我们通常会在 ClickHouse 查询速度变慢时检查的所有指标似乎都正常。

本文将概述我们如何发现 ClickHouse 内部深处隐藏的瓶颈，以及我们编写了哪三个补丁来修复。

设置：PB 级分析平台

我们使用 ClickHouse 在数十个集群中存储超过一百 PB 的数据。为了简化众多内部团队的引导流程，我们在 2022 年初构建了一个名为“Ready-Analytics”的系统。

前提很简单：团队无需设计新表，即可将数据流式传输到单张超大表。数据集通过 namespace 来消除歧义，每条记录使用标准模式（例如，20 个浮点字段、20 个字符串字段、一个时间戳，以及一个 indexID）。

在 ClickHouse 中，数据排序方式对于查询性能至关重要。indexID 正好可以发挥这方面的作用。它是一个字符串字段，构成主键的一部分，也就是说，每个命名空间可以按照其所有者预期的运行情况，优化查询数据的排序方式。最终得到的主键如下所示：（namespace、indexID、timestamp）。

这个系统广受欢迎，数百个应用程序都使用它。截至 2024 年 12 月，其数据量已超过 2PiB，数据摄取速率高达每秒数百万行。但它有一个严重缺陷：数据保留策略。

问题：单一的保留策略适用于所有情况

Cloudflare 多年来一直使用 ClickHouse，甚至在其具有原生生存时间 (TTL) 功能之前就已开始使用。因此，我们基于数据分区机制构建了自己的保留系统。Ready-Analytics 表按 day 分区，因此，我们的保留作业会简单地删除超过 31 天的分区。

这种“一刀切”的 31 天保留期是一个重大限制。有些团队由于法律或合同义务需要存储数据多年，而另一些团队只需存储数据几天。这种限制意味着这些用例无法使用 Ready-Analytics，而而不得不选择传统的部署方案，其引导流程也复杂得多。

我们需要一个支持按命名空间保留数据的新系统。

解决方法：全新的分区方案

我们考虑了两种主要方法：

每个命名空间一张表：这自然可以解决数据保留问题，但需要大量新的自动化功能来按需管理数千张表。
新的分区键：我们可以将分区键从简单的 (day) 修改为 (namespace, day)。

我们选择了第二个选项。这样一来，现有的保留系统可以继续管理分区，但如今我们还可以按命名空间进行精细化管理。

我们知道这将增加表中片段的总数量，但我们做了一个关键假设：由于按特定命名空间过滤每个查询，任何单个查询读取的片段数量不应改变。我们认为，这意味着性能不会受到影响。

^{这显示了我们是如何更改分区方式，从而能够经济实惠地删除单个命名空间的数据}

这个新系统也让我们能够构建一个复杂的存储管理层。利用最大最小公平算法，我们可以设置目标磁盘利用率（例如 90%），并自动“共享”可用空间。使用率低于其公平份额的命名空间，可以将其未使用的容量让给那些需要更多容量的命名空间。这样一来，我们能够自信地将集群的运行利用率提高到 90%。

2025 年 1 月，我们开始了迁移。我们使用 ClickHouse 的 Merge 表功能合并了新旧表，从而将所有新数据写入新的分区表，旧数据逐渐超过保存期限。

谜团：计费系统何时开始出现问题

两个月后，也就是 2025 年 3 月下旬，我们的计费团队报告说每日汇总任务处理速度变慢了。这些任务对时间要求很高；如果不完成，便无法发出账单。任务的处理速度越来越慢，而我们不断接近最后期限。

我们进行了调查，但所有常见检查指标看起来都很正常。I/O 正常。内存正常。单个查询的指标显示，其读取的数据和片段数量并不比以前更多。我们的初步假设似乎是正确的，但系统却开始缓慢运行。

我们花了好几天时间才找到一套理论来解释这个问题。最终，我们绘制了查询持续时间与总片段数的关系图。结果显示，两者之间存在明显的关联。

^{Ready Analytics ClickHouse 集群上的平均 SELECT 查询持续时间，显示性能逐渐下降。}

^{采用新的 (namespace, day) 分区方案后，每表副本的数据片段总数呈线性增长。}

但是，为什么会这样呢？如果没有读取额外的片段，为什么它们的存在会减缓运行？

调查：使用火焰图查找瓶颈

我们转为利用 ClickHouse 内置的 trace_log 来生成火焰图。这是一个内置表，用于记录正在运行的 ClickHouse 服务器的跟踪信息。它不仅包含正在执行的代码跟踪信息，还将这些信息与特定用户、查询 ID 和其他元数据关联，这意味着可以根据需要筛选出相当精确的事件集。在我们的用例，我们专门查看了末端节点 SELECT 查询。由于表中提供了元数据，因此很容易做到这一点。

第一个基于 CPU 的火焰图迅速证实了我们的怀疑：查询规划耗费了大量时间。这是执行之前的阶段，此时 ClickHouse 会决定要读取哪些片段。

^{火焰图，显示末端节点查询 45% 的 CPU 时间用于根据分区 ID 来过滤片段向量}

火焰图清晰地表明：45% 采样的 CPU 时间用于执行一个名为 filterPartsByPartition 的函数。

我们最初尝试的修复方法是对这个确切的代码路径打一个小补丁。规划器评估启发式算法以减少片段，但我们认为没有按最优顺序来进行评估。我们的补丁调整了顺序，从而提升了 5% 的性能。我们找到了正确的方向，但忽略了真正的问题。

我们一直生成的是“CPU”跟踪信息，这些跟踪信息只对活动线程进行采样。后来我们切换为“真实”跟踪信息，这些跟踪信息会对所有线程进行采样，包括那些处于非活动状态或等待状态的线程。新的火焰图给我们很大的启示。

^{火焰图，显示超过一半的末端节点查询持续时间用于等待保护活动片段列表的互斥锁}

问题不在于 CPU 密集型任务；而是大规模锁争用。超过一半的查询持续时间都花在等待获取保护表片段列表的单个互斥锁 (MergeTreeData)。若要规划查询，每个线程都必须：

获取此互斥锁的独占锁。
完整复制表中所有片段列表。
释放该锁。
过滤列表，将其缩小到相关片段。

由于有数万个片段和数百个并发查询，它们就像排成一列一样，等待执行。

解决方法：三个补丁

这一发现帮助我们规划了一系列优化措施来缓解这些性能瓶颈。与针对 ClickHouse 所做的所有补丁一样，我们力求使这些措施具有通用性，并最终将其贡献到上游代码库。这让我们可以更轻松地更容易维护自己的分支，意味着社群也能从我们所做的改变中受益！

优化措施 1：使用共享锁

查询规划器不会修改片段列表；它只是读取。因此，没有理由使用独占锁。

解决方法：我们修改了代码，以获取共享锁 (std::shared_lock)。这使得所有查询规划器可以同时进入临界区。

结果：查询持续时间立即显著下降。锁争用问题消失了。

^{使用共享锁优化（优化措施 1）对平均 SELECT 查询持续时间的即时影响，表明解决了锁争用问题。}

优化措施 2：停止复制向量

性能虽已显著改善，但仍未恢复到基准水平。我们重新查看了跟踪日志，并绘制了另一个“真实”的火焰图。

^{火焰图，显示四分之一的末端节点查询持续时间用于复制所有片段向量，另外四分之一的末端节点查询持续时间用于过滤（再次复制）。}

新的火焰图显示，瓶颈只是发生了转移。现在，即使使用了共享锁，仍然会花费时间复制庞大的片段向量。凭直觉，复制向量似乎很省时，但当它包含成千上万个元素且每秒执行数百次时，时间就会累加。

解决方法：我们完全推迟了复制操作。我们创建了一个片段列表的“共享副本”。只读操作（例如查询规划）直接从该副本读取数据。任何修改片段集合（例如插入新片段）的操作都会重新生成缓存。现在，规划器只复制其真正需要的已过滤片段列表。

结果：又一次显著的性能提升。

^{推出向量复制优化（优化措施 2）后，进一步提升了性能。}

在内部看到了这些显著的性能提升后，我们决定将这些更改拓展到社群。经过与 ClickHouse Inc. 维护人员进行多次微小的设计迭代后，我们在 PR #85535 中合并了这些更改。这些更改自 ClickHouse 25.11 版本以来一直可用。

优化措施 3：利用二分搜索，查找片段

事情还没有结束。随着片段数量的增加，性能仍然会下降，只是下降速度变得更慢。与片段数量的关联仍然存在。几个月后，我们重新审视了这个问题，新的火焰图（与图 3 相同）显示了过滤代码路径（我们首先尝试修复的路径）所花费的时间。该代码对所有片段执行线性扫描，从而针对每个片段评估谓词。在几个月之后，我们又回到了优化前的 SELECT 持续时间。

但我们知道，这个片段列表是按分区键排序。请记住，分区键的第一列是命名空间，绝大多数查询会根据它来过滤，因为它会标识“租户”。我们如何利用这一点？

解决方法：我们根据分区 ID 的 namespace 片段，实施了二分搜索。之所以有效，是因为向量已排序，用户无需实际查看即可过滤许多条目。因为 namespace 是该排序键的第一个片段，所以这种方法特别有效。经过第一轮二分搜索后，我们需要检查的片段范围显著缩小，对于这些片段，我们仍然会逐个检查，应用与之前相同的逻辑，根据其他条件排除某些片段。

结果：在 2026 年 3 月部署此补丁后，查询持续时间减少了 50%（参见图 8）。更重要的是，这最终打破了查询持续时间与片段数量之间的关联。但遗憾的是，这个解决方法对于任意查询条件（例如，namespace in (5,10) 等条件）的通用性并不强。我们正在研究更通用的方法，例如扩展查询条件缓存来涵盖片段过滤。

^{实施二分搜索以减少片段后，延迟持续降低（优化措施 3）。}

暂时缓解

这些优化措施暂时解决了计费系统的问题。但这次经历也暴露了我们分区方案选择带来的深远且不易察觉的代价。

依然存在其他问题。在这篇博客文章中，我们只描述了片段数量增加对 SELECT 持续时间产生的影响，但它也导致了 ZooKeeper 问题，ZooKeeper 负责跟踪 ClickHouse 中所有片段的元数据。或许有一天，我们会概述 100 GB ZooKeeper 集群的情况。

虽然我们获得了足够的喘息空间，但根本问题仍然存在：这种分区方案是否是正确的长期选择？或者，我们最终需要硬着头皮，迁移到不同的架构？目前，我们的补丁暂时有效，但这次经历清楚地表明，即使是精心策划的变更也可能因为错误的假设而失败。

计费团队首次报告该问题时，我们每个副本有 30,000 个片段。片段数量持续增长，一年后每个副本的片段数量达到了 16 万个，但由于我们现阶段的优化措施，查询持续时间一直保持稳定。

Cloudflare 致力于解决复杂的大规模工程难题。如果您认为本文描述的调试和优化正是您寻求的挑战，请查看空缺职位，了解我们的一些招聘信息。

Browser Run：现已在 Cloudflare Containers 上运行，更快速且更具可扩展性

Ruskin Constant — Wed, 13 May 2026 13:00:00 GMT

通过在 Cloudflare Containers 上重构 Browser Run，我们提高了后者的使用限制和可靠性，改善了性能。

如今，通过 Workers 绑定，用户每分钟可以启动 60 个浏览器实例并同时运行多达 120 个浏览器实例，是之前限制的 4 倍。此外，快速操作的响应时间也缩短了 50% 以上。用户无需进行任何更改：这些改进功能已在今天上线。不仅如此，我们还将以前所未有的速度发布修复程序和新增功能。请继续阅读，了解 Cloudflare 如何做到这一点，并查看相关数据。

提醒：什么是 Browser Run？

Browser Run 让开发人员能够以编程方式控制运行在 Cloudflare 全球网络上的无头浏览器实例并与之交互。这对于 Web 应用的端到端测试、安全地调查可疑 URL 以及利用浏览器轻松渲染 PDF 文档等功能非常有用；此外，它还可以执行其他快速操作，例如捕获屏幕截图和提取内容。最近，它已成为 AI 智能体与 Web 交互的重要工具。我们正努力将 Browser Run 打造成一个首选平台，用于以负责任的态度大规模、安全使用自动化浏览器。

超出基础设施承载极限，需要升级

在采用 Cloudflare Containers 之前，我们与浏览器隔离 (BISO) 共享基础设施。虽然技术上类似，但 BISO 更大的容器镜像减缓了启动和开发速度。关键问题是，BISO 浏览器缺乏最佳的全球分布，影响了韧性和延迟。此外，常规 BISO 用户长时间、稳定的会话与 Browser Run 短时间、峰值使用模式相冲突，产生了扩展瓶颈和可用性延迟。

值得庆幸的是，经过大量的内部开发，Cloudflare 去年发布了支持 Durable Object (DO) 的 Containers 开放测试版，这意味着我们已经准备好进行初步采用，从而最终让两个产品平台都受益。与大多数成功的产品平台一样，Cloudflare 致力于尽可能在自有平台上开发，以便我们能够先于外部客户发现并解决任何痛点。

迁移：Containers

我们开始了逐步迁移，首先是在传入请求路径中插入一个 Worker，为部分用户提供容器技术提供支持的浏览器，并与 BISO 的浏览器一同使用。开发过程中的这种双重支持至关重要：这让我们能够比较性能、隔离实施中的错误，并最终增强对容器技术支持方法带来的优势的信心。

为了加快采用，我们首先在所有快速操作端点中使用容器浏览器，然后通过 Workers 浏览器绑定在免费账户中连接容器浏览器，接着在按需付费账户中使用以验证稳定性，然后再推广到所有剩余的合同客户，从而确保过渡过程无需客户执行任何操作或重新部署现有 Worker。

挑战：性能与规模瓶颈

然而，我们自身也面临着一系列新的挑战：熟悉一个全新、不稳定的早期 Containers 平台界面，该平台文档匮乏、可观察性不足，而且同一时区的同事也很少。不过，作为零号客户，我们向团队内部提供的反馈意味着我们可以建立一个紧密的反馈循环，从而带来实质性的重大升级，这也同样惠及我们的外部客户。尽管如此，初期仍需克服很多摩擦，其中大部分是活跃开发期间封闭测试阶段常见的各种问题。需要克服的其他障碍则是新技术环境固有的问题。

例如，一旦我们的浏览器能够在全球范围内运行，我们的架构就必须进行相应的调整。支持 DO 的 Containers 会在尽可能靠近传入请求的位置创建 Durable Object，但连接的容器可能在世界的另一端启动。对于像“启动我的应用”这样的一次性消息，这种方法效果尚可，但当需要在容器之间建立 WebSocket 连接并交换数十条消息来完成屏幕截图请求时，这些跨越全球的额外毫秒延迟就会开始累积。

我们的解决方案是什么呢？创建区域性预加载 DO 支持的浏览器容器池，以限制 DO 与容器之间的最大距离（从而最大限度地减少延迟）。当请求到达后，我们会选择该区域内距离用户最近的 DO-容器对。这可以保持用户到 DO 以及 DO 到容器的两跳延迟都很低。虽然这会给我们的整体架构增加一些额外组件，但我们认为只要能够观察每个浏览器的全局状态，并根据不断变化的需求来分配和重新分配容量，那就值得这样做。在一定程度上，这是 Workers KV 的一个理想应用场景。

自去年年初以来，对我们无头浏览器的需求一直在激增。简而言之，AI 智能体构建者发现了 Browser Run，并且迅速带来了超出我们现有容量的请求量。我们很快就发现，调整资源池容量跟不上新需求的增长速度，需要采用可扩展方法来满足这一新需求。KV 的最终一致性大约是 30 秒，这成为了我们关键请求路径上的瓶颈。用户可能在 KV 中看到某容器显示“可用”，但当请求路由到该容器时（30 秒后），它已经被占用。这种延迟会导致竞争条件和浏览器资源过度分配，进而严重限制我们快速扩展以应对需求高峰的能力。

从 KV 迁移到 D1 + Queues

之前，我们将容器的状态存储在 KV 中。这意味着由于缓存 TTL（最近 KV 将最小缓存 TTL 更改为 30 秒，但即便如此，这个值仍然过高），我们可能会一直获取到一分钟之前的状态。

我们改为决定将容器状态迁移到 D1 实例中。D1 的事务特性非常适合这种需求。一旦我们将浏览器分配给用户，它就完全属于该用户。浏览器不是共享资源。SQLite 事务可确保原子性分配，并防止出现两个请求同时争用同一个浏览器的竞争条件。

以下是我们浏览器获取查询的简化版本：

WITH candidate_pool AS (
    -- candidate pool logic to pick based on latency and other rules
)
UPDATE containers
SET status = 'picked'
WHERE sessionId IN (
    SELECT sessionId
    FROM candidate_pool
    ORDER BY RANDOM()
    LIMIT ?5
)
RETURNING data

我们为每个位置维护一个 D1 分片，但鉴于可能有数千个容器在运行且每个容器需要每 5 秒更新一次状态，我们不断遇到一个问题：数据库过载。例如，如果每次写入耗时 1 毫秒，最多只能写入 1000 次，每次写入一行，这意味着我们只能运行 5000 个容器，否则会导致数据库过载。

然而，如果我们批量写入，则可以获得更高的吞吐量，因为批量写入的耗时与单次写入的耗时相差不大，因此可以大幅提高吞吐量。在我们的用例中，我们使用 100 行批量写入，这意味着现在每个位置最多可以更新 500,000 个容器。这种额外的容量表明，容量规划不再是瓶颈。

目前，我们的批量写入 P95 仅为 0.1 毫秒！

为了批量写入，我们使用 Queues：每隔 5 秒钟，每个容器会计算自身状态并将其添加到其位置队列中。然后，我们配置一个 Worker 消费者，批量处理大小为 100，批量处理超时为 1 秒：

{
    ...
    "queues": {
        "consumers": [
            {
                "queue": "production-core-containers-queue-weur",
                "max_batch_size": 100,
                "max_batch_timeout": 1,
                "max_retries": 1,
            },
            ...
        ]
        ...
    }
}

通过这种配置，我们实现了远低于 2 秒的可接受延迟时间。尽管如此，队列积压仍然可能会导致状态过时。出现这种情况时，每个区域会回退到指定的备份区域，直到主队列赶上为止。

快速操作的额外优势

利用专用基础设施，我们现在可以升级浏览器容器镜像，而不会对 BISO 等其他产品造成不必要的副作用或膨胀。这增加了执行快速操作的机会，例如优化屏幕截图和内容提取。以前，我们的 Workers 会与远程浏览器建立 WebSocket 连接，并依次发送指令：打开页面、导航到 URL、等待页面加载，以及进行屏幕截图。必须完成每个步骤，然后才能开始下一步。

然而，我们现在只需向容器发送一个 HTTP 请求，即可将所有参数直接发送到容器，整个流程在内部执行，无需 Worker 与浏览器之间进行任何来回通信。

结果：显著改善性能并增加限制

我们发现平均快速响应时间显著缩短，因为用户能够更快速地从浏览器会话中获取所需信息：浏览器准备就绪的等待时间缩短，DevTools 协议消息处理速度加快。

克服这种大规模实时状态管理难题，意味着我们可以投入更多时间进行开发，探索和开发新增功能，例如我们最近推出的 /crawl 端点。

提高浏览器灵活性

放弃共享的浏览器隔离容器后，我们还获得了另一个重要优势：更快的升级速度。

如果在共享的产品基础设施上运行我们的浏览器，升级 Chrome 意味着需要协调多个团队和产品，而每个团队和产品都有各自的路线图和优先事项。不过，现在我们运行自己的容器镜像，因此可以更快地进行升级。例如，WebGL 是一项备受需求的功能，现已支持基于浏览器的渲染，同时还支持 Web 模型上下文协议 (WebMCP)，从而实现新的智能体交互模式。这两项功能的实现得益于我们可以控制浏览器版本和标志，而不会对其他 Cloudflare 产品产生不良影响。

简而言之，我们才刚刚开始大规模释放浏览器的强大功能，尤其是在智能体开发方面。我们希望用户也能积极参与其中参与其中，欢迎查看我们的文档。

开始使用

Browser Run 在所有 Workers 计划中均可使用。首先是快速入门指南，也可以探索快速操作，或尝试使用 /crawl 端点，从任何网页深入提取数据并跟踪网站上的链接。

正在构建 AI 智能体？欢迎了解我们内置 Browser Run 支持的 Agents SDK。

构建未来

Matthew Prince — Thu, 07 May 2026 20:15:12 GMT

今天下午，我们向全球团队发送了以下邮件。Cloudflare 的核心价值观之一是公开透明，我们认为有必要由我们向大家直接说明此事，因为这是 Cloudflare 的一个重大时刻。

尊敬的团队：
我们特此通知大家，公司已决定在全球范围内裁减超过 1,100 名 Cloudflare 员工。
Cloudflare 的工作方式已经发生了根本性的改变。我们不仅仅是构建和销售 AI 工具和平台。我们是自身技术的使用者，也是最严苛的客户。仅在过去三个月，Cloudflare 内部的 AI 使用量已增长了超过 600%。从工程到人力资源、财务和市场营销，公司各职能部门的员工每天运行数千个 AI 智能体来完成各自的工作。这意味着，我们必须有意识地构建公司架构以适应 AI 智能体时代，从而大幅提高为客户创造的价值并践行自身使命，即“帮助为世界各地的用户构建更好的互联网”。
今天是一个艰难的日子。遗憾的是，这一决定意味着我们要与一些为践行公司使命做出卓越贡献、帮助 Cloudflare 成为全球最成功的公司之一的团队成员告别。我们要向大家说明的一点是，这一决定并非离职员工个人工作或才能的写照。而是我们对公司内部每一个流程、团队和岗位的重塑。今天的举措并不是为了削减成本或评估个人绩效；这关乎 Cloudflare 在 AI 智能体时代，如何让自身成为世界一流的高增长型公司并创造价值。
作为公司的创始人和领导者，我们必须承担起这份责任。Matthew 亲自发送了我们提供的每一封录用通知书。这是他一直期待的一种做法，因为这代表着公司的成长以及优秀人才的加入。这则消息由我们两人来传达，才显得合理。我们将通过电子邮件直接通知每位员工，而不是通过经理逐级陆续传达。
在接下来的一个小时内，全球团队的每一位成员都会收到我们两人发送的电子邮件，详细说明此次人事调整对他们的影响。对于离职员工，我们会将此更新通知发送到其个人邮箱和 Cloudflare 邮箱，以确保他们能够第一时间收到消息。
我们非常重视妥善对待离职团队成员，并尽力提供比其他公司更优厚的补偿。我们认为，秉持同理心行事并非避免做出艰难的决定，而在于做出这些决定时如何对待他人。如果公司要求团队表现达到世界一流，那么也有责任和义务以世界一流的方式对待他们。我们直接向员工发送解雇通知，并辅以业内领先的离职补偿方案。离职员工的补偿方案将包括其截至 2026 年底的全额基本工资补偿金。全球各地的医疗保险覆盖范围不同，但我们将会继续为美国员工提供医疗支持直至今年年底。我们还将为离职员工提供股权归属，截止日期延长至 8 月 15 日，这意味着他们将在离职日期之后继续获得股票。此外，如果离职员工未达到一年的股权激励行权期限，我们将免除这项限制，并按比例向其归属截至 8 月份的股权。
我们已经要求团队只进行一次人事调整，尽管这在今天看来可能很难。但我们不希望在可预见的未来再次进行此类调整。通过立即采取果断行动，公司既能为离职员工提供清晰明确的信息，又能让留任员工安心，维护团队的稳定性。我们现在做出这些改变，是因为如果反复进行小规模裁员或拖延多个季度才完成重组，会给员工带来长期的焦虑和不安，并阻碍公司的发展。这是正确的做法，也是诚实之举，并且体现了我们持续构建的公司价值观。
Cloudflare 创立之初是一家云原生数字化公司。这使我们能够赶上并超越那些拥有多年甚至数十年领先优势，却因过时的系统和流程而发展缓慢的公司。如今，我们已成为行业领军企业，不能再依靠昨日行之有效的工作流程和组织架构。我们相信，改造后的组织将在构建未来的过程中变得更加高效、更具创新性。
致各位离职员工：你们已帮助 Cloudflare 奠定了如今的坚实基础。我们对你们的工作致以最高的敬意，并且感谢你们做出的贡献。我们坚信，你们会在其他优秀公司大展宏图并参与创建许多未来的伟大企业，同时将你们在 Cloudflare 积累的独特技能带入新的征程。
公开透明是 Cloudflare 的核心原则，我们认为有必要由我们率先向大家说明此事。我们将在太平洋时间下午 2 点召开财报电话会议，届时会分享更多信息。我们还计划在全体员工大会上与团队实时讨论今天的公告。
做出今天的决定并不容易，但这是正确的决定。Cloudflare 致力于帮助构建更好的互联网的这项使命变得空前重要，我们还有很多工作需要完成。

Code Orange: Fail Small 已完满结束。这造就了一个更强大的 Cloudflare 网络。

Jeremy Hartman — Fri, 01 May 2026 21:07:30 GMT

过去两个多季度期间，我们开展了一项大规模技术攻坚工作，内部项目代号为 Code Orange: Fail Small，核心目标是持续优化 Cloudflare 基础设施，为每一位客户提升其韧性、安全性与可靠性。

本月上旬，Cloudflare 团队完成了此项工作。

虽然提升系统韧性永无止境，在我们的开发生命周期中也始终是首要工作，但本次优化改造已全部落地，足以避免 2025 年 11 月 18 日与 2025 年 12 月 5 日的两次全球性服务中断事故再次发生。

此项工作聚焦三大核心领域：更安全的配置变更、缩小故障影响范围，以及完善“ Break Glass（紧急破窗）”流程与事件管理机制。我们还引入了防漂移和防回归措施，完善了故障期间的客户沟通流程。

本文将详细阐述我们交付的成果，以及这些改进对您意味着什么。

更安全的配置变更

这对您意味着什么：在大多数情况下，Cloudflare 的内部配置更改不再立即生效，而是配合实时健康监控逐步推出。这使我们的可观测性工具能够在问题影响您的流量之前捕获并回滚相关问题。

为了防止存在潜在风险的部署进入生产环境，我们已完成了对高风险配置管道的梳理，并构建了新工具以更好地管理配置变更。

对于在我们网络上运行、处理客户流量且接收配置变更的产品，我们不再即时在整个网络部署配置更改。取而代之，相关团队针对所有配置部署采取一种“健康状态驱动部署”方案，也就是我们发布软件时所使用的相同方法。这包括但不限于直接受到上述事件影响的产品团队。

这种方法的核心是我们打造的全新内部组件：Snapstone，旨在将健康状态驱动部署应用于配置变更。Snapstone 是这样一个系统：将配置变更打包，然后按照健康状态驱动原理进行渐进式发布。在 Snapstone 之前，虽然可以将这种方法用于配置管理，但实施起来异常困难。这需要各团队投入大量精力，而且在全网范围内未能得到一致应用。Snapstone 提供一个统一机制，将渐进式推出、实时健康监控和自动回滚能力默认应用于配置变更部署，从而解决了这一问题。

Snapstone 的强大之处在于它的灵活性。Snapstone 并非针对具体历史故障的修补，而是允许团队动态定义任何需要健康状态驱动的配置单元，无论是导致 11 月 18 日故障的数据文件，还是 12 月 5 日故障所涉及的全局配置系统中的控制标志。团队按需创建这些配置单元，并且 Snapstone 确保它们在每个使用的地方都安全部署。

这弥补了我们以前的不足：当风险评审或运维发现危险配置模式时，修复很简单——把它加入 Snapstone，配置模式就自动获得安全部署保护。

减轻故障的影响

这对您意味着什么：如果我们的网络上出现问题，现在我们的系统可以更优雅地处理失败。这大大减少了潜在影响范围，确保即使在最坏情况下，您的流量也能传输到目的地。

为确保客户流量服务的可靠性，产品团队对关键产品的故障模式进行了人工和自动化双重评审。团队已移除非必需的运行时依赖项，并实现了更优的故障模式处理。在可行情况下，我们将默认采用最后已知有效配置的失效沿用（fail stale）策略；若无法这样做，我们已对每一类故障场景逐一评估，并根据业务实际选择实施故障放行（fail open）或故障阻断（fail close）机制，判断原则为：优先保障业务流量服务、适度容忍功能降级，还是直接中断流量。

下面通过实例讲解其工作原理。2025 年 11 月的服务中断事件，由 Bot Management 检测机器学习分类器的上线部署失败所引发。按照我们的新流程，倘若系统再次生成无法识别的数据，系统将拒绝启用更新后的配置，转而沿用原有旧配置。如果因某些原因无法调用旧配置，系统会采用故障放行（fail open）模式，保障您的业务生产流量持续正常服务，这远胜于宕机。

因此，如果导致 11 月故障的同一 Bot Management 变更现在推出，系统将在部署的早期阶段检测到故障，使其仅影响到小部分流量。

我们还开始对系统实施进一步分段隔离，为不同流量分组部署独立服务实例运行。Cloudflare 已借助流量管理技术，利用这些客户流量分组减少故障影响范围，通过以上进一步的进程隔离工作，将为后续的服务稳定性提供强有力的可靠性保障。

例如，Workers 运行时系统被分割为多个独立服务，分别处理不同群体的流量，其中一个仅处理免费客户的流量。更改将根据客户群体部署到这些分段，首先从免费客户开始。我们也在更快、更频繁地向重要程度最低的部分发送更新，而对最关键的部分则以较慢的速度进行。

因此，即使部署到 Workers 运行时系统的更改导致流量中断，也只会影响一小部分免费客户，系统会自动检测故障并执行回滚恢复。

还是以 Workers 运行时系统为例，在本月初的七天周期内，部署过程被触发超过 50 次。您可以看到每个变更波浪式传播到边缘，通常与后续和之前的发布并行执行：

我们计划在未来将这一部署模式推广到更多系统中。

完善“紧急破窗”与事件管理流程

这对您意味着什么：一旦发生故障，我们拥有必要的工具和团队资源，能够更清晰进行沟通，更快解决问题，从而最大程度减少宕机时间。

Cloudflare 的服务运行在自身平台之上。我们使用自己的 Zero Trust 产品来保护我们的基础设施，但这也带来了依赖性：如果出现一次全网络范围内的故障并影响到这些工具，我们就会失去修复它们所需的通道。在启动此 Code Orange 倡议之前，我们的“紧急破窗”通道仅向少数人员开放，且提供有限的工具访问权限。我们需要扩大这些工具和通道在故障期间的可用范围。

为了解决这个问题，我们对系统可观测性、故障调试和生产变更所需的关键工具进行了全面审计。最终，我们针对 18 项关键服务开发了备用授权访问通道，并配置了新的紧急脚本和代理。

在 Code Orange 倡议中，我们将理论付诸实践。在小规模团队演练之后，我们于 2026 年 4 月 7 日进行了全工程部门演练，共有超过 200 名团队成员参与。自动化保障通道的正常运作，而演练则让我们的工程师在压力下能够熟练使用这些通道。

这项工作还专注于优化信息流转。内部可观测性中断会导致事件响应效率下降，同时削弱我们对外沟通的能力。过去，紧急情况下获得的技术信息不是总能有效转化为客户层面的清晰沟通。

为了弥合这一差距，我们成立了专门的通信团队，以便在重大事件期间与事件响应人员紧密协作。在工程团队演练“紧急破窗”流程的同时，通信团队借助 Code Orange 倡议进行演练，优化客户通知的节奏和清晰度。通过同时配备可观测性工具和沟通机制，我们就能更快处置事件，并让客户获得更高质量的信息更新。

我们的改进措施已经制度化

这对您意味着什么：我们将铭记从相关事件中汲取的经验，并将相应的解决方案形成制度。我们的网络韧性将进一步加强。

为了避免 Code Orange 所做工作随着时间推移出现偏差并回退到旧有缺陷，团队搭建了内部 Codex，将所有规范准则固化为清晰、精简的正式规则。

该 Codex 现在是所有研发与产品团队均需遵照执行的强制要求，并已成为 Cloudflare 内部工作流程的核心组成部分。这些规则通过 AI 代码审查执行：一旦发现任何可能与指南不一致的实例，系统会自动高亮标记，并需要进一步的人工审核。这无一例外地适用于我们的整个代码库。目标很简单：建立自我强制执行的制度性记忆。

11 月和 12 月的故障存在共同的失败模式：代码假设输入始终有效，当这一假设被打破时却无法优雅降级。某个 Rust 服务调用 .unwrap() 而非处理；Lua 代码试图索引一个不存在的对象。如果能够汲取教训并将解决方案制度化，这两种模式都可以预防的。

这份 Codex 就是我们的解决方案的一部分。Codex 是一个动态的工程标准库，汇聚了领域专家通过 RFC（意见征询）流程制定的最佳实践，并将其转化为可直接执行的规则。之前仅存于资深工程师脑海中的最佳实践，或仅在事件发生后才被发现的经验，现已成为所有人都能获取的共享知识。每条规则都遵循一个简单的格式：“如果您需要 X，请使用 Y”，并附带解释原因的 RFC 链接。

例如，一条 RFC 现在规定：“不得在测试和 build.rs 之外使用 .unwrap()”另一条 RFC 规定了更广泛的原则：“服务必须在处理之前验证上游依赖处于预期状态”。

若这些规则能更早地执行，去年 11 月和 12 月发生的故障就会成为一次“被拒绝的合并请求”，而不会演变成全球性事件。

若不被强制执行，规则就会沦为建议。Codex 在软件开发全生命周期与 AI 驱动的智能智能体集成，贯穿设计审查、部署、事件分析等环节。这实现了执行的左移——从应对全球故障转变为在合并请求阶段拒绝有问题的代码。违规行为的波及范围从数百万个受影响的请求缩小到单个开发人员在代码进入生产环境前获得可操作的反馈。

Codex 是一份动态文档，将持续改进完善。领域专家撰写 RFC，将最佳实践形成规范。事件揭示出的差距会转化为新的 RFC。事件暴露出的缺陷将形成为新的 RFC。这些规则会传递给审核下一个合并请求的智能体。这是一个飞轮机制：专业知识变成标准，标准变成强制执行，强制执行为所有人提升了基准。

这不仅仅关乎代码：沟通是关键

这对您意味着什么：我们重视透明度。若发生任何故障，我们致力于在整个过程中保持透明沟通，让您专注于核心业务。

此前发生的全球故障促使我们深入审视核心流程和文化理念——这种反思远超工程和产品开发的范畴。作为整体 Code Orange 倡议的一部分，我们为所有服务引入了额外的服务级别目标（SLO），强制执行全球变更日志，将所有团队纳入我们的维护协调系统，并提高了公司内部在事件“预防”工单待办项上的透明度。

我们还完善了故障期间与客户的沟通机制。我们的目标是：确认发生问题后第一时间通知您，甚至在您自己注意到这个问题之前。在您察觉到延迟或错误时，我们的目标已经是让更新在您的通知中等待。

在处置事件期间，我们现在按可预测的间隔（例如每 30 分钟或 60 分钟）提供更新，即使更新内容仅为“我们仍在测试修复；暂无新进展”。这样您将可以专注于日常工作安排，而无需频繁刷新状态页面。

当服务状态恢复正常时，我们的工作并未完成。我们提供详细的事后总结，说明发生了什么、为什么发生，以及我们为防止再次发生而采取的具体结构性变更。

这个倡议已经告一段落。但我们追求韧性的努力永不停歇。

我们严肃对待这些事件，并在 Cloudflare 内部全员推行共同责任制，通过向每个团队提问“怎样做更好？”来驱动持续改进。这指导了我们在过去两个季度所进行的工作。

虽然这项工作永远不会真正完成，但我们相信所处境地已经显著改善，Cloudflare 也因此变得愈发强大。

断网、停电和冲突：2026 年第一季度互联网中断事件回顾

David Belson — Tue, 28 Apr 2026 13:00:00 GMT

2026 年第一季度，政府下令断网现象尤为突出，乌干达和伊朗的互联网长时间中断，与没有观察到政府下令断网事件的去年同期形成鲜明对比。本季度，我们还观察到几次停电导致的互联网中断现象，包括古巴国家电网的三次大面积停电。军事行动继续中断乌克兰的网络，也影响了中东的超大规模云基础设施。恶劣天气导致葡萄牙的互联网连接中断，电缆损坏造成刚果共和国的网络中断。技术问题影响了美国的 Verizon 无线网络，未知问题短暂中断了几内亚和英国的客户连接。

这篇博客文章是对观察到和已确认的中断事件的总结性概述，并不是该季度所发生问题的详尽或完整清单。如需查看更多已检测到的流量异常，请访问 Cloudflare Radar Outage Center。请注意，本文中使用了基于字节和基于请求的流量图表来说明观察到的中断的影响——指标的选择通常基于哪一个能更好地说明中断的影响。

政府指示的关停

乌干达

在 1 月 15 日总统选举之前，乌干达当局下令全国关闭互联网。乌干达通信委员会 (UCC) 下令移动网络运营商于当地时间 1 月 13 日 18:00 (15:00 UTC) 暂停互联网访问。据报道，乌干达通信委员会声称暂停互联网是为了“遏制虚假信息、错误信息、选举欺诈及相关风险”。由于该措施，乌干达互联网交换点 (UIXP) 的国内流量从约 72 Gbps 降至 1 Gbps。

同样，Cloudflare 数据显示，自断网开始，来自乌干达的流量几近完全丢失，流量在当地时间 1 月 17 日 23:00 (20:00 UTC) 保持为零，在现任总统约韦里·穆塞韦尼被宣布当选为第七任总统后，互联网连接部分恢复。

1 月 26 日，UCC 宣布已全面恢复互联网访问，移动网络运营商 MTN Uganda 和 Airtel Uganda 均在社交媒体确认已解除限制。这次断网引发了针对 UCC 和电信公司的诉讼，并引起了包括 CIPESA 等数字权利组织的批评。

乌干达曾在 2021 年选举期间封锁互联网。当局曾多次承诺这次会有所不同，就在 1 月 5 日还表示“与此相反的说法均属虚假、误导”。

伊朗

由于两次全国性的互联网关闭，伊朗公民在 2026 年第一季度大部分时间都不能上网，或者面临严重的网络连接问题。（第一次在大约当地时间 1 月 8 日晚上 20:00 (16:30 UTC) 开始，我们在关于伊朗互联网中断事件的已知情况文章中讨论了头几天的影响。）来自伊朗的流量保持几乎为零，直到 1 月 21 日才恢复少量流量，但在 24 小时后又消失了。1 月 25 日也出现了类似的短暂恢复，1 月 27 日流量恢复较大。

在 1 月 8 日流量下降的几个小时前，已公布的 IPv6 地址空间几乎完全损失。Asiatech (AS43754) 迄今为止排名第一，损失了 446 万个/48 等效地址，占伊朗 IPv6 空间总损失的约 9.4%。RASANA (AS31549) 位列第二，损失了 419 万个/48 等效地址（占全国总损失的约 8.8%）。不出所料，这导致伊朗的 IPv6 流量比例为零。鉴于这一变化以及全国性流量丢失之间的时间差距，这可能是即将发生的事情的先兆，但可能不是造成流量丢失的直接原因。断网期间，已公布的 IPv4 地址空间出现名义上的波动，但在断网期间水平保持相对一致。这些观察结果表明，断网是通过其他方式（如过滤）实现的。

Cloudflare Radar 在 1 月至 2 月初通过社交媒体发布的帖子（X、Bluesky 和 Mastodon）记录了我们在当月对伊朗网络情况的观察。

2 月 28 日，随着对伊朗的军事打击升级，第二次全国性的互联网中断开始。Cloudflare Radar 观察到，从当地时间 10:30 (07:00 UTC) 左右起，来自伊朗的流量急剧下降。流量水平下降至之前水平的不到 1%，只有少量 Web 和 DNS 流量流出该国。

此次断网期间，已公布的 IP 地址空间没有发生显著变化。IPv4 空间保持相对稳定，IPv6 空间继续保持波动，这表明路由撤回不是第二次断网的原因。

IP 地址空间的持续公告以及来自该国的流量（即使数量不多）表明，断网是通过主动过滤实现的，即用“白名单”和“白 SIM 卡”仅允许选定用户访问经批准的互联网网站。

伊朗在本季度结束前仍然断网。截至 4 月下旬，断网现象基本保持不变，成为近年来观察到的持续时间最长的互联网中断之一。

刚果共和国

3 月 15 日，刚果共和国举行总统大选，预计延续德尼·萨苏-恩格索总统的 42 年执政。我们观察到，该国的互联网连接几乎完全中断。大约在当地时间早上 06:30 (05:30 UTC)，来自该国的流量急剧下降，在选举期间及其后的大约 60 小时内几乎降至零。当地时间 3 月 17 日 18:20 (17:20 UTC) 开始，流量开始恢复，并迅速恢复到断网前的水平。尽管刚果当局没有对此次流量下降做出官方解释，但在 2021 年和 2016 年选举期间也实行了类似的断网措施。

军事行动

乌克兰（第聂伯罗彼得罗夫斯克）

1 月 7 至 8 日，俄罗斯攻击乌克兰能源基础设施导致停电，中断了第聂伯罗彼得罗夫斯克及其周边地区的互联网连接。Cloudflare Radar 观察到，从大约当时时间 1 月 7 日 22:45 (20:45 UTC) 开始，该地区的流量显著下降，比前一周水平低近 50%。流量大约在当地时间 1 月 8 日 06:00 (04:00 UTC) 开始。

乌克兰（哈尔科夫）

1 月 26 日，俄罗斯对哈尔科夫的能源基础设施发动无人机和导弹袭击。Cloudflare Radar 观察到，从大约当地时间 19:15 (17:15 UTC) 开始，来自该地区的流量下降约 50%。随着电力逐渐恢复，到 1 月 27 日，流量陆续恢复。

中东 Amazon Web Services（阿拉伯联合酋长国和巴林）

与持续地区冲突有关的无人机袭击对 Amazon Web Services 中东数据中心造成的物理破坏，这是该季度最不寻常的断网事件之一。3 月 1 日 (UTC) 早晨，Amazon 报告称一个阿联酋数据中心被击中后引发火灾。次日，该公司证实，其位于阿拉伯联合酋长国的两个设施（me-central-1 地区）被无人机“直接击中”，其位于巴林的一个设施（me-south-1 地区）也因附近发生袭击而受损，并随即下线。

Cloudflare 的Cloud Observatory 数据显示，从 3 月 1 日至 2 日开始，me-central-1 和 me-south-1 地区的连接失败率都有所上升，此后多日内也保持较高的连接失败率。连接失败是指 Cloudflare 在尝试检索不可缓存或不在缓存中或已过期的内容时，未能成功连接到源服务器。这些图表显示，在尝试连接到这些受影响地区的服务器时，失败率上升。

在 AWS Health Dashboard 上的状态文章中，亚马逊证实：“这些攻击造成了结构性损坏，中断了我们基础设施的电力供应，在某些情况下还需要灭火，进而导致额外的水损坏。”该公司警告称，中东地区可能会继续不稳定，导致运营“不稳定”，并敦促在受影响地区有工作负载的客户备份其数据或迁移到其他 AWS 地区。

由于无人机的再次袭击，巴林的 AWS“me-south-1”地区在 3 月 23 日再次中断。

停电

阿根廷（布宜诺斯艾利斯）

1 月 15 日，布宜诺斯艾利斯遭遇停电，彼时正值炎热的夏季。这次停电导致布宜诺斯艾利斯地区多家服务提供商（包括 Telecom Argentina (AS7303)、Telecentro (AS27747) 和 IPLAN (AS16814)）的客户无法访问互联网，这些网络的通信流量在当地时间 17:30 至 19:30 (20:30 - 22:30 UTC) 之间下降。停电发生大约两小时后，流量恢复到预期水平。

摩尔多瓦和乌克兰

1 月 31 日，乌克兰电网的一次紧急停电造成摩尔多瓦及多个乌克兰地区（包括基辅和哈尔科夫）大范围停电。据报道，受乌克兰电网问题影响，摩尔多瓦遭遇大范围停电，乌克兰能源部长解释了跨国影响，他指出：“今天上午 10:42(08:42 GMT) 出现技术故障，导致罗马尼亚和摩尔多瓦电网之间的 400 千伏线路与乌克兰西部和中部之间的 750 千伏线路同时中断。”摩尔多瓦、乌克兰基辅和乌克兰哈尔科夫的流量从大约当地时间 10:42 (08:42 UTC) 开始下降，与此前一周相比，下降幅度高达 46%，于大约当地时间 14:00 (12:00 UTC) 恢复。

巴拉圭

2 月 18 日，由于关键输电线路中断，巴拉圭发生大范围停电。国家电力管理局 (ANDE) 在 X 上发布了一系列更新，记录了事故发生情况及恢复供电的工作。从大约当地时间 15:15 (18:15 UTC) 开始，来自巴拉圭的互联网流量与前一周相比下降多达 72%，中断持续近三个小时，在大约当地时间 18:30 (21:30 UTC) 恢复。

多米尼加共和国

多米尼加共和国国家电网互联系统 (SENI) 出现重大故障，导致 2 月 23 日发生大规模停电。国有电力公司 Transmisión Eléctrica Dominicana (ETED) 在 X 发布了有关故障和恢复工作的更新。大约当地时间2月23日10:50(14:50UTC)，来自该国的互联网流量急剧下降，在大约当地时间(4:00UTC)2月24日午夜恢复，这与ETED发布的确认信息一致：“电力部门当局报告说，互联国家电力系统(SENI)在本周一晚上11:53完全恢复100%供电…”。

古巴

3 月，古巴全国电力系统 (SEN) 发生三次大面积停电，每次都造成互联网大规模中断，反映出该国电力基础设施严重失修的现状。（停电还导致古巴 2024 年 10 月、2025 年 3 月和 9 日互联网连接中断）。

第一次停电发生在 3 月 4 日，古巴国家电力系统发生中断，从卡马圭蔓延到比那尔德里奥，导致古巴西部包括哈瓦那在内的部分地区断电。OSDE/UNE（古巴电力联合会）在社交媒体上证实了这一故障。Cloudflare Radar 数据显示，自大约当地时间 (17:15 UTC) 12:15 开始，来自岛上的流量骤减近一半，在大约当地时间 3 月 5 日 05:01 (10:01 UTC) 恢复流量。

第二次停电发生在 3 月 16 日，当时古巴整个国家电力系统处于断电状态。EnergíaMinas Cuba 在 X 上发布了相关信息。Cloudflare Radar 数据显示，大约 3 月 16 日 13:35 (17:35 UTC)，来自古巴的互联网流量骤降大约 65%。到 3 月 17 日当地时间 20:00 （3 月 18 日 00:00 UTC），流量恢复到预期水平，网线中断持续了 30 多小时。

3 月 21 日至 22 日，发生第三次停电（在短短一周之后）。EnergíaMinas Cuba 和 OSDE/UNE 再次在 X 平台发布了最新动态。Cloudflare Radar 数据显示，从大约当地时间 3 月 21 日 18:30 (22:30 UTC) 开始，来自古巴的流量显著下降，比前一周下降了多达 77%。流量在大约当地时间 3 月 22 日 21:39（3 月 23 日 01:39 UTC）恢复。

美属维尔京群岛

3 月 24 日，根据美属维尔京群岛水电局 (WAPA) 的一则 Facebook 帖子，里士满发电站的电力损失，加上地下电缆受损，导致美属维尔京群岛的圣克洛伊岛和圣托马斯岛停电。Cloudflare Radar 数据显示，当地互联网服务提供商 VI Powernet (AS14434)（美国维尔京群岛的主要 ISP）的流量从大约当地时间 12:15 (16:15 UTC) 开始下降至接近于零，在大约当地时间 14:45 (18:45 UTC) 恢复。虽然 VI Powernet 服务几乎完全中断，但由于其他提供商的存在，来自圣托马斯岛的流量仅减少约 60%，来自圣克罗伊岛的流量减少约 40%。

恶劣天气

葡萄牙

风暴“Kirstin”于 1 月 28 日登陆葡萄牙，造成全国范围内的损坏和停电。民防部门在当地时间午夜至 08:00 (00:00 - 08:00 UTC) 登记了大约 1500 起事件，受灾最严重的地区是莱里亚和科英布拉。据报道，基础设施遭到严重破坏，到当地时间 07:00 (07:00 UTC)，超过 85 万 E-Redes 客户陷入停电状态。

从大约当时时间 1 月 28 日 04:10 (04:10 UTC) 起，相关停电导致葡萄牙多个地区断网。Cloudflare Radar 观察到，主要是在莱里亚、圣塔伦、科英布拉地区。莱里亚的互联网流量下降高达 70%，科英布拉的互联网流量下降 52%。

恢复速度很慢：到 1 月 30 日，仍有超过 29 万名客户没有恢复用电。Cloudflare 在接下来的几周内继续追踪地区流量的逐步恢复状况。（风暴过后前几天，科英布拉的流量恢复到预期水平。）据报道，风暴过后三个多星期，莱里亚仍有超过 6,000 名客户没有电力供应。

电缆损坏

刚果共和国

新年伊始，刚果共和国因西非海底光缆系统 (WACS) 海底电缆事件而出现互联网连接中断。Congo Telecom (AS37451) 在 X 上发布信息，宣布“WACS 光缆发生国际故障”导致互联网中断，并表示已经启用备份解决方案。Cloudflare Radar 观察到，自大约当地时间 1 月 2 日 00:00（UTC 1 月 1 日 23:00）起，来自刚果的流量出现大幅下降，降幅达到 82%。Congo Telecom 后续发布的帖子证实了这一情况，称修复工作仍在进行中，用户在高峰时期的网速可能变慢。到大约当地时间 1 月 4 日 15:00 (14:00 UTC)，流量恢复至预期水平。

技术问题

Verizon Wireless（美国）

1 月 14 日，软件故障导致 Verizon Wireless (AS6167) 美国客户的语音和数据服务受到了影响。Verizon 发布了一份官方声明，承认宕机始于 1 月 14 日，并在 22:15 ET（1 月 15 日 03:15 UTC）得到解决。@VerizonNews 在 X 上多次发布更新信息，让订阅用户整晚都能了解最新资讯。Cloudflare Radar 的数据表明，流量自大约美国东部时间 1 月 14 日 12:30 (17:30 UTC) 出现轻微下降，与报告的故障发生时间一致。

格林纳达

2 月 9 日至 10 日，Flow Grenada (AS46650) 作为格林纳达的主要互联网提供商，其客户遇到了全岛范围的服务中断，持续约 12 小时。该运营商在 Facebook 发表帖文，证实出现了服务中断，但没有提供有关根本原因的详细信息。Cloudflare Radar 数据显示，来自该网络的流量最初在当地时间 2 月 9 日 11:30 (15:30) UTC 左右下降，当地时间 20:00 左右（2 月 10 日午夜 UTC）完全消失，当地时间 23:30 左右（2 月 10 日 03:30 UTC）恢复。路由数据显示，已公布的 IPv4 空间完全丢失，与此同时流量降至零。BGP 消息公告激增发生在中断最初开始时，记录了整个中断情况，表明整个事件可能与路由有关。

未知原因

Orange Guinée（几内亚）

自大约当时时间 1 月 6 日 10:45 (10:45 UTC) 开始，Orange Guinée (AS37461) 在几内亚的客户无法拨打电话或访问互联网。Orange Guinée 随后证实，技术问题导致手机和互联网服务受影响出现“异常故障”，公司团队正在加紧处置，恢复服务。服务在大约当地时间 14:00 (14:00 UTC) 恢复。并未公开有关事件根本原因的更多细节。

TalkTalk（英国）

3 月 25 日，英国宽带提供商TalkTalk (AS13285) 的客户报告其服务发生大范围中断。TalkTalk 在 X 上承认了问题，但没有公开披露根本原因。Cloudflare Radar 观察到，从大约当地时间 07:00 (07:00 UTC) 开始，服务提供商的流量较前一周下降了近 50%。服务于大约当地时间 08:15 (08:15 UTC) 恢复。

断网多发季度

2026 年第一季度，严峻和长时间的互联网中断事件发生频率高于往常。政府下令断网（特别是乌干达和伊朗的持续断网事件）凸显出互联网访问继续成为政治控制工具。在短短一个月内，古巴全国三次电网停电，突显出基础设施的脆弱性，对网络产生了直接影响。而无人机对中东 AWS 数据中心的袭击，标志着一种史无前例的冲突升级，因为冲突直接对主要云基础设施造成了物理上的破坏，导致托管在其中的网站和应用程序蒙受灾祸。

Cloudflare Radar 团队持续监控互联网中断情况，并通过 Cloudflare Radar 中断中心、社交媒体以及 blog.cloudflare.com 上的博客文章分享我们的观察结果。欢迎在社交媒体上关注我们：@CloudflareRadar (X)、noc.social/@cloudflareradar (Mastodon) 和 radar.cloudflare.com (Bluesky)，或通过电子邮件联系我们。

提高 Rust Workers 可靠性：wasm-bindgen 中的 panic 错误与中止恢复机制

Guy Bedford — Wed, 22 Apr 2026 13:00:00 GMT

Rust Workers 是 Cloudflare Workers 平台上运行的一个工具，它将 Rust 代码编译为 WebAssembly 格式，但我们发现 WebAssembly 存在一些缺陷。当出现 panic 错误或意外中止时，运行时可能处于未定义状态。对于 Rust Workers 用户而言，panic 往往会产生致命影响：不仅污染实例，甚至可能导致 Worker 在一段时间内无法响应。

虽然我们能够检测并缓解这些问题，但 Rust Worker 仍然有可能意外失败，并导致其他请求也随之失败。Worker 中未处理的 Rust 中止会影响单个请求，可能升级为影响同级请求的更大故障，甚至持续影响新的传入请求。问题的根源在于 wasm-bindgen，这是生成 Rust worker 所依赖的 Rust-to-JavaScript 绑定的核心项目，而 wasm-bindgen 缺乏内置的恢复机制。

在这篇文章中，我们将分享最新版 Rust Workers 如何处理全面的 Wasm 错误恢复，以解决这种由中止引起的沙箱污染问题。作为我们去年在 wasm-bindgen 组织内部合作的一部分，我们已将这项工作贡献融入 wasm-bindgen。首先，我们添加了 panic=unwind 支持，确保单个失败的请求不会影响其他请求；其次，我们添加了中止恢复机制，保证 Wasm 中的 Rust 代码在中止后绝不会再次执行。

初始恢复缓解措施

我们最开始尝试解决这方面的可靠性问题时，侧重于理解和控制生产环境中的 Rust Worker 因 Rust panic 和中止引起的故障。我们引入了自定义 Rust panic 处理程序来跟踪 Worker 中的故障状态，并在处理后续请求之前触发了完整的应用重新初始化。在 JavaScript 端，这需要使用基于代理的间接寻址来封装 Rust-JavaScript 调用边界，以确保以一致的方式封装所有入口点。我们还对生成的绑定进行了针对性修改，以便在故障发生后正确地重新初始化 WebAssembly 模块。

虽然这种方法依赖于自定义 JavaScript 逻辑，但它证明了可靠的恢复是可以实现的，并且排除了我们在实践中遇到的持续性故障模式。从 0.6 版本开始，此解决方案已默认提供给所有 workers-rs 用户，并为下文所述的更普遍的、上游中止恢复机制奠定了基础。

使用 WebAssembly Exception Handling，实施 `panic=unwind`

上文描述的中止恢复机制可确保 Worker 能够在出现故障时继续运行，但这些机制是通过重新初始化整个应用来实现这个目标。对于无状态请求处理程序来说，这没有问题。但对于在内存中保存有意义状态的工作负载（例如 Durable Objects）来说，重新初始化意味着完全丢失该状态。一个请求中的单个 panic 可能会清除其他并发请求正在使用的内存状态。

在大多数原生 Rust 环境中，可以进行 panic unwind 处理，从而允许析构函数运行，程序在不丢失状态的情况下恢复。在 WebAssembly 中，情况历来截然不同。通过 wasm32-unknown-unknown 编译成 Wasm 的 Rust 默认使用 panic=abort，因此，Rust Worker 内部的 panic 会突然生成 unreachable 指令，导致 Wasm 退出执行并抛出 WebAssembly.RuntimeError 错误给 JS。

为了从 panic 中恢复且不丢弃实例状态，我们需要 wasm-bindgen 中对 wasm32-unknown-unknown 的 panic=unwind 支持。WebAssembly Exception Handling 提案使这成为可能，该提案在 2023 年获得了广泛的引擎支持。

我们首先使用 RUSTFLAGS='-Cpanic=unwind' cargo build -Zbuild-std 进行编译，这重新构建支持 unwind 的标准库，并生成具备适当 panic unwind 处理策略的代码。例如：

struct HasDropA;
struct HasDropB;
extern "C" {
    fn imported_func();
}

fn some_func() {
    let a = HasDropA;
    let b = HasDropB;
    imported_func();
}

编译为 WebAssembly 格式的代码如下：

try
  call 
catch_all
  call 
  call 
  rethrow
end
call 
call

这可确保即使 imported_func() panic 错误，析构函数仍然会运行。类似地，std::panic::catch_unwind(|| some_func()) 编译后的格式为：

try
  call 
  ;; set result to Ok(return value)
catch
  try
    call 
    ;; set result to Err(panic payload)
  catch_all
    call 
    unreachable
  end
end

要使这种编译方式能够端到端正常发挥作用，我们对 wasm-bindgen 工具链进行了一些更改。WebAssembly 解析器 Walrus 无法处理 try/catch 指令，因此，我们添加了对它们的支持。描述符解释器还需要学会如何评估包含异常处理块的代码。就在这时，可以使用 panic=unwind 构建完整的应用。

最后一步是修改 wasm-bindgen 生成的导出，以便在 Rust-JavaScript 边界处捕获 panic，并将其显示为 JavaScript PanicError 异常。需要注意的一点是：Rust 会捕获外部异常，并在通过 extern "C" 函数进行 unwind 时终止，因此，需要将导出标记为 extern "C-unwind"，以明确支持跨边界进行 unwind 处理。如果使用 futures 库，panic 会拒绝 JavaScript Promise，并抛出 PanicError。

闭包问题需要特别注意，确保通过新的 MaybeUnwindSafe trait 来正确检查 unwind 安全性，该 trait 仅在使用 panic=unwind 进行构建时才会检查 UnwindSafe。但这很快暴露了一个问题：许多闭包捕获了 unwind 处理后仍然存在的引用，这使得它们本质上不安全。为避免出现用户错误地将闭包包装在 AssertUnwindSafe 中只为满足编译器要求这种情况，我们添加了 Closure::new_aborting 变体，在无法保证 unwind 安全性的情况下，这些变体会在发生 panic 时终止程序，而不是进行 unwind 处理。

启用 panic unwind 时：

wasm-bindgen 会捕获已导出 Rust 函数中的 panic
panic 会作为 PanicError 异常抛给 JavaScript
异步导出会拒绝其返回的 Promise，并抛出 PanicError
Rust 析构函数正常运行
WebAssembly 实例仍然有效且可重用

有关这种方法的详细信息以及在 wasm-bindgen 中的使用方式，请参阅 Wasm Bindgen：捕获 panic 最新指南页面。

中止恢复

即便启用 panic=unwind 支持，也仍然会出现中止，而内存溢出错误是常见原因之一。由于无法对中止进行 unwind 处理，因此完全无法恢复状态，但我们至少可以检测中止并从中恢复，以执行后续操作，避免无效状态导致后续请求出错。

Panic unwind 支持为中止恢复引入了新问题。当我们收到源自 Wasm 的错误时，我们无法确定它是源自 extern “C-unwind”的错误，还是真正的中止。WebAssembly 中的中止可能以多种形式出现。

有两种技术方案来解决这个问题：标记所有明确的中止错误，或者标记所有明确的 unwind 错误。两种方案都可行，但我们选择了后者。由于我们的外部异常处理已直接使用原始的 WAT 级 Exception Handling （WebAssembly 文本格式）指令，因此，我们发现可以更轻松地为外部异常添加异常标记，将它们与中止 non-unwind-safe 异常区分开来。

借助 WebAssembly Exception Handling 中的 Exception.Tag 特性，我们能够清楚地区分可恢复错误与不可恢复错误，然后集成新的中止处理程序以及中止重入防护。新的中止 hook set_on_abort 可用于在初始化时附加处理程序，该处理程序会根据平台嵌入的需求进行相应的恢复。

强化 panic 和中止处理是避免无效执行状态的关键。WebAssembly 支持调用栈深度交错，也就是说，Wasm 可以调用 JavaScript，JavaScript 可以重新进入 Wasm，无论嵌套调用有多深；除此之外，多个任务可以在同一个 WebAssembly 实例中运行。之前，某个任务或嵌套栈中发生的中止并不一定能通过 JS 导致更高层级的栈失效，从而引发未定义的行为。我们需要谨慎地确保执行模型的可靠性，并且这方面的工作仍在持续进行。

虽然中止并非理想情况，故障后重新初始化更是极端情况，但将关键错误恢复作为最后一道安全防线可确保执行正确无误，以及后续操作能够成功。无效状态不会持续存在，从而确保单个故障不会引发多个故障。

扩展：wasm-bindgen 库的中止后重新初始化

在开发过程中，我们意识到这是使用 wasm-bindgen 构建 JS 库的常见问题，以及添加一个中止处理程序进行恢复，也会让这些库从中受益。

但是，当以 ES 模块的形式构建 Wasm 并直接导入（例如，使用 import { func } from ‘wasm-dep’）时，如果用户 JS 应用中已链接并初始化的库在调用 func() 函数时发生 Wasm 中止，尚不清楚其恢复机制是什么。

虽然这并非严格意义上的 Rust Workers 用例，但我们团队也支持基于 JS 的 Workers 用户，此类用户运行 Rust 支持的 Wasm 库依赖项。如果我们能够同时解决这个问题，可能会间接推动 Cloudflare Workers 平台上的 Wasm 使用。

为了支持 Wasm 库用例的自动化中止恢复，我们在 wasm - bindgen 中添加了试验性重新初始化机制 --reset-state-function 支持。该机制提供一个函数，让 Rust 应用能够有效地请求将其内部 Wasm 实例重置回初始状态以备下一次调用，而无需生成的绑定的用户重新导入或重新创建实例。旧实例中的类实例会抛出异常，因为其句柄已变为孤立类，但此后可以构造新的类。使用 Wasm 库的 JS 应用会出现错误，但不是完全无响应。

有关此项功能的完整技术详情以及在 wasm-bindgen 中的使用方式，请参阅新的 wasm-bindgen 指南中的 Wasm Bindgen：处理中止部分。

完善 Rust Wasm Exception Handling 生态系统

对这项工作的上游贡献并不仅限于 wasm-bindgen 项目。使用 panic=unwind 进行 Wasm 构建仍然需要采用试验性 Nightly Rust 目标，因此，我们也一直在努力推进 Rust Wasm 对 WebAssembly Exception Handling 的支持，以便将其引入稳定的 Rust 版本。

在开发 WebAssembly Exception Handling 功能的过程中，后期规范变更导致了两种变体：传统异常处理以及最终的现代异常处理（使用 exnref）。目前，Rust 的 WebAssembly 目标仍然会默认生成传统异常处理的代码。虽然传统异常处理仍然得到广泛支持，但它如今已被弃用。

以下 JS 平台版本开始支持现代 WebAssembly Exception Handling：

运行时	版本	发布日期
v8	13.8.1	2025 年 4 月 28 日
workerd	v1.20250620.0	2025 年 6 月 19 日
Chrome	138	2025 年 6 月 28 日
Firefox	131	2024 年 10 月 1 日
Safari	18.4	2025 年 3 月 31 日
Node.js	25.0.0	2025 年 10 月 15 日

在调查支持矩阵的过程中，我们发现最大的问题是 Node.js 24 LTS 的发布计划，这将导致整个生态系统只能继续使用旧版 WebAssembly Exception Handling 直至 2028 年 4 月。

发现这一差异后，我们成功地将现代异常处理机制移植到 Node.js 24 版本，甚至还移植了必要的修复程序，使其能够在 Node.js 22 系列版本上运行，以确保支持这个目标。如此一来，现代异常处理提案应该在明年会成为默认目标。

在未来几个月，我们将努力让最终用户顺畅地过渡到稳定的 panic=unwind 支持和现代异常处理机制。

虽然对完善生态系统的这些长期投入需要时间才能见效，但它们有助于为整个 Rust WebAssembly 社区奠定更坚实的基础，Cloudflare 很高兴能够为这些改进贡献一份力量。

在 Rust Workers 中使用 panic unwind

从 Rust Workers 0.8.0 版本开始，我们新增了一个 --panic-unwind 标志，用户可以按照此处的说明将其添加到 build 命令中。

使用该标志，可以完全恢复 panic 错误，中止恢复机制将使用新的中止分类和恢复 hook 机制。我们强烈建议用户升级并试用新版本，获得更稳定的 Rust Workers 体验；另外，我们还计划在后续版本中将 panic=unwind 设置为默认值。继续使用 panic=abort 方法的用户，将继续受益于 0.6.0 版本中之前的自定义恢复封装器处理功能。

确保 Rust Workers 的稳定性

这项工作是我们持续努力的一部分，旨在推出稳定版 Rust Workers。Cloudflare 通过从根本上解决 Wasm 平台基础架构中的这些棘手问题，并在适当的时候回馈生态系统，我们不仅为自己的平台，也为整个 Rust、JS 和 Wasm 生态系统构建了更坚实的基础。

我们计划对 Rust Workers 进行一系列改进，并很快分享这项额外工作的最新进展，包括 wasm-bindgen 泛型和自动化 bindgen。上个月，我们团队的 Guy Bedford 在 Wasm.io 大会上关于 Rust 与 JS 互操作性的一场演讲中预告了这方面的信息。

请关注我们在 Cloudflare Discord 的 #rust‑on‑workers 频道。我们也欢迎用户提供反馈并展开讨论，尤其是所有新加入 workers-rs 和 wasm-bindgen GitHub 项目的贡献者。

构建智能体云：我们在 Agents Week 2026 期间发布的所有产品与功能

Ming Lu — Mon, 20 Apr 2026 13:00:00 GMT

今天标志着我们首届 Agents Week 的圆满结束，这是一场专门为智能体时代而举办的创新周。时机恰到好处：过去这一年，智能体以迅猛之势重塑了人们的工作方式。编码智能体正在帮助开发人员以前所未有的速度交付代码。支持智能体能够端到端地解决工单。研究智能体能够在数分钟内跨数百个信息源验证假设。而且人们不仅仅运行一个智能体：而是并行运行多个智能体，并且全天候不间断地进行。

正如 Cloudflare 首席技术官 Dane Knecht 和产品副总裁 Rita Kozlov 在我们的 Agents Week 欢迎文章中指出的那样，智能体的潜在规模是惊人的：如果全球知识工作者中仅有一部分各自并行运行几个智能体，您将需要数千万个并发会话的计算容量。云计算赖以建立的“单应用服务多用户”的模型无法胜任这一需求。但这正是开发人员和企业想要做的：构建智能体、部署给用户，并规模化运行。

要实现这一目标，需要解决整个技术栈中的问题。智能体需要能够从完整操作系统到轻量级隔离容器之间缩放的计算环境。智能体需要在运行层面内置安全和身份管理机制。智能体需要配备一个智能体工具箱：正确的模型、工具和上下文，以完成实际任务。智能体生成的所有代码都需要一条清晰的路径，从午间原型快速演进到生产应用。最后，随着智能体驱动的互联网流量份额不断增长，Web 本身需要适配正在兴起的智能体 Web。事实证明，我们八年前通过 Workers 推出的无容器、无服务器计算平台早已为这一时刻做好了准备。从那时起，我们将其发展成了一个完整的平台，本周我们交付了下一波专为智能体设计的基础组件，围绕上述问题精心组织。

我们致力于打造 Cloud 2.0——智能体云。这一基础设施是为智能体作为主要工作负载的世界而设计的。

这里是我们本周宣布的所有内容——我们不希望您错过任何一个亮点。

计算

一切始于计算。智能体需要一个运行环境，还需要一个地方来存储和执行它们编写的代码。不同的智能体有不同的需求：有的需要完整的操作系统来安装包并执行终端命令，而大多数则需要一个轻量级的运行时，可在毫秒级内启动并扩展到数百万并发。本周我们发布了运行这些智能体的运行环境，以及一个新的 Git 兼容工作空间：

公告	摘要
Artifacts：支持 Git 的版本化存储	为智能体、开发人员和自动化流程提供存储代码和数据的平台。我们刚刚发布了 Artifacts：专为智能体构建的 Git 兼容版本化存储。创建数千万个代码库，从任何远程仓库创建副本，然后将 URL 提供给任何 Git 客户端。
Sandboxes 正式发布，智能体现已拥有自己的计算机	Cloudflare Sandboxes 为 AI 智能体提供了一个持久、隔离的环境：一台真实的计算机，具有 shell、文件系统和后台进程，可以按需启动并能从上次中断处恢复。
动态、身份感知、安全： Sandboxes 出站控制	Outbound Workers for Sandboxes 为 AI 智能体提供可编程的 Zero Trust 出站代理。这让开发人员可以注入凭据并强制执行动态安全策略，而不会将敏感令牌暴露给不受信任的代码。
Dynamic Workers 中的 Durable Objects：为每个 AI 生成的应用提供独立的数据库	Durable Object Facets 支持 Dynamic Workers 使用各自独立的 SQLite 数据库实例化 Durable Objects。这让开发人员能够构建平台，运行动态生成的持久化、有状态的代码。
重构 Workflows 控制平面，以满足智能体时代的需求	Cloudflare Workflows 是一个持久的多步骤应用执行引擎；现在，通过重构其控制平面，支持 50000 并发和 300 创建速率限制，从而能够扩展规模，以满足持久化后台智能体使用场景的要求。

安全性

运行智能体及其代码只是挑战的一部分。智能体连接到私有网络，访问内部服务，并代表用户执行自主操作。当企业中的任何人都可以启动自己的智能体时，绝对不能事后才考虑安全机制，而是必须成为默认配置。本周，我们推出了相应工具，助您轻松实现这个目标。

公告	摘要
保护所有人的专用网络：用户、节点、代理、Workers — 隆重推出 Cloudflare Mesh	Cloudflare Mesh 为用户、节点和自主 AI 智能体提供安全、私密的网络访问。通过与 Workers VPC 集成，开发人员现在可为智能体授予对私有数据库与 API 的限定范围访问权限，无需手动配置隧道。
受管 OAuth for Access：一键让内部应用为代理做好准备	受管 OAuth for Cloudflare Access 可帮助 AI 智能体安全地在内部应用中导航。通过采用 RFC 9728，AI 智能体可代表用户进行身份验证，而无需使用不安全的服务账户。
保护非人类身份：自动撤销、OAuth 和限定范围的权限	Cloudflare 将推出可扫描的 API 令牌、增强的 OAuth 可见性，以及正式推出限定资源范围的权限。这些工具可帮助开发人员实施真正的最低权限架构，同时防止凭据泄露。
扩展 MCP 采用：我们用于企业 MCP 部署的参考架构	我们分享了 Cloudflare 使用 Access、AI Gateway 和 MCP 服务器门户治理 MCP 的内部策略。我们还推出了 Code Mode 以降低 token 成本，并推荐了在 Cloudflare Gateway 中检测影子 MCP 的新规则。

智能体工具箱

一个有能力的智能体需要能够思考、记忆、交流和观察。这意味着为他们手头的任务提供正确的模型，访问正确的工具和正确的上下文。本周，我们发布了推理、搜索、内存、语音、电子邮件和浏览器等基础组件，使智能体真正具备完成实际工作的能力。

公告	摘要
Project Think：在 Cloudflare 上构建下一代 AI 智能体	Cloudflare 宣布推出下一版 Agents SDK 预览，从轻量级组件到功能齐全的平台，让 AI 智能体可以思考、行动和持续存在。
为智能体添加语音	Agents SDK 中的实验语音管道支持通过 WebSockets 实现实时语音交互。现在，开发人员只需大约 30 行服务器端代码，即可构建具备连续语音转文字 (STT) 和文本转语音 (TTS) 功能的智能体。
Cloudflare Email Service 目前处于公开测试阶段。可供智能体使用	智能体正朝着多渠道方向发展。这意味着，无论用户身在何处，包括收件箱，都可以使用智能体。Cloudflare Email Service 今日进入公开测试，提供完整的基础设施层以简化操作：您的智能体现在可以原生方式发送、接收和处理邮件。
Cloudflare AI 平台：专为智能体设计的推理层	我们正努力将 Cloudflare 平台构建成统一的智能体推理层，让开发人员能够调用来自 14+ 服务提供商的模型。新增功能包括用于运行第三方模型的 Workers 绑定，以及支持多模态模型的扩展目录。
构建运行超大语言模型的基础	我们构建了一套定制的技术栈，用于在 Cloudflare 基础设施上运行快速加载的大语言模型 (LLM)。本篇博客文章将介绍实现高性能 AI 推理所需的工程权衡与技术优化。
Unweight: 我们如何在不牺牲质量的前提下将大语言模型压缩 22%	在 Cloudflare 网络上运行大型 LLM 要求我们在 GPU 内存带宽利用方面采取更智慧、更高效的策略。这就是我们开发了 Unweight 的原因，它是一种无损推理时间压缩系统，可在不损失精度的情况下将模型大小减小高达 22%，从而以前所未有的速度和更低的成本提供推理。
具备记忆能力的智能体：隆重推出 Agent Memory	Cloudflare Agent Memory 是托管服务，为您的 AI 智能体提供持久记忆，让它们记住关键内容、遗忘冗余信息，并越来越聪慧。
AI Search：智能体的搜索原语	AI Search 是智能体的搜索基础组件。动态创建实例、上传内容，并利用混合检索与相关性加权功能进行跨实例搜索。只需创建搜索实例、上传内容，即可开始搜索。
Browser Run：为智能体提供浏览器	Browser Rendering 现已升级为 Browser Run，具备实时视图、人工干预、CDP 访问、会话录制功能，且 AI 智能体的并发限制提高了 4 倍。

原型到生产

最好的基础设施也是易于使用的。我们希望在开发人员及其智能体已经工作的地方满足其需求：终端、编辑器、提示词，并使整个 Cloudflare 平台无需上下文切换即可访问。

公告	摘要
为 Cloudflare 构建 CLI	我们将推出 cf，这是全新的统一命令行界面 (CLI)，以确保 Cloudflare 平台的一致性；同时还将推出 Local Explorer，用于调试本地数据。这些工具将会简化开发人员和 AI 智能体与将近 3000 个 Cloudflare API 操作的交互方式。
隆重推出 Agent Lee，这是 Cloudflare 技术栈的全新界面	Agent Lee 是一个嵌入仪表板的智能体，它让用户只需在对话框中输入提示词来获取信息，而无需手动切换 Cloudflare 界面的选项卡。它使用沙箱化 TypeScript，可以帮助用户像可靠的技术合作者一样，对技术栈进行故障排除和管理。
隆重推出 Flagship：为 AI 时代打造的特性标记	隆重推出 Flagship，这是 Cloudflare 基于全球网络打造的原生功能标志服务，彻底消除了第三方提供商所带来的延迟问题。借助 KV 和 Durable Objects，Flagship 实现了亚毫秒级的标志评估性能。
通过 PlanetScale 部署 Postgres 和 MySQL 数据库并连接 Workers	了解如何通过 Cloudflare 平台部署 PlanetScale Postgres 和 MySQL 数据库并连接 Cloudflare Workers。
在构建的平台注册域名：Cloudflare Registrar API 现已推出公测版	Cloudflare Registrar API 现已进入测试阶段。开发人员和 AI 智能体均可直接在编辑器、终端或智能体中搜索、检查域名可用性并注册域名，而无需退出各自的工作流程。

智能体 Web

随着越来越多智能体上线，它们仍在浏览一个为人类构建的互联网。现有网站需要新工具来实现三项功能：控制机器人的访问权限、为智能体包装并呈现内容，以及评估自身的智能体就绪度。

公告	摘要
推出智能体就绪度评分。您的网站为智能体做好准备了吗？	智能体就绪度评分可以帮助网站所有者了解其网站对 AI 智能体的支持程度。本文中，我们深入探讨新标准，分享 Cloudflare Radar 数据，并详细阐述我们如何将 Cloudflare 的文档打造为网络上对智能体最友好的资源。
AI 训练重定向确保提供规范内容	软指令无法阻止爬虫抓取已弃用内容。AI 训练重定向允许 Cloudflare 上的任何人通过一个开关将经过验证的爬虫重定向到规范内容页面，且无需更改源站。
Agents Week ：网络性能更新	通过将请求处理层迁移到名为 FL2 ——基于 Rust 的架构，Cloudflare 将性能优势覆盖范围扩大到全球 60% 的顶级网络。我们采用真实用户监测数据与 TCP 连接耗时指标，确保相关数据能够真实反映互联网用户的实际访问体验
共享字典：跟上智能体网络步伐的压缩技术	我们为您提前展示我们对共享字典压缩的支持，展示它如何改善页面加载时间，并透露您何时可以亲自体验测试版。

到此为止

Agents Week 2026 降下帷幕，但智能体云才刚起步。我们本周发布的所有产品——从计算和安全到智能体工具箱和智能体 Web——就是基础。我们将继续在这个基础上发展，为您提供构建未来所需的全部能力。

我们还将在今天和明天发布更多博客文章来继续讲述这个故事，请持续关注我们博客上的最新内容。

如果您正在基于我们本周发布的任何功能进行开发，我们期待听到您的声音。欢迎在 X 或 Discord 上找到我们，或访问开发人员文档。

大规模编排 AI 代码审查

Ryan Skidmore — Mon, 20 Apr 2026 13:00:00 GMT

代码审查是发现缺陷和分享知识的绝佳方法，但它也是造成工程团队效率瓶颈的最常见原因之一。合并请求积压在队列中，审查者最终切换上下文查看差异，然后吹毛求疵地提出一些关于变量命名的意见，作者进行回应，然后如此循环往复。在 Cloudflare 内部项目中，首次审查的中位等待时间通常以小时计。

最初尝试使用 AI 代码审查时，我们选择了大多数用户采取的方法：我们尝试了几种不同的 AI 代码审查工具，发现其中许多工具非常有效，其中一些工具甚至提供了相当不错的自定义和配置选项！遗憾的是，反复出现了这样一个问题：对于像 Cloudflare 这样规模的公司来说，这些工具的灵活性和自定义程度远远不够。

于是，我们选择了下一个最明显的路径：获取 Git 差异，将其输入到一个不完善的提示词，然后要求大语言模型来查找缺陷。不出所料，结果非常杂乱，其中包含大量模糊的建议、幻觉生成的语法错误，以及“考虑添加错误处理”之类重复的“好心”建议。我们很快意识到，简单的摘要方法无法达到预期效果，尤其是在复杂的代码库中。

我们没有从零开始构建一个庞大的代码审查智能体，而是决定围绕 OpenCode 这个开源编码智能体来构建一套原生持续集成编排系统。如今，一名 Cloudflare 工程师提交合并请求后，请求会首先经过由多个 AI 智能体协作完成的初步审查。我们不是依赖于单个模型和大量通用提示词，而是启动多达七个专业审查器，分别负责安全、性能、代码质量、文档、版本管理以及合规（遵守内部 Engineering Codex）方面的审查。这些专业审查器均由协调智能体管理，智能体会对这些审查器的审查结果进行去重处理，判断问题的实际严重程度，并发布一条结构化审查注释。

我们已经在公司内部运行这套系统，处理了数万个合并请求。它能够批准干净代码，以惊人的准确性标记真正的缺陷，以及在发现真正严重的问题或安全漏洞时主动阻止合并。这是我们提高工程韧性的众多举措之一，也是 Code Orange: Fail Small 计划的一部分。

在这篇文章中，我们将深入探讨 Cloudflare 如何构建这套系统、最终采用的架构，以及当用户尝试将 LLM 纳入 CI/CD 管道的关键路径时可能会遇到的具体工程问题，更重要的是，工程师在交付代码过程中遇到的各种问题。

插件式架构：极具灵活性和扩展性

在构建必须跨数千个存储库运行的内部工具时，硬编码版本控制系统或寻找 AI 提供商无疑是自找麻烦，六个月后就得重写整个系统。我们需要支持当前版本的 GitLab 以及未来可能出现的各种其他技术，同时还要兼顾不同 AI 提供商和不同内部标准的要求，但所有组件之间无需相互了解。

我们基于可组合的插件架构构建了这套系统，入口点将所有配置委托给插件，这些插件组合在一起共同定义如何开展代码审查。以下是合并请求触发代码审查后的执行流程：

每个插件实施一个 ReviewPlugin 接口，其中定义了三个生命周期阶段。引导程序 hook 并发运行但不造成致命错误，这意味着，即使模板提取失败，也会继续进行代码审查。配置 hook 按顺序运行但造出致命错误，因为如果 VCS 提供商无法连接到 GitLab，则没有必要继续执行任务。最后，在配置组装完成后运行 postConfigure 来处理异步工作，例如获取远程模型覆盖。

ConfigureContext 为插件提供一个受控接口来影响审查。它们可以注册智能体、添加 AI 提供商、设置环境变量、注入提示词部分，以及修改精细化智能体权限。任何插件均无法直接访问最终的配置对象。它们通过上下文 API 贡献代码，核心汇编器会将所有内容合并到 OpenCode 使用的 opencode.json 文件中。

由于存在这种隔离，GitLab 插件不会读取 Cloudflare AI Gateway 配置，而 Cloudflare 插件对 GitLab API 令牌一无所知。所有 VCS 特定耦合都隔离在单个 ci-config.ts 文件中。

以下是典型的内部代码审查使用的插件清单：

插件	责任
`@opencode-reviewer/gitlab`	GitLab VCS 提供商、MR 数据、MCP 注释服务器
`@opencode-reviewer/cloudflare`	AI Gateway 配置、模型层级、故障恢复链
`@opencode-reviewer/codex`	根据工程 RFC 进行内部合规检查
`@opencode-reviewer/braintrust`	分布式跟踪和可观察性
`@opencode-reviewer/agents-md`	验证存储库的 AGENTS.md 文件是否为最新版本
`@opencode-reviewer/reviewer-config`	通过 Cloudflare Worker 远程为每个审查器配置模型覆盖
`@opencode-reviewer/telemetry`	发送即忘型审查跟踪

OpenCode 的底层使用方式

Cloudflare 选择了 OpenCode 作为编码智能体，原因如下所述：

我们已在内部广泛使用，也就是说，我们已经非常熟悉它的工作原理
它是开源工具，因此我们可以向上游项目提交新功能或缺陷修复，以及在发现问题后非常轻松地进行调查（截至撰写本文时，Cloudflare 工程师已经向上游项目提交了超过 45 个拉取请求！）
它拥有出色的开源 SDK，让我们能够轻松构建准确运行的插件

但最重要的是，它采用服务端优先的架构，其文本用户界面和桌面应用作为客户端。这是我们的一项硬性要求，因为我们需要以编程方式创建会话、通过 SDK 发送提示词，以及从多个并发会话中收集结果，而无需修改 CLI 界面。

通过两个独立的层次来实现编排功能：

协调器进程：我们使用 Bun.spawn，以子进程的方式启动 OpenCode。我们通过 stdin 而不是命令行参数来传递协调器提示词，因为如果您曾尝试了将包含大量日志的合并请求描述作为命令行参数传递，则很可能已经达到 Linux 内核的 ARG_MAX 限制。我们很快就意识到这一点，因为在处理数量惊人的合并请求时，一小部分 CI 作业开始出现了 E2BIG 错误。此进程使用 --format json 参数运行，因此，所有输出结果均以 JSONL 格式的事件通过 stdout 输出：

const proc = Bun.spawn(
  ["bun", opencodeScript, "--print-logs", "--log-level", logLevel,
   "--format", "json", "--agent", "review_coordinator", "run"],
  {
    stdin: Buffer.from(prompt),
    env: {
      ...sanitizeEnvForChildProcess(process.env),
      OPENCODE_CONFIG: process.env.OPENCODE_CONFIG_PATH ?? "",
      BUN_JSC_gcMaxHeapSize: "2684354560", // 2.5 GB heap cap
    },
    stdout: "pipe",
    stderr: "pipe",
  },
);

审查插件：在 OpenCode 进程内，某个运行时插件提供 spawn_reviewers 工具。当协调器 LLM 决定是时候进行代码审查时，它会调用工具，该工具通过 OpenCode 的 SDK 客户端启动子审查器会话：

const createResult = await this.client.session.create({
  body: { parentID: input.parentSessionID },
  query: { directory: dir },
});

// Send the prompt asynchronously (non-blocking)
this.client.session.promptAsync({
  path: { id: task.sessionID },
  body: {
    parts: [{ type: "text", text: promptText }],
    agent: input.agent,
    model: { providerID, modelID },
  },
});

每个子审查器都在自己的 OpenCode 会话中运行，且拥有各自的智能体提示词。协调器无法查看或控制子审查器使用哪些工具。子审查器可以自由读取源文件、运行 grep 命令或根据需要搜索代码库，以及在完成审查后，以结构化 XML 格式返回其发现。

什么是 JSONL？有何用途？

在使用这种类型的系统时，通常面临的一个主要挑战是需要结构化日志记录；虽然 JSON 是一种非常出色的结构化格式，但它要求所有内容标记为已完成才能构成有效的 JSON blob。如果应用在有机会将所有内容标记为已完成且将有效的 JSON blob 写入磁盘之前提前退出，则很可能出现问题，而这往往正是最需要调试日志的时候。

这就是我们使用JSONL (JSON Lines) 的原因；顾名思义，它是一种文本格式，其中每行包含一个独立、有效的 JSON 对象。与标准的 JSON 数组不同，无需解析整个文档即可读取第一个条目。读取一行，进行解析，然后继续执行。这意味着，用户不必担心将大量有效负载缓冲到内存中，也不必担心子进程因内存不足而可能永远无法收到闭合 ] 符号。

实际上，它看起来如下所示：

Stripped:   authorization, cf-access-token, host
Added:      cf-aig-authorization: Bearer 
            cf-aig-metadata: {"userId": ""}

任何需要解析长时间运行进程的结构化输出的持续集成 (CI) 系统，最终都会使用类似 JSONL 的协议，我们没有浪费时间做无用功。（而且 OpenCode 已经支持它了！）

流式管道

我们实时处理协调节器的输出，但每 100 行或 50 毫秒会进行缓冲与刷新，以避免磁盘因 appendFileSync 遭受缓慢而痛苦的损耗。

我们会监控流式传输流入时触发的特定事件，并提取相关数据，例如从 step_finish 事件中提取令牌使用情况以跟踪成本，以及使用 error 事件来触发重试逻辑。我们还确保密切关注输出截断，如果 step_finish 事件出现 reason: "length"，则表明模型达到了 max_tokens 限制且句子被截断，因此应该自动重试。

我们未曾预料到的一个运营难题是，Claude Opus 4.7 或 GPT-5.4 等大型先进模型有时可能花费相当长的时间思考问题，这会让用户误以为运行任务已卡住。我们发现，用户经常取消任务并抱怨审查器没有按预期工作，而实际上它一直在后台正常运行。为此，我们添加了一个极其简单的 heartbeat 日志，每 30 秒在日志中打印一次“Model is thinking... (Ns since last output)”消息，从而几乎完全消除了这个问题。

使用专业智能体，而不是单一大型提示词

我们没有要求单个模型审查所有内容，而是将审查工作划分给多个特定领域的智能体来完成。每个智能体都会收到一个严格界定的提示词，明确告知其需要查找的内容，更重要的是，告知其需要忽略哪些内容。

例如，安全审查器会收到明确的指令，仅标记“可利用或具体危险”的问题：

## What to Flag
- Injection vulnerabilities (SQL, XSS, command, path traversal)
- Authentication/authorisation bypasses in changed code
- Hardcoded secrets, credentials, or API keys
- Insecure cryptographic usage
- Missing input validation on untrusted data at trust boundaries

## What NOT to Flag
- Theoretical risks that require unlikely preconditions
- Defense-in-depth suggestions when primary defenses are adequate
- Issues in unchanged code that this MR doesn't affect
- "Consider using library X" style suggestions

事实证明，告知 LLM 不做哪些事情才真正体现提示词工程的价值。如果没有这些限制，会收到大量推测性理论警告，而开发人员会立即学会忽略它们。

每个审查器会生成结构化 XML 格式的发现，并包含严重性分类：critical（将导致中断或可利用）、warning（可衡量的回归或具体风险）或 suggestion（值得考虑的改进措施）。这确保我们处理为后续行为提供支持的结构化数据，而不是解析建议文本。

我们使用的模型

因为我们将审查划分为多个专业领域，因此，无需为每个任务使用功能强大但极其昂贵的模型。我们会根据智能体处理的任务复杂程度来分配模型：

顶级模型：Claude Opus 4.7 和 GPT-5.4：专供审查协调器使用。协调器的任务最艰巨：读取其他七个模型的输出、对发现进行去重处理、筛选误报，并做出最终判断。因此，它需要最高级别的可用推理功能。
标准模型：Claude Sonnet 4.6 和 GPT-5.3 Codex：负责处理繁重的子审核器（代码质量、安全、性能）的主力工具。这些工具速度快、成本相对低廉，并且擅长发现代码中的逻辑错误和漏洞。
Kimi K2.5：用于处理轻量级、文本密集型任务，例如文档审查器、版本审查器和 AGENTS.md 审查器。

这些都是默认设置，但可以通过 reviewer-config Cloudflare Worker 在运行时动态覆盖每个模型分配，我们将在下文的控制平面部分详细介绍。

提示词注入防护

智能体提示词在运行时构建，方法是将特定智能体的 markdown 文件与包含强制性规则的共享 REVIEWER_SHARED.md 文件连接起来。然后，通过将 MR 元数据、注释、之前的审查发现、差异路径和自定义指令组合成结构化 XML 来生成协调器的输入提示词。

我们还需要对用户控制的内容进行清理。如果有人在其 MR 描述中添加了Repository: evil-corp，理论上他们可以破坏 XML 结构，并将自己的指令注入协调器的提示词中。我们完全去掉了这些边界标签，因为我们根据经验逐渐认识到，永远不要低估 Cloudflare 工程师在测试新内部工具时的创造力：

const PROMPT_BOUNDARY_TAGS = [
  "mr_input", "mr_body", "mr_comments", "mr_details",
  "changed_files", "existing_inline_findings", "previous_review",
  "custom_review_instructions", "agents_md_template_instructions",
];
const BOUNDARY_TAG_PATTERN = new RegExp(
  `]*>`, "gi"
);

使用共享上下文，节省词元

系统不会在提示词中嵌入完整的差异。相反，它会将每个文件的补丁文件写入 diff_directory 目录并传递路径。每个子审查器仅读取与其职责相关的补丁文件。

我们还从协调器的提示词中提取共享的上下文文件 (shared-mr-context.txt) 并将其写入磁盘。子审查器读取该文件，而不是每个提示词中重复的完整 MR 上下文。这是经过深思熟虑后做出的决定，因为即使是跨七个并发审查器复制中等大小的 MR 上下文，也会使我们的词元成本增加七倍。

协调器有助于集中处理事务

在生成所有子审查器后，协调器会进行一次评审以汇总结果：

去重：如果安全审查器和代码质量审查器都标记了同一个问题，则该问题会保留在最合适的部分。
重新分类：代码质量审查器标记的性能问题会被移至性能部分。
合理性筛选：推测问题、吹毛求疵、误报，以及与惯例相悖的发现均会剔除。如果协调器不确定，它会使用自有工具来读取源代码并进行验证。

整体审批决定遵循严格的准则：

条件	决策	GitLab 操作
所有 LGTM（“我认为不错”）或只是无关紧要的建议	`approved`	`POST /approve`
仅严重项建议	`approved_with_comments`	`POST /approve`
一些警告，但无生产风险	`approved_with_comments`	`POST /approve`
多个警告，提示存在风险模式	`minor_issues`	`POST /unapprove`（撤销之前的机器人批准）
任何关键项，或生产安全风险	`significant_concerns`	`/submit_review requested_changes`（阻止合并）

这种偏好明确倾向于批准，也就是说，即使干净 MR 中只有一个警告，仍将获得 approved_with_comments 批准，而不是被阻止。

由于这是处于工程师与交付代码之间的生产系统，我们确保构建一个应急安全机制。如果真人审查者添加了 break glass 注释，系统会强制批准，无论 AI 发现了什么。有时候，只需要发布一个热修复补丁，系统会在审查开始前检测到这种覆盖，因此。我们可以在遥测数据中跟踪它，避免受任何潜在错误或 LLM 提供商的故障所影响。

风险等级：不要派遣精英团队去审查拼写错误

无需使用七个并发 AI 智能体消耗 Opus 级词元来审查 README 中的一处拼写错误。系统会根据差异大小和性质，将每个 MR 分类为三个风险等级之一：

// Simplified from packages/core/src/risk.ts
function assessRiskTier(diffEntries: DiffEntry[]) {
  const totalLines = diffEntries.reduce(
    (sum, e) => sum + e.addedLines + e.removedLines, 0
  );
  const fileCount = diffEntries.length;
  const hasSecurityFiles = diffEntries.some(
    e => isSecuritySensitiveFile(e.newPath)
  );

  if (fileCount > 50 || hasSecurityFiles) return "full";
  if (totalLines <= 10 && fileCount <= 20)  return "trivial";
  if (totalLines <= 100 && fileCount <= 20) return "lite";
  return "full";
}

安全敏感文件：任何涉及 auth/、crypto/ 或听起来与安全相关的文件路径都会触发全面审查，因为我们宁愿在令牌上多花点钱，也不愿遗漏潜在的安全漏洞。

每一级配备不同的智能体组：

等级	修改的行数	文件	智能体	运行什么
Trivial	≤10	≤20	2	协调程序 + 1 个通用型代码审查器
Lite	≤100	≤20	4	协调员 + 代码质量审查器 + 文档审查器 + 更多
Full	>100 或 >50 个文件	任何	7+	所有专业审查器，包括安全、性能和版本审查器

例如，简单级会将协调器从 Opus 降级为 Sonnet，因为对次要更改进行双审查器检查不需要使用功能强大且昂贵的模型来评估。

差异过滤：去除干扰信息

在智能体查看代码之前，会使用过滤管道筛选差异以去除干扰信息，例如锁定文件、供应商依赖项、压缩资源和源映射：

const NOISE_FILE_PATTERNS = [
  "bun.lock", "package-lock.json", "yarn.lock",
  "pnpm-lock.yaml", "Cargo.lock", "go.sum",
  "poetry.lock", "Pipfile.lock", "flake.lock",
];

const NOISE_EXTENSIONS = [".min.js", ".min.css", ".bundle.js", ".map"];

我们还会通过扫描前几行，查找类似 // @generated 或 /* eslint-disable */ 的标记来过滤生成的文件。但是，我们明确地将数据库迁移文件排除在此规则之外，因为迁移工具通常会将文件标记为已生成，即使它们包含绝对需要检查的模式更改。

spawn_reviewers 工具：并发编排

spawn_reviewers 工具管理多达七个并发审查器会话的生命周期，包括熔断器、故障恢复链、单任务超时和重试逻辑。它本质上是 LLM 会话的一个小型调度程序。

出乎意料的是，确定 LLM 会话何时真正“完成”是个棘手的问题。我们主要依靠 OpenCode 的 session.idle 事件，同时辅以轮询循环，每隔三秒检查一次所有正在运行的任务的状态。轮询循环还实现了非活动检测。如果某个会话已经持续运行了 60 秒但没有任何输出，则会提前终止并标记为错误，这样可以在生成任何 JSONL 之前捕获启动时已崩溃的会话。

超时分为三个级别：

单任务：5 分钟（代码质量审查超时为 10 分钟，因为这需要读取更多文件）。这可以防止一个处理缓慢的审查器阻碍其他审查器。
总体：25 分钟。整个 spawn_reviewers 调用的硬性超时限制。达到这个限制后，所有剩余会话均被中止。
重试预算：最短 2 分钟。如果总预算所剩时间不足，将不会进行重试。

韧性：熔断器和故障恢复链

运行七个并发 AI 模型调用，这意味着肯定会遇到速率限制和提供商服务中断的情况。我们采用了一种受 Netflix Hystrix 启发的熔断器机制，并针对 AI 模型调用进行了调整。每个模型层级都有独立的运行状况追踪，包含三种状态：

当模型的熔断机制打开时，系统会沿着故障恢复链找到一个健康的替代方案。例如：

const DEFAULT_FAILBACK_CHAIN = {
  "opus-4-7":   "opus-4-6",    // Fall back to previous generation
  "opus-4-6":   null,          // End of chain
  "sonnet-4-6": "sonnet-4-5",
  "sonnet-4-5": null,
};

每个模型系列彼此隔离，因此，如果某个模型过载，则会回退到上一代模型，而不是跨流切换。熔断器机制打开后，我们在两分钟冷却时间后允许一次探测请求通过，以判断提供商是否已恢复服务，从而避免对运行状况不佳的 API 造成过大的负载。

错误分类

当子审查器会话出现故障时，系统需要判断是否应该触发模型故障回退，或者这是否是其他模型无法解决的问题。错误分类器将 OpenCode 的错误联合类型映射到 shouldFailback 布尔值：

switch (err.name) {
  case "APIError":
    // Only retryable API errors (429, 503) trigger failback
    return { shouldFailback: Boolean(data.isRetryable), ... };
  case "ProviderAuthError":
    // Auth failure (a different model won't fix bad credentials)
    return { shouldFailback: false, ... };
  case "ContextOverflowError":
    // Too many tokens (a different model has the same limit)
    return { shouldFailback: false, ... };
  case "MessageAbortedError":
    // User/system abort (not a model problem)
    return { shouldFailback: false, ... };
}

只有可重试的 API 错误才能触发故障回退。身份验证错误、上下文溢出、中止和结构化输出错误均不会触发故障回退。

协调器级故障恢复

熔断器处理子审查器故障，但协调器本身也可能发生故障。编排层拥有独立的故障恢复机制：如果 OpenCode 子进程发生故障且出现可重试错误（通过扫描 stderr 中的“过载”或“503”等模式来检测），它会动态替换 opencode.json 配置文件中的协调器模型，然后重试。这是一种文件级替换操作：它读取配置 JSON，替换 review_coordinator.model 键，并在下一次尝试之前将其写回。

控制平面：用于配置和遥测的 Workers

如果某个提供商的模型在 UTC 时间早上 8 点宕机，此时我们的欧洲同事刚刚起床，我们不希望等待值班工程师修改代码来更换审查器使用的模型。相反，CI 作业会从由 Workers KV 支持的 Cloudflare Worker 获取其模型路由配置。

响应包含每个审查器的模型分配和提供商块。如果禁用某个提供商，插件会在选择主模型之前过滤掉该提供商的所有模型：

function filterModelsByProviders(models, providers) {
  return models.filter((m) => {
    const provider = extractProviderFromModel(m.model);
    if (!provider) return true;       // Unknown provider → keep
    const config = providers[provider];
    if (!config) return true;         // Not in config → keep
    return config.enabled;            // Disabled → filter out
  });
}

也就是说，我们可以在 KV 中切换一个开关来禁用整个提供商，并且所有正在运行的 CI 作业会在五秒钟内绕过该供应商进行路由。配置格式还包含故障恢复链覆盖，允许我们通过单个 Worker 更新来重塑整个模型路由拓扑。

我们还使用一个发送即忘型 TrackerClient，它与单独的 Cloudflare Worker 通信，以跟踪作业启动、完成、发现、令牌使用情况和 Prometheus 指标。客户端的设计目标是绝不阻塞 CI 管道，它使用 2 秒的 AbortSignal.timeout 设置，并在待处理请求超过 50 个条目时进行删减。Prometheus 指标在下一个微任务中进行批量处理并在进程退出前刷新，然后通过 Workers Logging 转发到 Cloudflare 内部可观测性堆栈，因此，我们能够实时准确地了解所消耗的词元数量。

重新审查：无需从头开始

当开发人员将新提交内容推送到已审查的 MR 时，系统会运行增量重新审查，它会识别之前的审查发现。协调器会收到上次审查注释的全文，以及之前发布的内联 DiffNote 注释列表及其解决状态。

重新审核规则非常严格：

已修复的发现：从输出中省略，MCP 服务器会自动解决相应的 DiffNote 线程。
未修复的发现：即使未作更改，也必须重新发出，以便 MCP 服务器知道要保持该线程处于活动状态。
用户已解决的发现：除非问题显著恶化，否则继续沿用。
用户回复：如果开发人员回复“不会修复”或“已确认”，则 AI 会将该发现视为已解决。如果回复“我不同意”，则协调器会阅读其理由，然后选择解决该线程或予以反驳。

我们还特意设置了一个小彩蛋，确保审查器可以回答每个 MR 中的轻松问题。我们认为，一些个性化回答有助于与正在接受机器人（有时甚至是毫不留情地）审查的开发人员建立融洽的关系，因此，提示词指示机器人保持简短、友好的回答，然后礼貌地引导其回到审查流程。

保持 AI 上下文的时效性：AGENTS.md Reviewer

AI 编码智能体高度依赖于 AGENTS.md 文件来理解项目规范，但这些文件会迅速过时。如果某个团队从 Jest 迁移到 Vitest，但忘记了更新指令，AI 会固执地继续尝试编写 Jest 测试。

我们构建了一个特定审查器用于评估合并请求 (MR) 的重要性，如果开发人员在未更新 AI 指令的情况下进行重大架构变更，审查器会对其发出提示。它将更改分为三个级别：

高重要性（强烈建议更新）：包管理器变更、测试框架变更、构建工具变更、主要目录结构重组、新增必要的环境变量、CI/CD 工作流程变更。
中重要性（值得考虑）：主要依赖项变更、新增代码检查规则、API 客户端变更、状态管理变更。
低重要性（无需更新）：缺陷修复、使用现有模式添加新增功能、次要依赖项更新、CSS 变更。

此外，它还会对现有 AGENTS.md 文件中的各种反模式进行惩罚，例如通用填充内容（“编写干净代码”）、超过 200 行导致上下文膨胀的文件，以及没有可运行命令的工具名称。功能齐全且包含命令和边界的简洁 AGENTS.md 文件始终优于冗长的文件。

Cloudflare 团队如何使用它

该系统作为一个完全独立的内部 GitLab CI 组件交付。团队将其添加到 .gitlab-ci.yml 文件中：

include:
  - component: $CI_SERVER_FQDN/ci/ai/opencode@~latest

该组件负责提取 Docker 映像、设置 Vault 密钥、执行代码审查，以及发布注释。团队可以通过在存储库根目录中放置一个包含项目特定审查说明的 AGENTS.md 文件来自定义审查行为，团队也可以选择提供 AGENTS.md 模板的 URL，将其注入所有智能体提示词，以确保标准惯例适用于所有存储库，而无需维护多个 AGENTS.md 文件。

整个系统也可以在本地运行。@opencode-reviewer/local 插件在 OpenCode 的 TUI 中提供 /fullreview 命令，该命令可以从工作树生成差异，运行相同的风险评估和智能体编排，并在调用点直接发布结果。系统使用的智能体和提示词完全相同，只是在您的笔记本电脑上运行，而不是在 CI 环境中运行。

数据一览！

我们已经运行了这个系统大约一个月，并通过代码审查跟踪器 Worker 来跟踪所有数据。以下是 2026 年 3 月 10 日至 4 月 9 日期间 5,169 个存储库的数据。

概述

在正式推出后的前 30 天，该系统在 5169 个存储库的 48095 次合并请求中完成了 131246 次审查。平均每个合并请求审查 2.7 次（包括初步审查，以及工程师推送修复后的重新审查），审查耗时中位数为3 分 39 秒。这个速度足够快，大多数工程师在切换到其他任务之前就能看到审查注释。不过，我们最引以为豪的指标是，工程师仅需添加“break glass”注释 288 次（占合并请求总数的 0.6%）。

从成本方面来看，平均每次审查成本为 1.19 美元，中位数为 0.98 美元。昂贵的审查呈长尾分布，因为大规模重构触发了全层编排。P99 审查成本为 4.45 美元，也就是说，99% 的审查成本均低于五美元。

百分位	每次审查成本	审查时长
中位数	0.98 美元	3 分 39 秒
P90	2.36 美元	6 分 27 秒
P95	2.93 美元	7 分 29 秒
P99	4.45 美元	10 分 21 秒

发现

系统在所有审查中总共生成了 159103 个发现，具体情况如下所述：

大约平均每次审查生成 1.2 个发现，这个数字刻意偏低。我们偏重有效信息而不是干扰信息，“不应标记的内容”提示词部分是导致发现数量如此之少（而不是每次审查生成 10 条以上质量可疑的发现）的一个重要原因。

代码质量审查器的贡献最多，生成了将近一半的发现。安全审查器和性能审查器生成的发现较少但平均严重程度更高，绝对数字反应了真实情况：代码质量审查器生成了超过三分之一的发现；安全审查器标记的关键问题比例最高，为 4%；

审查器	严重	警告	建议	总计
代码质量	6,460	29,974	38,464	74,898
文档	155	9,438	16,839	26,432
性能	65	5,032	9,518	14,615
安全性	484	5,685	5,816	11,985
Codex 合规	224	4,411	5,019	9,654
AGENTS.md	18	2,675	4,185	6,878
版本	19	321	405	745

词元使用量

本月，我们总共处理了大约 1200 亿个词元。其中绝大多数是缓存读取，这正是我们希望看到的：这意味着提示词缓存机制运行良好，我们无需为重复审核中重复的上下文支付全额输入费用。

我们的缓存命中率达到 85.7%，与全额输入词元定价相比，这为我们节省了大约五位数的成本。这在一定程度上归功于共享上下文文件的优化，即：子审查器从缓存的上下文文件中读取信息，而不是获取每次合并请求的元数据；同时也得益于所有运行和所有合并请求均使用完全相同的基础提示词。

以下是按模型和智能体划分的词元使用情况：

模型	输入	输出	缓存读取	缓存写入	占总数的百分比
顶级模型（Claude Opus 4.7、GPT-5.4）	8.06 亿	10.77 亿	257.45 亿	59.18 亿	51.8%
标准模型（Claude Sonnet 4.6、GPT-5.3 Codex）	9.28 亿	7.76 亿	486.47 亿	114.91 亿	46.2%
Kimi K2.5	117.34 亿	2.67 亿	0	0	0.0%

顶级模型和标准模型的成本比例大致分为 52/48，这是合理的，因为顶级模型需要处理更多复杂任务（每次审查一个会话，需要耗费大量资源进行深入思考并生成大量输出），而标准模型每次完整审查只需运行三个子审查器。Kimi 模型处理的原始输入词元最多（117 亿个），但由于它通过 Workers AI 运行，因此成本几乎“为零”。

按智能体划分的细分显示了词元的实际去向：

代理	输入	输出	缓存读取	缓存写入
协调器	5.13 亿	10.57 亿	206.83 亿	50.99 亿
代码质量	4.28 亿	2.64 亿	192.74 亿	35.06 亿
Engineering Codex	4.09 亿	2.36 亿	182.96 亿	36.18 亿
文档	82.75 亿	2.16 亿	83.05 亿	6.16 亿
安全性	1.99 亿	1.49 亿	89.17 亿	26.03 亿
性能	1.57 亿	1.24 亿	61.38 亿	23.95 亿
AGENTS.md	40.36 亿	1.19 亿	23.07 亿	3.42 亿
版本	1.83 亿	5M	2.31 亿	1500 万

协调器生成的输出词元数量最多（10.57 亿个），因为它需要编写完整的结构化注释。文档审查器的原始输入词元数量最多（82.75 亿个），因为它需要处理所有类型的文件，而不仅仅是代码。版本审查器使用的词元几乎可以忽略不计，因为它只在差异中包含与版本相关的文件时才会运行。

按风险等级划分的成本

风险等级系统完成其预期的任务。简单级审查（拼写错误修复、小型文档更改）平均成本为 20 美分，使用所有七个智能体审查器的完整审查的平均成本为 1.68 美元。这种成本分布符合我们的预期设计：

等级	评论	平均成本	中位数	P95	P99
Trivial	24,529	0.20 美元	0.17 美元	0.39 美元	0.74 美元
Lite	27,558	0.67 美元	0.61 美元	1.15 美元	1.95 美元
Full	78,611	1.68 美元	1.47 美元	3.35 美元	5.05 美元

那么，代码审查是什么样的呢？

很高兴您提出这个问题！以下是一个存在明显错误的、荒谬的代码审查示例：

正如您所见，这个审查器没有拐弯抹角，而是直接指出了发现的问题。

坦诚面对局限性

这无法完全取代人工代码审查，至少目前在现有模型中还做不到。AI 审查器经常面临以下挑战：

架构意识：审查器可以看到代码差异和周围代码，但它们无法全面了解系统设计背后的原因，也无法判断某项变更是否朝着正确的方向发展。
跨系统影响：涉及 API 合同的变更可能会导致三个下游用户遇到问题。审查器可以标记合同的变更，但无法核实所有用户是否均已更新。
微妙的并发错误：难以从静态差异中捕获依赖于特定时序或执行顺序的竞争条件。审查器可以发现缺失的锁，但无法发现系统可能出现死锁问题的所有方式。
成本随差异大小而增加：包含 500 个文件且需要 7 个并发前沿模型调用的重构项目会消耗大量资金。风险等级体系可以管理这种情况，但当协调器的提示词超过预估上下文窗口的 50% 时，我们会发出警告。大型合并请求的审查成本本身就比较高昂。

我们才刚刚开始

如需了解关于 Cloudflare 如何使用 AI 的更多信息，请阅读我们的内部 AI 工程技术栈博客文章。也可以查看我们在 Agents Week 期间发布的所有信息。

您是否已将 AI 集成到代码审查中？我们很乐意听取您的意见。敬请在以下平台关注我们：Discord、X 和 Bluesky。

是否有兴趣使用先进技术构建像这样的前沿项目？欢迎与我们一起构建！

推出智能体就绪度评分。您的网站为智能体做好准备了吗？

André Jesus — Fri, 17 Apr 2026 13:05:00 GMT

Web 必须不断适应新的标准。GPT 学会了与 Web 浏览器交流，然后它又学会了与搜索引擎交流。现在，它需要与 AI 智能体对话。

今天，我们很高兴推出 isitagentready.com — 这是一款帮助站点所有者了解如何优化其站点以适应智能体的新工具，包括指引智能体如何验证身份、控制智能体可以看到的内容、内容接收的格式以及如何为内容付费。我们也在 Cloudflare Radar 引入新的数据集，用以跟踪互联网对每种智能体标准的整体采用情况。

我们希望以身作则。因此，我们还通过本文分享最近如何对 Cloudflare 的开发人员文档进行全面改造，以使其成为最智能体友好的文档网站，方便 AI 工具更快速和大大更低成本地回答问题。

当今网络对智能体的支持有多好？

简短回答：不怎么样。这个结果并不意外，但这样清楚地表明，如果有关标准得到采纳，智能体的效能将大幅提升。

为了进行此项分析，Cloudflare Radar 选取了互联网上访问量排名前 20 万的域名；过滤掉了 AI 智能体就绪度评分不适用的类别（如重定向、广告服务器和隧道服务），以专注于 AI 智能体实际业务场景中可能与之交互的企业、出版商和平台；并使用我们的新工具对其进行了扫描。

结果生成了一个新的“AI 智能体标准采纳情况”图表，现已发布在 Cloudflare Radar AI Insights 页面找到，用于衡量各项标准在多个域名类别中的采纳情况。

分析各个检查维度的结果，我们发现以下几点尤为突出：

robots.txt 几乎已成为通用标准，78% 的网站都有一个，但绝大多数是为传统搜索引擎爬虫编写的，而非为 AI 智能体设计。
Content Signals：4% 的网站在 robots.txt 中声明了其 AI 使用偏好设置。这是一个采纳势头良好的新标准。
Markdown 内容协商（通过 Accept: text/markdown 提供 text/markdown 的方式）通过率为 3.9%。
在整个数据集中，不到 15 个站点采用了新兴标准 MCP Server Cards 和 API Catalogs（RFC 9727）。目前仍处于早期阶段，要成为首批采用新标准并与智能体良好兼容的站点之一，仍有大量机会。

此图表将每周更新，您也可通过 Data Explorer 或 Radar API 访问相关数据。

为您的网站获取智能体就绪度评分

若要为您的网站获取智能体就绪度评分，请访问 isitagentready.com，然后输入您的网站 URL。

评分和审计工具通过提供可操作的反馈，已在过去成功推动了新标准的采纳。例如，Google Lighthouse 会对网站的性能和安全最佳实践进行打分，并指导网站所有者采用最新的 Web 平台标准。我们认为，应存在类似的方法来帮助网站所有者采用针对智能体的最佳实践。

当您输入网站时，Cloudflare 会向其发送请求，以检查它支持哪些标准，并根据四个维度进行评分：

可发现性: robots.txt、sitemap.xml、Link Header (RFC 8288)
内容： Markdown for Agents
机器人访问控制： Content Signals、robots.txt 中的 AI 机器人规则、Web Bot Auth
能力： Agent Skills、API Catalog (RFC 9727)、通过 RFC 8414 和 RFC 9728 发现 OAuth 服务器、MCP Server Card 和 WebMCP

^{示例网站的智能体就绪度检查结果截图。}

此外，我们还会检查网站是否支持智能体商业标准，包括 x402、通用商业协议 (Universal Commerce Protocol) 和 Agentic Commerce 协议，但这些标准目前不计入评分。

对每一项未通过的检查，我们都会提供一个您可以提交给编码智能体的提示词，帮助您实施支持。

该站点本身也是智能体就绪的，践行其倡导的标准。它使用 scan_site 工具通过 Streamable HTTP 中暴露了一个无状态的 MCP 服务器 (https://isitagentready.com/.well-known/mcp.json)，这样任何 MCP 兼容的智能体都可以编程方式扫描网站，而无需使用、Web 界面。它还发布了一个智能体技能索引（https://isitagentready.com/.well-known/agent-skills/index.json），包含针对每项检查标准的技能文档，这样智能体不仅知道需要修复什么，还知道如何修复。

让我们深入探讨各类别中的检查项，以及它们对智能体的重要性。

可发现性

robots.txt 自 1994 年起开始使用，大多数站点都有一个这样的文件。对于智能体而言，robots.txt 有两个作用：定义爬取规则（谁可以访问什么），并指向您的站点地图。网站地图是一个 XML 文件，其中列出了您网站上的每条路径，本质上是一份智能体可以遵循的地图，无需爬取每个链接即可发现您的所有内容。robots.txt 是智能体首先查找信息的地方。

除了站点地图外，智能体也可以直接从 HTTP 响应标头发现重要资源，具体是使用 Link 响应头 (RFC 8288)。与埋藏在 HTML 中的链接不同，Link 头是 HTTP 响应本身的一部分，意味着智能体可以找到指向资源的链接，而无需解析任何 HTML 标记：

HTTP/1.1 200 OK
Link: ; rel="api-catalog"

内容可访问性

让智能体访问您的网站是一回事。确保它能够真正读取您的内容是另一回事。

2024 年 9 月（说起来像是很久以前了，因为 AI 发展速度太快）， llms.txt 曾被提议作为一种为网站提供 LLM 友好表示、并能够适应模型的上下文窗口的方式。llms.txt 是位于您网站根目录的一个纯文本文件，可为智能体提供结构化的阅读清单：网站是什么、网站包含哪些内容以及重要内容位于何处。可将其视为一份为 LLM 阅读而非为爬虫索引而编写的网站地图

# My Site
> A developer platform for building on the edge.
## Documentation
- [Getting Started](https://example.com/docs/start.md)
- [API Reference](https://example.com/docs/api.md)
## Changelog
- [Release Notes](https://example.com/changelog.md)

Markdown 内容协商则更进一步。当智能体获取任何页面并发送一个 Accept: text/markdown 标头时，服务器会响应一个干净的 Markdown 版本，而不是 HTML。Markdown 版本需要的 token 要少得多 — 我们测量到某些情况下可减少多达 80% 的 token 消耗，从而使响应更快、更便宜，并且更有可能在其默认上下文窗口限制内消费完响应内容（大多数智能体工具均有默认限制）。

默认情况下，我们只会检查站点是否正确处理了 Markdown 内容协商，而不检查 llms.txt。您可以定制扫描以包含 llms.txt。

机器人访问控制

既然智能体可以浏览您的网站和消费您的内容，接下来的问题是：您是否希望任何机器人都能这样做呢？

robots.txt 的作用不仅仅是指向站点地图。您也可以在此定义访问规则。您可以明确声明允许哪些爬虫，以及它们可以访问哪些内容，精确到具体路径。这项约定已被广泛采纳，至今仍是所有合规爬虫在开始爬取网站前必先检查的地方。

内容信号（Content Signals）让您更精确地定义内容使用规则。您可以精确定义 AI 可以对您的内容执行哪些操作，而不仅仅是允许或阻止。在您的 robots.txt 文件中使用 Content-Signal 指令，您可以独立控制三个方面：是否允许将您的内容用于 AI 训练（ai-train），是否允许将其用作推理和知识锚定（ai-input）的 AI 输入，以及是否应将其显示在搜索结果中（search）：

User-agent: *
Content-Signal: ai-train=no, search=yes, ai-input=yes

相反，Web Bot Auth IETF 草案标准允许友好机器人进行身份验证，并允许网站收到来自机器人的请求时予以识别。机器人使用私钥对其 HTTP 请求进行签名，接收端网站则使用该机器人发布的公钥来验证签名。

这些公钥位于标准约定端点 /.well-known/http-message-signatures-directory，我们在扫描过程中会访问并验证该端点。

并非所有网站都需要实施此项措施。如果您的网站仅提供内容，不向其他网站发出请求，您就不需要它。但随着越来越多的互联网网站运行自己的智能体并其他网站发出请求，我们预计这一点将随着时间的推移变得越来越重要。

协议发现

除了被动消费内容之外，智能体还可以通过调用 API、调用工具并自主完成任务来直接与您的网站互动。

如果您的服务有一个或多个公共 API，API Catalog（RFC 9727）可让客户在一个统一的已知位置发现所有这些 API。它托管于 /.well-known/api-catalog，列出您的 API 及其规范、文档和状态端点的链接，无需智能体抓取您的开发人员门户或阅读您的文档。

谈到智能体，就不得不提 MCP。模型上下文协议（MCP）是一个开放标准，使 AI 模型可以连接到外部数据源和工具。您无需为每种 AI 工具单独构建定制集成，只需构建一个 MCP 服务器，任何兼容的智能体都可以使用它。

为了帮助智能体找到您的 MCP 服务器，您可以发布一个 MCP Server Card（一个目前处于起草阶段的提案）。这是一个 JSON 文件，位于 /.well-known/mcp/server-card.json，在智能体访问您的服务器前获取有关信息：公开了什么工具、如何访问以及如何进行身份验证。通过读取此文件，智能体可获得开始使用您的服务器所需的一切信息

{
  "$schema": "https://static.modelcontextprotocol.io/schemas/mcp-server-card/v1.json",
  "version": "1.0",
  "protocolVersion": "2025-06-18",
  "serverInfo": {
    "name": "search-mcp-server",
    "title": "Search MCP Server",
    "version": "1.0.0"
  },
  "description": "Search across all documentation and knowledge base articles",
  "transport": {
    "type": "streamable-http",
    "endpoint": "/mcp"
  },
  "authentication": {
    "required": false
  },
  "tools": [
    {
      "name": "search",
      "title": "Search",
      "description": "Search documentation by keyword or question",
      "inputSchema": {
        "type": "object",
        "properties": {
          "query": { "type": "string" }
        },
        "required": ["query"]
      }
    }
  ]
}

智能体在具备帮助其执行特定任务的智能体技能（Agent Skills）时工作效果最佳——但智能体如何发现网站提供了哪些技能呢？我们建议网站可以在.well-known/agent-skills/index.json 中提供这些信息，告诉智能体该网站提供哪些技能以及在哪里可以找到这些技能。您可能注意到 .well-known 标准（RFC 8615）广泛应用于多个智能体和授权标准中。在此向 Cloudflare 的 Mark Nottingham（该标准的主编者）和其他 IETF 贡献者表示感谢！

许多网站要求您先登录才能访问。这使得人类难以授权智能体代表自己访问这些网站，因此一些解决方案采取了存在安全风险的折衷做法：赋予智能体对用户已认证浏览器会话的访问权限。

有一种更好的方式允许用户显式授予访问权限：支持 OAuth 的网站可以告知智能体授权服务器的位置（RFC 9728），使智能体能够引导用户进行 OAuth 流程，用户在其中可以选择正确地授予智能体访问权限。在 Agents Week 2026 期间，我们宣布Cloudflare Access 现在全面支持该 OAuth 流程，同时我们展示了 OpenCode 等智能体如何通过采纳此标准，在用户将受保护 URL 提供给智能体时如何有效完成任务：

商务

智能体也可以代表您进行购物，但网络上的支付系统原本是为人类设计的。将商品添加到购物车，输入信用卡信息，点击支付。如果买家是 AI 智能体，该流程将无法完成。

x402 通过在协议层面上重新启用 HTTP 402 Payment Required 状态码来解决这一问题。尽管该状态码自 1997 年就已被纳入规范，但长期未得到广泛应用。流程很简单：智能体请求一个资源，服务器响应 402 状态码和一个机器可读的负载，其中描述了支付条款，智能体支付后重新发起请求。Cloudflare 与 Coinbase 合作成立x402 Foundation，旨在通过推动业界积极采用 x402，使其成为互联网支付的开放标准。

我们还检查站点是否支持Universal Commerce Protocol 和 Agentic Commerce Protocol 。这是两个新兴的智能体商业标准，使智能体能够代替人类在电商网站完成商品搜索、购买和结账流程。

将智能体就绪度纳入 Cloudflare URL Scanner

Cloudflare's URL Scanner 支持您提交任意 URL，并生成详尽的分析报告，涵盖 HTTP 标头、TLS 证书、DNS 记录、所用技术、性能数据及安全指标等信息。它也是安全研究人员和开发人员用于了解 URL 底层实际运行逻辑的基础工具。

我们已将来自 isitagentready.com 的检测项集成至 URL Scanner 中，并新增了智能体就绪度标签页。现在，您在扫描任意 URL 时，除了现有分析结果，还可以获得完整的智能体就绪度报告：包括哪些检测通过、站点的等级，以及关于提高评分的优化建议。

该集成功能也可通过 URL Scanner API 以编程方式使用。若需在扫描结果中包含智能体就绪度相关数据，请您在扫描请求中传入 agentReadiness 参数：

curl -X POST https://api.cloudflare.com/client/v4/accounts/$ACCOUNT_ID/urlscanner/v2/scan \
    -H 'Content-Type: application/json' \
    -H "Authorization: Bearer $CLOUDFLARE_API_TOKEN" \
    -d '{
          "url": "https://www.example.com",
          "options": {"agentReadiness": true}
        }'

以身作则：升级 Cloudflare Docs

在构建用于衡量互联网智能体就绪度的相关工具时，我们深知必须先确保自身服务符合规范、运行有序。我们的文档必须能被客户所使用的智能体轻松解析。

因而我们采用上文提到的相关内容网站标准，您可以在这里查看我们的得分。不过，我们没有就此止步。以下介绍我们如何精心优化 Cloudflare 的开发人员文档，使其成为全网对智能体最友好的资源。

使用 `index.md` 文件的 URL 回退

遗憾的是，截至 2026 年 2 月，在测试的 7 个智能体中，仅有 Claude Code、OpenCode 与 Cursor 在默认情况下会携带 Accept: text/markdown 请求头来请求内容。对于其余智能体，我们需要基于 URL 的无缝回退方案。

为此，我们在每个页面的相对 URL 路径下，通过 /index.md 单独提供该页面的 Markdown 版本内容。我们通过组合两项 Cloudflare 规则来动态实现这一功能，无需复制静态文件：

URL 重写规则匹配以 /index.md 结尾的请求，并通过 regex_replace 正则替换将其动态重写至基础路径（剔除 /index.md 部分）。
请求头转换规则在重写前匹配原始请求的路径（raw.http.request.uri.path），并自动设置 Accept: text/markdown 请求头。

借助这两条规则，只需在 URL 末尾追加 /index.md 路径，即可获取任意页面的 Markdown 格式内容：

https://developers.cloudflare.com/r2/get-started/index.md

我们在我们的 llms.txt 文件中指向这些 /index.md URL。效果是，对于这类 /index.md 路径，无论客户端设置何种请求头，我们均会返回 Markdown 格式内容。我们无需任何额外的构建步骤或内容冗余。

为大型网站创建有效的 `llms.txt` 文件

llms.txt 作为智能体的 “主页”，提供页面目录，便于 LLM 快速定位所需内容。但单文件内包含 5000 余个文档页面，会超出各类模型的上下文窗口限制。

我们不再生成一个庞大的文件，而是为我们的文档中的每个顶级目录生成一个单独的 llms.txt 文件，根llms.txt 文件仅指向这些子目录。

我们还剔除了数百个对 LLM 语义价值有限的目录列表页面，并确保各个页面都具备丰富的描述性上下文（包括标题、语义命名和说明文字）。

例如，我们省略了大约 450 个仅用作本地化目录列表的页面，如 https://developers.cloudflare.com/workers/databases/ 。

这些页面存在于我们的网站地图中，但它们为 LLM 提供的信息极少。由于所有子页面已在 llms.txt 中单独列出链接，获取目录页面仅会返回一份冗余的链接列表，这会迫使智能体再次发起请求，才能获取实际内容。

为帮助智能体高效导航，每条 llms.txt 条目均需做到上下文信息丰富、低 token 消耗量。人类开发者可能会忽略文档前置元数据与筛选标签，但对 AI 智能体而言，这类元数据就是操控其运行的核心指引。因此，我们的产品内容体验（PCX）团队优化了页面标题、描述及 URL 结构，确保智能体能够精准判断所需获取的页面。

请看一下我们根 llms.txt 文件中一部分内容。

每个链接均包含语义化名称、匹配的 URL 以及高价值描述。这一切均无需为 llms.txt 的生成增加额外工作量。这些内容原本就已存在于文档的前置元数据中。顶层目录 llms.txt 文件中的页面同样遵循此规则。所有这些背景信息都有助于智能体更高效地查找相关信息。

定制智能体友好文档化（afdocs）工具

我们也在测试文档是否符合 afdocs 规范。这是一个对智能体友好的文档规范和开源项目，允许团队对文档站点测试内容检索、页面导航等相关能力。这一规范使我们能够构建自己的定制审计工具。通过添加若干贴合我们使用场景的专用补丁，我们搭建了一个便于评估的仪表板。

基准测试结果：更快、更便宜

我们将一款智能体（基于 OpenCode 的 Kimi‑k2.5）指向其他大型技术文档站点的 llms.txt 文件，并指派该智能体回答高度具体的技术问题。

平均而言，相较于未针对智能体进行优化的普通站点，指向 Cloudflare 文档的智能体可减少 31% 的 token 消耗，且得到正确答案的速度快 66%。通过将产品目录整合至单个上下文窗口中，智能体可精准定位所需页面，并以单一线性路径完成内容获取。

结构成就速度

LLM 回复的准确性通常是上下文窗口效率的副产品。在测试过程中，我们在其他文档集中观察到一种反复出现的现象。

grep 循环：许多文档站点仅提供单个巨型 llms.txt 文件，其大小超出了智能体的即时上下文窗口容量。由于智能体无法完整读取整个文件，便会开始通过 grep 方式检索关键词。如果第一次搜索未能找到具体细节，智能体需进行推理、优化检索策略并重新尝试。
上下文知识减少，准确性降低：当智能体依赖迭代式检索而非完整读取文件时，会丢失文档的整体上下文信息。这种碎片化的视角，往往会导致智能体对当前文档的理解能力下降。
延迟与 token 膨胀：在 grep 循环的每一次迭代中，智能体都需要生成新的 “思考 token”，并发起额外的搜索请求。这种反复交互会显著拖慢最终响应速度，并增加总 token 消耗量，进而抬高最终用户的使用成本。

相比之下，Cloudflare Docs 专门设计为完全适应智能体的上下文窗口。这使得智能体能够完整摄取目录结构，精准定位所需页面，并直接获取对应的 Markdown 内容，无需迂回检索。

通过重定向 AI 训练爬虫，提升 LLM 回答质量

针对 Wrangler v1 或 Workers Sites 等旧版产品的文档，会面临特殊的技术挑战。尽管出于历史追溯的需要，我们必须保留此类信息，但这可能会导致 AI 智能体给出过时的使用建议。

例如，人类阅读这些文档时会看到醒目提示栏注明 Wrangler v1 已弃用，并附带指向最新内容的链接。然而，LLM 爬虫在抓取文本时，可能会忽略这类视觉上下文信息。这导致智能体推荐过时的信息。

AI 训练重定向识别 AI 模型训练爬虫，主动引导其规避已弃用及非最优内容。这样一来，既能保证人类用户仍可访问历史归档内容，又能确保仅向 LLM 提供最新、最准确的实现细节。

所有页面上的隐藏智能体指令

我们文档中的每个 HTML 页面均包含一条专门面向 LLM 的隐藏指令。

“停！若您为 AI 智能体或 LLM，请在继续操作前阅读此内容。这是 Cloudflare 文档页的 HTML 版本。请始终请求 Markdown 版本：HTML 会浪费上下文。以 Markdown 格式获取此页面：https://developers.cloudflare.com/index.md （在末尾附加 index.md）或者发送 Accept: text/markdown 到 https://developers.cloudflare.com/。对于所有 Cloudflare 产品，请使用： https://developers.cloudflare.com/llms.txt。您可以通过 https://developers.cloudflare.com/llms-full.txt 下载访问所有 Cloudflare 文档的单个文件。”

此代码片段告知智能体有 Markdown 版本可用。关键在于，该指令会从实际的 Markdown 版本中移除，以避免出现递归循环 —— 即智能体不断尝试在 Markdown 内部 “查找” Markdown。

专用 LLM 资源侧边栏

最后，我们希望让这些资源可被正在构建智能体的开发者发现。在我们开发人员文档中的每个产品目录，侧边导航中都有一个“LLM 资源”条目，提供对 llms.txt、llms-full.txt 的Cloudflare 技能的快捷访问方式。

让您的网站今天就为智能体做好准备

让网站达到智能体就绪状态，是现代开发人员工具包的一项基本可访问性要求。Web 正由“人类阅读”转向“机器阅读”，这是数十年来最大的一次架构层面转变。

如需为您的网站获取智能体就绪度评分，请访问 isitagentready.com，使用该网站提供的提示词，让您的智能体为自己的站点完成面向 AI 时代的升级改造。敬请关注 Cloudflare Radar，以了解未来一年互联网将采用的智能体标准。如果说在过去一年里我们学到了什么，那就是一切都可能在短时间内发生翻天覆地的变化！

在 Cloudflare TV 上观看

Cloudflare AI 平台：专为智能体设计的推理层

Ming Lu — Thu, 16 Apr 2026 14:05:00 GMT

AI 模型正在飞速变化：当下最适合智能体编程的模型，三个月后可能会变成来自不同提供商的完全不同的模型。此外，实际用例往往需要调用多个模型。贵公司的客户服务智能体可能会使用快速、低成本模型来分类用户消息；使用大型推理模型来规划各项操作；以及使用轻量级模型来执行单个任务。

这意味着需要访问所有模型，同时不在财务和运营方面受限于单个提供商。此外，还需要部署适当的系统来监测不同提供商的成本，确保在某个提供商出现服务中断时服务依旧可靠，以及无论用户身在何处都能妥善管理延迟。

虽然在使用 AI 构建应用时会面临这些挑战，但在构建智能体时，此类问题会变得更加紧迫。某个简单的聊天机器人可能会对每个用户提示词进行一次推理调用。而一个智能体可能需要将十次调用串联起来才能完成单个任务，这种情况下，运行缓慢的提供商带来的延迟不是增加 50 毫秒，而是增加 500 毫秒。一次失败的请求并非重试，而是会突然引发下游一系列失败。

自从推出 AI Gateway 和 Workers AI 以来，我们已经看到开发人员积极采用这些工具在 Cloudflare 上构建 AI 应用，同时我们也一直在快速迭代！在过去短短几个月内，我们更新了仪表板，添加了零配置默认网关、上游故障自动重试，以及更精细化的日志控制等功能。目前，我们正努力将 Cloudflare 打造成统一的推理层：通过一个 API 即可访问任何提供商的任何 AI 模型，快速且可靠。

一个目录，单个统一端点

从今天起，您可以使用与 Workers AI 相同的 AI.run() 绑定来调用第三方模型。如果您正在使用 Workers，则只需一行代码，即可将 Cloudflare 托管的模型切换到 OpenAI、Anthropic 或任何其他提供商的模型。

const response = await env.AI.run('anthropic/claude-opus-4-6',{
input: 'What is Cloudflare?',
}, {
gateway: { id: "default" },
});

对于未使用 Workers 的用户，我们将在未来几周内发布 REST API 支持，以便您可以从任何环境访问完整的模型目录。

我们也很高兴地宣布，用户现在可以通过一个 API、一行代码在模型之间切换，访问超过 12 个提供商的 70 多个模型，以及使用积分来支付费用。我们将在未来开发过程中扩大模型支持范围。

用户可以浏览我们的模型目录，找到最适合其用例的模型，从 Cloudflare Workers AI 上托管的开源模型到主要模型提供商的专有模型，应有尽有。我们很高兴地扩展支持用户访问阿里云、AssemblyAI、字节跳动、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway 和生数科技的模型，这些提供商均通过 AI Gateway 提供各自的模型。值得一提的是，我们将扩展模型产品组合，纳入图像、视频和语音模型，以便用户可以构建多模态应用。

通过一个 API 访问所有模型，也意味着用户可以集中管理所有 AI 支出。如今，大多数公司平均调用 3.5 个不同提供商的模型，这意味着没有哪个提供商能够全面了解您的 AI 使用情况。使用 AI Gateway，您可以从一个集中位置来监测和管理 AI 支出。

通过在请求中添加自定义元数据，用户可以获得按自己最关心的属性（例如免费用户与付费用户、单个客户，或应用中的特定工作流程）统计的成本明细。

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5',
      {
prompt: 'What is AI Gateway?'
      },
      {
metadata: { "teamId": "AI", "userId": 12345 }
      }
    );

自带模型

AI Gateway 让用户可以通过一个 API 访问所有提供商的模型。但有时，用户需要运行一个已根据自有数据进行了微调的模型，或者一个针对特定用例进行了优化的模型。为此，我们正在努力让用户将自有模型导入 Workers AI。

Cloudflare 的绝大多数流量均来自 Enterprise 客户的专用实例，这些客户在我们平台上运行自定义模型，我们希望让更多客户体验这项功能。为此，我们利用 Replicate 的 Cog 技术，帮助用户将机器学习模型容器化。

Cog 的设计理念非常简单：只需在 cog.yaml 文件中编写依赖项，以及在 Python 文件中编写推理代码即可。Cog 会抽象化与打包机器学习模型相关的所有困难事项，例如 CUDA 依赖项、Python 版本、权重加载等。

cog.yaml 文件示例：

build:
  python_version: "3.13"
  python_requirements: requirements.txt
predict: "predict.py:Predictor"

predict.py 文件示例如下所示，其中包含一个用于设置模型的函数，以及一个在收到推理请求（预测）后运行的函数：

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
    def setup(self):
        """Load the model into memory to make running multiple predictions efficient"""
        self.net = torch.load("weights.pth")

    def predict(self,
            image: Path = Input(description="Image to enlarge"),
            scale: float = Input(description="Factor to scale image by", default=1.5)
    ) -> Path:
        """Run a single prediction on the model"""
        # ... pre-processing ...
        output = self.net(input)
        # ... post-processing ...
        return output

然后，运行 cog build 来构建容器映像，并将 Cog 容器推送到 Workers AI。我们将为用户部署和提供模型，随后，用户可以通过常用的 Workers AI API 访问模型。

我们正在推进一些大型项目，以便让这项技术服务更多客户，例如面向客户的 API 和 Wrangler 命令，方便用户推送自己的容器，以及通过 GPU 快照来加速冷启动。我们一直在与 Cloudflare 团队以及一些外部客户进行内部测试，他们的反馈为我们的开发目标指明方向。如果您有兴趣成为我们的设计合作伙伴，请联系我们！不久之后，任何用户均可将其自有模型打包并通过 Workers AI 来使用。

快速获取首个令牌

如果构建实时智能体，则组合使用 Workers AI 模型与 AI Gateway 的功能是相当强大的：在这种场景下，用户对速度的感知取决于获取首个令牌的时间或智能体开始响应的速度，而不是完整响应会花费的时间。即使总推理耗时为 3 秒，但获取首个令牌的时间加快 50 毫秒也会产生重大影响，让智能体的响应变得流畅而不是迟缓。

Cloudflare 的数据中心网络覆盖全球 330 个城市，这意味着 AI Gateway 部署在靠近用户和推理端点的位置，从而最大限度地缩短启动流式传输之前的延迟。

Workers AI 还在其公共目录中托管开源模型，包括专为智能体构建的大模型，例如 Kimi K2.5 和实时语音模型。由于代码和推理均在同一个全球网络上运行，因此，当通过 AI Gateway 调用这些 Cloudflare 托管的模型时，无需通过公共互联网进行额外的跳转，从而最大限度地降低延迟。

以可靠性为目标，具备自动故障转移功能

在构建智能体时，速度并非用户唯一关注的因素，可靠性同样重要。智能体工作流中的每一个步骤都依赖于它的上一步。对于智能体而言，可靠的推理至关重要，因为一次调用失败可能会影响整个下游服务链。

通过 AI Gateway，如果用户调用某个在多个提供商平台上均可用的模型但其中一个提供商出现故障，则我们会自动路由到另一个可用的提供商，无需用户自行编写任何故障转移逻辑。

如果用户使用 Agents SDK 构建长时间运行的智能体，则流式推理调用也能适应断开连接的情况。AI Gateway 会在流式响应生成时进行缓存，与智能体的生命周期无关。如果智能体在推理过程中中断，它可以重新连接到 AI Gateway 并检索响应，无需进行新的推理调用或为相同的输出令牌支付两次费用。结合 Agent SDK 的内置检查点功能，最终用户根本不会察觉到任何中断。

Replicate

Replicate 团队已正式加入了 Cloudflare AI 平台团队，我们不再是两个独立的团队。我们一直在努力推进 Replicate 与 Cloudflare 之间的集成，包括将所有 Replicate 模型引入 AI Gateway，以及对托管模型进行平台迁移，将其部署到 Cloudflare 基础设施上。不久之后，用户可以通过 AI Gateway 访问自己喜爱的 Replicate 模型，也可以将自己部署在 Replicate 上的模型托管到 Workers AI 上。

开始使用

若要开始使用，请参阅我们的 AI Gateway 或 Workers AI 文档。了解关于利用 Agents SDK 在 Cloudflare 上构建智能体的更多信息。

在 Cloudflare TV 上观看

构建运行超大语言模型的基础

Michelle Chen — Thu, 16 Apr 2026 14:00:00 GMT

智能体需要大语言模型提供支持。几周前，我们宣布了 Workers AI 正式进军大型开源模型托管领域，例如托管了 Moonshot 旗下的 Kimi K2.5 模型。自此以后，我们已将 Kimi K2.5 模型的运行速度提高了三倍，并在处理过程中不断增加更多支持的模型。这些模型一直是我们本周发布的许多智能体产品、框架和工具的基石。

托管 AI 模型是一项有趣的挑战：需要在软件与极其昂贵的硬件之间找到微妙的平衡。Cloudflare 擅长通过巧妙的软件工程，最大限度地提高硬件效率。本文将深入探讨我们如何为运行超大型语言模型奠定基础。

硬件配置

正如我们在之前的 Kimi K2.5 博客文章中所述，我们使用多种硬件配置来为模型提供最佳服务。许多硬件配置都取决于用户发送给模型的输入和输出大小。例如，如果您使用模型来撰写同人文，则可能会给它几个简短的提示词（输入词元），同时要求它生成多页内容（输出词元）。

相反，如果您运行的是摘要任务，则可能会发送数十万个输入词元，但只生成一份包含几千个输出词元的简短摘要。面对这些截然相反的用例，您必须做出选择：调整模型配置以加快其处理输入词元的速度，还是加快其生成输出词元的速度？

我们在 Workers AI 上发布支持的大语言模型时，就知道了大多数用例会用于智能体。使用智能体，需要发送大量输入词元。它首先以内容较长的系统提示词开始，所有工具和 MCP。随着用户发出第一个提示词，上下文会不断扩展。用户发出的每个新提示词都会向模型发送一个请求，其中包含之前输入的所有内容：包括用户提示词、助手消息、生成的代码等。对于 Workers AI，这意味着我们必须重点关注两件事：快速处理输入词元与快速调用工具。

预填充与解码 (PD) 解耦

我们用于提高性能和效率的硬件配置之一是解耦预填充。处理 LLM 请求分为两个阶段：一是预填充，处理输入词元并填充 KV 缓存；二是解码，生成输出词元。预填充通常受计算资源限制，而解码则受内存资源限制。这意味着每个阶段使用的 GPU 部分各不相同，而且由于预填充总是在解码之前完成，因此。这两个阶段会相互阻碍。最终，这意味着如果我们在单台计算机上同时执行预填充与解码，就无法有效地利用所有 GPU 的算力。

采用预填充与解码解耦方法，为每个阶段运行单独的推理服务器。首先，向预填充阶段发送请求，该阶段执行预填充并将其存储在 KV 缓存中。然后，向解码服务器发送相同的请求，其中包含如何从预填充服务器传输 KV 缓存并开始解码的信息。这种方法会带来诸多优势，因为它支持独立调整服务器以适应其各自的角色，根据输入或输出密集型流量进行扩展，甚至可以在异构硬件上运行。

需要一个相对复杂的负载均衡器来实现这种架构。除了如上所述的请求路由之外，它还必须重写解码服务器的响应（包括基于 SSE 的流式传输），以添加来自预填充服务器的信息，例如缓存的令牌。更复杂的是，不同的推理服务器需要不同的信息来启动 KV 缓存传输。我们扩展了这种架构，以实施基于词元的负载均衡。架构中存在一个预填充与解码端点池，负载均衡器会估算正在传输到池里每个端点的预填充或解码词元数量，并尝试均匀分配此类负载。

在我们的公共模型发布后，我们的输入/输出模式再次发生了巨大变化。我们花时间分析了新的使用模式，然后调整了配置以适配客户的用例。

下图展示了在请求量增加的情况下，使用相同数量的 GPU，将流量传输到新的已解耦 PD 架构之后，p90 首个词元延迟降低的情况。我们发现，长尾延迟方差显著改善。

同样，每个词元的 p90 时间从方差较大的约 100 毫秒降至 20-30 毫秒，词元间延迟降低了 3 倍。

提示词缓存

由于智能体用例通常具有较长的上下文，因此，我们优化来实现高效的提示词缓存，以避免每次都重新计算输入张量。我们利用名为 x-session-affinity 的标头，帮助请求路由到之前具有已计算的输入张量的正确区域。我们曾在 Workers AI 上托管和运行大型 LLM 的原始博客文章中对此进行了详细介绍。我们将会话亲和请求头添加到 OpenCode 等常用智能体框架，并在其中观察到总吞吐量显著提升。用户提示词缓存方面的微小差异，可能会导致运行模型所需的额外 GPU 数量显著增加。虽然我们内部已经实现了 KV 缓存感知路由，但也依赖客户端发送 x-session-affinity 来明确说明提示词缓存。我们通过提供缓存的词元折扣，激励用户使用此标头。我们强烈建议用户利用提示词缓存，加快推理速度并降低成本。

我们与使用频率最高的内部用户合作，推广使用此标头。结果，在高峰时段的输入词元缓存命中率从 60%提高到 80%。这显著提高了我们能够处理的请求吞吐量，同时也改善了交互式或时间敏感型会话（例如 OpenCode 或 AI 代码审查）的性能。

KV 缓存优化

由于我们现在为更大的模型提供服务，一个实例可能跨越多个 GPU。这意味着我们必须找到一种高效的方法，在多个 GPU 之间共享 KV 缓存。KV 缓存用于存储所有预填充输入张量（会话中提示词的结果），它最初存储在 GPU 的显存 (VRAM) 中。每个 GPU 的 VRAM 容量是固定的，但如果模型实例需要多个 GPU，则需要采用一种方法，让 KV 缓存可以跨 GPU 运行并相互通信。为了让 Kimi 模型实现这个目标，我们利用了 Moonshot AI 的 Mooncake Transfer Engine 和 Mooncake Store。

Mooncake Transfer Engine 是一个高性能数据传输框架。它支持多种不同的远程直接内存访问 (RDMA) 协议，例如 NVLink 和 NVMe over Fabric，从而实现直接在内存之间进行数据传输，而无需 CPU 参与。它会提高数据跨多个 GPU 计算机的数据传输速度，这在模型的多 GPU 与多节点配置中尤其重要。

如果与 LMCache 或 SGLang HiCache 搭配使用，缓存会在集群中的所有节点之间共享，从而让预填充节点可以识别并重用来自之前在其他节点上已预填充的请求缓存，如此一来，无需在集群内进行会话感知路由，并实现更均匀的流量负载均衡。Mooncake Store 还支持我们将缓存扩展到 GPU VRAM 之外，并利用 NVMe 存储。这会延长会话在缓存中的存活时间，提高缓存命中率，让我们能够处理更多流量，以及为用户提供更好的性能。

推测解码

LLM 的工作原理是基于前一个词元来推测序列中的后一个词元。在简单实现中，模型只能预测接下来 n 个词元，但实际上，我们可以让它在模型的单次前向传播中预测接下来 n+1、n+2…… 个词元。这种热门的技术被称为推测解码，我们在之前一篇关于 Workers AI 的文章中进行了详细介绍。

在推测解码中，我们利用一个较小的 LLM（草稿模型）来生成一些候选词元，供目标模型从中选择。然后，目标模型只需在一次前向传播中，从少量候选词元中进行选择。验证这些词元比使用更大的目标模型来生成词元的速度更快，计算成本更低。但输出质量依然能够得到保证，因为目标模型最终必须接受或拒绝草稿词元。

在智能体用例中，推测解码的优势尤为突出，因为模型需要生成大量的工具调用和结构化输出。工具调用在很大程度上是可预测的：您知道它会包含名称、描述，并且被封装在 JSON 格式的容器中。

为了在 Kimi K2.5 模型中实现这一点，我们利用了 NVIDIA 的 EAGLE-3 (Extrapolation Algorithm for Greater Language-model Efficiency) 草稿模型。用于调整推测解码的参数之一，是未来要生成的词元数量。因此，我们能够提高每秒词元吞吐量，同时实现高质量推理。

Infire ：我们的专有推理引擎

正如我们在 2025 年生日周期间宣布的那样，Cloudflare 拥有一款专有推理引擎 Infire，它可以加快机器学习模型的运行速度。Infire 是用 Rust 语言编写的推理引擎，旨在支持 Cloudflare 应对在其全球分布式网络环境中进行推理时面对的各种独特挑战。我们扩展了 Infire 对即将运行的新型大语言模型的支持，这意味着我们需要开发一些新功能才能达成目标。

多 GPU 支持

Kimi K2.5 等大语言模型拥有超过 1 万亿个参数，这些参数大约需要 560GB 存储空间。一个常规 H100 的 VRAM 大约是 80GB，而模型权重需要加载到 GPU 内存中才能运行。也就是说，像 Kimi K2.5 这样的模型至少需要 8 个 H100 才能将模型加载到内存中并运行，这还不包括 KV 缓存（其中包括上下文窗口）所需的额外 VRAM。

自从我们最初发布 Infire 以来，我们不得不添加多 GPU 支持，使推理引擎能够以管道并行或张量并行模式在多个 GPU 上运行，也支持专家并行。

对于管道并行，Infire 会尝试适当地实现管道各个阶段的负载均衡，防止某个阶段的 GPU 在其他阶段执行时出现等待状态。另一方面，对于张量并行，Infire 进行优化以减少跨 GPU 通信，从而尽可能提高处理速度。对于大多数模型而言，同时使用管道并行和张量并行可以实现吞吐量与延迟的最佳平衡。

降低内存开销

虽然 Infire 的 GPU 内存开销已经远低于 vLLM，但我们仍进行了进一步优化，显著降低了激活等内部状态所需的内存。目前，Infire 只需要两个 H200 GPU 就能够运行 Llama 4 Scout，同时剩余超过 56 GiB 容量用于 KV 缓存，足以存储超过 120 万个词元。Infire 也能够在 8 个 H100 GPU（没错，就是 H100）上运行 Kimi K2.5，同时剩余超过 30 GiB 容量用于 KV-缓存。在这两种情况下，甚至是一开始启动 vLLM 时就可能会遇到问题。

加速冷启动

在添加多 GPU 支持的同时，我们发现了进一步提高启动速度（缩短启动时间）的机会。即使是对于 Kimi K2.5 等大模型，Infire 也能在 20 秒内开始处理请求。加载时间仅受硬盘速度的限制。

最大限度地利用硬件，提高吞吐量

投资 Cloudflare 专有推理引擎让我们能够最大限度地利用硬件，在没有资源限制的情况下，将每秒处理词元的吞吐量提高 20%，同时让我们能够使用低端硬件来运行最新模型，而这在以前完全不可行。

创新永无止境

机器学习社区每周都会涌现出新技术、新研究成果和新模型。Cloudflare 不断优化技术栈，旨在为客户提供优质、高性能的推理服务，同时确保我们的 GPU 高效运行。如果您认为这些挑战很有吸引力，欢迎加入我们，我们正在招聘！

AI Search：智能体的搜索原语

Gabriel Massadas — Thu, 16 Apr 2026 13:00:22 GMT

每个智能体都需要搜索功能：编码智能体需要搜索代码存储库中数百万个文件，支持智能体则需要搜索客户工单和内部文档。尽管用例各不相同，但根本问题是一样的：及时将正确的信息传递给模型。

如果您自行构建搜索功能，则需要一个向量索引、一个用于解析和分块文档的索引管道，以及在数据更改时保持索引同步更新的某种方法。如果您还需要关键词搜索，则需要一个单独的索引以及顶部的融合逻辑。如果每个智能体都需要自己的可搜索上下文，则需要为每个智能体分别设置。

AI Search（以前称为 AutoRAG）是用户需要的即插即用型搜索原语。用户可以动态创建实例，为其提供数据，然后通过 Worker、Agents SDK 或 Wrangler CLI 进行搜索。以下是我们即将发布的功能：

混合搜索。在同一查询中启用语义匹配和关键词匹配。向量搜索和 BM25 并行运行，然后将结果整合。（我们博客上的搜索功能现已由 AI Search 提供支持。请尝试右上角的放大镜图标。）
内置存储和索引。新实例自带存储和向量索引。通过 API 将文件直接上传到实例，然后对其进行索引。无需设置 R2 存储桶，也无需首先连接到外部数据源。新的 ai_search_namespaces 绑定支持用户在运行时从 Worker 创建和删除实例，以便按每个智能体、每个客户或每种语言来快速启动实例，无需重新部署。

现在，用户还可以将元数据附加到文档，并在查询时使用此类数据提升排名，以及在单个调用中跨多个实例进行查询。

现在，我们来看看这在实践中意味着什么。

实际应用：客户支持智能体

我们来看一看支持智能体如何搜索两种类型的知识：共享的产品文档，以及每个客户的历史记录（例如过去的解决方案）。产品文档内容太多，无法在上下文窗口中完整显示，而每个客户的历史记录会随着已解决的问题不断增长，因此，智能体需要通过检索来查找相关内容。

以下是使用 AI Search 和 Agents SDK 进行搜索的示例。从搭建项目框架开始：

npm create cloudflare@latest -- --template cloudflare/agents-starter

首先，将 AI Search 命名空间绑定到 Worker：

// wrangler.jsonc 
{
  "ai_search_namespaces": [
    { "binding": "SUPPORT_KB", "namespace": "support" }
  ],
  "ai": { "binding": "AI" },
  "durable_objects": {
    "bindings": [
      { "name": "SupportAgent", "class_name": "SupportAgent" }
    ]
  }
}

假设共享的产品文档存放在名为 product-doc 的 R2 存储桶中。您可以在 Cloudflare 仪表板的 support 命名空间中，创建由该存储桶提供支持的一次性 AI Search 实例（名为 product-knowledge）：

这就是共享的知识库，文档均可供每个智能体参考。

当客户提出新问题时，了解之前已经进行的尝试可以节省大家的时间。您可以通过为每位顾客创建一个 AI Search 实例来跟踪这些信息。每个问题解决后，智能体会保存一份摘要，总结出了什么问题以及解决方法。随着时间的推移，这将成为可供搜索的过往解决方法日志。您可以使用命名空间绑定来动态创建实例：

// create a per-customer instance when they first show up 
await env.SUPPORT_KB.create({
  id: `customer-${customerId}`,
  index_method:{ keyword: true, vector: true }
});

每个实例都有其内置的存储和向量索引，由 R2 和 Vectorize 提供支持。实例最初为空，随着时间的推移会积累上下文。客户下次再次访问时，所有上下文均可搜索。

以下是几个客户使用过后的命名空间示例：

namespace: "support"
├── product-knowledge     (R2 as source, shared across all agents)
├── customer-abc123       (managed storage, per-customer)
├── customer-def456       (managed storage, per-customer)
└── customer-ghi789       (managed storage, per-customer)

现在说回智能体本身。它会扩展源自 Agents SDK 的 AIChatAgent 并定义两个工具。我们通过 Workers AI，将 Kimi K2.5 模型用作 LLM。模型会根据对话内容，决定何时调用这些工具：

import { AIChatAgent, type OnChatMessageOptions } from "@cloudflare/ai-chat";
import { createWorkersAI } from "workers-ai-provider";
import { streamText, convertToModelMessages, tool, stepCountIs } from "ai";
import { routeAgentRequest } from "agents";
import { z } from "zod";

export class SupportAgent extends AIChatAgent {
  async onChatMessage(_onFinish: unknown, options?: OnChatMessageOptions) {
    // the client passes customerId in the request body
    // via the Agent SDK's sendMessage({ body: { customerId } })
    const customerId = options?.body?.customerId;

    // create a per-customer instance when they first show up.
    // each instance gets its own storage and vector index.
    if (customerId) {
      try {
        await this.env.SUPPORT_KB.create({
          id: `customer-${customerId}`,
          index_method: { keyword: true, vector: true }
        });
      } catch {
        // instance already exists
      }
    }

    const workersai = createWorkersAI({ binding: this.env.AI });

    const result = streamText({
      model: workersai("@cf/moonshotai/kimi-k2.5"),
      system: `You are a support agent. Use search_knowledge_base
        to find relevant docs before answering. Search results
        include both product docs and this customer's past
        resolutions — use them to avoid repeating failed fixes
        and to recognize recurring issues. When the issue is
        resolved, call save_resolution before responding.`,
      // this.messages is the full conversation history, automatically
      // persisted by AIChatAgent across reconnects
      messages: await convertToModelMessages(this.messages),
      tools: {
        // tool 1: search across shared product docs AND this
        // customer's past resolutions in a single call
        search_knowledge_base: tool({
          description: "Search product docs and customer history",
          inputSchema: z.object({
            query: z.string().describe("The search query"),
          }),
          execute: async ({ query }) => {
            // always search product docs;
            // include customer history if available
            const instances = ["product-knowledge"];
            if (customerId) {
              instances.push(`customer-${customerId}`);
            }
            return await this.env.SUPPORT_KB.search({
              query: query,
              ai_search_options: {
                // surface recent docs over older ones
                boost_by: [
                  { field: "timestamp", direction: "desc" }
                ],
                // search across both instances at once
                instance_ids: instances
              }
            });
          }
        }),

        // tool 2: after resolving an issue, the agent saves a
        // summary so future agents have full context
        save_resolution: tool({
          description:
            "Save a resolution summary after solving a customer's issue",
          inputSchema: z.object({
            filename: z.string().describe(
              "Short descriptive filename, e.g. 'billing-fix.md'"
            ),
            content: z.string().describe(
              "What the problem was, what caused it, and how it was resolved"
            ),
          }),
          execute: async ({ filename, content }) => {
            if (!customerId) return { error: "No customer ID" };
            const instance = this.env.SUPPORT_KB.get(
              `customer-${customerId}`
            );
            // uploadAndPoll waits until indexing is complete,
            // so the resolution is searchable before the next query
            const item = await instance.items.uploadAndPoll(
              filename, content
            );
            return { saved: true, filename, status: item.status };
          }
        }),
      },
      // cap agentic tool-use loops at 10 steps
      stopWhen: stepCountIs(10),
      abortSignal: options?.abortSignal,
    });

    return result.toUIMessageStreamResponse();
  }
}

// route requests to the SupportAgent durable object
export default {
  async fetch(request: Request, env: Env) {
    return (
      (await routeAgentRequest(request, env)) ||
      new Response("Not found", { status: 404 })
    );
  }
} satisfies ExportedHandler;

使用这种方法，模型可以自行判断何时搜索、何时保存。搜索时，它会一并查询 product-knowledge 与客户过去的解决方案。问题解决后，它会保存一份摘要，以便在未来的对话中可以立即搜索。

AI Search 如何找到您搜索的内容

事实上，AI Search 运行着一个多步骤检索流程，其中的每一个步骤都是可配置的。

混合搜索：理解意图并匹配术语的搜索

到目前为止，AI Search 仅提供向量搜索。向量搜索擅长理解意图，但它可能会丢失具体信息。在“ERR_CONNECTION_REFUSED 超时”查询中，嵌入会捕捉连接失败的宽泛概念。但用户并不是在寻找通用网络文档，而是在寻找提到“ERR_CONNECTION_REFUSED”的特定文档。向量搜索可能会返回关于故障排除的结果，但不会显示包含该确切错误字符串的页面。

关键词搜索可以弥补这种不足。AI Search 现在支持 BM25，这是应用最广泛的检索评分函数之一。BM25 根据查询术语出现频率、这些术语在整个语料库中的稀有程度以及文档长度，对文档进行评分。它会奖励特定术语的匹配，惩罚常用填充词，并对文档长度进行规范化。搜索“ERR_CONNECTION_REFUSED 超时”时，BM25 会找到包含“ERR_CONNECTION_REFUSED”这个术语的文档。然而，BM25 可能会遗漏关于“排查网络连接”的网页，即便该网页可能描述了相同的问题。这正是向量搜索的优势所在，也是您需要同时使用这两种搜索方式的原因。

启用混合搜索后，它会并行运行向量和 BM25，融合搜索结果，以及根据需要可选地对结果进行重新排序：

我们来看看 BM25 的新配置，以及它们如何协同工作。

分词器控制着在索引文档时如何将其拆分成可匹配的术语。波特词干提取器（选项：porter）提取单词的词干，因此“running”是“run”的匹配项。字母三元组（选项：trigram）匹配字符子字符串，因此“conf”是“configuration”的匹配项。您可以使用波特方法处理文档等自然语言内容，以及使用字母三元组方法处理部分匹配至关重要的代码。
关键词匹配模式控制着哪些文档是查询时用于 BM25 评分的候选文档。AND 要求查询的所有术语必须出现在文档中，OR 则只须包含至少有一个匹配项的文档。
融合控制着查询时如何将向量和关键词结果合并到最终结果列表中。倒数排名融合（选项：rrf）按排名位置而不是分数合并，以免比较两个不兼容的评分标准；最大融合（选项：max）则按分数高低进行合并。
（可选）重新排序会添加一个交叉编码器阶段，通过将查询和文档作为一个整体进行评估来重新评分。这可能有助于发现搜索结果中包含正确术语但并未回答问题的情况。

如果省略，则每个选项均采用合理的默认值。在创建新实例时，您可以灵活配置重要选项：

const instance = await env.AI_SEARCH.create({
  id: "my-instance",
  index_method: { keyword: true, vector: true },
  indexing_options: {
    keyword_tokenizer: "porter"
  },
  retrieval_options: {
    keyword_match_mode: "or"
  },
  fusion_method: "rrf",
  reranking: true,
  reranking_model: "@cf/baai/bge-reranker-base"
});

提高相关性：显示重要内容

检索功能可以为您提供相关结果，但仅靠相关性还是不够的。例如，在新闻搜索中，上周的文章与三年前的文章可能都与“选举结果”语义相关，但大多数用户可能希望查看最新的文章。提高相关性让您在检索时通过根据文档元数据对排名进行微调，在检索基础上添加业务逻辑。

您可以根据时间戳（每个项目都有）或通过自定义元数据字段来提高相关性。

// boost high priority docs
const results = await instance.search({
  query: "deployment guide",
  ai_search_options: {
    boost_by: [
      { field: "timestamp", direction: "desc" }
    ]
  }
});

跨实例搜索：跨边界进行查询

在支持智能体示例中，产品文档和客户解决方案历史记录根据设计存储在不同的实例中。但是，在智能体回答问题时，它需要同时从这两个地方获取上下文信息。如果没有跨实例搜索功能，用户需要进行两次单独的调用，然后自行合并结果。

命名空间绑定会公开 search() 方法，为用户处理此问题。传入一个实例名称数组，然后获得一个排名列表：

const results = await env.SUPPORT_KB.search({
  query: "billing error",
  ai_search_options: {
    instance_ids: ["product-knowledge", "customer-abc123"]
  }
});

跨实例合并结果，然后进行排名。智能体无需了解或关心共享的文档与客户解决方案历史记录存储在不同位置。

AI Search 实例的工作原理

到目前为止，我们已经介绍了 AI Search 如何找到正确的结果。现在，让我们来看看如何创建和管理搜索实例。

如果您在此版本发布之前使用过 AI Search，就会了解设置流程：创建一个 R2 存储桶，将其链接到 AI Search 实例，AI Search 生成一个服务 API 令牌，然后您管理自己账户中配置的 Vectorize 索引。上传对象需要写入 R2，然后等待同步作业运行，以完成对象编制索引。

如今，新创建的实例的工作方式有所不同。调用 create() 后，实例将自带内置的存储和向量索引。您可以上传文件，文件会被立即添加到索引，并且您可以使用 uploadAndpoll() API 轮询索引状态。完成后，您可以立即搜索该实例，并且无需连接任何外部依赖项。

const instance = env.AI_SEARCH.get("my-instance");

// upload and wait for indexing to complete
const item = await instance.items.uploadAndPoll("faq.md", content, {
  metadata: { category: "onboarding" }
});
console.log(item.status); // "completed"

// immediately search after indexing is completed
const results = await instance.search({
  // alternative way to pass in users' query other than using parameter query 
  messages: [{ role: "user", content: "onboarding guide" }],
});

每个实例还可能连接到外部数据源（R2 存储桶或网站）并按同步排程运行。它可以与提供的内置存储并存。在支持智能体示例中，product-knowledge 由 R2 存储桶提供支持，用于存储共享的文档；而每个客户的实例则使用内置存储来存储存储实时动态上传的上下文信息。

命名空间：在运行时创建搜索实例

ai_search_namespaces 是一个全新的绑定，您可以利用它在运行时动态创建搜索实例。它将取代以前的 env.AI.autorag() API，后者通过 AI 绑定来访问 AI Search。旧的绑定在与 Workers 兼容的时间框架内仍然可用。

// wrangler.jsonc 
{
  "ai_search_namespaces": [
    { "binding": "AI_SEARCH", "namespace": "example" },
  ]
}

命名空间绑定为您提供命名空间级别的 API，例如 create()、delete()、list() 和 search()。若要动态创建实例（例如，每个智能体、每个客户、每个租户），则应该使用此绑定。

// create an instance 
const instance = await env.AI_SEARCH.create({
  id: "my-instance"
});

// delete an instance and all its indexed data
await env.AI_SEARCH.delete("old-instance");

新实例定价

到今天为止，新创建的实例将自动获得内置存储和向量索引。

在 AI Search 公测期间，这些实例均可免费使用，但存在以下限制。当使用网站作为数据源时，通过 Browser Run（以前称为 Browser Rendering）爬取网站现在已成为一项内置服务，这意味着您无需为此单独付费。测试期后，我们的目标是提供 AI Search 这项单一服务的统一定价，而不是针对每个底层组件单独计费。Workers AI 与 AI Gateway 的使用将继续单独计费。

我们将在开始计费前至少提前 30 天发出通知，并告知定价详情。

限制	Workers Free	Workers Paid
每个账户的 AI Search 实例数量	100	5,000
每个实例的文件数量	100,000	100 万或 50 万用于混合搜索
最大文件大小	4MB	4MB
每月的查询量	20000	无限制
每天的最大抓取页面数	500	无限制

现有实例怎么办？

如果您在此版本发布之前创建了实例，它们将继续像现在一样正常运行。R2 存储桶、Vectorize 索引和 Browser Run 使用量均保留在您的账户中，并按照以前的方式计费。我们将尽快分享现有实例迁移的详细信息。

立即开始使用

搜索是智能体最基本的功能之一。使用 AI Search，您无需构建任何基础设施即可搜索。创建实例、为其提供数据，即可让智能体进行搜索。

立即运行以下命令，创建您的第一个实例：

npx wrangler ai-search create my-search

欢迎查看文档并加入 Cloudflare Developer Discord，分享您正在构建的应用。

Project Think：在 Cloudflare 上构建下一代 AI 智能体

Sunil Pai — Wed, 15 Apr 2026 13:01:00 GMT

今天，我们隆重推出 Project Think：也就是新一代 Agents SDK。Project Think 为构建长时间运行的智能体提供一套新原语，包括持久化执行、子智能体、沙箱代码执行和持续会话，以及将这些基础组件集成在一起的有明确设计理念的基类。可以利用这些原语准确构建所需功能，也可以使用基类快速入门。

今年年初发生的一件事改变了我们对 AI 的认知。Pi、OpenClaw、Claude Code 和 Codex 等工具证明了一个简单而强大的理念：赋予 LLM 如下四项能力：读取文件、编写代码、执行代码、记住所学知识，用户就能得到看起来更像是通用助手的工具，而不是开发人员工具。

这些编码智能体的功能不再局限于编写代码。人们使用它们来管理日历、分析数据集、洽谈采购合同、提交税务申报，以及自动化整个业务工作流程。运行模式始终相同：智能体读取上下文，对上下文进行推理，编写代码来执行操作，观察结果，然后迭代。代码是智能体将意图转化为行动的通用媒介。

Cloudflare 团队每天都在使用这些编码智能体。而且我们不断遇到同样的难题：

它们只能在笔记本电脑或昂贵的 VPS 上运行：无法共享、协作，也无法在不同设备之间切换。
闲置成本较高：无论智能体是否工作，需要支付固定的月费。如果扩展到团队或全公司，闲置成本迅速增加。
需要管理和手动设置：安装依赖项、管理更新、配置身份和密钥。

此外，还有更深层次的结构性问题。传统应用通过单个实例为许多用户提供服务。正如我们在“欢迎参加 Agents Week”博客文章中提到的，智能体是一对一服务。每个智能体都是一个独立实例，服务一个用户，运行一项任务。餐馆有菜单和优化的厨房，可以高效批量出餐。智能体更像是私人厨师：每次使用的食材、烹饪技巧和工具都各不相同。

这从根本上改变了扩展的计算方式。如果一亿知识工作者每人使用一个智能助手，则即使并发率适中，也需要足够支持数千万个并发会话的容量。按照目前每个容器的成本，这种方法难以为继。我们需要不同的基础架构。

这正是 Cloudflare 一直在努力构建的解决方案。

隆重推出 Project Think

Project Think 为 Agents SDK 提供一套新原语：

持久化执行（使用纤程）：崩溃恢复、检查点、自动确保持续存在
子智能体：隔离的子智能体，具有各自的 SQLite 数据库和类型化 RPC
持续会话：树状结构信息、分叉、压缩、全文检索
沙箱代码执行：Dynamic Workers、codemode 执行模式、runtime npm 解析
执行层级：工作区、隔离区、npm、浏览器、沙箱
自主编写扩展：在运行时自主编写工具的智能体

这些基础组件均可直接与 Agent 基类搭配使用。可以利用这些原语准确构建所需功能，也可以使用 Think 基类快速入门。接下来，我们将逐一介绍它们的作用。

长时间运行的智能体

目前存在的智能体都是短暂运行。它们只在单个会话期间运行，绑定到单个进程或设备，随后便终止。在笔记本电脑进入睡眠模式后即终止的编码智能体，只能算是一个工具。而一个持久运行的智能体（可以按需唤醒，在中断后继续工作，且不依赖本地运行时即可保持状态）则更像是基础设施。并且它会彻底改变智能体的扩展模式。

Agents SDK 基于 Durable Objects 构建，为每个智能体赋予身份、持续状态以及收到消息时唤醒的功能。这就是 actor 模型：每个智能体都是可寻址的实体，且拥有自己的 SQLite 数据库。当它处于休眠状态时，不会消耗任何计算资源。如果发生了某件事（HTTP 请求、WebSocket 消息、计划的警报、入站电子邮件），平台会唤醒智能体，加载其状态，并将事件传递给它。智能体完成其工作，然后再次进入休眠状态。

	虚拟机/容器	Durable Objects
闲置成本	始终收取计算成本	零（休眠）
扩展	配置和管理容量	全自动、按智能体
状态	需要外部数据库	内置 SQLite 数据库
恢复	自行构建（进程管理器、运行状况检查）	平台重启，状态保留
身份/路由	自行构建（负载均衡器、粘性会话）	内置（名称 → 智能体）
10000 个智能体，每个处理活跃状态的时间占 1%	10000 个始终在线的实例	约 100 个随时活跃的实例

这将改变大规模运行智能体的成本。您可以构建“每个客户一个智能体”、“每个任务一个智能体”或“每个电子邮件线程一个智能体”，而不是构建“每个高级用户一个昂贵的智能体”。创建新智能体的边际成本几乎为零。

应对崩溃：使用纤程实现持久化执行

一个 LLM 调用需要耗费 30 秒。多回合智能体的运行时间可能更长。在此期间，执行环境可能会消失：例如一次部署、平台重启或达到资源限制，与模型提供商的上游连接被永久断开，内存状态丢失，以及连接的客户端发现数据流被无故中断。

runFiber() 可以解决这个问题。纤程是一种持久化函数调用实例：执行前先在 SQLite 中注册、随时通过 stash() 检查存档，以及在重启后通过 onFiberRecovered 回调恢复。

import { Agent } from "agents";

export class ResearchAgent extends Agent {
  async startResearch(topic: string) {
    void this.runFiber("research", async (ctx) => {
      const findings = [];

      for (let i = 0; i < 10; i++) {
        const result = await this.callLLM(`Research step ${i}: ${topic}`);
        findings.push(result);

        // Checkpoint: if evicted, we resume from here
        ctx.stash({ findings, step: i, topic });

        this.broadcast({ type: "progress", step: i });
      }

      return { findings };
    });
  }

  async onFiberRecovered(ctx) {
    if (ctx.name === "research" && ctx.snapshot) {
      const { topic } = ctx.snapshot;
      await this.startResearch(topic);
    }
  }
}

在纤程执行期间，SDK 会自动维持智能体处于活动状态，无需任何特殊配置。对于以分钟为单位的工作，keepAlive()/keepAliveWhile() 可防止在执行任务期间被清理。对于耗时更长的操作（例如 CI 管道、设计评审、视频生成），智能体会启动工作、持久化作业 ID、进入休眠状态，以及在回调时唤醒。

委派工作：通过 Facets 实现子智能体

单一智能体不应包揽所有工作。子智能体是通过 Facets 与父智能体在同一物理/虚拟节点上运行的子 Durable Objects，每个子智能体都有各自独立的 SQLite 数据库和执行上下文：

import { Agent } from "agents";

export class ResearchAgent extends Agent {
  async search(query: string) { /* ... */ }
}

export class ReviewAgent extends Agent {
  async analyze(query: string) { /* ... */ }
}

export class Orchestrator extends Agent {
  async handleTask(task: string) {
    const researcher = await this.subAgent(ResearchAgent, "research");
    const reviewer = await this.subAgent(ReviewAgent, "review");

    const [research, review] = await Promise.all([
      researcher.search(task),
      reviewer.analyze(task)
    ]);

    return this.synthesize(research, review);
  }
}

子智能体在存储层面彼此隔离。每个子智能体都有自己的 SQLite 数据库，它们之间不存在隐式数据共享。运行时会强制执行这一隔离规则，其中子智能体 RPC 延迟是一个函数调用。TypeScript 在编译时会发现误用行为。

持续对话：Session API

运行数日或数周的智能体，需要比典型的扁平消息列表更丰富的存储方式。实验性 Session API 对此进行了明确的建模。在 Agent 基类中，对话以树状结构存储，其中每条消息都有一个 parent_id。这支持对话分叉（探索替代方案而不丢失原始路径），非破坏性压缩（总结较早的消息而非删除消息），以及通过 FTS5 全文搜索对话历史记录。

import { Agent } from "agents";
import { Session, SessionManager } from "agents/experimental/memory/session";

export class MyAgent extends Agent {
  sessions = SessionManager.create(this);

  async onStart() {
    const session = this.sessions.create("main");
    const history = session.getHistory();
    const forked = this.sessions.fork(session.id, messageId, "alternative-approach");
  }
}

Session 可以直接与 Agent 搭配使用，而且它是 Think 基类构建的存储层。

从工具调用到代码执行

传统工具的调用方式非常繁琐。模型调用一个工具，通过上下文窗口拉取结果；随后调用另一个工具，以同样的方式再次拉取结果，如此循环往复。随着工具数量的增加，这种做法既耗时又笨拙。100 个文件意味着需要经过模型完成 100 次往返通信。

但是，模型更擅长编写代码以调用系统的代码，而不是进行繁琐的工具调用。这正是 @cloudflare/codemode 背后的理念：LLM 不按顺序调用工具，而是编写一个程序来处理整个任务。

// The LLM writes this. It runs in a sandboxed Dynamic Worker.
const files = await tools.find({ pattern: "**/*.ts" });
const results = [];
for (const file of files) {
  const content = await tools.read({ path: file });
  if (content.includes("TODO")) {
    results.push({ file, todos: content.match(/\/\/ TODO:.*/g) });
  }
}
return results;

无需通过模型进行 100 次往返通信，只需运行单个程序即可。这可以减少词元使用量，加快执行速度，以及改善结果。Cloudflare API MCP 服务器在规模上证明了这一点。我们只暴露两个通用工具（search() 和 execute()），它们消耗了大约 1000 个词元，而天真的“一个端点一个工具”方法则消耗将近 117 万个词元。这相当于词元使用量减少了 99.9%。

缺失的原语：安全沙箱

接受模型应该代表用户编写代码这一理念后，接着面临的问题就是：这些代码在哪里运行？不是最终，也不是等候产品团队将其纳入路线图。而是现在，针对当前用户，针对当前系统，且拥有严格定义的权限。

Dynamic Workers 就是那种安全沙箱。它会在运行时在数毫秒内启动一个全新的 V8 隔离区，仅占用几兆字节内存。与容器相比，启动速度大约加快 100 倍，内存效率也至多提高 100 倍。您可以为每个请求启动一个新隔离区，运行一段代码，然后将其丢弃。

关键的设计选择是能力模型。Dynamic Workers 并非从通用机器开始并试尝试对其限制，而是开始时几乎没有任何环境权限（globalOutbound: null，没有网络访问权限），开发人员通过绑定，逐个资源地明确授予其访问特定能力的权限。我们思考的问题从“如何阻止模型生成过多内容？”变成“我们希望模型能够做到什么？”。

关于智能体基础设施，这才是合适的问题。

执行层级

这种能力模型自然而然地引出了一系列计算环境，也就是执行层级，智能体根据需要在这些计算环境中逐步提升权限：

第 0 级是工作区，它是由 SQLite 和 R2 提供支持的持久化虚拟文件系统。可执行读取、写入、编辑、搜索、grep、diff 操作。由 @cloudflare/shell 提供支持。

第 1 级是 Dynamic Worker：由 LLM 生成的 JavaScript 在沙箱隔离环境中运行，没有网络访问权限。由 @cloudflare/codemode 提供支持。

第 2 级添加了 npm。@cloudflare/worker-bundler 从注册表中获取软件包，使用 esbuild 对其进行打包，然后将结果加载到 Dynamic Worker 中。智能体只需写入 import { z } from “zod” 即可正常运行。

第 3 级是通过 Cloudflare Browser Run 提供的无头浏览器。可执行导航、点击、提取、截屏操作。当服务尚不支持通过 MCP 或 API 使用智能体时，这个层级非常有用。

第 4 级是 Cloudflare 沙箱，其中配置了用户自定义的工具链、代码存储库和依赖项：git clone、npm test、cargo build，与工作区双向同步。

关键设计原则：智能体应仅在第 0 级有用处，每一级的权限逐步添加。用户可以根据需要随时添加功能。

构建模块，而不是框架

所有这些基础组件都以独立包的形式提供。Dynamic Workers、@cloudflare/codemode、@cloudflare/worker-bundler 和 @cloudflare/shell（包含工具的持久化文件系统）均可直接与 Agent 基类搭配使用。您可以组合利用它们，为智能体提供工作区、代码执行和运行时包解析功能，而无需采用任何预设框架。

平台

以下是在 Cloudflare 上构建智能体的完整技术栈：

能力	作用	技术支持
每个智能体隔离	每个智能体都是自洽的系统	Durable Objects (DO)
闲置时零成本	0 美元，直到智能体被唤醒	DO Hibernation
持续状态	可查询的事务性存储	DO SQLite
持久化文件系统	重启后文件仍然存在	工作区 (SQLite + R2)
沙箱代码执行	安全运行 LLM 生成的代码	Dynamic Workers + `@cloudflare/codemode`
运行时依赖项	`import * from react` 正常运行	`@cloudflare/worker-bundler`
Web 自动化	浏览、导航、填写表单	Browser Run
操作系统完全访问权限	git、编译器、测试运行器	沙箱
按计划执行	主动保护，而不只是被动响应	DO 警报 + 纤程
实时流式传输	向客户端逐个发送词元	WebSocket
外部工具	连接到任何工具服务器	MCP
智能体协调	智能体之间类型安全的 RPC	子智能体 (Facets)
模型访问	连接到 LLM 以支持智能体	AI Gateway + Workers AI（或自带模型）

这些都是构建块。它们共同构成一个全新的平台：可供任何用户构建、部署和运行 AI 智能体，其功能与目前在本地计算机上运行的智能体一样强大，但从设计上来说，它具有无服务器、持久和安全的特性。

Think 基类

现在您已了解这些基础组件，接下来我们将介绍如何将它们集成在一起。

Think 是一个具有明确设计理念的框架，它负责处理完整的聊天生命周期：智能体逻辑循环、消息持久化、流式传输、工具执行、流恢复以及扩展。您只需聚焦智能体的核心功能。

最小子类如下所示：

import { Think } from "@cloudflare/think";
import { createWorkersAI } from "workers-ai-provider";

export class MyAgent extends Think {
  getModel() {
    return createWorkersAI({ binding: this.env.AI })(
      "@cf/moonshotai/kimi-k2.5"
    );
  }
}

如此一来，您便可以轻松创建一个工作聊天智能体，它具有流式传输、持久化、中止/取消、错误处理、可恢复的工作流，以及内置工作区文件系统。使用 npx wrangler deploy 进行部署。

Think 会为您做出决策。如果您需要加强控制，则可以覆盖自己关注的各项决策：

覆盖	目的
`getModel()`	返回要使用的 `LanguageModel`
`getSystemPrompt()`	系统提示词
`getTools()`	兼容 AI SDK 的 `ToolSet`，以支持智能体逻辑循环
`maxSteps`	单个对话轮次的最大工具调用次数
`configureSession()`	上下文块、压缩、搜索、技能

其实从底层机制来说，Think 在每个轮次执行完整的智能体逻辑循环：组装上下文（基本指令 + 工具描述 + 技能 + 内存 + 对话历史记录），调用 streamText，执行工具调用（使用输出截断以防止上下文膨胀），附加结果，然后循环直到模型完成或达到步数限制。每个轮次结束后，所有消息会被持久化。

生命周期 hook 接口

Think 为用户在对话轮次的每个阶段提供 hook 接口，而无须拥有整个管道：

beforeTurn()
  → streamText()
    → beforeToolCall()
    → afterToolCall()
  → onStepFinish()
→ onChatResponse()

切换到成本更低的模型来处理后续轮次，限制其可以使用的工具，以及在每个轮次对话中传递客户端上下文。此外，将每个工具调用记录到分析，并在模型完成后自动触发一个后续轮次，所有这些都无需替换 onChatMessage 函数。

持久性内存与长对话

Think 以 Session API 作为其存储层而构建，提供内置分支的树状结构化消息。

除此之外，它还通过上下文块添加持久性内存。这些是系统提示词的结构化部分，可供模型读取并随时间更新，且在休眠后仍然保留。模型会看到“MEMORY（重要信息，请使用 set_context 进行更新）[42%，462/1100 个词元]”，且可以主动记住信息。

configureSession(session: Session) {
  return session
    .withContext("soul", {
      provider: { get: async () => "You are a helpful coding assistant." }
    })
    .withContext("memory", {
      description: "Important facts learned during conversation.",
      maxTokens: 2000
    })
    .withCachedPrompt();
}

会话非常灵活。每个智能体可以运行多个对话，并且可以分叉这些对话以尝试不同的方向，而不会丢失原始对话。

随着上下文的增加，Think 会使用非破坏性压缩方法来解决限制。总结较早的消息而不是删除，同时完整的历史记录仍然存储在 SQLite 中。

还内置了搜索功能。使用 FTS5，可以查询会话内或所有会话的对话历史记录。智能体还能够利用 search_context 工具，搜索自己的历史记录。

集成的完整执行层级

将完整的执行层级集成到单个 getTools() 返回中：

import { Think } from "@cloudflare/think";
import { createWorkspaceTools } from "@cloudflare/think/tools/workspace";
import { createExecuteTool } from "@cloudflare/think/tools/execute";
import { createBrowserTools } from "@cloudflare/think/tools/browser";
import { createSandboxTools } from "@cloudflare/think/tools/sandbox";
import { createExtensionTools } from "@cloudflare/think/tools/extensions";

export class MyAgent extends Think {
  extensionLoader = this.env.LOADER;

  getModel() {
    /* ... */
  }

  getTools() {
    return {
      execute: createExecuteTool({
        tools: createWorkspaceTools(this.workspace),
        loader: this.env.LOADER
      }),
      ...createBrowserTools(this.env.BROWSER),
      ...createSandboxTools(this.env.SANDBOX), // configured per-agent: toolchains, repos, snapshots
      ...createExtensionTools({ manager: this.extensionManager! }),
      ...this.extensionManager!.getTools()
    };
  }
}

自主编写扩展

Think 将代码执行功能提升到全新的层次。智能体可以编写自己的扩展：在 Dynamic Workers 中运行的 TypeScript 程序，用于声明网络访问和工作区操作的权限。

{
  "name": "github",
  "description": "GitHub integration: PRs, issues, repos",
  "tools": ["create_pr", "list_issues", "review_pr"],
  "permissions": {
    "network": ["api.github.com"],
    "workspace": "read-write"
  }
}

Think 的 ExtensionManager 会使用 @cloudflare/worker-bundler 打包扩展（可以选择包含 npm 依赖项），将其加载到 Dynamic Worker 中，并注册新工具。该扩展程序会持久保存在 DO 存储中，并且在休眠后仍然有效。用户下次询问拉取请求时，智能体会拥有一个 30 秒前尚不存在的 github_create_pr 工具。

这种自我改进的循环，让 AI 智能体随着时间的推移变得越来越实用。不是通过微调或 RLHF，而是通过代码本身实现改进。智能体能够自行编写新功能，所有代码均采用沙盒化、可审核且可撤销的 TypeScript 编写。

子智能体 RPC

Think 也可以充当子智能体，由父智能体通过 RPC 发起 chat() 调用，通过回调函数接收流式传输事件：

const researcher = await this.subAgent(ResearchSession, "research");
const result = await researcher.chat(`Research this: ${task}`, streamRelay);

每个子智能体都拥有自己的对话树、记忆、工具和模型。父智能体无需了解具体细节。

开始使用

Project Think 目前处于实验阶段。虽然 API 接口稳定，但会在未来几天和几周内持续改进。Cloudflare 内部已将其用于构建自己的后台智能体基础设施，现在提前发布，便于用户可以与我们一起开发。

npm install @cloudflare/think agents ai @cloudflare/shell zod workers-ai-provider

// src/server.ts
import { Think } from "@cloudflare/think";
import { createWorkersAI } from "workers-ai-provider";
import { routeAgentRequest } from "agents";

export class MyAgent extends Think {
  getModel() {
    return createWorkersAI({ binding: this.env.AI })(
      "@cf/moonshotai/kimi-k2.5"
    );
  }
}

export default {
  async fetch(request: Request, env: Env) {
    return (
      (await routeAgentRequest(request, env)) ||
      new Response("Not found", { status: 404 })
    );
  }
} satisfies ExportedHandler;

// src/client.tsx
import { useAgent } from "agents/react";
import { useAgentChat } from "@cloudflare/ai-chat/react";

function Chat() {
  const agent = useAgent({ agent: "MyAgent" });
  const { messages, sendMessage, status } = useAgentChat({ agent });
  // Render your chat UI
}

Think 使用与 @cloudflare/ai-chat 相同的 WebSocket 协议，因此，现有 UI 组件可以开箱即用。如果您已经基于 AIChatAgent 进行了构建，则无需更改客户端代码。

第三次浪潮

我们见证了 AI 智能体发展的三个时期：

第一个时期主要是聊天机器人。它们无状态、被动响应且比较脆弱。每次对话都是从头开始，没有记忆、没有工具，也无法执行任何操作。这让它们能够回答问题，但也将它们的功能限制在只能回答问题。

第二个时期是编码智能体。它们有状态、会使用工具，且功能远比聊天机器人更强大，例如 Pi、Claude Code、OpenClaw 和 Codex。这些智能体可以读取代码库、编写代码、执行代码并进行迭代。这证明，配备适当工具的 LLM 可以成为一台通用计算机，但它们只能在笔记本电脑上运行，供单个用户使用，且无法保证持久性。

如今，我们进入到第三个时期：智能体作为基础设施。它们具备持久化、分布式、结构安全、无服务器的特点。这些智能体运行在互联网上，经历故障后仍可运行，闲置时不产生任何成本，并通过架构而非行为来确保安全性。任何开发人员均可构建并部署智能体，服务于任意数量的用户。

这是我们看好的发展方向。

目前，Agents SDK 已为数千个生产环境智能体提供支持。凭借 Project Think 及其引入的基础组件，我们将添加缺失的组件，从而显著提高这些智能体的功能：持久工作区、沙箱代码执行、持久的长时间运行任务、结构化安全性、子智能体协调，以及自主编写扩展。

现已推出预览版。我们将与您一同构建，并真切地期待看到您（以及您的编码智能体）使用它来创作哪些精彩的作品。

^{Think 是 Cloudflare Agents SDK 的一部分，提供 @cloudflare/think 供选择。本博客文章所述的这些功能处于预览阶段。我们会根据用户反馈，不断改进 API。请查看}^文档^和^示例^{，开始使用。}