订阅以接收新文章的通知:

生产安全新工具——渐进式部署、源码映射、速率限制和全新 SDK

2024/04/04

16 分钟阅读时间
New tools for production safety — Gradual deployments, Source maps, Rate Limiting, and new SDKs

2024 年度 Developer Week 聚焦于生产就绪性。4 月 1 日(星期一),我们宣布 D1QueuesHyperdrive Workers Analytics Engine 已生产就绪并正式发布。4 月 2 日(星期二),我们宣布我们的推理平台 —— Workers AI —— 生产就绪。而我们还远远没有结束呢。

生产就绪性不仅仅关乎您用于构建的服务的规模和可靠性。您还需要一些工具来安全、可靠地进行更改。 您不仅要依靠 Cloudflare 提供的服务,还要能够根据应用程序的需求精确控制和定制 Cloudflare 的行为。

今天,我们隆重宣布五项更新,为您提供一些更强有力的工具——渐进式部署、Tail Workers 中的源码映射堆栈跟踪、新的速率限制 API、全新的 API SDK 以及 Durable Objects 更新——每一项都是针对任务关键型生产服务而构建的。我们使用 Workers 构建自己的产品,包括 Access R2 KV Waiting Room Vectorize Queues Stream 等。我们自己依靠以上每一个新功能来确保我们生产就绪,现在我们很高兴能将它们提供给每一个人使用。

逐步部署更改到 Workers 和 Durable Objects

部署 Worker 几乎是瞬时的事情——只需几秒钟,您的更改就会在每一个地方生效。

当您达到生产规模时,您所做的每一次改变具有更大的风险,无论是在数量上还是在期望上。 您需要满足 99.99% 的可用性 SLA,或雄心勃勃的 P90 延迟 SLO。 一个不良部署若在 100% 的流量中上线运行 45 秒,可能意味着数百万个请求失败。即使是一个微小的代码更改,如果一次性推出,都有可能会导致大量重试请求,导致后端不堪重负。对于我们自己使用 Workers 构建的服务,都会考虑和缓解这些风险。

减轻这些风险的方法是逐步部署更改——通常称为滚动部署:

  1. 当前版本的应用程序在生产环境中运行。
  2. 将应用程序的新版本部署到生产环境中,但只将一小部分流量路由到这个新版本,并等待它在生产环境中 “浸泡”,检测是否出现性能退化和错误。 如果发生了问题,可在一小部分(例如 1%)的流量中及早发现并可以快速回滚。
  3. 逐步增加流量百分比,直到新版本的流量达到 100%,然后再全面推出。

今天,我们将推出一种一流的方式,通过 Cloudflare APIWrangler CLI Workers 仪表板将更改逐步部署到 Workers 和 Durable Objects。渐进式部署现已开启公测——您可以在订阅 Workers Free 计划任何账户中使用渐进式部署,很快您就可以在订阅 Workers Paid 和 Enterprise 计划的 Cloudflare 账户上开始使用渐进式部署。 一旦您的账户可以访问,您将在 Workers 仪表板上看到横幅通知。

在 Worker 的不同版本之间分割流量

当在生产中同时拥有 Worker 或 Durable Object 的两个版本时,您几乎一定希望能按版本过滤指标、异常和日志。 这可以帮助您在新版本只推出给一小部分流量时提前发现问题,或者在按 50/50 比例分割流量时比较性能指标。我们还在整个平台上增加了版本级别的可观察性:

您可能还希望确保每个客户端或用户只能看到 Worker 的一个一致版本。我们新推出版本亲和性功能,以便与特定标识符(例如用户、会话或任何 ID)相关联的请求将始终由 Worker 的一致版本处理。 会话亲和力规则集引擎一起使用时 ,您可以完全控制用于确保“粘性”的机制和标识符。

渐进式部署进入公测阶段。 随着我们向正式版推进,我们正在努力以提供如下支持:

  • 版本覆盖。调用 Worker 的特定版本,以便在其服务任何生产流量之前进行测试。这样将允许您创建蓝绿部署。
  • Cloudflare Pages.让 Cloudflare Pages 中的 CI/CD 系统代表您自动推进部署。
  • 自动回滚。 当新版 Worker 的错误率激增时,自动回滚部署。

我们期待听到您的反馈!请通过反馈表单或开发人员 Discord的 #workers-gradual-deployments-beta 频道 告诉我们您的想法。

Tail Workers 中的源码映射堆栈跟踪

生产就绪意味着要跟踪错误和异常,并努力将其降至零。发生错误时,通常首先要查看的是错误的堆栈跟踪,即调用的具体函数、调用顺序、调用的行和文件以及参数。

大多数 JavaScript 代码(不仅是 Workers 上的代码,还包括是各种平台的代码)在部署到生产环境之前,通常会先进行打包,常会转译,然后再进行压缩。这个过程是在幕后进行的,以创建更小的包来优化性能,并在需要时将 Typescript 转换为 Javascript。

如果您见过一个异常返回这样的堆栈跟踪:/src/index.js:1:342,这意味着错误发生在函数压缩代码的第 342 个字符上。这显然对调试没有什么帮助。

源码映射解决了这个问题——它将编译和精简后的代码映射回您编写的原始代码。源码映射与 JavaScript 运行时返回的堆栈跟踪相结合,为您提供人类可读的堆栈跟踪。例如,下面的堆栈跟踪显示 Worker 在 down.ts 文件的第 30 行收到了一个意外的空值。这是一个有用的调试起点,您可以沿着堆栈跟踪向下查看,以了解导致空值的函数调用设置。

Unexpected input value: null
  at parseBytes (src/down.ts:30:8)
  at down_default (src/down.ts:10:19)
  at Object.fetch (src/index.ts:11:12)

工作方式如下:

  1. Wrangler.toml 中设置 upload_source_maps = true 后 ,当运行 Wrangler 部署 Wrangler 版本上传时,将自动生成并上传任何源码映射文件 。
  2. 当您的 Worker 抛出未捕获异常时,我们会获取源码映射,并使用它将异常的堆栈跟踪映射回 Worker 的原始源代码行。
  3. 然后,您就可以在实时日志 Tail Workers 中查看经过反混淆的堆栈跟踪 。

从今天开始,通过公测版,您可以在部署 Worker 时将源码映射上传到 Cloudflare —— 欢迎阅读文档以开始使用 。从 4 月 15 日开始,Workers 运行时将开始使用源码映射来反混淆堆栈跟踪。 当源码映射堆栈跟踪可用时 , 我们将在 Cloudflare 仪表板上发布通知,并在 Cloudflare 开发人员 X 账户公布。

Workers 中的新速率限制 API

仅在具有合理的速率限制时,API 才算是生产就绪。随着业务发展,需要执行的限制也会日益复杂和多样化,以平衡特定客户的需求、保护服务正常运行或在特定情况下执行和调整限制。Cloudflare 自己的 API 就面临着这样的挑战——我们数十种产品的每一种都有许多 API 端点,可能需要执行不同的速率限制。

自 2017 年以来,您就可以在 Cloudflare 上配置速率限制规则。但直到今天,控制这个功能的唯一方式是通过 Cloudflare 仪表板或 Cloudflare API。不可能在运行时上定义行为,或在 Worker 中编写直接与访问速率限制交互的代码——您只能控制一个请求在到达您的 Worker 之前是否执行速率限制。

今天,我们推出了新 API 的公测版,让您可以从 Worker 直接访问速率限制。 它的速度快如闪电,由 memcached 支持,添加到 Worker 中非常简单。 例如,以下配置定义了 60 秒内 100 个请求的速率限制:

[[unsafe.bindings]]
name = "RATE_LIMITER"
type = "ratelimit"
namespace_id = "1001" # An identifier unique to your Cloudflare account

# Limit: the number of tokens allowed within a given period, in a single Cloudflare location
# Period: the duration of the period, in seconds. Must be either 60 or 10
simple = { limit = 100, period = 60 } 

然后,您可以在 Worker 中调用 RATE_LIMITER 绑定的 limit 方法,提供您选择的键值。根据上述配置, 一旦在 60 秒内向特定路径发出的请求超过 100 个,代码就会返回  HTTP 429 响应状态码:

export default {
  async fetch(request, env) {
    const { pathname } = new URL(request.url)

    const { success } = await env.RATE_LIMITER.limit({ key: pathname })
    if (!success) {
      return new Response(`429 Failure – rate limit exceeded for ${pathname}`, { status: 429 })
    }

    return new Response(`Success!`)
  }
}

既然 Workers 现在可以直接连接到 memcached 这样的数据存储,我们还能提供什么呢?计数器?锁? 内存缓存? 我们正在探索在 Workers 中提供很多基元,以解决多年来一直存在的问题,即跨多个 Worker 的临时共享状态隔离应存放在何处,速率限制就是其中一个。 如果您现在依赖于将状态放在 Worker 的全局范围内,我们正在开发更好的基元,这些基元是为特定用例而专门构建的。

Workers 速率限制 API 目前处于公测阶段,您可以通过阅读文档开始使用。

为 Cloudflare 的 API 自动生成新的 SDK

生产就绪意味着从通过点击仪表板上的按钮进行更改,转变为使用 Terraform Pulumi 等基础架构即代码方法 ,或自行/通过 SDK 直接发出 API 请求,以编程方式进行更改 。

Cloudflare API 规模庞大,并不断增加新功能——我们平均每天更新 API 模式 20 到 30 次 。但迄今为止,我们的 API SDK 都是手动构建和维护的,因此我们迫切需要实现自动化。

我们已经做到了这一点,今天,我们宣布为 Cloudflare API 提供 Typescript Python Go三种语言的新客户端 SDK,更多语言即将推出。

每个 SDK 都是根据定义我们每个 API 端点结构和功能的 OpenAPI 模式, 使用 Stainless API 自动生成的。 这意味着,当我们为 Cloudflare API 添加任何新功能时,对于 Cloudflare 的任何产品,都会自动重新生成这些 API SDK 并发布新版本,以确保其正确和最新。

运行以下命令之一即可安装这些 SDK:

// Typescript
npm install cloudflare

// Python
pip install --pre cloudflare

// Go
go get -u github.com/cloudflare/cloudflare-go/v2

如果使用 Terraform 或 Pulumi,Cloudflare 的 Terraform Provider 目前使用现有的非自动化 Go SDK。当你运行 terraform apply 时 ,Cloudflare Terraform Provider 会决定以何种顺序进行哪些 API 调用,并使用 Go SDK 执行这些操作。

全新的自动生成 Go SDK 为实现对所有 Cloudflare 产品的更全面 Terraform 支持铺平了道路,提供了一套可依赖的基础工具,能正确且及时跟上最新的 API 变化。 我们正在朝着这样的目标努力:每当 Cloudflare 产品团队构建一个通过 Cloudflare API 公开的新功能时,就会自动得到 SDK 的支持。2024 年将推出更多更新,敬请期待。

Durable Object 命名空间分析和 WebSocket Hibernation 正式发布

我们自己的许多产品,包括 Waiting Room R2 Queues 以及 PartyKit 等平台都使用 Durable Objects。Durable Objects 部署到全球,包括新增的大洋洲支持,您可以将其想象成单一实例 Workers ,它可以提供单点协调和持久状态 。它们非常适合需要实时用户协调的应用程序 , 如交互式聊天或协作编辑 。请听 Atlassian 的感言:

我们的新功能之一是 Confluence 白板,它提供了一种自由的方式来捕捉非结构化的工作,如头脑风暴和早期规划,然后再由团队进行更正式的记录。团队考虑了很多实时协作的方案,最终决定使用 Cloudflare 的 Durable Objects。事实证明,Durable Objects 非常适合这一问题领域,它独特的功能组合使我们能够大大简化基础架构,并轻松扩展到大量用户。 - Atlassian

我们以前没有在仪表板中显示相关的分析趋势,因此除非您直接使用 GraphQL Analytics API, 否则很难了解  Durable Objects 命名空间中的使用模式和错误率 。 现在,我们对 Durable Objects 仪表板进行了改进,让您可以根据需要深入查看指标。

第一天起,Durable Objects 就支持 WebSocket,允许许多客户端直接连接到持久对象以发送和接收消息。

不过,有时客户端应用程序打开一个 WebSocket 连接后,最终会停下来......不进行任何操作。 想一想您的浏览器中打开了5小时但没有碰过的标签。如果它使用 WebSocket 发送和接收信息,那么它实际上就拥有了一个长时间存在的 TCP 连接,而这个连接并没有被用于任何其他用途。 如果这个连接的目标是一个 Durable Object,这个 Durable Object 就必须一直运行,等待某种操作发生,从而消耗内存,并花费您的成本。

我们最初推出 WebSocket Hibernation 就是为了解决这个问题,今天我们宣布该功能已完成测试并正式发布。通过 WebSocket Hibernation,您可以设置休眠时使用的自动响应,并将状态序列化,使其能够在休眠状态下保持。这为 Cloudflare 提供了所需的输入,在“休眠” Durable Object(使其不处于活动运行状态)同时保持来自客户端的开放 WebSocket 连接,而且您不需要为空闲时间付费。结果是,当您真正需要时,您的状态始终在内存中可用,但在不需要时不会被无谓保留。只要您的 Durable Object 处于休眠状态,即使仍有活动的客户端通过 WebSocket 连接,您也不会被计费。

此外,我们还听取了开发人员就传入  WebSocket 消息到 Durable Objects 的费用提出的反馈意见,这倾向于使用更小、更频繁的消息进行实时通信。从今天起,传入 WebSocket 消息将按相当于 1/20 个请求计费(而不是到现在为止那样 1 个消息相当于 1 个请求)。下面是一个定价示例

WebSocket 连接请求 传入 WebSocket 信息 计费的请求 请求费用
使用之前 10K 432M 432,010,000 $64.65
使用之后 10K 432M 21,610,000 $3.09

生产就绪,但没有生产的复杂性

要在上一代云平台上达到生产就绪状态,意味着要减慢发布速度。它意味着要将许多独立的工具拼凑起来,或者组建整个团队在内部平台上开展工作。 您不得不改造自己的生产力工具组合,已部署到障碍重重的平台。

Cloudflare 开发人员平台已经成熟并生产就绪,致力于成为一个集成平台,其上各种产品直观地协同工作,不会有十种不同的方法来完成同样的工作,不需要通过复杂的兼容性列表来帮助了解什么可以一同工作。这些更新都充分体现了这一点,将新功能整合到 Cloudflare 平台的各种产品和组成部分中。

为此,我们期待听到您的意见,不仅是您希望看到接下来推出什么产品和功能,还包括您认为我们在哪些方面可以做得更简单,或者您认为我们的产品在哪些方面可以更好地协同工作。请告诉我们您认为我们在哪些方面可以做得更多——  Cloudflare 开发人员 Discord 的大门始终敞开。

我们保护整个企业网络,帮助客户高效构建互联网规模的应用程序,加速任何网站或互联网应用程序抵御 DDoS 攻击,防止黑客入侵,并能协助您实现 Zero Trust 的过程

从任何设备访问 1.1.1.1,以开始使用我们的免费应用程序,帮助您更快、更安全地访问互联网。要进一步了解我们帮助构建更美好互联网的使命,请从这里开始。如果您正在寻找新的职业方向,请查看我们的空缺职位
Developer Week (CN)Cloudflare Workers (CN)Rate Limiting (CN)SDK (CN)Observability (CN)简体中文

在 X 上关注

Tanushree Sharma|@_tanushreeeee
Jacob Bednarz|@jacobbednarz
Cloudflare|@cloudflare

相关帖子

2024年4月04日 13:05

New tools for production safety — Gradual deployments, Source maps, Rate Limiting, and new SDKs

Today we are announcing five updates that put more power in your hands – Gradual Deployments, Source mapped stack traces in Tail Workers, a new Rate Limiting API, brand-new API SDKs, and updates to Durable Objects – each built with mission-critical production services in mind...

2024年4月04日 13:05

Nouveaux outils pour la sécurité de la production : déploiements graduels, Stack Traces, contrôle du volume de requêtes et nouveaux SDK

Nous annonçons aujourd'hui cinq nouveautés pensées pour mettre davantage de puissance entre vos mains (déploiements graduels, traces d'appels mappées à la source dans Tail Workers, nouvelle API de contrôle du volume de requêtes, nouveaux SDK pour API et mises à jour de Durable Objects)...

2024年4月04日 13:05

Nuevas herramientas para la seguridad de la producción: implementaciones graduales, correlaciones de código fuente, limitación de velocidad y nuevos SDK

Hoy anunciamos cinco novedades que te darán más poder: implementaciones graduales, seguimientos en Tail Workers, una nueva API de limitación de velocidad, la nueva API de SDK, y actualizaciones de Durable Objects, cada una pensada con servicios de producción esenciales...

2024年4月04日 13:05

Neue Tools für die Produktionssicherheit — Gradual Deployments, Source Maps, Rate Limiting und neue SDKs

Heute geben wir fünf Updates bekannt, die Ihnen noch mehr Möglichkeiten bieten: Gradual Deployments, Source Mapped Stack Traces in Tail Workers, eine neue Rate Limiting API, brandneue API SDKs und Updates für Durable Objects – alle mit Blick auf geschäftskritische Produktionsdienste...