订阅以接收新文章的通知:

500 Tbps 容量:Cloudflare 全球网络 16 年扩展历程

2026-04-10

6 分钟阅读时间
这篇博文也有 English繁體中文版本。

2026 年 Cloudflare 全球网络和骨干网。

Cloudflare 网络最近达到了一个重要里程碑:外部容量突破了每秒 500 太比特 (Tbps)。

此处的 500 Tbps 是指总配置的外部互连容量:也就是覆盖 330 多个城市的面向上游网络服务提供商、专用对等互联合作伙伴、互联网交换中心或 Cloudflare Network Interconnect (CNI) 端口的所有端口容量总和。这不是峰值流量。在任何一天,Cloudflare 峰值利用率远低于这个数字。(其余的预算是指 DDoS 防护流量。)

与最初的起点相比,我们已经取得了很大进展。2010 年,我们在帕洛阿尔托市一家美甲店楼上的小办公室开始了创业之路,当时采用单个上游网络服务提供商,以及只需修改两个名称服务器即可设置的反向代理。

传输与对等互连的早期阶段

我们的首个上游网络服务提供商是 nLayer Communications,也就是现在大多数人熟知的 GTT。nLayer 为我们提供了最初的处理容量,让我们首次实际参与了对等互连关系的建立与管理,并切身体会了在成本与性能之间做出精细权衡。

从那以后,我们逐个城市扩张:芝加哥、阿什本、圣何塞、阿姆斯特丹、东京。每新建一个数据中心,就意味着洽谈主机托管合同、铺设光纤、安装服务器机架,以及通过互联网交换中心建立对等互联。当然,互联网实际上并不是“云”环境。它由许多布满线缆的特定机房组成,我们花费数年时间才了解每个机房的细微差别。

并不是每个城市的部署都一帆风顺,还必须解决硬件缺失、海关罢工,甚至牙线也可能成为问题。2018 年的某个月,24 天时间内我们在 31 个城市开设了数据中心:从加德满都巴格达,到雷克雅未克基希讷乌。当 Cloudflare 在澳门开设第 127 个数据中心时,我们保护着七百万份互联网资产。如今,Cloudflare 凭借遍布全球 330 多个城市的数据中心,保护着 20% 以上的 Web 流量。

当网络成为安全层

随着我们业务规模的不断扩大,客户的需求不再只是网站缓存而已。他们需要保护员工安全、替换老旧的多协议标签交换 (MPLS) 线路,以及保护整个企业网络安全。我们没有采用传统设备,而是构建了系统来建立通往专用子网的安全隧道,并通过 BGP 协议直接从 Cloudflare 全球网络公布企业 IP 地址空间。

威胁规模也同步扩大。2025 年,我们成功缓解了一次持续 35 秒、峰值流量高达 31.4 Tbps 的 DDoS 攻击。攻击来源是 Aisuru-Kimwolf 僵尸网络,其中包含大量已受感染的 Android 电视。当天我们拦截了 5000 多次攻击,这次攻击只是其中之一。我们没有呼叫任何工程师来处理。

BLOG-3267 2

十年前,这种规模的攻击需要国家级资源才能应对。如今,Cloudflare 网络无需人工干预即可在数秒内处理。这就是 500 Tbps 规模网络运行的必要条件:将威胁情报部署到网络中的每一台服务器上,从而实现网络的自我防御

Cloudflare 网络如何应对攻击

以下是 Cloudflare 网络遭受攻击时实际发生的情况。数据包到达网络接口卡 (NIC) 并立即进入由 xdpd 管理的 eXpress Data Path (XDP) 程序链,该程序链以驱动程序模式运行。该程序链中的第一个程序是 l4drop,它会根据 extended Berkeley Packet Filter (eBPF) 中的缓解规则评估每个数据包。这些规则由 Cloudflare 拒绝服务守护进程 dosd 生成,该进程运行在我们集群中的每台服务器上。每个 dosd 实例会对传入流量进行采样,构建一个表来记录其检测到的最严重攻击,并将该表广播给机房中所有其他实例。最终形成共享的全机房流量视图,而且由于每台服务器都利用相同的数据开展工作,因此,它们会做出相同的缓解决策。

BLOG-3267 3

如果 dosd 检测到攻击模式,它会通过 l4drop 在本地应用生成的规则,并通过 Cloudflare 分布式键值 (KV) 存储系统 Quicksilver 在全球范围内传播,从而在几秒钟内到达每个数据中心的每台服务器。数据包只有在经过 l4drop 过滤后才能到达 Unimog,也就是 Cloudflare 第 4 层 (L4) 负载均衡器,它会将数据包分发至数据中心内正常运行的服务器。对于通过 Cloudflare 边缘来路由企业网络流量的 Magic Transit 客户,flowtrackd 增加了一层有状态的 TCP 检测,用于跟踪连接状态并丢弃不属于合法流量的数据包。

我们缓解的 31.4 Tbps 攻击恰好遵循了这一路径。未将流量回传到集中式清洗中心。整个过程也没有任何人为干预。目标数据中心内的每台服务器各自独立识别了攻击,并在恶意数据包进入主 CPU 处理流程消耗计算资源前以线速将其丢弃,使恶意流量无法到达应用层。软件只是成功的一半:如果端口根本无法接收流量,则这一切都无济于事。

分布式开发人员平台

在 Cloudflare 网络中的每台服务器上运行代码,这是掌控整个技术栈的自然而然的结果。既然我们已经在每台机器上运行 eBPF 程序来丢弃攻击流量,那么我们也可以在机器上运行客户应用程序代码。该见解催生了 Workers,后来又发展为 KVDurable Objects

Cloudflare 开发人员平台运行在我们运营数据中心的每个城市,而不是仅限于少数几个云区域。2025 年,我们将 Containers 添加到 Workers,从而也能在边缘运行更繁重的工作负载。V8 Isolates 和自定义文件系统层可最大限度地减少冷启动。代码在用户所在地的服务器上运行,这些服务器通过 l4drop 以线速丢弃攻击流量。攻击流量在到达网络栈之前已被丢弃。因此,应用永远不会看到这些攻击流量。

前瞻性协议:IPv6、RPKI、ASPA

Cloudflare 是 IPv6 和资源公钥基础设施 (RPKI) 的早期采用者。BGP 劫持会导致真正的服务中断和安全漏洞。RPKI 支持我们丢弃来自对等网络的无效路由,确保流量流向正确的目的地。我们为前缀签署路由源授权 (ROA),并对入站流量强制执行路由源验证。我们拒绝 RPKI 无效路由,即使这偶尔会导致与配置错误的 ROA 网络之间的连接中断。

接着是自治系统提供商授权 (ASPA)。RPKI 验证前缀的所有者。ASPA 验证到达当前位置所经过的路径。RPKI 就像是在目的地进行护照检查,确认前缀的真正所有者,而 ASPA 则像是航班舱单核对:它验证流量经过的每一个网络。路由泄漏就像是乘客在错误的城市登机;RPKI 无法检测到,但 ASPA 可以。

目前 ASPA 的生态系统采用情况与 2015 年 RPKI 的采用情况类似。Cloudflare 网络是最早大规模部署 RPKI 的网络之一,如今,全球路由表中 867000 个前缀拥有有效的 RPKI 证书;而在 10 年前,这个数字几乎为零。鉴于 Cloudflare 网络的规模,我们选择的协议可能会对更广泛的互联网产生切实的影响。我们力求尽早采用,因为等待越久,遭受网络劫持和数据泄漏的风险就越大。

AI 智能体与不断演变的互联网

AI 改变了网络影响力的意义。在互联网发展的大部分阶段,流量都是由真人用户产生,即:由人们在浏览器中点击链接而生成。如今,AI 爬网程序、模型训练管道以及自动化智能体占据网络中 HTML 请求的比例已超过 4%,与 Googlebot 本身相当。“用户操作”抓取(即:AI 在收到用户提问后访问页面)仅在 2025 年就增长了 15 倍以上。

AI 爬网程序在基础设施层面的行为表现与浏览器截然不同。浏览器加载页面后便会停止。而爬网程序则会以最大吞吐量抓取所有已链接资源,请求之间没有停顿。鉴于 Cloudflare 网络的规模,区分合法 AI 爬网程序与实际攻击流量是真正的工程难题。我们的检测系统综合利用经过验证的机器人 IP 地址范围、TLS 指纹、行为分析和 robots.txt 合规信号,以进行此类区分,并为网站所有者提供所需数据,助其做出允许哪些爬网程序访问网站的决策。

例如,在 TLS 层,合法的浏览器会发送一则 ClientHello 消息,其中包含与其声明的 User-Agent 匹配且可预测的密码套件、扩展和顺序。而伪造 User-Agent 但使用精简版 TLS 库的爬网程序则会发送不同的指纹,这种不匹配正是 Cloudflare 系统用于对流量进行分类的信号之一,防止请求到达源服务器。

助力 Cloudflare 构建下一个 500 Tbps

最初,Cloudflare 在帕洛阿尔托市一家美甲店楼上开始创业,如今已发展成为覆盖全球超过 125 个国家/地区 330 多个城市的 500 Tbps 网络,其中的每台服务器都运行着我们的开发人员平台和安全服务,不仅仅只是缓存。这不仅凝聚了 Cloudflare 过去十六年的架构决策演变及发展成果,而且也离不开与我们对等互联的 13,000 多个网络和合作伙伴的支持。但我们的征程尚未结束。

如果您是网络运营商,欢迎与我们建立对等互连。如需了解 Cloudflare 对等互连政策以及互连详情,请查看 PeeringDB。如有兴趣将 Cloudflare 基础设施直接嵌入您的网络,请联系我们的团队 [email protected],加入边缘合作伙伴计划。

我们保护整个企业网络,帮助客户高效构建互联网规模的应用程序,加速任何网站或互联网应用程序抵御 DDoS 攻击,防止黑客入侵,并能协助您实现 Zero Trust 的过程

从任何设备访问 1.1.1.1,以开始使用我们的免费应用程序,帮助您更快、更安全地访问互联网。要进一步了解我们帮助构建更美好互联网的使命,请从这里开始。如果您正在寻找新的职业方向,请查看我们的空缺职位
网络服务Cloudflare NetworkPeeringDDoSBGPRPKIWorkers AICloudflare WorkersAI

在 X 上关注

Tanner Ryan|@TheTannerRyan
Cloudflare|@cloudflare

相关帖子

2026年4月22日

Making Rust Workers reliable: panic and abort recovery in wasm‑bindgen

Panics in Rust Workers were historically fatal, poisoning the entire instance. By collaborating upstream on the wasm‑bindgen project, Rust Workers now support resilient critical error recovery, including panic unwinding using WebAssembly Exception Handling....

2026年4月20日

The AI engineering stack we built internally — on the platform we ship

We built our internal AI engineering stack on the same products we ship. That means 20 million requests routed through AI Gateway, 241 billion tokens processed, and inference running on Workers AI, serving more than 3,683 internal users. Here's how we did it. ...