订阅以接收新文章的通知:

Cloudflare 全球连通云背后的骨干网

2024-08-06

10 分钟阅读时间
这篇博文也有 EnglishFrançaisDeutsch日本語한국어PortuguêsEspañol繁體中文版本。

“云”的现代用法可以追溯到几十年来在网络图中无处不在的云图标。云被用来表示提供网络或互联网服务所需的庞大而复杂的基础设施组件,而无需深入了解底层的复杂性。在 Cloudflare,我们通过以用户友好且易于使用的方式提供关键基础设施解决方案来体现这一原则。我们的徽标采用云符号,反映了我们为所有用户简化互联网基础设施复杂性的承诺。

这篇博文介绍了我们基础设施的最新情况,重点介绍了 2024 年的全球骨干网,并强调了它为我们的客户带来的好处、我们在市场上的竞争优势以及对我们帮助构建更好的互联网这一使命的影响。自 2021 年我们发布上一篇与骨干网相关的博文以来,我们已将骨干网容量 (Tbps) 提高了 500% 以上,为所有客户解锁了新的用例以及可靠性和性能优势。

Cloudflare 基础设施快照

截至 2024 年 7 月,Cloudflare 在 120 多个国家/地区的 330 个城市设有数据中心,每个数据中心都运行 Cloudflare 设备和服务。尽管这些数据中心的服务器数量和计算能力各不相同,但向各地提供 Cloudflare 产品和服务的目标始终如一。

BLOG-2432-2

这些数据中心战略性地分布在全球各地,以确保我们的业务覆盖所有主要地区,并帮助我们的客户遵守当地法规。这是一个可编程的智能网络,您的流量会尽可能传输到最佳的数据中心进行处理。这种可编程性让我们能够使用我们的数据本地化套件解决方案将敏感数据保持在区域范围内,并遵守客户施加的限制。我们网络的作用是连接这些站点,并与客户、公共云、合作伙伴和更广泛的互联网交换数据,这一切由我们的基础设施工程和网络战略团队进行管理。这个网络为我们的产品奠定了基础,使我们的产品速度快如闪电,确保每个客户请求的全球可靠性和安全性,并帮助客户遵守数据主权要求。

流量交换方式

互联网是不同网络和独立自治系统的互连,它们通过相互交换数据来运行。交换数据的方式有多种,但为了简单起见,我们将重点介绍这些网络通信的两种主要方法:对等互连和 IP 传输。为了更好地了解我们全球骨干网的优势,了解我们在网络中使用的这些基本连接解决方案会有所帮助。

  1. 对等互连:管理上独立的互联网网络之间自愿互连,允许每个网络的用户之间进行流量交换,这称为“对等互连”。Cloudflare 是全球对等互连最多的网络之一。我们与 330 个城市的 ISP 和其他网络以及所有主要互联网交换中心 (IX) 签订了对等互连协议。感兴趣的各方可以随时注册,以与我们建立对等互连,或通过专用网络互连 (PNI) 直接连接到我们的网络。

  2. IP 传输:一种付费服务,允许流量穿越或“传输”他人的网络,通常将较小的互联网服务提供商 (ISP) 连接到较大的互联网。可以将其想象为支付通行费以驾车进入私人高速公路。

骨干网是一种专用的高容量光纤网络,用于在 Cloudflare 的全球数据中心之间传输流量,在这些数据中心中,我们使用上述流量交换方法与其他网络互连。它使数据传输比通过公共互联网传输更可靠。对于城市内的连接和长距离连接,我们管理自己的暗光纤或租用使用密集波分复用 (DWDM) 的波长。DWDM 是一种光纤技术,它通过在同一根光纤内以不同波长的光同时传输多个数据流来增强网络容量。这就像拥有一条有多条车道的高速公路,可以让更多的汽车在同一条高速公路上行驶。我们从世界各地的全球运营商合作伙伴那里购买和租用这些服务。

BLOG-2432-3

骨干网的运营和好处

运营全球骨干网极具挑战性,这也是许多竞争对手不这么做的原因。我们接受这一挑战有两个主要原因:流量路由控制和成本效益。

对于 IP 传输,我们依赖传输合作伙伴将流量从 Cloudflare 传输到最终目标网络,从而引入了不必要的第三方依赖。相比之下,我们的骨干网让我们能够完全控制内部和外部流量的路由,使我们能够更有效地管理流量。这种控制至关重要,因为它让我们能够优化流量路由,通常可实现最低延迟路径,如前所述。此外,通过骨干网处理大量流量的成本平均比 IP 传输更具成本效益。这就是为什么我们在法兰克福、伦敦、阿姆斯特丹、巴黎和马赛等地区加倍增加骨干网容量的原因,这些地区的流量持续增长,连接解决方案广泛可用且价格具有竞争力。

我们的骨干网服务于内部和外部流量。内部流量包括使用我们的安全或性能产品的客户流量,以及来自在我们的数据中心之间转移数据的 Cloudflare 内部系统的流量。例如,分层缓存通过将我们的数据中心划分为下层和上层的层次结构来优化我们的缓存交付。如果下层数据中心没有内容,它们会从上层请求。如果上层也没有,它们会从源服务器请求。此过程减少了源服务器请求并提高了缓存效率。考虑到我们网络的规模,使用我们的骨干网在下层和上层数据中心与源服务器之间传输缓存内容通常是最具成本效益的方法。另一个例子是 Magic Transit,我们通过 BGP Anycast 将流量吸引到最靠近最终用户的 Cloudflare 数据中心并实施我们的 DDoS 解决方案。我们的骨干网将干净的流量传输到我们客户的数据中心,他们通过 Cloudflare 网络互连 (CNI) 连接该数据中心。

我们在骨干网上传输的外部流量可以是来自其他源提供商的流量,例如 AWS、Oracle、阿里巴巴、Google Cloud Platform 或 Azure 等。来自这些云提供商的源站响应通过对等互连点和我们的骨干网传输到距离客户最近的 Cloudflare 数据中心。通过利用我们的骨干网,我们可以更好地控制如何在整个网络中回传这些流量,从而提高可靠性和性能,减少对公共互联网的依赖。

我们的全球连通云就是公共云、办公室和互联网之间的互连,并在我们的全球骨干网上运行针对性能、安全性、可编程性和可见性的受控层。

This map is a simplification of our current backbone network and does not show all paths

这张地图是我们目前骨干网络的简化图,并没有显示所有路径

扩展我们的网络

正如前言中所述,自 2021 年以来,我们的骨干网容量 (Tbps) 增加了 500% 以上。随着非洲海底电缆容量的增加,我们在 2023 年完成了全球骨干环,实现了一个重大里程碑。它现在通过陆地光纤和海底电缆覆盖六大洲。

与中欧或美国相比,有些市场的互联网基础设施较不发达,在这些地区建设骨干网是我们最近网络扩张的关键战略。我们与地区 ISP 合作伙伴有一个共同的目标,那就是将数据流本地化,并尽可能靠近最终用户。由于缺乏足够的本地对等互连和区域基础设施,流量通常会在区域外采用效率低下的路线。当数据通过更具成本效益的国际路线和现有的对等互连协议进行路由时,就会发生这种现象,称为流量长号效应。

我们在印度或土耳其等国家/地区的区域骨干网投资旨在减少对这种低效路由的需求。借助我们自己的区域内骨干网,流量可以直接在同一个国家内的 Cloudflare 数据中心之间路由,例如从孟买到新德里再到金奈,从而减少延迟、提高可靠性,并帮助我们提供与更发达市场相同水平的服务质量。我们可以将数据保持在本地,支持我们的数据本地化套件 (DLS),其通过控制数据存储和处理的位置来帮助企业遵守区域数据隐私法。

BLOG-2432-5

改善延迟和性能

此次战略扩张不仅扩大了我们的全球覆盖范围,还显著改善了我们的整体延迟。其中一个例子就是,自从我们在里斯本和约翰内斯堡之间部署骨干网以来,我们看到约翰内斯堡用户的性能得到了显著改善。诸多客户可以从这种延迟改善中受益,例如通过我们运行 API 进行实时交易的金融机构,其中毫秒级的误差就可能影响交易;或者是我们的 Magic WAN 用户,我们促进了他们分支机构之间的站点到站点连接。

BLOG-2432-6

上表显示了一个示例,我们测量了从约翰内斯堡的最终用户到各个源位置的非缓存源提取的往返时间 (RTT),对我们的骨干网和公共互联网的情况进行了比较。通过在我们的骨干网上传输源请求,而不是使用 IP 传输或对等互连,约翰内斯堡的本地用户获取内容的速度提高了 22%。通过使用我们自己的骨干网将流量长途传输到最终目的地,我们可以完全控制路径和性能。这种延迟的改善因地点而异,但始终表明我们的骨干网基础设施在提供高性能连接方面具有优势。

BLOG-2432-7

流量控制

考虑一个导航系统,它使用 GPS 来识别路线,同时使用高速公路收费通行证,在到达最终目的地之前始终有效,您可以直行通过收费站而无需停车。我们的骨干网工作原理与此非常相似。

我们的全球骨干网建立在两个关键支柱之上。第一个是 BGP(边界网关协议),即互联网的路由协议;第二个是分段路由 MPLS(多协议标签交换),这是一种在 IP 网络中跨预定义转发路径引导流量的技术。默认情况下,分段路由提供从入口到出口路由器的端到端封装,中间节点不执行路由查找。它们通过端到端虚拟电路或隧道(称为标签交换路径)转发流量。一旦流量进入标签交换路径,它就不能绕道进入公共互联网,而必须继续沿着 Cloudflare 骨干网的预定路由传输。这并不是什么新鲜事,因为许多网络甚至会运行“BGP 免费核心”,其中所有路由情报都在网络边缘传输,中间节点只参与从入口到出口的转发。

在骨干网中利用分段路由流量工程 (SR-TE) 时,我们可以自动选择数据中心之间针对延迟和性能进行优化的路径。有时,就路由协议成本而言的“最短路径”并不是延迟最低或性能最高的路径。

BLOG-2432-8

增加动力:Argo 和全球骨干网

Argo Smart Routing 是一项服务,它使用 Cloudflare 的骨干网、传输和对等互连组合来查找用户请求所在的数据中心和后端源服务器之间的最优路径。如果可以提高性能,Argo 可能会在前往源服务器的途中将请求从一个 Cloudflare 数据中心转发到另一个数据中心。Orpheus 是 Argo 的对应产品,它免费为所有客户源请求绕过降级路径。Orpheus 能够实时分析网络状况并主动避免可达性故障。启用 Argo 的客户在处理从 Cloudflare 数据中心到其源服务器的请求时可以获得最佳性能,而 Orpheus 则为所有客户提供普遍的错误自我修复。通过将使用分段路由的全球骨干网作为底层,将 Argo Smart Routing 和 Orpheus 作为连接覆盖层,将二者结合起来,我们能够沿着我们可用的最优化路径传输关键客户流量。

那么我们的全球骨干网与 Argo Smart Routing 究竟是如何配合的呢?Argo Transit Selection 是 Argo Smart Routing 的扩展,其中明确选择 Cloudflare 数据中心跃点之间的最低延迟路径并用于转发客户源请求。最低延迟路径通常是我们的全球骨干网,因为与第三方传输网络相比,它是一种更专用、更私密的连接方式。

假设一家跨国的荷兰制药公司依靠 Cloudflare 的网络和服务以及我们的 SASE 解决方案来连接其全球分公司、研究中心和远程员工。其亚洲分公司依靠 Cloudflare 的安全解决方案和网络,从亚洲分公司安全访问中央数据中心的重要数据。如果区域间电缆中断,我们的网络会自动寻找最佳的替代路线,从而将业务影响降到最低。

Argo 会衡量不同提供商路径(包括我们自己的骨干网)的每种潜在组合,作为使用智能路由到达源站的一种选择。由于我们与众多网络的广泛互连以及我们的全球专用骨干网,Argo 能够识别出请求性能最高的网络路径。骨干网始终是 Argo 可从中选择的最低延迟路径之一。

除了高性能之外,我们还非常关心客户的网络可靠性。这意味着我们需要尽可能地抵御光纤切断和第三方传输提供商的问题。下图是在 AAE-1亚非欧 1 号)海底电缆中断期间,Argo 在新加坡和阿姆斯特丹之间看到的部分传输提供商路径与骨干网的对比情况。

BLOG-2432-9

较大的(紫线)峰值表明,由于拥塞,我们的第三方 IP 传输提供商路径之一的延迟增加,该问题最终通过提供商网络内的流量工程得到解决。可以看到,与其他传输网络相比,有一家提供商的延迟增加较小(黄线),但仍然很明显。图表底部(绿线)是我们的骨干网,由于我们在亚洲和欧洲之间拥有多样化的骨干网连接,因此在整个事件期间往返时间基本保持不变。在整个光纤中断期间,阿姆斯特丹和新加坡之间的延迟保持稳定在 200 毫秒左右。没有像传输提供商路径上那样出现明显的网络故障,因此 Argo 积极利用骨干网来实现最佳性能。

BLOG-2432-10

CTA(行动号召)

随着 Argo 改进我们网络的性能,Cloudflare 网络互连 (CNI) 也优化了接入。我们鼓励我们的企业客户在切实可行的情况下使用我们的免费 CNI 作为接入我们网络的入口。通过这种方式,您可以充分利用我们的网络,包括我们强大的骨干网,并提高 Cloudflare 全球连通云中每款产品的整体性能。最终,我们的全球网络是我们的主要产品,而我们的骨干网在其中发挥着关键作用。通过这种方式,我们将继续通过为世界各地的每个人提供更好的服务来帮助构建更好的互联网。

如果您想成为我们使命的一部分,请加入我们,成为 Cloudflare 网络入口合作伙伴,通过直接与我们集成来为您的客户提供安全可靠的连接。在此处详细了解我们的入口合作伙伴关系以及这如何使您的企业受益。

我们保护整个企业网络,帮助客户高效构建互联网规模的应用程序,加速任何网站或互联网应用程序抵御 DDoS 攻击,防止黑客入侵,并能协助您实现 Zero Trust 的过程

从任何设备访问 1.1.1.1,以开始使用我们的免费应用程序,帮助您更快、更安全地访问互联网。要进一步了解我们帮助构建更美好互联网的使命,请从这里开始。如果您正在寻找新的职业方向,请查看我们的空缺职位
Connectivity CloudAnycastArgo Smart RoutingAthenian ProjectBGPBetter InternetCloudflare NetworkMagic Transit产品新闻

在 X 上关注

Bryton Herdes|@next_hopself
Cloudflare|@cloudflare

相关帖子

2024年10月24日 13:00

Durable Objects aren't just durable, they're fast: a 10x speedup for Cloudflare Queues

Learn how we built Cloudflare Queues using our own Developer Platform and how it evolved to a geographically-distributed, horizontally-scalable architecture built on Durable Objects. Our new architecture supports over 10x more throughput and over 3x lower latency compared to the previous version....

2024年10月08日 13:00

Cloudflare acquires Kivera to add simple, preventive cloud security to Cloudflare One

The acquisition and integration of Kivera broadens the scope of Cloudflare’s SASE platform beyond just apps, incorporating increased cloud security through proactive configuration management of cloud services. ...

2024年10月07日 13:00

Thermal design supporting Gen 12 hardware: cool, efficient and reliable

Great thermal solutions play a crucial role in hardware reliability and performance. Gen 12 servers have implemented an exhaustive thermal analysis to ensure optimal operations within a wide variety of temperature conditions and use cases. By implementing new design and control features for improved power efficiency on the compute nodes we also enabled the support of powerful accelerators to serve our customers....