订阅以接收新文章的通知:

利用 AI Context Analysis,提高数据丢失防护的准确性

2025-03-21

5 分钟阅读时间
这篇博文也有 English日本語版本。

隆重宣布 Cloudflare 数据丢失防护 (DLP) 解决方案的创新功能:一种自我改进的 AI 驱动算法,适应组织独特的流量模式以减少误报。

当敏感数据在组织内部甚至外部移动时,如何对其进行识别和保护是一项动态多变的任务,让很多客户感到困扰。通过诸如正则表达式等确定性方法检测数据经常失败,因为这些方法无法识别归类为个人可识别信息(PII)或知识产权(IP)的详细信息。这会产生高误报率,导致干扰性的警报,继而造成审查疲劳。更关键的是,这种不太理想的体验可能会使用户不再依赖我们的 DLP 产品,从而削弱整体安全态势。

内置在 Cloudflare DLP 引擎中的 AI 使我们能够与客户的历史报告并行智能地评估文档或 HTTP 请求的内容,以确定上下文相似性,从而更准确得出有关数据敏感度的结论。

本篇博客文章中,我们将探讨 DLP AI 上下文分析,使用 Workers AI Vectorize 实现的过程,以及我们正在开发的未来改进。

了解误报及其对用户信心的影响

Cloudflare 的数据丢失防护(DLP)扫描各种渠道(例如 Web、云、电子邮件和 SaaS 应用)中的潜在数据泄露源,检测敏感信息。我们采用了多种检测方法,像正则表达式这样的模式匹配方法在我们的方法中发挥着关键作用。这种方法对多种类型的敏感数据都是有效的。然而,某些信息仅通过模式难以准确分类。例如,美国社会安全号码(SSN)结构为 AAA-GG-SSSS,有时会省略短划线,经常与其他类似格式的数据混淆,如美国纳税人的身份证号码、银行账号或电话号码。

自我们的 DLP 产品推出以来,我们引入了置信度阈值等新功能,以减少用户收到的误报。这种方法涉及检查围绕某个模式匹配的上下文,以评估 Cloudflare 对其准确性的信心。对于置信度阈值时,用户可以指定一个阈值(低、中或高)以表示对检测误报的容忍程度偏好。DLP 将所选阈值作为最低标准,仅显示置信度得分达到或超过指定阈值的检测结果。

然而,实施上下文分析也并非易事。一种简单直接的方法可能涉及在匹配模式附近查找特定关键词,例如在潜在的 SSN 匹配项附近查找“SSN”,但这种方法存在局限性。关键字列表通常不完整,用户可能会出现拼写错误,而且许多有效匹配并没有靠近识别关键词(例如,银行账号靠近路由编号,或 SSN 靠近姓名)。

利用 AI/ML 提高检测准确性

为了解决针对上下文分析的硬编码策略的局限性,我们开发了一种动态、自我改进的算法,该算法通过学习客户反馈来持续优化未来的体验。每当客户通过解密有效负载日志提交误报时,系统就会降低未来类似上下文中命中的置信度。相反,报告有效匹配增加系统在类似情况下命中的置信度。

我们利用 Workers AI 来确定上下文相似性。具体而言,就是使用一个预训练语言模型将文本转换为高维向量(即文本嵌入)。这些嵌入向量捕捉文本的语义,确保语义相同但措辞不同的两个句子映射到彼此接近的向量空间。

当检测到模式匹配时,系统利用 AI 模型计算周围上下文的嵌入向量。随后,系统执行最近邻搜索,寻找具有相似语义的误报或真实匹配项历史记录。这样,即使确切措辞不同,只要语义相同,系统就能识别上下文相似性。

在使用 Cloudflare 员工流量进行的实验中,这种方法已证明稳定可靠,能有效处理此前未遇到过的新模式匹配。当 DLP 管理员通过 Cloudflare 仪表板查看某个策略匹配的有效负载日志时,报告误报和有效匹配可帮助 DLP 持续改进,从而随着时间推移显著降低误报率。

与 Workers AI 和 Vectorize 无缝集成

在开发这一新功能时,我们使用了来自 Cloudflare 开发人员平台的 Workers AIVectorize 组件,这有助于简化我们的设计。我们并非自行管理底层基础设施,而是以 Cloudflare Workers 为基础,使用Workers AI 进行文本嵌入,并使用 Vectorize 作为向量数据库。这种配置使我们能够专注于算法本身,无需处理预置底层资源的开销。

得益于 Workers AI,将文本转换为嵌入向量变得前所未有的简单。只需一行代码,我们就可以将任何文本转换为其相应的向量表示。

const result = await env.AI.run(model, {text: [text]}).data;

这一方案处理从分词到 GPU 加速推理的一切工作,使得整个过程既简单又具有可扩展性。

最近邻搜索同样简单直接。从Workers AI 获取向量后,我们使用 Vectorize 从过去的报告中快速找到类似的上下文。同时,我们将当前模式匹配的向量存储在 Vectorize 中,以便我们从未来的反馈中学习。

为了优化资源利用,我们采用了一些更巧妙的技术。例如,我们不是存储每个模式匹配命中的向量,而是使用在线聚类将向量分组,并仅存储聚类中心点,同时附带用于追踪命中次数和报告的计数器。这样做减少了存储需求并加快搜索速度。此外,我们还集成了 Cloudflare Queues,将索引编制过程从 DLP 扫描热路径中分离出来,确保系统稳健、响应迅速。

隐私保护是我们的首要任务。在转换为嵌入向量之前,我们会删除任何匹配的文本,并将所有向量和报告存储在 VectorizeD1Workers KV 特定于客户的专用命名空间中。这意味着每个客户的学习过程都是独立、安全的。此外,我们实施数据保留策略,对于 60 天内未被访问或引用的向量,系统将自动删除。

局限性与持续改进

AI 驱动的上下文分析显著提升了检测的准确性。但是,这样做的代价是给最终用户体验造成一定延迟。如果请求未匹配任何已启用的 DLP 项目,不会增加延迟。然而,如果请求与启用了 AI 上下文分析的配置文件中已启用的条目匹配,则通常会增加 400 毫秒左右的延迟。在罕见的极端情况下,例如请求匹配多个条目,延迟增加可能高达 1.5 秒。我们正在积极降低延迟,理想情况下延迟增加不到过 250 毫秒。

另一个局限性在于,由于我们选择的语言模型,当前实现仅支持英语。不过, Workers AI 正在开发一种多语言模型,将使 DLP 增加对不同地区和语言的支持。

展望未来,我们还致力于提升 AI 上下文分析的透明度。目前,用户不了解根据过去的误报和有效报告做出决定的过程。我们计划开发工具和接口,提供对置信度评分计算的更多洞察,提高系统的可解释度和用户友好度。

对于本次发布,AI 上下文分析仅可用于 Gateway HTTP 流量。到 2025 年底,AI 上下文分析将在 CASB电子邮件安全 中可用,以便客户在整个数据环境中获得相同的 AI 增强功能。

释放潜能:立即启用 AI 驱动的检测功能

DLP 的 AI 上下文分析功能目前处于封测阶段。在此注册,提前体验以体验数据丢失防护 HTTP 流量匹配的即时改进。随着产品迈向正式发布,即将推出进一步更新!

如要通过 Cloudflare One 使用 DLP,请联系您的客户经理。

我们保护整个企业网络,帮助客户高效构建互联网规模的应用程序,加速任何网站或互联网应用程序抵御 DDoS 攻击,防止黑客入侵,并能协助您实现 Zero Trust 的过程

从任何设备访问 1.1.1.1,以开始使用我们的免费应用程序,帮助您更快、更安全地访问互联网。要进一步了解我们帮助构建更美好互联网的使命,请从这里开始。如果您正在寻找新的职业方向,请查看我们的空缺职位
Security WeekZero Trust数据丢失防护SASE数据保护Cloudflare OneWorkers AI

在 X 上关注

Cloudflare|@cloudflare

相关帖子

2025年9月18日 14:00

Connect and secure any private or public app by hostname, not IP — free for everyone in Cloudflare One

Tired of IP Lists? Securely connect private networks to any app by its hostname, not its IP address. This routing is now built into Cloudflare Tunnel and is free for all Cloudflare One customers....