过去 24 个月内,人工智能的持续发展从根本上改变了互联网。AI 正日渐变得无处不在,Cloudflare 正在充分了解它所带来的新机遇和挑战。在今年的 Cloudflare 生日之际,我们扩展了 AI 助手的能力以帮助您构建新的 WAF 规则,在 Cloudflare Radar 上添加了 AI 机器人流量洞察,并为客户提供了新的 AI 机器人拦截功能。
WAF 规则构建器的 AI 助手
Cloudflare 始终会倾听您的反馈,并努力使我们的产品对用户友好并尽可能强大。我们明确听到大家反馈的一个方面是,为我们的 Web 应用程序防火墙 (WAF) 创建自定义和速率限制规则的复杂性。有鉴于此,我们很高兴推出一项新功能,使规则创建更容易、更直观:WAF 规则构建器的 AI 助手。
通过简单地输入自然语言提示词,您就可以根据自己的需求生成自定义或速率限制规则。例如,现在无需手动配置复杂的规则匹配条件,您可以输入类似“匹配具有低机器人分数的请求”之类的内容,然后助手就会为您生成规则。这并不能一步到位地创建完美的规则,而是提供一个可以在此基础上进行构建的坚实基础。
这个助手将在所有 WAF 用户的自定义和速率限制规则构建器中可用。我们正在向所有客户推出这一功能的测试版,欢迎试用。我们期待听到您的反馈(通过 UI 本身),并将继续完善和增强此工具以满足您的需求。
Cloudflare Radar 上的 AI 机器人流量洞察
AI 平台提供商使用机器人爬行和抓取网站,获取数据以用于模型训练。这通常是在未经内容所有者和提供商许可或与其建立业务关系的情况下进行的。今年 7 月,Cloudflare 敦促内容所有者和提供商“宣布 AIndependence”,为他们提供一键阻止 AI 机器人、抓取工具和爬网程序的方法。除了这种所谓的“简易按钮”方法之外,网站还可以通过 robots.txt 文件中的指令为这些机器人提供更具体的指导,明确规定允许和禁止访问的内容。无论客户选择阻止还是允许来自 AI 相关机器人的请求,Cloudflare 都可以深入了解这些机器人的请求活动,以及相关流量随时间变化的趋势。
跟踪 AI 机器人的流量趋势可以帮助我们更好地了解它们随时间变化的活动——哪些机器人最具攻击性、发出的请求数量最多,哪些机器人定期启动抓取,等等。Radar 流量页面上新的 AI 机器人和爬网程序流量图表,提供了对在选定时间段内收集的主要已知 AI 机器人的流量趋势的洞察。此处跟踪的机器人的关联列表基于 ai.robots.txt 列表,并将在识别到新的机器人时进行更新。还可从 Radar API 获得时间序列和摘要数据。(可以在新的 Data Explorer 中查看全套 AI 机器人和爬网程序的流量趋势。)
阻止更多 AI 机器人
在 Cloudflare 生日来临之际,我们将跟进之前的博客文章《宣布您的 AIndependence》,并更新我们为阻止 AI 机器人而添加的新检测功能。尚未采取措施阻止 AI 机器人的客户只需点击按钮,即可阻止 AI 机器人,为其网站获得更多保护。
为 AI 机器人规则启用动态更新
旧版按钮允许客户阻止经过验证的 AI 爬网程序,即尊重 robots.txt 和抓取频率,并且不会尝试隐藏其行为的爬网程序。我们已经在该列表中添加了新的爬网程序,但也扩展了之前的规则,以包含不遵守规则的 AI 机器人的 27 个(并且还在增加)特征。我们想借此机会向所有花时间使用我们的“情报热线”向我们介绍新 AI 机器人的用户表示感谢。这些情报非常有用,可让我们更快地发现一些原本不会那么快出现在我们视野中的机器人。
对于我们添加的每个机器人,我们也会将其添加到我们的“绝对自动化”定义中。因此,如果您是使用 Super Bot Fight 模式的自助服务计划客户,那么您已经受到保护。Enterprise 方案 Bot Management 客户将看到更多请求从“疑似机器人”范围转移到“绝对自动化”范围,我们将在下文中对此进行详细讨论。
在后台,我们已将此规则逻辑转换为 Cloudflare 托管规则(与支持 Cloudflare WAF 的框架相同)。这让我们的安全分析师和工程师能够安全地实时推送规则更新,类似于快速交付新的 WAF 规则更改,以确保我们的客户免受最新的 CVE 攻击。如果自我们发布上一版本的 AI 机器人防护以来您还没有重新登录机器人仪表板,请再次点击按钮以更新到最新防护。
新指纹对模型的影响
对新的 AI 机器人进行指纹识别的一个隐藏受益者是我们的 ML 模型。正如我们之前讨论过的,我们的全球 ML 模型使用监督式机器学习,并大大受益于更多带标签的机器人数据来源。下面可以看到,在我们更新按钮并添加新规则之前和之后,我们的 ML 模型将这些请求识别为自动化的情况。为简单起见,我们在图表中仅显示了请求量排名前 5 的机器人。通过引入我们的新托管规则,我们观察到我们对大多数 AI 机器人的检测能力有所提升。Button v1 代表旧选项,让客户仅阻止经过验证的 AI 爬网程序,而 Button v2 是新引入的功能,包括托管规则检测。
那么,我们是如何使我们的检测更加可靠的呢?正如我们之前提到的,有时仅仅一个属性就能泄露机器人的身份。我们开发了一套为这些 AI 机器人量身定制的复杂启发式方法,能够轻松而准确地对它们进行分类。尽管我们的 ML 模型之前已经能够检测到绝大多数此类请求,但与额外的启发式方法集成之后,显著提高了每个机器人的检测率,并确保我们 100% 正确地对每个请求进行评分。从纯粹的机器学习方法过渡到结合启发式方法有几个优势,包括检测时间更快和分类更准确。虽然部署机器学习模型复杂且耗时,但可以在几分钟内创建新的启发式方法。
AI 机器人阻止按钮的首次推出受到了广泛好评,目前已被超过 133000 个网站使用,即使在 Free 层客户中采用率也很高。这个新近更新的按钮于 2024 年 8 月 20 日推出,并迅速受到关注。已有超过 90000 个区域采用了新规则,每小时大约有 240 个新站点采用该规则。总体而言,我们正在帮助保护超过 146000 个网站的知识产权免受 AI 机器人侵害,目前我们这一新规则目前每天阻止 6600 万次请求。此外,我们很高兴地宣布,我们将在今年年底前提供通过 Terraform 配置 AI 机器人保护的支持,为管理机器人保护设置提供更大的灵活性和控制力。
机器人行为
随着我们检测能力的增强,有必要评估这些变化对互联网上机器人活动的影响。自更新的 AI 机器人阻止按钮推出以来,我们一直在密切监视机器人活动和适应策略的任何变化。我们用来识别 AI 机器人的最基本的指纹识别技术,会寻找简单的用户-代理匹配。监视用户-代理匹配非常重要,因为它们表明机器人在爬行网站时透明地宣布了它们的身份。
下图显示了在过去两个月中我们标记为 AI 机器人的流量数量。蓝线表示每日请求数,红线表示月平均请求数。在过去的两个月中,我们看到平均减少了近 3000 万个请求,最近一个月减少了 4000 万个请求。这一下降与 Button v1 和 Button v2 的发布相吻合。我们的假设是,利用新的 AI 机器人阻止功能,Cloudflare 会阻止大多数此类机器人,从而阻止它们爬行。
几个主要 AI 爬网程序的请求量下降证实了这一假设。具体而言,从 6 月底到 8 月底,Bytespider 机器人的每日请求量从大约 1 亿次减少到仅 5000 万次(见下图)。这一减少可归因于几个因素,包括我们的新 AI 机器人阻止按钮以及爬网程序策略的变化。
我们还观察到一些 AI 爬网程序的可问责性增强。我们用来识别 AI 机器人的最基本的指纹识别技术,会寻找简单的用户-代理匹配。监视用户-代理匹配非常重要,因为它们表明机器人在爬行网站时透明地宣布了它们的身份。这些爬网程序现在更频繁地使用其代理,反映了其行为向更透明、更负责的方向转变。值得注意的是,来自 Perplexity 用户代理的请求数量急剧增加。这一增长可能与之前关于 Perplexity 没有正确呈现其用户代理的指控有关,这可能促使他们改变方法以确保更佳的可识别性和合规性。
这些趋势表明,我们的更新可能会影响 AI 爬网程序与内容交互的方式。我们将继续监视 AI 机器人的活动,以帮助用户控制谁可以访问其内容以及如何访问。通过密切关注新出现的模式,我们旨在为用户提供所需的工具和洞察,以便他们在流量管理方面做出明智的决定。
总结
我们将继续探索 AI 领域,以寻找更多方法让 Cloudflare 仪表板变得更加实用,或者寻找需要防范的新威胁。Cloudflare Radar 上的 AI 洞察近乎实时更新,因此,请与我们一起关注新趋势的出现,并在 Cloudflare 社区中进行讨论吧。