Cloudflare 拥有独特的观察视角:我们不仅能看到技术变革如何塑造互联网,还能察觉到新技术如何在无意间对不同的利益相关方产生影响。以普通互联网用户日益依赖 AI 驱动的聊天机器人和搜索摘要为例:一方面,终端用户获取信息的速度比以往任何时候都要快;另一方面,历来依靠真人访问量来维持网站运营和业务收入的网站发布者们,却发现这些“真人访问量”正在大幅减少,这可能导致他们创作原创优质内容的能力下降。这种恶性循环最终不仅会伤害终端用户,也会损害 AI 公司(它们的成功依赖于新鲜、高质量的内容来训练模型和提供服务)。
我们现在无疑正处于这样一个时刻:互联网需要为 AI 机器人的行为制定清晰的“道路规则”(术语说明:在本篇博文中,我们将“AI 机器人”和“爬虫”这两个术语交替使用)。我们一直在内部以及与全球各地的利益相关方和合作伙伴开展跨职能的对话,我们清楚地认识到,整个互联网需要关键群体(包括内容发布者和内容创作者、机器人运营者,以及互联网基础设施和网络安全公司)就 AI 机器人应当遵循的若干原则达成共识。
当然,要就这些原则的具体内容达成共识,需要时间,也需要持续的讨论与协作,而且一项政策框架不可能完美涵盖每一个技术细节。尽管如此,我们仍然认为开启一场对话至关重要,也希望有更多人能够加入进来。毕竟,一份初稿总比一张白纸强。
因此,我们建议将以下负责任的 AI 机器人原则作为起点:
公开披露:公司应公开披露其 AI 机器人的相关信息;
自我标识:AI 机器人应当如实进行自我标识,并最终以加密验证取代诸如用户代理和 IP 地址验证等可靠性较低的方法;
声明单一用途:AI 机器人应具有一个明确的用途并声明其用途;
尊重偏好:在比例合理且技术上可行的情况下,AI 机器人应尊重并遵守网站运营商所表达的偏好;
秉持善意行事:AI 机器人不得使用过量流量冲击网站或进行欺骗行为。
我们将在下文中对每一项原则展开详细讨论。之所以聚焦于 AI 机器人,是因为生成式 AI 正在对互联网产生深远影响,不过我们已经看到这些实践同样适用于其他类型(非 AI)的机器人。我们相信,这些原则将有助于推动互联网朝着更好的方向发展。当然,我们也承认,这些原则只是本次讨论的起点,还需要吸纳其他利益相关方的意见。互联网始终是一个鼓励创新的协作平台,这些原则也应被视为同样具有动态性和演进性。
自宣布将 7 月 1 日定为内容自主日以来,Cloudflare 一直在生成式 AI 时代努力扮演一个平衡且有效的角色,来守护互联网的未来。我们为用户提供了向 AI 爬虫收取访问费用或一键屏蔽它们的选项,发布并执行了我们的已验证机器人政策,制定了 Web Bot Auth 提案,同时毫不避讳地揭露并制止不良行为。
尽管我们近期重点关注 AI 爬虫,但 Cloudflare 在机器人管理领域一直是先行者,一直帮助我们的客户保护其网站免受非期望(甚至恶意)流量的侵扰。我们也希望确保任何人(无论是否为我们的客户)都能查看哪些 AI 机器人遵守了全部、部分或完全不遵守这些最佳实践。
但我们并非没有意识到,运营爬虫的公司也在适应互联网的新格局——我们真心认为,这个领域的大多数参与者都希望做正确的事,同时继续创新,推动互联网朝着令人振奋的方向发展。我们希望,能够凭借我们在互联网领域的专业知识和独特视角,帮助那些看似立场相左的各方走到一起,找到一条前行的道路,继续践行我们为所有人打造更好互联网的使命。
以下原则旨在为更广泛的讨论奠定基础,我们深知要兼顾诸多细微观点,仍有大量工作要做。我们设想这些原则适用于 AI 机器人,但也理解技术复杂性可能需要一定的灵活性。归根结底,我们的目标是强调透明度、责任担当,以及对内容访问与使用偏好的尊重。如果这些原则未能达到上述目标,或者未能兼顾其他重要优先事项,我们希望听到您的反馈。
公司应公开披露其 AI 机器人的相关信息。以下信息应公开且易于查找:
身份:帮助外部方识别机器人的信息,例如用户代理、相关 IP 地址和/或单独的加密标识(有关详细信息,请参阅原则二:自我标识)。
运营商:负责 AI 机器人的法人实体,包括联系人(例如,用于举报滥用行为);
目的:所访问的数据将用于何种目的,即搜索、AI 输入或训练(更多相关信息,请参阅“原则三:声明单一目的”)。
OpenAI 是一家领先的 AI 公司的典范,该公司清晰地公开披露其机器人信息,并详细说明每个机器人的用途。这种信息披露的优势在后续各项原则中一目了然:它能够帮助网站运营者验证某个请求确实来自 OpenAI,以及验证该请求的具体目的(例如,用于搜索索引或 AI 模型训练)。进而,网站运营者可以通过偏好表达机制(如 robots.txt 文件)来控制其内容的使用与访问权限。
AI 机器人应当如实进行自我标识。不仅有关机器人的信息应公布在可公开获取的位置,这些信息还应当由机器人自身进行清晰传递,例如,通过一个 HTTP 请求来传达该机器人的官方用户代理信息,并且该请求应来自机器人声称自己发送流量的 IP 地址。诚然,我们也将在后文详细讨论,当前这种方式存在缺陷。但在加密验证手段得到更广泛应用之前,我们认为,依靠用户代理和 IP 地址进行验证,总比毫无验证要好。
OpenAI 的 GPTBot 就是这一原则在实际中应用的范例。OpenAI 公开分享了该机器人预期的完整用户代理字符串,并在请求中包含该信息。此外,OpenAI 还阐明了该机器人的用途(“用于让 [OpenAI 的]生成式 AI 基础模型更有用、更安全”以及“用于抓取可能用于训练[其]生成式 AI 基础模型的内容”)。我们观察到该机器人从 OpenAI 报告的 IP 地址发送流量。由于网站运营人员发现 GPTBot 的用户代理和 IP 地址与公开披露和预期的一致,并且他们知道有关该机器人的信息已在公开文档中记录,因此他们可以确信地识别出该机器人。这使得他们能够就是否允许来自该机器人的流量做出知情决策。
遗憾的是,并非所有机器人都遵循这一原则,这使得网站所有者很难确切知道哪些机器人运营者真正尊重其爬取偏好,更不用说去强制实施了。例如,Anthropic 仅公布了它的用户代理信息,而缺乏其他可验证的信息,因此人们无法确定哪些请求真正来自 Anthropic。而 xAI 的机器人 grok 则根本不做自我标识,导致网站运营者根本无法对其进行屏蔽。Anthropic 和 xAI 这种不进行身份说明的做法,破坏了它们与网站所有者之间的信任关系,但其实只要它们稍作努力,就能解决这一问题。
在过去,如实声明用户代理信息以及使用专用 IP 列表曾是有效的验证方式。但在当今机器人活动快速演变的形势下,机器人越来越容易被不法分子仿冒。而这些不法分子往往无视 robots.txt 文件——该文件仅基于用户代理来传达允许或拒绝访问的偏好设置(也就是说,恶意机器人可以仿冒一个被允许的用户代理,从而绕过该域名的访问规则)。
归根结底,每一个 AI 机器人都应当通过公认的标准进行加密验证。这样做可以防止其被伪造冒充,也能确保网站运营者获得准确可靠的信息,从而对 AI 机器人的访问请求作出恰当评估。目前,我们认为 Web Bot Auth 已足以作为符合第二项原则的证明。我们也认识到,该标准仍在制定之中,因此,这一原则未来也可能随之调整。
Web Bot Auth 使用加密技术来验证机器人流量(即利用 HTTP 消息中的加密签名来确认某次请求确实来自某个自动化机器人)。我们的实现依托于 IETF 提出的目录与协议草案。Web Bot Auth 自推出以来得到了热烈反响,我们预计其采用率还将进一步提升。例如,就在一个多月前,Vercel 宣布其机器人验证机制现已支持 Web Bot Auth;此外,OpenAI 的 ChatGPT 智能体现在也使用 Web Bot Auth 对其请求进行签名,并且还采用了 HTTP 消息签名标准。
我们展望这样一个未来:加密验证成为常态,因为我们相信这将进一步提升机器人的可信度。
AI 机器人应当具有单一明确的用途,并予以声明。目前,部分机器人将其用途自我标识为“训练”、“搜索”或“用户行为”(即,根据用户查询访问网页)。
然而,这些用途有时会被混为一谈,没有明确区分。例如,出于搜索目的而访问的内容,也可能被用于训练驱动该搜索引擎的 AI 模型。当一个机器人的访问目的不明确时,网站运营者就会面临艰难抉择:如果屏蔽它,可能会影响搜索引擎优化 (SEO) 效果;如果允许它访问,则可能面临内容被用于非预期用途的风险。
当运营者部署具有明确用途的机器人时,网站所有者就能清晰地决定谁可以访问他们的内容。至于这些用途具体应该如何划分,尚有讨论空间,但我们认为,基于我们观察到的机器人活动情况,以下分类是一个合理的起点。我们认识到,这一领域仍在不断发展,随着创新持续推进,相关内容可能需要进行相应调整。
与此相关的是,机器人不应该以某种方式组合目的,以妨碍网站运营商有意且有效地决定是否允许抓取。
让我们从试图在互联网上谋生的网站运营商 Vinny 的视角,来看看两个 AI 机器人,OAI-SearchBot 和 Googlebot。OAI-SearchBot 的用途十分明确:仅在 ChatGPT 的搜索功能中提供网站链接并展示相关内容。如果 Vinny 选择相信 OpenAI 的自我声明(我们认为这是合理的),他就可以确信,OAI-SearchBot 不会为了训练 OpenAI 的生成式 AI 模型而去抓取他的网站内容,而是由另一个独立的机器人来执行此任务(即原则二:自我标识 中提到的 GPTBot)。Vinny 可以自行决定他希望 OpenAI 如何使用自己的内容,例如,允许用于搜索但不允许用于 AI 训练。他可以放心,自己的选择会得到尊重,因为 OAI-SearchBot 仅出于搜索目的进行抓取,而 GPTBot 压根不会被授予访问这些内容的权限(因此也就无法使用这些内容)。
另一方面,虽然 Googlebot 抓取内容是为了传统的搜索索引(而非模型训练),但它也会将这些内容用于推理目的,比如生成“AI 概览”和“AI 模式”中的内容。这对 Vinny 来说为什么是个问题呢?虽然可以肯定他会希望自己的内容出现在搜索结果中,因为正是这些搜索结果带来的人流量支撑着他网站的运营;但他也不得不接受一个现实:他的内容也会出现在 Google 生成的 AI 摘要里。如果用户通过摘要就能得到满足,他们就不会再去访问 Vinny 的网站,这就导致了“零点击”搜索现象,并损害了 Vinny 从其内容中获得经济收益的能力。
这是一个恶性循环:创作高质量内容通常会带来更高的搜索排名,但现在却无意中降低了用户点击访问该网站的机会,因为同样的有价值内容会出现在 AI 概览中(即便该网站在摘要中被列为来源)。为了防止这种情况,Vinny 要么必须完全退出搜索,要么使用片段控制功能(但这可能会降低其内容在搜索结果中的展示效果)。这是因为目前唯一可用于退出 AI 使用的信号(即不允许被纳入 Google-Extended)仅适用于训练用途,而并不适用于与搜索关联的 AI 概览。无论是偶然还是有意为之,这种设置都迫使网站所有者面临一个两难的选择。
最后,那种将多种用途合并来降低爬虫运营者成本的主张是站不住脚的,必须予以驳斥。打一个类比:这就好像在说,打一个电话同时订两个披萨,会比打两个电话分别订两个披萨更便宜。但实际上,制作那两个披萨的成本(两者都需要投入时间和精力)是一样的。多打一个电话或许让人烦人,但其成本却是微不足道的。
同样地,无论是一个机器人请求同时用于两个目的(例如,搜索索引和 AI 模型训练),还是为每个目的分别发起一次独立的机器人请求,其成本基本上是相同的。对于爬虫而言,计算成本是相同的,因为无论出于哪个目的,内容都仍需被处理。而两个连接(即,对应两次请求)的成本,实际上与一次连接的成本几乎没什么差别。我们之所以清楚这一点,是因为 Cloudflare 运营着全球规模最大的网络之一,平均每秒要处理 8400 万个请求,因此我们对互联网规模下的请求成本有着深刻理解。(顺便提一句,虽然额外的爬取会给网站运营者带来成本,但他们有能力判断这样的爬取是否值得,尤其是当机器人只服务于单一用途时。)
AI 机器人应当尊重并遵守网站运营者所表达的、合理且技术上可行的偏好设置。表达这些偏好的方式有多种,较为常见的包括长期以来广为人知的 robots.txt 文件,以及新近出现的 HTTP 标头。
鉴于 robots.txt 文件被广泛使用,机器人应本着善意原则,首先按照 RFC 9309 的规定尝试获取该文件,并遵守其中指定的访问与使用偏好。AI 机器人运营者还应持续关注这些偏好如何随着 IETF 工作组目前正在制定的词汇表草案而演变。该词汇表草案的目标是提升 robots.txt 文件的精细度,从而让网站运营者能够更好地控制其内容资产的使用方式。
与此同时,目前正在讨论的新行业标准可能会涉及将机器可读的偏好设置附加到不同的内容格式上,比如单个文件。AI 机器人运营商最终也应该做好遵守这些标准的准备。目前正在探索的一个思路是,让网站所有者通过 HTTP 头部来声明偏好设置,这是一种在服务器层面声明内容应如何被使用的方法。
AI 机器人不得使用过量流量冲击网站,也不得采取欺骗性行为。AI 机器人的行为应当对网站运营者及其用户无害,甚至有益。同时,运营 AI 机器人的企业也有责任监测其网络与资源,及时发现入侵行为并修补漏洞。危害网站安全或性能,或采取有害手段,都是不可接受的。
同样不妥的,还有那些表面上宣称遵守这些原则,背地里却偷偷规避的行为。重申一项关于可接受机器人行为的长期原则:AI 机器人绝不能从事隐蔽爬取,也不能使用其他隐蔽手段试图逃避检测,比如修改其用户代理、变更其源 ASN 以隐藏其爬取活动,或者直接无视 robots.txt 文件。此类行为不仅会破坏前述四项原则,损害网站运营者的权益,还将让整个互联网环境变得更糟。
在我们持续推进这些原则并广泛征集反馈意见的过程中,我们始终力求寻求一种平衡:既要尊重内容创作者的意愿,同时也要继续鼓励 AI 的创新发展。能够身处这些重要利益诉求的交汇点,并在探索一条各方均可接受的推进路径中发挥关键作用,我们深感荣幸。
我们正持续与权利持有方、AI 企业、政策制定者及监管机构开展沟通协作,共同推动制定相应的全球行业标准与监管框架。我们认为,生成式 AI 应用的蓬勃发展并不一定要威胁到互联网作为优质内容开源来源的地位。要维护互联网的完整性,就需要就切实可行的技术标准达成共识——这些标准应当兼顾网站发布者、内容创作者与 AI 企业的共同利益。
整个生态系统必须继续凝聚合力、携手合作,共同建设一个真正惠及所有人的更美好的互联网。Cloudflare 倡导建立中立的对话平台,让所有利益相关方都能共同探讨 AI 发展对互联网所带来的影响。IETF 就是这样的一个范例,该组织目前正围绕 AI 相关技术问题开展一系列工作。这些努力虽在一定程度上解决了部分问题,但该领域仍有诸多议题需要从全局出发进行综合考量。我们认为,我们提出的这些原则是迈向正确方向的一步,但我们更希望更多力量能够加入这场复杂而重要的讨论,从而使互联网的规范与行为能够顺利适应这个令人振奋的全新技术时代。