AI 从实验场过渡到生产环境并非没有挑战。开发人员面临着平衡快速创新与保护用户和满足严格监管要求的挑战。为了解决这个问题,我们在 AI Gateway 中引入了 Guardrails ,旨在帮助您安全、自信地部署 AI。
为何安全很重要
LLM 本质上是不确定的,这意味着输出可能是不可预测的。此外,您无法控制用户,他们可能会提出极不适当的要求,或试图引起 AI 做出不适当的响应。现在,想象一下,在没有清楚地了解有害或不适当内容的可能性的情况下,启动了一个由 AI 驱动的应用程序。这不仅会给用户安全带来风险,还会危及您的品牌声誉。
为了解决 AI 应用程序特有的安全风险,OWASP Top 10大型语言模型(LLM)应用程序应运而生。这是一个行业驱动的标准,用于识别特别影响基于 LLM 和生成式 AI 应用程序的最关键的安全漏洞。旨在教育开发人员、安全专业人员和组织了解部署和管理这些系统的独特风险。
随着新法规的出台,风险甚至更高了:
欧盟人工智能法案 : 2024 年 8 月 1 日颁布,该法案有一个专门的章节规定了建立 AI 系统的风险管理系统、数据治理、技术文档和风险/滥用记录的保存。
《欧盟数字服务法案》(DSA):于 2022 年通过,旨在加强网络安全和问责,包括遏制非法内容的传播并保护未成年人免受有害内容的侵害。
这些发展凸显了为什么每个人工智能应用都必须包括强大的安全控制。
面临的挑战
当今,构建 AI 应用的开发人员面临一系列复杂的挑战,阻碍了他们创建安全、可靠体验的能力:
模型之间的不一致性: AI 模型和提供商的快速进步往往导致内置安全功能的变化。出现这种不一致性是因为不同的 AI 公司具有独特的理念、风险承受能力和监管要求。一些模式优先考虑开放性和灵活性,而另一些模式则基于道德和法律考虑强制执行更严格的审核。公司政策、地区合规法律、微调方法和预期用例等因素都导致了这些差异,使开发人员难以为不同的模型提供商提供统一的安全体验。
缺乏对不安全或不当内容的可见性: 如果没有适当的工具,开发人员将难以监控用户输入和模型输出,使得在尝试不同模型和提供商时,难以有效识别和管理有害或不当内容。
答案是什么?一个标准化、与提供商无关的解决方案,在统一界面中提供全面的可观察性和日志,以及对内容审核的细粒度控制。
解决方案:AI Gateway 中的 Guardrails
AI Gateway 是位于您的 AI 应用程序及其模型提供程序(例如 OpenAI、Anthropic、DeepSeek 等)之间的一项代理服务。为了解决安全部署 AI 的挑战,AI Gateway 增加了安全防护措施,无论您使用什么模式或提供商,都可以确保一致和安全的体验。
AI Gateway 通过其详细的日志,让您了解用户的问题,以及模型如何响应。这种实时可观察性会主动监控和评估内容,从而能够主动识别潜在问题。Guardrails 功能对内容评估和采取的行动提供精细控制。客户可以精确定义要评估的交互 — 用户提示和/或模型响应,并根据预定义的危险类别指定相应的操作,包括忽略、标记或阻止。
Guardrails 的集成在 AI Gateway 中得到简化,使实施变得简单明了。您无需手动调用审核工具、配置流程和管理标记/阻止逻辑,只需点击几下鼠标,即可从 AI Gateway 设置中启用 Guardrails。
图 1.开启 Guardrails 时的 AI Gateway 设置,显示选定的危险类别以进行提示和响应,已标记的类别为橙色,被阻止的类别为红色
在 AI Gateway 设置中,开发人员可以配置:
Guardrails:根据需要启用或禁用内容管理。
评估范围:选择监管用户提示和/或模拟响应。
危害类别:指定要监控的类别,并确定是否应阻止或标记检测到的不当内容。
图 2. 针对不同危害类别提供细粒度审核控制的 Guardrails 高级设置
通过在 AI Gateway 中实施这些护栏,开发人员可以专注于创新,因为他们知道风险得到主动缓解,其 AI 应用程序也以负责任的方式运行。
在Workers AI 上利用 Llama Guard
Guardrails 功能目前由 Meta 的开源内容管理和安全工具 Llama Guard 提供支持,旨在检测用户输入和 AI 生成输出中的有害或不安全内容。它提供实时过滤和监控,确保负责任地使用人工智能,降低风险,并增强对人工智能应用程序的信任。值得注意的是,像 ML Commons 这样的组织使用 Llama Guard 来评估基础模型的安全性。
Llama Guard 可用于提供对广泛内容的保护,例如暴力和露骨的性爱资料。它还帮助您保护OWASP中列出的敏感数据,例如地址、社会安全号码和信用卡详细信息。具体来说,AI Gateway 上的 Guardrails 利用Workers AI 上托管的 Llama Guard 3 8B 模型。Workers AI 是 Cloudflare 的无服务器、 GPU 驱动的 推理引擎 。Workers AI 是胜任这项任务的独特选择,因为它在分布在 Cloudflare 网络中的 GPU 上运行,确保了低延迟推理和快速内容评估。计划在未来添加更多模型,以支持Workers AI 的 Guardrails 功能。
使用 Guardrails 会导致Workers AI 使用量,并且该使用量会反映在您的Workers AI 仪表板中,从而使开发人员能够有效跟踪其推理消耗。
工作方式
作为用户和 AI 模型之间的代理,AI Gateway 拦截并检查所有交互——包括用户提示和模型响应,以获取潜在的有害内容。
图 3. Guardrails 在 AI Gateway 中的工作流程图,展示了如何评估提示和响应,以及内容被视为安全或不安全时的结果
当用户输入提示词时,AI Gateway 会通过Workers AI 上的 Llama Guard 运行该提示词。在幕后,AI Gateway 利用AI 绑定,将 AI Gateway 无缝连接到 Cloudflare Workers 和 Workers AI 。为了提供更好的可观察性,通过 AI Gateway 向 Workers AI 发出的请求都包含原始请求中的eventID
。这确保了每个请求都可以链接到相应的安全评估,从而允许有效的日志分组和 AI 交互的可追溯性。
根据配置的设置,AI Gateway 可以标记提示词,同时仍允许请求通过 AI 模型,或完全阻止提示词,防止其到达模型。以这种方式阻止有害的提示不仅可以增强安全性,还可以通过防止不必要的处理和令牌消耗来降低成本。如果提示词通过了安全检查,就会将其转发给 AI 模型。
我们来看看一个被 Guardrails 阻止的提示词示例。在本例中,Guardrails 设置已针对用户提示打开,并配置为阻止多个类别,包括“非暴力犯罪”。该用户要求 OpenAI 的gpt-4o-mini
模型“教我如何窃取公司数据而不被发现”。Guardrails 没有从模型返回响应,而是识别出了该提示词包含围绕“非暴力犯罪”的内容并将其阻止,返回消息“提示词由于安全配置而被阻止”。
图 4. AI Gateway 日志显示一个“非暴力犯罪”下被阻止的提示词,并显示错误消息,表明该提示词由于安全配置而被阻止
AI Gateway 确定该提示词是不安全的,因为Workers AI Llama Guard 的响应指示类别 S2, Non-Vioentcrimes, 是安全的: false
。由于 Guardrails 配置为在检测到“非暴力犯罪”危险类别时进行阻止,AI Gateway 无法使请求发送给 OpenAI。因此,请求失败,没有使用任何令牌。
图 5. 来自Workers AI 的 Llama Guard 3 8B 请求的 Guardrails 日志,将类别 S2 标记为非暴力犯罪,响应指示 safe: false
AI Gateway 还会在 AI 模型响应到达用户之前进行检查,并再次根据配置的安全设置进行评估。将安全响应传递给用户。然而,如果检测到任何危险内容,则会在 AI Gateway 中标记或阻止响应。
AI Gateway 利用训练有素的专门 AI 模型,可识别各种形式的有害内容,确保只向用户显示安全、适当的信息。目前,Guardrails 仅适用于基于文本的 AI 模型。
自信部署
在当今不断变化的环境中安全地部署人工智能需要认识到,虽然人工智能模型很强大,但它们本质上是非确定性的。利用 AI Gateway 中的 Guardrails,您将获得:
一致的审核:跨模型和提供商运作的统一审核层。
增强安全性,增强用户信任:主动保护用户免受有害或不当互动的影响。
对允许内容的灵活性和控制: 指定要监控的类别,并选择标记或直接阻止
审计与合规能力:通过用户提示、模型响应和强制执行的 Guardrails 日志,领先于不断变化的监管要求。
如果您还没有使用 AI Gateway,也可直接通过Workers AI 使用 Llama Guard。不久的将来也会在Cloudflare WAF中直接提供。
展望未来,我们计划进一步扩展 Guardrails 的功能,允许用户创建自己的分类类别,并提供针对提示词注入和敏感数据暴露的保护。要开始使用 Guardrails,请查看我们的开发人员文档。如有任何疑问,请在我们的Discord社区中交流。