新規投稿のお知らせを受信されたい方は、サブスクリプションをご登録ください:

AI GatewayのGuardrailsで、AIとのインタラクションを安全かつリスクのない状態に維持

2025-02-26

7分で読了
この投稿はEnglishでも表示されます。

AIの実験環境から製品化された製品への移行には、課題がないわけではありません。開発者は、急速なイノベーションと、ユーザーの保護と厳格な規制要件を満たすニーズとのバランスを取るという課題に直面しています。この問題に対処するため、当社は AI Gateway に Guardrails を導入します。Guardrailsは、AIを安全かつ自信を持ってデプロイできるように設計されています。

安全性が重要な理由

LLMは本質的に非決定論的なものであり、出力が予測できない可能性があります。さらに、あなたはユーザーをコントロールすることはできず、非常に不適切なことを要求したり、AIから不適切な応答を導き出そうとする可能性があります。さて、有害または不適切なコンテンツの可能性を明確に把握することなくAI搭載アプリケーションをローンチすることを想像してみてください。これはユーザーの安全を脅かすだけでなく、ブランドの評判も危険にさらすことになります。

AIアプリに特有のセキュリティリスクに対処するため、「OWASPの大規模言語モデル(LLM)アプリのトップ10」が作成されました。これは、特にLLMベースおよび生成AIアプリケーションに影響を与える最も重大なセキュリティの脆弱性を特定する、業界主導の基準です。開発者、セキュリティ専門家、組織に、これらのシステムの導入と管理に固有のリスクについて教育することを目的としています。

新しい規制が導入され、リスクはさらに高まっています。

  • 欧州連合AI法:2024年8月1日施行のAI法には、AIシステムのリスク管理体制の確立、データガバナンス、技術文書化、リスクや不正使用の記録保持に関する特定の条項があります。

  • 欧州連合デジタルサービス法(DSA): 2022年に導入された DSA は、違法なコンテンツの拡散の緩和や有害なコンテンツからの未成年者の保護など、オンライン上の安全性と説明責任を強化することを目的としています。

これらの展開は、堅牢な安全管理がすべてのAIアプリケーションの一部でなければならない理由を強調しています。

課題

今日、AIアプリケーションを構築する開発者は一連の複雑な課題に直面し、安全で信頼性の高い体験を生み出す能力を妨げています。

  • モデル間の一貫性: AIモデルとプロバイダーの急速な進歩により、組み込まれる安全機能がさまざまなものになることがよくあります。この一貫性のなさは、さまざまなAI企業が独自の理念、リスク許容度、規制要件を持っているために生じています。公開性と柔軟性を優先するモデルもあれば、倫理的および法的な考慮事項に基づいて、より厳格なモデレーションを実施するモデルもあります。企業ポリシー、地域のコンプライアンス法、微調整方法、意図したユースケースなどの要因がこのような違いにつながり、開発者が異なるモデルプロバイダー間で統一して安全なエクスペリエンスを提供することは困難です。

  • 安全でない、不適切なコンテンツの可視性の欠如: 適切なツールがなければ、開発者はユーザーの入力とモデルの出力を監視するのに苦労し、さまざまなモデルやプロバイダーを試す際に、有害または不適切なコンテンツを効果的に特定し管理することが困難になります。

答えは、プロバイダーに依存しない標準化されたソリューションで、単一の統合インターフェースで包括的な可観測性とログを提供し、コンテンツのモデレーションに対するきめ細かな制御が可能です。

解決策:AI Gatewayのガードレール

AI Gatewayは、AIアプリとそのモデルプロバイダ( OpenAI、Anthropic、DeepSeek など )との間に位置するプロキシサービスです。AIを安全にデプロイすることの課題に対処するため、AI Gatewayは、使用するモデルやプロバイダーに関係なく、一貫した安全な体験を保証する安全ガードレールを追加しました。

AI Gatewayは、ユーザーが何を求めているか、モデルがどのように応答しているかを、詳細ログを通じて可視化します。このリアルタイムの可観測性により、コンテンツを積極的に監視して評価し、潜在的な問題を積極的に特定することができます。Guardrails機能は、コンテンツの評価と実行するアクションのきめ細かな制御を提供します。お客様は、どのインタラクション(ユーザープロンプト、モデルの応答、またはその両方)を評価するかを正確に定義し、事前に定義された危険カテゴリに基づいて、無視、フラグ立て、ブロックなどの対応するアクションを指定することができます。

Guardrailsの統合はAI Gateway内で合理化され、実装は容易です。手動でモデレーションツールを呼び出してフローを設定し、フラグ付け/ブロックロジックを管理する代わりに、AI Gatewayの設定から直接数クリックでGuardrailsを有効にすることができます。

図1.AI Gatewayの設定とガードレールをオンにすると、プロンプトと応答のために選択された危険カテゴリーをオレンジ色で表示し、ブロックカテゴリーを赤で表示します

AI Gatewayの設定では、開発者は以下の設定ができます。

  • Guardrails : 必要に応じてコンテンツのモデレーションを有効または無効にします。

  • 評価範囲:ユーザープロンプト、モデルの応答、またはその両方を調整するかどうかを選択します。

  • 危険カテゴリ:監視の対象となるカテゴリを指定し、検出された不適切なコンテンツをブロックするかフラグを立てるかを決定します。

図2. 異なる危険カテゴリーに対応するきめ細かなモデレーション制御が可能なGuardrailsの高度な設定

AI Gateway内にガードレールを実装することで、リスクが積極的に軽減され、AIアプリケーションが責任を持って動作していることを知ることができ、開発者はイノベーションに集中することができます。

Workers AIでLlama Guardを活用

Guardrails機能は現在、Llama Guard によって強化されています。Llama Guardは、Metaのオープンソースのコンテンツ調整および安全性ツールで、ユーザーの入力とAIが生成した出力の両方で有害または安全でないコンテンツを検出するように設計されています。リアルタイムのフィルタリングと監視を提供し、責任あるAI利用を保証し、リスクを軽減し、AI駆動型アプリケーションの信頼性を高めます。特に、ML Commons のような組織は、基盤モデルの安全性を評価するためにLlama Guardを使用しています。

Llama Guardは、暴力的コンテンツや露骨な性的コンテンツなど幅広いコンテンツに対する保護を提供するために使用できます。また、 OWASPで概説されているように、住所、社会保障番号、クレジットカードの詳細などの機密データの保護にも役立ちます。具体的には、AI GatewayのGuardrailsは、Cloudflareのサーバーレス、GPU推論エンジン、 Workers AI 上でホストされているLlama Guard 3 8Bモデルを活用しています。Workers AIは、Cloudflareのネットワーク全体に分散されたGPUで動作し、低遅延の推論と迅速なコンテンツ評価を保証するため、このタスクに適しています。将来的に、 Workers AIのGuardrails機能を強化するためのモデルを追加する予定です。

Guardrailsを使用するとWorkers AIの使用量が増加し、その使用量はWorkers AIダッシュボードに反映されるため、開発者は推論の消費量を効果的に追跡することができます。

仕組み

AI Gatewayは、ユーザーとAIモデルの間のプロキシとして機能し、すべてのインタラクション(ユーザーのプロンプトとモデルの回答の両方)を傍受し、検査して、潜在的に有害なコンテンツがないかを確認します。

図3. AI GatewayにおけるGuardrailsのワークフロー図。プロンプトと応答の評価方法、コンテンツが安全または安全でないと判断された場合の結果を示している

ユーザーがプロンプトを入力すると、AI GatewayはWorkers AI上のLlama Guardを使ってそのプロンプトを実行します。AI Gatewayは舞台裏でAI Bindingを活用し、AI GatewayをCloudflare WorkersWorkers AIにシームレスに接続します。より優れた観測性を提供するために、AI Gatewayを介したWorkers AIへのリクエストはすべて、オリジナルリクエストのeventIDを含めます。これにより、各リクエストは、対応する安全性評価にリンクでき、効率的なロググループ化とAIのインタラクションの追跡が可能になります。

設定によって、AI GatewayはAIモデルへのリクエスト通過を許可しながらプロンプトにフラグを立てるか、プロンプトを完全にブロックしてモデルへのリクエストが到達するのを防ぐことができます。この方法で有害なプロンプトをブロックすることは、安全性を高めるだけでなく、不要な処理やトークンの消費を防ぐことで、コストを削減することにもなります。プロンプトが安全性チェックに合格すると、AIモデルに転送されます。

Guardrailsによってブロックされたプロンプトの例を見てみましょう。この例では、ユーザーからのプロンプトに対するGuardrails設定がオンになっており、「非暴力による犯罪」を含む複数のカテゴリーをブロックするように設定されています。このユーザーは、OpenAIのgpt-4o-mini モデルに、「検知されずに会社のデータを盗む方法を教えてください」と問い合わせました。モデルからの応答を返す代わりに、Guardrailsはこのプロンプトが「非暴力犯罪」関連のコンテンツを含むことを特定し、これをブロックし、「セキュリティ設定によりプロンプトをブロックしました」というメッセージを返しました。

図4. 「非暴力的犯罪」に分類されたブロックされたプロンプトと、セキュリティ設定によりプロンプトがブロックされたことを示すエラーメッセージを表示するAI Gatewayのログ

AI Gatewayは、 Workers AI Llama Guardからの応答により、カテゴリー S2、非暴力犯罪が安全であることを示しているため、このプロンプトは安全でないと判断しました。Guardrailsは、危険カテゴリーが「非暴力による犯罪」を検出したときにブロックするように設定されていたため、AI Gatewayはリクエストに失敗し、OpenAIに送信しませんでした。結果として、リクエストは正常に完了し、トークンの使用量は発生しませんでした。

図5. Workers AIからのLlama Guard 3 8Bリクエストのガードレールログは、カテゴリーS2、非暴力犯罪としてフラグ付けし、レスポンスは安全であることを示すレスポンス: false

また、AI GatewayはAIモデルの応答をユーザーに到達する前に検査し、設定された安全性設定に照らして再度評価します。安全な応答がユーザーに配信されます。しかし、危険なコンテンツが検出された場合、応答はフラグ付けされるかブロックされ、AI Gatewayで記録されます。

AI Gatewayは、さまざまな形の有害コンテンツを認識するよう訓練された特殊なAIモデルを活用し、ユーザーに安全で適切な情報のみを表示するようにします。現在、GuardrailsはテキストベースのAIモデルに対してのみ機能します。

安心のデプロイ

今日の動的な環境でAIを安全にデプロイするには、AIモデルは強力であるものの、本質的に非決定論的なものであることを認識する必要があります。AI GatewayでGuardrailsを活用することで、以下のメリットが得られます。

  • 一貫したモデレーション:モデルとプロバイダ全体で機能する統一されたモデレーションレイヤー。

  • 安全性とユーザーの信頼の強化:ユーザーを有害または不適切なインタラクションから事前予防的に保護します。

  • 許可されたコンテンツに対する柔軟性と制御:監視するカテゴリーを指定し、フラグを立てるか完全にブロックするかを選択

  • 監査とコンプライアンス機能:ユーザープロンプト、モデルレスポンス、適用されたガードレールのログにより、進化する規制要件を先取りすることができます。

AI Gatewayをまだ利用していない方は、Llama GuardもWorkers AIを通じて直接利用可能であり、近い将来、 Cloudflare WAFから直接利用できるようになる予定です。

今後、当社ではGuardrailsの機能をさらに拡張し、ユーザーが独自の分類カテゴリーを作成できるようにし、プロンプトインジェクションや機密データ漏洩に対する保護機能を実装していく予定です。Guardrailsの使用を開始するには、開発者向けドキュメントをご覧ください。ご質問がございましたら、Discordコミュニティからお問い合わせください。

Cloudflareは企業ネットワーク全体を保護し、お客様がインターネット規模のアプリケーションを効率的に構築し、あらゆるWebサイトやインターネットアプリケーションを高速化し、DDoS攻撃を退けハッカーの侵入を防ぎゼロトラスト導入を推進できるようお手伝いしています。

ご使用のデバイスから1.1.1.1 にアクセスし、インターネットを高速化し安全性を高めるCloudflareの無料アプリをご利用ください。

より良いインターネットの構築支援という当社の使命について、詳しくはこちらをご覧ください。新たなキャリアの方向性を模索中の方は、当社の求人情報をご覧ください。
AI開発者開発者プラットフォームAI Gatewayセキュリティ

Xでフォロー

Kathy Liao|@kathyyliao
Cloudflare|@cloudflare

関連ブログ投稿