Cloudflareのお客様にCSAM Scanning Toolを無料提供を発表

2週間前、当社は児童性的虐待コンテンツ（CSAM）に対するCloudflareのアプローチについて書きました。2010年に当社の創設を公開して数ヶ月後から行方不明者および搾取された子どもたちのためのセンター（NCMEC）と協力を始めました。この組織は、米国に拠点を置き、忌まわしいコンテンツを削除するための情報センターとして活動しています。過去9年以上にわたって、当社のTrust & Safetyチームは、NCMECやインターポール、世界で約60の公共機関や民間機関とプログラムをデザインしてきました。そして、インターネットからCSAMを排除するために行ってきた仕事を誇りに思います。

ある意味で、忌まわしい事例ほど、対処しやすいと言えるかもしれません。Cloudflareが他社がホストするコンテンツを削除することはできませんが、サイトがCSAMを共有していると明らかになった場合やWebサイトの運営者とホストがCSAMコンテンツを停止するための適切な措置を講じない場合、Webサイトへのサービスを終了する措置を取ります。Webサイトを終了した場合、当社はキャッシュを消去します。数秒で世界中で消去を有効にし、そのWebサイトはCloudflareのネットワークを二度と使うことができないようにブロックします。

難しいケースに対処する

難しいケースとは、当社のお客様が運営するサービスでユーザーが討論フォーラムのようなコンテンツを生成することができたり、ユーザーがCSAMをアップロードしたりした場合、またはハッキングされたり、悪意のある従業員が自社のサーバーにCSAMを保存した場合です。正しいことを意図としたはずのサービスが隙をつかれて、最終的にサイトにCSAMを入れてしまったケースを数多く見てきました。こうした場合は故意でもなく悪意もないのですが、こうしたコンテンツは迅速に特定し、削除する必要があります。

本日こうした難しいケースに対処するために一歩踏み出せることを誇りに思います。本日より、Cloudflareのすべてのお客様はダッシュボードにログインして、CSAMScanning Tool にアクセスできるようになります。CSAMScanning Tool が開発から生産へ移行すると、ツールは違法なコンテンツに対処するCSAMスキャニングツールが有効になったインターネットプロパティすべてをチェックします。CSAMコンテンツであるとフラグがつくと、Cloudflareは自動的に通知を送信し、ステータスコード 451「法的理由によりブロックされました」を出して、コンテンツのアクセスをブロックします。そして、法的義務を順守し、コンテンツの適切な報告をサポートする措置をとります。

CSAM スキャニングはプランレベルに関係なく、すべてのお客様に無料でCloudflareのダッシュボードからご利用いただけます。このツールは、ダッシュボードの「Caching」タブにあります。このツールをすべてのお客様にご利用いただくことで、当社がオンラインでCSAMに対抗するために役立つことができ、CSAMが企業にもたらす法的リスクや風評被害からお客様を保護できることを期待しています。

当社をご利用いただく何百万ものユーザーにこのサービスを提供するとお約束できるまで、長い時間がかかりました。当社が行なっていることと、それが技術的にもポリシーの観点においてもどれだけ難しいことなのかをご理解いただくために、最高水準のCSAMのトラッキング技術について少しご説明しましょう。

類似画像を見つける

Cloudflareが立ち上げ時期だった2009年、Dartmouth大学のHany Farid教授はNCMECが保有するハッシュのリストに照らし合わせて画像を比較できるソフトウェアに取り組んでいました。Microsoftは自動的にCSAMを識別するというFarid教授の研究を使ったPhotoDNAというツールの開発を進めていました。

初期の頃、Microsoftは社内サービスでPhotoDNAを使っていましたが、2009年後半にNCMECにこの技術を寄付し他の組織でも使えるように支援しました。ソーシャルネットワークも最初の頃から採用を始めていて、2011年、Facebookは、虐待への対処方法としてこの技術の実装を展開しました。Twitterは2014年に取り入れています。

この処理は、ファジーハッシュと呼ばれています。MD5、SHA1、SHA256のような従来のハッシュアルゴリズムは、任意長のファイル（画像やドキュメントなど）を持ち、固定長の数値を出力します。これは、事実上ファイルの電子指紋（デジタルフィンガープリント）です。たとえば、この写真のMD5を取ると、フィンガープリントは605c83bf1bba62e85f4f5fccc56bc128となります。

この写真の単一のピクセルを変更して純粋な白よりも少し白みを下げる場合、視覚的には同じでもフィンガープリントは完全に変わって、42ea4fb30a440d8787477c6c37b9daedとなります。2つのフィンガープリントを見て分かるように、画像に少し変更を加えると、従来のハッシュ出力に大規模で予測不可能な変更が起こることになります。

以前に見たドキュメントと完全に一致しているかどうかをしっかりと確認したい時にハッシングは最適です。たとえば、デジタル契約書で余分なゼロが追加されている場合、署名に使われるドキュメントのハッシュを無効にしたいと思うはずです。

ファジーハッシング

しかし、CSAMの場合は従来のハッシングが持つこの特性は、マイナスに作用します。検出を避けるために、犯罪者はCSAMのサイズ変更やノイズの追加をしたりします。または、同じに見えるように画像を修正したりしますが、根本的に違うハッシュに変えてしまいます。

ファジーハッシングは違います。2枚の写真が完全に同じかどうかを判断するのではなく、写真の本質を見極めるのです。ファジーハッシングによって、ソフトウェアは2つの画像のハッシュを計算してから2つの間の「距離」を比較できます。変更された2つの写真のファジーハッシュは依然として異なる可能性はありますが、従来のハッシュとは異なり、2つの写真を比較して画像の類似性を確認できます。

上の2枚の写真で、最初の画像のファジーハッシュは次の通りです。

00e308346a494a188e1042333147267a
653a16b94c33417c12b433095c318012
5612442030d1484ce82c613f4e224733
1dd84436734e4a5c6e25332e507a8218
6e3b89174e30372d

2つ目の画像のファジーハッシュは次のようになります。

00e308346a494a188e1042333147267a

00e308346a494a188e1042333147267a
653a16b94c33417c12b433095c318012
5612442030d1484ce82c613f4e224733
1dd84436734e4a5c6e25332e507a8218
6e3b89174e30372d

この2枚は、ピクセルにわずかな違いがありますが、ファジーハッシュは全く同じです。

これは彩度を上げて、セピアに変更し、境界線を追加し、ランダムノイズを追加したベースの画像です。

ファジーハッシングは、非常に類似する画像を識別するために設計されています。たとえば、犬の色を鮮やかにしてからセピアにして、境界線をつけました。最後にランダムノイズを追加するという修正をしました。新しい画像のファジーハッシュは次のようになります。

00d9082d6e454a19a20b4e3034493278
614219b14838447213ad3409672e7d13
6e0e4a2033de545ce731664646284337
1ecd4038794a485d7c21233f547a7d2e
663e7c1c40363335

修正前の画像のハッシュとはまったく違うように見えますが、ファジーハッシュは2枚がどれだけ似ているかを確認することで比較できます。

2つの画像の間にある可能な最大距離は、およそ500万ユニットです。2つのファジーハッシュは4,913ユニットの差しかなく（数値が小さいほど、画像は似ている）本質的に同じ画像だということを示しています。

では、無関係の2枚の写真を比較しましょう。1枚目の写真のファジーハッシュです。

011a0d0323102d048148c92a4773b60d

011a0d0323102d048148c92a4773b60d
0d343c02120615010d1a47017d108b14
d36fff4561aebb2f088a891208134202
3e21ff5b594bff5eff5bff6c2bc9ff77
1755ff511d14ff5b

1枚目の写真のファジーハッシュです。

062715154080356b8a52505955997751
9d221f4624000209034f1227438a8c6a
894e8b9d675a513873394a2f3d000722
781407ff475a36f9275160ff6f231eff
465a17f1224006ff

2つのハッシュの距離は、713,061と計算されました。この実験を通して、2枚の写真が関連している可能性が高いと考えられるように距離に基づいたしきい値を設定することが可能です。

ファジーハッシングの意図的なブラックボックス

どのような仕組みなのでしょうか。ファジーハッシングに関してたくさんの情報が公開されていますが、処理の内部構造は意図的に謎めいたものになっています。最近、New York Times紙が、こうしたテクノロジーの仕組みについて、最も公然と論じた記事を掲載しました。問題として指摘されたのは、CSAMを作成·販売する犯罪者がこのツールの仕組みを完全に把握している場合、引っかからないために画像を修正する方法を巧妙に作り上げることができるのではないかということでした。誤解のないように言いますが、Cloudflareは、Webサイト運営者の代わりに、当社のセキュアなポイントオブプレゼンス内からCSAMスクリーニングツールを実行します。ユーザーに直接ソフトウェアを配布するようなことはしません。プラットフォームを不正使用しようとする動きに警戒し、必要に応じて迅速な行動をとります。

検出もれと誤検知のトレードオフ

Cloudflareは、多くの規制当局と協力して、お客様に向けてこの機能をどのように本格展開していくのが一番いいかを考えてきました。Cloudflareと同様に様々なお客様を持つネットワークには課題があり、その1つが適切はしきい値はファジーハッシュとの比較距離をどう設定するべきかということです。

しきい値が厳しすぎると（つまり、従来のハッシュに近く、2つの画像が一致するためには、ほぼ同一である必要があるということです）、たくさんの検出もれ（CSAMにフラグが付かない）が出る可能性が高くなります。しきい値がゆるすぎると、多くの誤検知が出てくる可能性が高くなります。誤検知は、それほど悪質でないように見えますが、検出もれの可能性を最大限に高めることで、限りのあるリソースを浪費し、さらに既存のエコシステムを圧倒するという当たり前の懸念もあります。エコシステムの継続的な有効性をサポートしつつ、CSAMスキャニングツールで繰り返し処理して、さらにきめ細かな制御をWebサイト所有者に提供します。現在、エコシステムのリソースを圧倒することなく、当社が迅速にCSAMにフラグをつけることができるオプションの優れた最初のセットをお客様にご提供できると確信しています。

お客様に合わせたしきい値

同じようにきめ細かなアプローチを求める気持ちは、当社のお客様との会話にも反映されています。お客様にとって何が適しているかとお聞きしたところ、そのお返事は、事業タイプ、既存の不正利用対策の性能の高さ、サイトにCSAMが投稿された場合のリスクに対する露出レベルと耐性によって大きく異なっていました。

たとえば、あるソーシャルネットワーク企業はしっかりとした組織で、高度な不正利用対策チームを持っていて、Cloudflareを利用しています。このソーシャルネットワーク企業がしきい値をかなり緩く設定することを望むかもしれませんが、フラッグがついたものは全て手動で確認する人的資源を持っているため、コンテンツを自動的にブロックしたいわけではないかもしれません。

まだ子供が小さい親のためにフォーラムを提供する新しいスタートアップ企業は、しきい値を緩く設定し、自動的にブロックしたいと考えるかもしません。それは、高度な不正利用対策チームができておらず、CSAMコンテンツが投稿された場合、たとえそれが誤検知であっても、企業ブランドに与えるリスクが大きすぎるからです。

商業金融機関は、サイト上でユーザーが作成するコンテンツを含む可能性が低く、誤検出の許容度が低いため、しきい値を厳しく設定したいかもしれません。ただし、何かしらの原因でシステムが不正アクセスされて、既知のCSAMをホストすることになった場合、すぐにそれを停止したいので、自動的に検出されたものはすべてブロックしたいかもしれません。

管轄地域ごとに異なる要件

お客様の所在地や適用される法律や規制によって、関連する問題は違う場合があります。お客様は、ご自分の事業拠点やユーザーの所在地に応じて、ハッシュリストから利用するものを一つにするか複数にするか、または利用できるもの全てを選ぶことができます。

言い換えれば、1つのサイズがすべてに該当するわけではないのです。理想的には、個々のサイト所有者が特定のサイトにとって最も妥当なパラメーターを設定できることの方が、当社のお客様全員に1つのグローバル標準を設定しようと努力するよりも、さらに検出もれ率を下げることになる（例:より多くのCSAMにフラグが付く）と、当社は考えています。

時間をかけてツールを改善する

ゆくゆくは、お客様のためにCSAMスクリーニングを改善できると希望を持っています。ご利用いただく世界中のユーザーとともにお客様のために多くのグローバルエージェンシーから集まったハッシュリストを追加する予定です。このいまわしい犯罪と戦うために作られたエコシステムに過度の負荷をかけることなく、この柔軟性を実現させていくために力を尽くしていきます。

最後に、次世代のファジーハッシングの構築に役立つチャンスでもあると考えています。たとえば、ソフトウェアがスキャンできるのが、メモリやマシンに保管されている画像だけでなく、ストリーミング中の画像もスキャンできるようにするなどです。現在はカリフォルニア州バークレー大学で教鞭を執る、元Darthmouth大学の教授Hany Farid氏と、画像が投稿される前にフラグがつけられるようにさらに柔軟性のあるファジーハッシングシステムの構築ができないかという話をしていました。

懸念と責任

CSAMスキャニングの提供を検討し始めた時に、そもそも自分たちは、この問題に取り組むべき立場に置かれているのかということを自問しました。子供を狙った恐ろしい犯罪の映像がばら撒かれることを世界中が懸念しており、インターネットがその現場となってはならないと考えているものの、Cloudflareはネットワークインフラストラクチャプロバイダーであって、コンテンツプラットフォームではないのです。

それでも、当社にも果たすべき重要な役割があるはずだと考えました。重要なことは、Cloudflareがかつてはインターネット大手しか持っていなかったツールを200万人超のお客様に提供しているということです。当社がご提供するセキュリティ、パフォーマンス、高い信頼性は無料であることも多く、当社でなければ、非常に高額になったかもしれず、FacebookやGoogleなどインターネット大手に限定されていたかもしれません。

現在、セキュアで高速、かつ信頼性の高いオンラインを提供するCloudflareを使い、次のインターネット大手を構築し、FacebookやGoogleを競合するために活動するスタートアップ企業があります。しかし、CSAMのように非常に困難な問題に対処する規制上の障害が増え続けているため、こうしたスタートアップ企業の多くがCSAMを積極的にスキャンする高度なツールへのアクセスが不足しているのです。そうしたツールへのアクセス権がもらえるような（高級な）クラブに入れるくらいビッグにならなければなりません。当然ながら、そういうクラブのメンバーであることがビッグな存在になることの前提条件です。

インターネット大手に対抗できる企業を増やすには、こうしたツールをより小規模な企業が利用できるようにする必要があります。この観点から、当社がCSAMとの戦いでこのパワフルなツールを一般の人にも使えるようにするのは理にかなった話だと思います。

これによってお客様は、自分のコミュニティに適切でさらに高度なコンテンツモデレーションチームを構築できるようになり、責任ある方法で規模を拡大し、今のインターネット大手と競争できるようになることを期待しています。より良いインターネットの構築に貢献するという当社のミッションに直結しているからこそ、すべてのお客様にこのサービスを無料でご提供することをここに発表させていただきます。

The Cloudflare Blog