AIndependence로 AI 독립 선언하기: 클릭 한 번으로 인공지능 봇, 스크래퍼, 크롤러 차단

Cloudflare는 콘텐츠 크리에이터를 대상으로 인터넷을 안전하게 보호하기 위해 모든 AI 봇을 차단하는 새로운 '이지 버튼'을 출시했습니다. 무료 등급 고객을 포함한 모든 고객이 이용할 수 있습니다.

Declaring your AIndependence: block AI bots, scrapers and crawlers with a single click

생성형 AI의 인기로 인해 모델 훈련이나 추론을 실행하는 데 사용하는 콘텐츠에 대한 수요가 급증하고 있습니다. 일부 AI 회사는 웹 스크래핑 봇의 존재를 분명히 인정하고 있지만, 모든 AI 회사가 사실을 투명하게 공개하고 있는 것은 아닙니다. Google은 Reddit의 사용자 생성 콘텐츠 라이선스를 위해 연간 6,000만 달러를 지불한 것으로 알려졌으며, Scarlett Johansson은 OpenAI가 새로운 개인 비서에 자신의 목소리를 무단으로 사용했다고 주장했습니다. 또한 가장 최근 Perplexity는 웹 사이트의 콘텐츠를 스크래핑하기 위해 적법한 사용자로 위장했다는 의혹을 받기도 했습니다. 대량의 원본 콘텐츠의 가치는 그 어느 때보다 중요해졌습니다.

작년 Cloudflare는 올바르게 작동하는 AI 봇을 고객이 쉽게 차단할 수 있는 기능을 발표했습니다. 이러한 봇은 robots.txt를 준수하며, 라이선스가 없는 콘텐츠를 사용하여 모델을 학습하거나 웹 사이트 데이터를 사용하여 RAG 애플리케이션의 추론을 실행하지 않습니다. 이러한 AI 봇은 규칙을 준수하고 있음에도 불구하고 대다수의 Cloudflare 고객은 이를 차단하기로 선택합니다.

Cloudflare는 고객들이 정직하지 않은 방식으로 AI 봇이 자신의 웹 사이트를 방문하는 것을 원하지 않는다는 사실을 잘 알고 있습니다. 이 문제를 해결하기 위해 Cloudflare는 원클릭으로 모든 AI 봇을 차단할 수 있는 새로운 기능을 추가했습니다. 이 기능은 무료 등급 고객을 포함한 모든 고객이 이용할 수 있습니다. 활성화하려면 Cloudflare 대시보드의 보안 > 봇 섹션으로 이동하여 ‘AI 스크래퍼 및 크롤러’라고 표시된 토글을 클릭하기만 하면 됩니다.

이 기능은 Cloudflare가 모델 학습 목적으로 웹을 광범위하게 스크래핑하는 것으로 파악하는 공격 봇의 새로운 지문을 확인하면 자동으로 업데이트됩니다. Cloudflare는 모든 AI 크롤러 활동을 종합적으로 파악하기 위해 네트워크 전반의 트래픽을 조사했습니다.

오늘날의 AI 봇 활동

아래 그래프는 Cloudflare 네트워크에서 요청량 기준으로 가장 인기 있는 AI 봇을 보여줍니다. Cloudflare는 널리 사용되는 AI 크롤러 사용자 에이전트를 살펴보고 지난 한 해 동안 다음과 같은 AI 사용자 에이전트가 Cloudflare 플랫폼에 보낸 요청 수를 집계했습니다.

Cloudflare 사이트에 대한 요청 수를 살펴보면 상위 4대 AI 크롤러는 Bytespider, Amazonbot, ClaudeBot, _GPTBot_이라는 사실을 확인할 수 있습니다. TikTok을 소유한 중국 기업 ByteDance가 운영하는 _Bytespider_는 ChatGPT의 경쟁사인 Doubao를 지원하는 대규모 언어 모델(LLM)을 위한 학습 데이터를 수집하는 데 사용되는 것으로 알려졌습니다. _Amazonbot_과 _ClaudeBot_은 요청량 면에서 _Bytespider_의 뒤를 잇고 있습니다. Alexa의 질의응답 콘텐츠 색인화에 사용되는 _Amazonbot_은 두 번째로 많은 요청을 전송했으며, Claude 챗봇을 학습시키는 데 활용되는 _ClaudeBot_은 최근 요청량이 증가하고 있는 것으로 알려졌습니다.

Cloudflare는 상위 AI 봇 중에서는 요청 수뿐만 아니라 인터넷 자산 크롤링 범위와 차단 빈도에서도 _Bytespider_가 선두를 달리고 있다는 사실을 확인했습니다. 크롤링 수와 차단 횟수 모두에서 2위를 차지한 _GPTBot_이 그 뒤를 바짝 쫓고 있습니다. OpenAI가 관리하는 _GPTBot_은 ChatGPT 등의 AI 기반 제품을 뒷받침하는 LLM을 위한 학습 데이터를 수집합니다. 아래 표에서 ‘액세스한 웹 사이트 점유율’은 Cloudflare가 보호하는 웹 사이트 중 잘 알려진 AI 봇이 액세스한 웹 사이트의 비율을 나타냅니다.

.tg {border-collapse:collapse;border-color:#ccc;border-spacing:0;} .tg td{background-color:#fff;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{background-color:#f0f0f0;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top} .tg .tg-0lax{text-align:left;vertical-align:top}

AI Bot	Share of Websites Accessed
Bytespider	40.40%
GPTBot	35.46%
ClaudeBot	11.17%
ImagesiftBot	8.75%
CCBot	2.14%
ChatGPT-User	1.84%
omgili	0.10%
Diffbot	0.08%
Claude-Web	0.04%
PerplexityBot	0.01%

AI 봇

액세스한 웹 사이트 점유율

Bytespider

Top N Internet properties by number of visitors seen by Cloudflare	% accessed by AI bots	% blocking AI bots
10	80.0%	40.0%
100	63.0%	16.0%
1,000	53.2%	8.8%
10,000	47.99%	8.92%
100,000	44.53%	6.36%
1,000,000	38.73%	2.98%

40.40%

GPTBot

35.46%

ClaudeBot

11.17%

ImagesiftBot

8.75%

CCBot

2.14%

ChatGPT-User

1.84%

omgili

0.10%

Diffbot

0.08%

Claude-Web

0.04%

PerplexityBot

0.01%

Cloudflare 분석을 통해 요청량 및 액세스하는 온라인 자산 수 측면에서 가장 많이 사용되는 크롤러가 밝혀졌지만, 많은 고객들은 자신의 사이트를 활발하게 크롤링하는 더 널리 퍼진 AI 크롤러에 대해 인식하지 못하고 있을 가능성이 높습니다. Cloudflare Radar 팀은 상위 10,000개 인터넷 도메인에서 가장 많이 활동하는 AI 봇을 파악하기 위해 상위 robots.txt 항목을 분석한 후, Cloudflare가 보호하는 사이트에서 이러한 봇이 얼마나 자주 관찰되는지 확인했습니다.

이러한 사이트에 대해 허용되지 않는 크롤러에 초점을 맞춘 아래 그래프는 고객이 robots.txt에서 가장 많이 참조하는 것은 GPTBot, CCBot, _Google_이지만, Bytespider 및 _ClaudeBot_과 같은 인기 있는 AI 크롤러는 명시적으로 차단하지 않는다는 사실을 보여줍니다.

인터넷에 이러한 AI 봇이 넘쳐나는 상황에서 Cloudflare는 웹 사이트 운영자들이 어떻게 대응하고 있는지 궁금했습니다. 지난 6월, AI 봇은 Cloudflare를 사용하여 상위 100만 개의 인터넷 자산 중 약 39%에 액세스했지만, 이러한 요청을 차단하거나 대응하기 위한 조치를 취한 자산은 2.98%에 불과했습니다. 또한 순위가 높은(인기 있는) 인터넷 자산일수록 AI 봇의 표적이 될 가능성이 높으며, 따라서 이러한 요청을 차단할 가능성도 높아집니다.

.tg {border-collapse:collapse;border-spacing:0;} .tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top}

방문자 수 기준으로 Cloudflare가 확인한 상위 N개의 인터넷 자산

AI 봇의 액세스 비율(%)

AI 봇 차단 비율(%)

80.0%

40.0%

100

63.0%

16.0%

1,000

53.2%

8.8%

10,000

47.99%

8.92%

100,000

44.53%

6.36%

1,000,000

38.73%

2.98%

웹 사이트 운영자들은 robots.txt를 사용하여 이러한 AI 크롤러에 대한 액세스를 완전히 차단하고 있습니다. 그러나 이러한 차단은 봇 운영자가 robots.txt를 존중하고 RFC9309(사용자에 대한 변형이 제품 토큰과 일치하도록 보장)을 준수하여 인터넷 자산을 방문할 때 자신을 정확하게 식별할 수 있습니다. 하지만 봇 운영자는 사용자 에이전트를 쉽게 변경할 수 있어 이러한 조치가 큰 효과를 발휘하지 못합니다.

실제 웹 브라우저처럼 위장한 AI 봇을 찾아내는 방법

안타깝게도 Cloudflare는 봇 조작자가 스푸핑된 사용자 에이전트를 사용하여 실제 브라우저인 것처럼 보이게 하려는 시도를 관찰했습니다. Cloudflare는 이러한 활동을 지속적으로 모니터링해 왔으며, 운영자가 사용자 에이전트에 대해 속이려고 시도할 때도 당사의 글로벌 머신 러닝 모델이 이러한 활동을 항상 봇으로 식별해 왔다고 자신 있게 말씀드릴 수 있습니다.

다른 사람들이 자신의 활동을 숨기려고 시도하는 특정 봇을 예로 들어 보겠습니다. Cloudflare는 분석을 실행하여 머신 러닝 모델이 이 봇의 트래픽을 점수화하는 방식을 확인했습니다. 아래 다이어그램에서 볼 수 있듯이 모든 봇 점수가 30점 미만으로 확실히 낮게 나타나고 있으며, 이는 Cloudflare 점수 시스템이 이 활동이 봇에 의한 것일 가능성이 높다고 판단하고 있음을 나타냅니다.

이 다이어그램은 Cloudflare 최신 모델을 사용한 요청 점수를 반영하며, ‘더 뜨거운’ 색상은 해당 범위에 속하는 요청이 많다는 것을 의미하고 ‘더 차가운’ 색상은 요청이 적다는 것을 나타냅니다. 대부분의 요청이 하단의 두 대역에 속하는 것을 관찰할 수 있는데, 이는 Cloudflare의 모델이 문제를 일으킨 봇에 9점 이하의 점수를 부여했다는 사실을 보여줍니다. 봇 운영자가 사용자 에이전트를 가장 먼저 변경할 것으로 예상하기 때문에 사용자 에이전트를 변경해도 점수에 영향을 미치지 않습니다.

Cloudflare의 권고에 따라 봇 점수가 30점 미만인 방문자에게 추가 인증 단계를 진행하도록 설정된 기존 WAF 규칙이 있는 모든 고객은 새로운 조치 없이도 이 AI 봇 트래픽을 모두 자동으로 차단했습니다. 향후 유사한 기법을 사용하여 자신의 활동을 숨기는 AI 봇에 대해서도 동일하게 적용됩니다.

Cloudflare는 봇 점수를 계산하기 위해 Cloudflare 글로벌 신호를 활용하며, 이는 위와 같은 AI 봇의 경우 ‘봇일 가능성이 있는’ 것으로 올바르게 식별하고 점수를 매기는 것을 나타냅니다.

악의적인 행위자가 웹 사이트를 대규모로 크롤링하려고 시도하는 경우, 일반적으로 Cloudflare가 지문을 확인할 수 있는 도구와 프레임워크를 사용합니다. Cloudflare는 모든 지문에 대해 초당 평균 5,700만 건 이상의 요청을 확인하는 Cloudflare 네트워크를 활용하여 이 지문의 신뢰성을 파악합니다. Cloudflare는 모델을 구동하기 위해 여러 신호에 대한 글로벌 집계를 계산합니다. 이러한 집계된 신호를 기반으로 Cloudflare 모델은 앞서 언급한 봇과 같은 회피형 AI 봇의 트래픽을 봇으로 적절히 지정할 수 있었습니다.

전 세계적으로 집계된 이 데이터의 결론은 봇을 수동으로 핑거프린팅할 필요 없이 새로운 스크래핑 도구와 그 동작을 즉시 탐지할 수 있어 최신 봇 활동으로부터 고객을 보호할 수 있다는 점입니다.

올바르게 작동하지 않는 AI 봇에 대한 정보가 있으시다면 Cloudflare가 기꺼이 조사해 드리겠습니다. 올바르게 작동하지 않는 AI 크롤러를 신고할 수 있는 두 가지 옵션은 다음과 같습니다.

Enterprise Bot Management 고객은 다음과 같이 문제 행동을 확인한 트래픽 세그먼트를 선택하기만 하면 Bot Analytics를 통해 미탐(False Negative) 피드백 루프 보고서를 제출할 수 있습니다.

2. 또한, 모든 Cloudflare 고객이 허가 없이 웹 사이트를 스크래핑하는 AI 봇에 대한 보고서를 제출할 수 있는 보고 도구를 설정했습니다.

Cloudflare는 일부 AI 기업들이 봇 탐지를 피하고자 계속해서 규칙을 우회하여 콘텐츠에 접근하려 할 것이라고 우려하고 있습니다. Cloudflare는 AI 스크래퍼 및 크롤러 규칙에 더 많은 봇 차단 조치를 추가하고 머신 러닝 모델을 개선하는 등 지속적으로 경계를 늦추지 않을 것입니다. 이를 통해 인터넷을 콘텐츠 크리에이터가 성공할 수 있는 공간으로 유지하고, 이들이 학습 또는 추론 실행에 콘텐츠를 사용하는 모델을 완전히 제어할 수 있도록 지원할 계획입니다.

Cloudflare 블로그

AIndependence로 AI 독립 선언하기: 클릭 한 번으로 인공지능 봇, 스크래퍼, 크롤러 차단

오늘날의 AI 봇 활동

실제 웹 브라우저처럼 위장한 AI 봇을 찾아내는 방법

Advancing Threat Intelligence: JA4 fingerprints and inter-request signals

Making WAF ML models go brrr: saving decades of processing time

Meta Llama 3.1 now available on Workers AI

Application Security report: 2024 update