AI의 지속적인 성장으로 지난 24개월 동안 인터넷이 근본적으로 변화했습니다. AI는 점점 더 유비쿼터스화되고 있으며, Cloudflare에서는 AI 덕분에 제시되는 새로운 기회와 도전을 크게 활용하고 있습니다. 올해 Cloudflare에서는 창립기념일을 맞아 새로운 WAF 규칙을 구축할 수 있도록 AI 어시스턴트의 기능을 확장하고 Cloudflare Radar에 AI 봇 트래픽 인사이트를 추가하며 고객에게 새로운 AI 봇 차단 기능을 제공했습니다.
WAF Rule Builder를 위한 AI 어시스턴트
Cloudflare에서는 항상 고객의 피드백에 귀를 기울이며 최대한 사용자 친화적이고 강력한 제품을 만들기 위해 노력하고 있습니다. 여러분의 피드백이 가장 많이 나온 분야 중 하나는 웹 애플리케이션 방화벽(WAF)에 대한 사용자 정의 및 레이트 리미팅 규칙을 만드는 과정의 복잡성에 관한 것입니다. Cloudflare에서는 이를 염두에 두고 규칙을 더 쉽고 직관적으로 만들 수 있는 새로운 기능인 WAF Rule Builder를 위한 AI 어시스턴트를 소개하게 되어 기쁩니다.
단순히 자연어 프롬프트를 입력하는 것만으로도 필요에 맞는 사용자 지정 규칙 또는 레이트 리미팅 규칙을 생성할 수 있습니다. 예를 들어, 복잡한 규칙 일치 기준을 수동으로 구성하는 대신 이제 '봇 점수가 낮은 요청과 일치'와 같이 입력하면 어시스턴트가 해당 규칙을 생성해 줍니다. 이는 한 번에 완벽한 규칙을 만드는 것이 아니라, 강력한 기반을 제공하여 그 위에 구축할 수 있도록 하는 것입니다.
이 어시스턴트는 모든 WAF 사용자가 사용자 지정 규칙 및 레이트 리미팅 규칙 빌더에서 사용할 수 있습니다. 모든 고객을 위해 이 기능을 베타로 출시할 예정이며 여러분도 체험해보시기 바랍니다. 여러분의 요구에 맞도록 이 도구를 계속 개선하고 있으므로, 여러분의 피드백(UI 자체를 통해)을 기다리겠습니다.
Cloudflare Radar의 AI 봇 트래픽 인사이트
AI 플랫폼 공급자는 봇을 사용하여 웹 사이트를 크롤링하고 스크래핑하면서 모델 학습에 사용하기 위해 데이터를 청소합니다. 이 작업은 콘텐츠 소유자 및 공급자의 허가를 얻지 않거나 비즈니스 관계를 맺지 않고서 이루어지는 경우가 많습니다. 지난 7월, Cloudflare에서는 콘텐츠 소유자와 공급자에게 'AI 독립을 선언'할 것을 촉구하고, 클릭 한 번으로 AI 봇, 스크래퍼, 크롤러를 차단하는 방법을 제공했습니다. 이러한 소위 '간편 버튼' 접근 방식 외에도 사이트에서는 robots.txt 파일의 지침을 통해 이러한 봇에 대한 액세스가 허용되고 허용되지 않는 항목에 대한 보다 구체적인 지침을 제공할 수 있습니다. 고객이 AI 관련 봇의 요청을 차단하든 허용하든, Cloudflare에서는 이러한 봇의 요청 활동과 시간에 따른 관련 트래픽 동향에 대한 인사이트를 보유합니다.
AI 봇의 트래픽 추세를 추적하면 시간 경과에 따른 AI 봇의 활동을 더 잘 이해하는 데 도움이 됩니다. 가장 공격적이고 요청 양이 가장 많은 봇은 어느 것이며, 정기적으로 크롤링을 시작하는 봇은 어느 것인지 등을 파악할 수 있습니다. Radar의 트래픽 페이지에 있는 새로운 AI 봇 및 크롤러 트래픽 그래프는 가장 잘 알려진 AI 봇에 대해 선택된 기간 동안 수집된 트래픽 추세에 대한 통찰력을 제공합니다. 여기에서 추적되는 관련 봇 목록은 ai.robots.txt list를 기반으로 하며 봇이 식별되는 대로 새로운 봇으로 업데이트됩니다. 시계열 및 요약 데이터는 Radar API에서도 얻을 수 있습니다. (AI 봇과 크롤러 전체에 대한 트래픽 추세는 새로운 Data Explorer에서 볼 수 있습니다.)
더 많은 AI 봇 차단
Cloudflare의 창립기념일을 맞아, 이전 블로그 게시물인 AI 독립 선언에 이어 AI 봇을 막기 위해 추가한 새로운 탐지 기능에 대한 업데이트를 소개합니다. 아직 차단하지 않은 고객은 간단히 버튼을 클릭하여 AI 봇을 차단하고 웹 사이트에 대한 보호를 강화할 수 있습니다.
AI 봇 규칙의 동적 업데이트 활성화
고객은 이전 버튼을 사용하여 검증된 AI 크롤러, 즉 robots.txt와 크롤링 속도를 존중하고 동작을 숨기려 하지 않는 크롤러를 차단할 수 있었습니다. 저희는 해당 목록에 새로운 크롤러를 추가했지만, 이전 규칙을 확장하여 규칙을 따르지 않는 AI 봇의 27개 서명(계속 추가 중)을 포함하도록 했습니다. 시간을 내어 '팁 라인'을 사용하여 새로운 AI 봇에 대해 저희에게 알려주신 모든 분께 "감사합니다"라고 인사드리고 싶습니다. 보내주신 팁은 저희 Radar에서 그렇게 빨리 탐지되지 않았을 봇을 찾는 데 큰 도움이 되었습니다.
또한, 추가한 봇 마다 '확실히 자동화된' 정의에도 추가하고 있습니다. 그러므로 Super Bot Fight Mode를 사용하는 셀프 서비스 요금제 고객은 이미 보호되고 있습니다. Enterprise Bot Management를 사용하는 고객은 '봇 가능성이 높은' 범위에서 '확실히 자동화된' 범위로 요청이 이동하는 것을 볼 수 있는데, 이에 대해서는 아래에서 자세히 설명하겠습니다.
저희는 내부적으로 이 규칙 논리를 Cloudflare 관리 규칙( WAF를 구동하는 것과 동일한 프레임워크)으로 변환했습니다. 이를 통해 Cloudflare의 보안 분석가와 엔지니어는 새로운 WAF 규칙 변경 사항을 신속하게 전달하는 것과 유사하게 규칙에 대한 업데이트를 실시간으로 안전하게 푸시하여 고객을 최신 CVE로부터 보호할 수 있습니다. Cloudflare의 AI 봇 보호 버전의 이전 버전이 발표된 후 봇 대시보드에 로그인한 적이 없으면 버튼을 다시 클릭하여 최신 보호 기능으로 업데이트하세요.
새 지문이 모델에 미치는 영향
새로운 AI 봇 핑거프린팅의 숨겨진 수혜자는 저희 ML 모델입니다. 앞서 언급했듯이 당사의 글로벌 ML 모델은 지도 머신 러닝을 사용하며 레이블이 지정된 봇 데이터의 더 많은 소스에서 큰 이점을 얻습니다. 아래에서 버튼을 업데이트하고 새로운 규칙을 추가하기 전과 후에 저희 ML 모델이 이러한 요청을 자동화된 요청으로 얼마나 잘 인식했는지 볼 수 있습니다. 단순화를 위해 차트에는 요청량 기준 상위 5개 봇만 표시했습니다. 새로운 관리형 규칙을 도입한 후 이러한 AI 봇 대부분에 대한 탐지 기능이 개선된 것을 확인했습니다. 버튼 v1은 고객이 확인된 AI 크롤러만 차단할 수 있었던 기존 옵션을 나타내며, 버튼 v2는 관리형 규칙 감지를 포함하는 새로 도입된 기능입니다.
그렇다면 저희는 어떻게 탐지를 더 강력하게 만들었을까요? 앞서 언급했듯이 때로는 단일 속성으로 인해 봇의 속성이 노출될 수 있습니다. 저희는 이러한 AI 봇에 맞춤화된 정교한 휴리스틱 세트를 개발하여 해당 봇을 쉽고 정확하게 분류할 수 있었습니다. 저희 ML 모델은 이미 이러한 요청의 대부분을 감지하고 있었지만, 추가적인 휴리스틱을 통합함으로써 각 봇의 감지율이 눈에 띄게 증가하였고, 모든 요청을 100% 정확하게 평가할 수 있게 되었습니다. 순수한 기계 학습 접근 방식에서 휴리스틱을 통합하는 방식으로 전환하면 감지 시간이 빨라지고 분류의 확실성이 높아지는 등 여러 가지 이점이 있습니다. 머신 러닝 모델을 배포하는 것은 복잡하고 시간이 많이 소요되지만, 새로운 휴리스틱은 몇 분 만에 만들 수 있습니다.
AI 봇 차단 버튼의 초기 출시는 큰 호응을 얻었고, 현재 133,000여 개의 웹 사이트에서 사용되고 있으며, Free 요금제 고객 사이에서도 상당한 채택이 이루어지고 있습니다. 2024년 8월 20일에 출시되고 새롭게 업데이트된 이 버튼은 빠르게 인기를 얻고 있습니다. 90,000여 개의 지역에서 이미 이 새로운 규칙을 채택했으며 매시간 약 240개의 새로운 사이트에서 이 규칙이 통합되고 있습니다. 전반적으로, Cloudflare에서는 146,000여 개 사이트의 지적 재산을 AI 봇으로부터 보호하기 위해 노력하고 있으며 현재 이 새로운 규칙에 따라 매일 6,600만 건의 요청을 차단하고 있습니다. 또한, Terraform을 통한 AI 봇 보호 구성 지원이 올해 말까지 제공되어 봇 보호 설정 관리에 대한 유연성과 제어 능력이 더욱 향상될 것이라는 소식을 전해드리게 되어 기쁩니다.
봇 활동
Cloudflare의 감지 기능이 개선되었으므로, 봇 활동에 대한 이러한 변경 사항이 인터넷에 미치는 영향을 평가하는 것이 필수적입니다. 업데이트된 AI 봇 차단 버튼을 출시한 이후, 저희는 봇 활동과 적응 전략에 변화가 있는지 면밀히 모니터링했습니다. AI 봇을 식별하기 위해 저희가 사용하는 가장 기본적인 지문 인식 기술은 간단한 사용자 에이전트 매칭을 찾는 것입니다. 사용자 에이전트 매칭은 봇이 웹 사이트를 크롤링할 때 자신이 누구인지 투명하게 알리기 때문에 모니터링하는 것이 중요합니다.
아래 그래프에는 지난 두 달 동안 Cloudflare에서 AI 봇으로 분류한 트래픽의 양이 나와 있습니다. 파란색 선은 일일 요청 수를 나타내고 빨간색 선은 월별 평균 요청 수를 나타냅니다. 지난 2개월 동안 평균적으로 3,000만 건의 요청이 감소했으며, 가장 최근 달에는 4,000만 건이 감소했습니다. 이러한 감소세는 버튼 v1 및 v2의 출시 시기와 겹칩니다. 저희 가설은 새로운 AI 봇 차단 기능을 통해 Cloudflare에서 이러한 봇의 대다수를 차단하고 있으며, 이에 따라 봇이 크롤링을 하지 못하게 된다는 것입니다.
이 가설은 몇몇 상위 AI 크롤러의 요청이 감소한 것으로도 뒷받침됩니다. 특히 Bytespider 봇의 경우 6월 말부터 8월 말까지 일일 요청이 약 1억 건에서 단 5천만 건으로 줄었습니다(아래 그래프 참조). 이러한 감소는 새로운 AI 봇 차단 버튼 및 크롤러의 전략 변경 등 여러 요인 때문일 수 있습니다.
또한 일부 AI 크롤러의 책임이 증가하는 것도 관찰되었습니다. AI 봇을 식별하기 위해 저희가 사용하는 가장 기본적인 지문 인식 기술은 간단한 사용자 에이전트 매칭을 찾는 것입니다. 사용자 에이전트 매칭은 봇이 웹 사이트를 크롤링할 때 자신이 누구인지 투명하게 알리기 때문에 모니터링하는 것이 중요합니다. 이제 이러한 크롤러는 에이전트를 더 자주 사용하는데, 이는 더 투명하고 책임감 있는 행동으로의 변화를 반영합니다. 특히 Perplexity 사용자 에이전트의 요청 수가 급증했습니다. 이러한 증가는 Perplexity가 사용자 에이전트를 적절하게 표시하지 않았다는 이전의 비난과 관련이 있을 수 있으며, 이에 따라 더 나은 식별 및 규제 준수를 보장하기 위해 접근 방식을 변경했을 수 있습니다.
이러한 추세는 저희 업데이트가 AI 크롤러가 콘텐츠와 상호 작용하는 방식에 영향을 미칠 가능성이 있음을 시사합니다. Cloudflare에서는 사용자들이 콘텐츠에 누가 어떻게 액세스하는지 제어할 수 있도록 AI 봇 활동을 지속해서 모니터링할 계획입니다. 저희는 새로운 패턴을 면밀히 주시함으로써 사용자에게 트래픽 관리에 대해 정보에 입각한 결정을 내리는 데 필요한 도구와 인사이트를 제공하는 것을 목표로 합니다.
마무리
Cloudflare 대시보드를 더 유용하게 사용할 수 있는 방법을 찾거나 새로운 위협을 방어할 수 있는 방법을 찾는 등 AI 환경을 계속 탐구할 수 있게 되어 기쁩니다. Radar의 AI 인사이트는 거의 실시간으로 업데이트되므로 새로운 트렌드가 나타나는 것을 지켜보고 Cloudflare 커뮤니티에서의 토론에 참여해 주시기 바랍니다.