구독해서 새 게시물에 대한 알림을 받으세요.

콘텐츠에 접근하는 AI 모델의 감사 및 제어 시작

2024-09-23

7분 읽기
이 게시물은 English, 繁體中文, 日本語, Español简体中文로도 이용할 수 있습니다.

사이트 소유자에게는 AI 서비스가 교육 또는 기타 목적으로 콘텐츠를 어떻게 사용하는지 결정할 능력이 부족했습니다. 오늘 Cloudflare는 사이트 소유자, 크리에이터, 퍼블리셔가 AI 관련 봇 및 크롤러에게 콘텐츠를 제공하는 방법을 쉽게 제어할 수 있는 도구 세트를 출시합니다. 이제 모든 Cloudflare 고객은 AI 모델이 사이트의 콘텐츠에 액세스하는 방식을 감사하고 제어할 수 있습니다.

이번 출시는 사이트를 크롤링하는 AI 서비스와 액세스하는 특정 콘텐츠를 상세하게 분석하는 것으로 시작됩니다. 고객은 AI 공급자별, 봇 유형별, 사이트에서 가장 인기 있는 섹션별 활동을 검토할 수 있습니다. 이 데이터는 Cloudflare의 모든 사이트에서 사용할 수 있으며 별도의 구성이 필요하지 않습니다.

팀은 AI 크롤러의 노출에 대한 결정을 내리는 데 이 새로운 수준의 가시성이 도움이 될 것으로 기대합니다. 이러한 결정을 내릴 수 있는 시간을 주기 위해, 이제 Cloudflare는 대시보드에서 원클릭 옵션을 제공하여 AI 크롤러가 모든 사이트에 액세스하지 못하도록 즉각 차단합니다. 그런 다음 팀은 "일시 중지" 기능을 이용해 특정 AI 공급자 또는 특정 유형의 봇의 진행 여부를 결정할 수 있습니다. 결정이 내려지면 관리자는 Cloudflare 대시보드의 새로운 필터를 사용해 몇 번의 클릭만으로 정책을 시행할 수 있습니다.

일부 고객은 이미 AI 회사와 직접 거래를 협상하기로 결정했습니다. 이러한 계약 대부분에는 스캔 빈도와 액세스 가능한 콘텐츠 유형에 대한 조건이 포함되어 있습니다. 저희는 이러한 퍼블리셔가 거래의 이행을 측정할 수 있는 도구를 갖기를 원합니다.  오늘 발표의 일환으로, 이제 Cloudflare 고객은 이러한 조치에서 허용되는 활동을 감사하는 데 사용할 수 있는 보고서를 클릭 한 번으로 생성할 수 있습니다.

또한 저희는 규모와 관계없이 모든 사이트에서 AI 모델의 콘텐츠 사용에 대한 보상 방안을 결정할 수 있어야 한다고 생각합니다. 오늘 발표를 통해 사이트 소유자가 가격을 설정하고, 액세스를 제어하고, 콘텐츠를 스캔할 때 가치를 확보할 수 있는 도구를 제공하는 새로운 Cloudflare 수익화 기능을 미리 살펴보세요.

문제는 무엇일까요?

최근까지 인터넷의 봇과 스크래퍼는 대체로 좋은 종류와 나쁜 종류의 두 가지 범주로 나뉘었습니다. 검색 엔진 크롤러와 같은 좋은 봇은 잠재 고객이 사이트를 발견하도록 도와주고 트래픽을 유도하는 데 도움을 주었습니다. 나쁜 봇은 사이트를 중단시키거나 고객보다 먼저 대기열을 뛰어넘거나 경쟁 데이터를 수집하려고 시도했습니다. Cloudflare는 이러한 두 가지 광범위한 범주를 구분하고 허용하거나 차단할 수 있는 기능을 제공하기 위해 Cloudflare 봇 관리 플랫폼을 구축했습니다.

AI LLM(대규모 언어 모델)과 기타 생성형 도구의 등장으로 세 번째 카테고리는 더 모호해졌습니다. 이러한 플랫폼과 관련된 크롤러는 악의적 봇과 달리 사이트를 오프라인 상태로 만들거나 고객을 방해하려고 적극적으로 시도하지 않습니다. 중요한 데이터를 훔치려고 하는 것이 아니라, 사이트에 이미 공개된 내용을 스캔하려는 것일 뿐입니다.

그러나 유용한 봇과는 다르게, 이러한 AI 관련 크롤러가 반드시 사이트로의 트래픽을 유도하는 것은 아닙니다. AI 데이터 스크래퍼 봇은 사이트의 콘텐츠를 스캔하여 새로운 LLM을 학습시킵니다. 그런 다음 자료는 일종의 블렌더에 넣고 다른 콘텐츠와 혼합하여 어트리뷰션 또는 사용자가 사이트를 방문할 필요 없이 사용자의 질문에 답변하는 데 사용됩니다. 또 다른 유형의 크롤러인 AI 검색 크롤러 봇은 콘텐츠를 스캔하고 사용자의 검색에 답변할 때 인용을 시도합니다. 눈 앞에 있는 페이지에 답변이 정리되어 있기 때문에, 사용자가 사이트를 방문하지 않고 해당 인터페이스 내부에 머물 수 있다는 단점이 있습니다.

이러한 모호함 때문에 사이트 소유자는 어려운 결정을 내려야 합니다. 가치 교환은 명확하지 않습니다. 그리고 사이트 소유자가 따라잡는 동안 불리한 상황에 처하게 됩니다. 많은 사이트에서는 이러한 AI 크롤러가 대부분 "좋은" 봇처럼 보였기 때문에 콘텐츠를 스캔하도록 허용했지만, 그 결과 콘텐츠가 AI로 작성된 답변으로 리패키징되어 사이트 트래픽이 감소하는 결과를 의미할 뿐이었습니다.

Cloudflare는 이러한 점이 개방형 인터넷에 위험을 초래한다고 생각합니다. 스캐닝을 제어하고 가치를 실현할 능력이 없다면 사이트 소유자는 인터넷 자산을 시작하거나 유지하지 못하게 될 것입니다. 크리에이터는 더 많은 콘텐츠를 페이월 뒤에 숨기게 되며 최대 규모의 퍼블리셔는 직거래 계약을 맺게 됩니다. 결국 AI 모델 공급자들은 소규모 사이트에서 고품질 콘텐츠의 롱테일을 찾고 액세스하는 데 어려움을 겪게 될 것입니다.

권한과 가치를 건전하고 투명하게 교환할 수 있는 수단이 양측 모두에게 부족합니다. Cloudflare는 오늘부터 사이트 소유자에게 이 문제를 해결하는 데 필요한 서비스를 제공합니다. 시작하기 전에 모든 고객이 따를 것을 권장하는 일련의 단계를 세분화했습니다.

1단계: AI 모델이 사이트를 어떻게 사용하는지 파악

이제 Cloudflare의 모든 사이트에서 인기 있고 잘 알려진 AI 서비스의 크롤링 행동을 요약하는 새로운 분석 보기 기능의 액세스가 제공됩니다. 대시보드에서 사이트를 선택하고 왼쪽 탐색 바의 AI Audit 탭으로 이동하여 이러한 정보의 검토를 시작하면 콘텐츠의 AI 스캔을 파악할 수 있습니다.

BLOG-2509 2

AI 모델 공급자는 사이트의 콘텐츠에 액세스할 때 "봇" 또는 "크롤러"라고 하는 자동화된 도구를 사용하여 페이지를 스캔합니다. 이 봇은 페이지의 콘텐츠를 요청하고, 응답을 캡처하여 향후 데이터 훈련 세트의 일부로 저장하거나 추후 사용할 AI 검색 엔진의 결과로 기억합니다.

이러한 봇은 요청에 User Agent라는 HTTP 헤더를 포함시켜서 사이트(및 Cloudflare의 네트워크)에서 자신을 식별하는 경우가 많습니다. 경우에 따라 이러한 AI 서비스 중 하나의 봇이 헤더를 전송하지 않을 수 있지만, 그 대신 Cloudflare가 IP 주소 또는 동작 등 다른 휴리스틱을 사용하여 봇을 식별합니다.

봇이 자신을 식별하면 헤더에는 봇 이름이 포함된 텍스트 문자열이 포함됩니다. 예를 들어, Anthropic은 종종 사이트를 인터넷에서 크롤링할 때 ClaudeBot이라는 봇을 사용합니다. 이 서비스가 Cloudflare의 사이트로부터 페이지 콘텐츠를 요청하면 Cloudflare는 User Agent를 ClaudeBot으로 기록합니다.

BLOG-2509 3

Cloudflare는 사이트 방문으로 수집한 로그를 통해 알려진 AI 봇 및 크롤러와 일치하는 사용자 에이전트를 찾습니다. 또한 개별 크롤러의 활동을 요약하고 특정 AI 플랫폼의 활동만 검토할 수 있는 필터도 제공합니다. 많은 AI 기업이 서로 다른 용도로 사용되는 여러 크롤러에 의존합니다. OpenAI가 데이터 스크래핑을 위해 사이트를 스캔할 때는 GPTBot을 사용하지만, 새로운 AI 검색 엔진을 위해 사이트를 크롤링할 때는 OAI-SearchBot을 사용합니다.

이러한 차이는 중요합니다. 다양한 봇 유형을 검사하면 사이트로 향하는 트래픽 또는 콘텐츠의 어트리뷰션에 영향을 미칠 수 있습니다. AI 검색 엔진은 응답의 일환으로 사이트 연결을 제공하는 경우가 많으므로 방문자를 목적지로 보낼 수 있습니다. 이러한 경우, 인터넷 자산을 크롤링하는 봇에 노출되어 있을 수 있습니다. 반면 AI 데이터 스크래퍼는 미래 모델을 학습시키거나 기존 모델을 개선하기 위해 가능한 한 많은 인터넷을 읽기 위해 존재합니다.

Cloudflare는 봇이 사이트를 크롤링하는 시기 및 빈도 외에도, 사이트를 왜 크롤링하는지 알아야 할 권리가 여러분에게 있다고 생각합니다. 오늘 출시에서는 AI 데이터 스크래퍼, AI 검색 크롤러, 아카이버 등의 범주별로 봇 활동을 검토할 수 있는 필터를 제공합니다.

BLOG-2509 4

이 데이터를 사용하여 AI 모델이 사이트에 액세스하는 방식을 분석할 수 있습니다. 이러한 정보는 압도적일 수 있으며, 팀이 콘텐츠의 AI 스캔을 처리할 방법을 결정할 시간이 아직 없는 경우 특히 그렇습니다. 어떻게 대응해야 할지 확실하지 않다면 2단계로 이동하세요.

2단계: 잠시 멈춰서 다음에 할 일 결정

저희는 자사 사이트가 AI 크롤러에게 중요한 대상이라는 것을 알고 있지만 아직 어떻게 해야 할지 모르는 조직과 이야기를 나눴습니다. 이러한 팀에서 데이터를 서비스에 제공하는 방법에 대해 정보에 입각한 결정을 내리려면 "타임아웃"이 필요합니다.

Cloudflare가 바로 지금 이 간편한 버튼을 제공합니다. 요금제와 관계없이 모든 고객은 어떤 AI 봇과 크롤러를 허용할지 결정하는 동안 AI 봇과 크롤러를 모두 차단하도록 선택할 수 있습니다.

해당 옵션을 구현하려면 Cloudflare 대시보드의 보안 탭 아래에 있는 봇 섹션으로 이동하세요. 오른쪽 상단의 파란색 링크를 클릭하여 Cloudflare의 프록시가 봇 트래픽을 처리하는 방식을 구성하세요. 그런 다음 "Block AI Scrapers and Crawlers" 카드의 버튼을 "On" 위치로 전환합니다.

BLOG-2509 5

원클릭 옵션은 Cloudflare가 관리하는 목록을 기반으로 알려진 AI 관련 봇 및 크롤러의 사이트 액세스를 차단합니다. 차단을 설정하면 여러분과 여러분의 팀은 콘텐츠에 대해 다음에 무엇을 할 것인지 덜 급하게 결정할 수 있습니다.

3단계: 허용하려는 봇 제어

일시 중지 버튼은 팀이 크롤러와 콘텐츠 간의 관계를 결정할 수 있는 시간을 벌어줍니다. 팀에서 결정을 내린 후에는 해당 정책을 구현하기 위해 Cloudflare 네트워크를 이용할 수 있습니다.

"모든 크롤링을 허용하지 않을 것"이라고 결정했다면 위에서 설명한 차단 버튼을 "On" 상태로 둘 수 있습니다. 선택적 스캐닝을 허용하고 싶은 경우를 위해, 오늘 출시에서는 특정 유형의 봇 또는 특정 공급자의 봇만 콘텐츠에 액세스하도록 허용하는 옵션을 제공합니다.

일부 팀의 경우, AI 검색 엔진과 연관된 봇이 인터넷 자산을 스캔하도록 결정하는데, 이는 이러한 도구가 여전히 사이트로 트래픽을 유도할 수 있기 때문입니다. 특정 모델 공급자와 계약을 맺고 해당 공급자가 제공하는 모든 유형의 봇을 콘텐츠에 액세스하게 하려는 조직도 있습니다. 고객은 이제 Cloudflare 대시보드의 WAF 섹션으로 이동하여 이러한 유형의 정책을 구현할 수 있습니다.

BLOG-2509 6

예를 들어, 관리자는 특정 플랫폼의 AI 봇을 제외한 모든 AI 봇을 차단하는 규칙을 만들 수도 있습니다. 대부분의 AI 플랫폼에 회의적이지만, 하나의 AI 모델 공급자와 그 공급자의 정책에 익숙한 조직에서는 이러한 유형의 필터를 배포할 수 있습니다. 이러한 유형의 규칙은 사이트 소유자가 단일 공급자의 스캔을 허용하기로 협상한 계약을 구현하는 데에도 사용할 수 있습니다. 사이트 관리자는 모든 유형의 AI 관련 봇을 차단하는 규칙을 만든 다음, 특정 봇 또는 AI 파트너의 봇을 허용하는 예외를 추가해야 합니다.

BLOG-2509 7

또한 Cloudflare는 고객이 이러한 새로운 필터를 적용하는 것 외에도 이 새로운 사용 사례를 적용하도록 서비스 약관을 업데이트하는 것도 고려해볼 것을 권장합니다. Cloudflare는 robots.txt 파일과 관련하여"선량한 시민" 봇 및 크롤러가 취해야 할 조치를 문서화했습니다. 이러한 모범 사례의 연장으로, Cloudflare는 이러한 모범 사례의 연장선상에서, 사이트 소유자가 robots.txt 파일에 정의한 정책을 AI 스캔에 적용하는 데 사용할 수 있는 서비스 약관 샘플 섹션을 해당 문서에 새로 추가합니다.

4단계: 기존 스캔 준비 감사

점점 더 많은 사이트가 모델 공급자와 직접 계약을 체결하여 대가를 지불하고 라이선스 소비를 허가하고 있습니다. 이러한 거래에는 특정 섹션 또는 전체 사이트에 대한 크롤링 속도를 결정하는 조항이 대부분 포함되어 있습니다. Cloudflare의 AI Audit 탭에서는 이러한 종류의 계약을 모니터링할 수 있는 도구를 제공합니다.

이제 AI Audit 도구 하단의 표에 페이지 상단의 필터 설정에서 해당 기간 동안의 스캔 횟수에 따라 사이트에서 가장 인기 있는 콘텐츠가 순위별로 나열됩니다. Export to CSV 버튼을 클릭하면 여기에 제공된 세부 정보가 포함된 파일을 빠르게 다운로드하여 콘텐츠 액세스를 허용하는 AI 플랫폼과의 불일치를 논의하는 데 사용할 수 있습니다.

BLOG-2509 8

현재 제공되는 데이터는 특정 페이지에 대한 요청과 전체 사이트에 대한 요청 등 이러한 종류의 계약에서 Cloudflare가 고객으로부터 들은 주요 메트릭을 나타냅니다.

5단계: AI 스캐닝으로부터 가치를 얻을 수 있도록 사이트 준비

모든 사람이 AI 회사와 거래를 협상할 시간이나 연락처가 있는 것은 아닙니다. 지금까지는 인터넷에서 가장 규모가 큰 퍼블리셔만이 이러한 조건을 설정하고 콘텐츠에 대해 수익을 올릴 수 있는 리소스를 보유하고 있습니다.

다른 모든 사용자에게는 데이터 처리 방법에 대한 모든 스캐닝 차단 또는 무제한 액세스 허용이라는 두 가지 기본 선택 사항만 남겨졌습니다. 오늘 출시는 콘텐츠 크리에이터에게 이 두 가지 옵션보다 더 많은 가시성과 제어 기능을 제공하지만, 인터넷 사이트의 롱테일에는 여전히 수익 창출 경로가 부족합니다.

저희는 규모를 막론하고 사이트의 콘텐츠 사용에 대해 공정한 보상이 있어야 한다고 생각합니다. Cloudflare는 크롤링을 차단하고 분석하는 것 이상의 기능을 갖춘 새로운 대시보드 구성 요소를 출시할 계획입니다. 사이트 소유자는 자신의 사이트 또는 사이트 섹션에 대한 가격을 설정한 다음 스캔 결과 및 설정한 가격을 기준으로 모델 제공자에게 요금을 청구할 수 있습니다. 나머지는 Cloudflare가 처리해 드리므로 여러분은 청중을 위한 훌륭한 콘텐츠를 만드는 데 집중할 수 있습니다.

이 새로운 구성 요소로 가치 창출을 준비하는 가장 빠른 방법은 사이트에서 Cloudflare의 네트워크를 사용하는 것입니다. Cloudflare에 처음 가입한 날짜를 기준으로 베타에 참여하도록 사이트를 초대해드릴 계획입니다. 이용이 가능할 때 알림을 받고 싶으신가요? 여기에서 알려 주세요.

BLOG-2509 9

Cloudflare에서는 전체 기업 네트워크를 보호하고, 고객이 인터넷 규모의 애플리케이션을 효과적으로 구축하도록 지원하며, 웹 사이트와 인터넷 애플리케이션을 가속화하고, DDoS 공격을 막으며, 해커를 막고, Zero Trust로 향하는 고객의 여정을 지원합니다.

어떤 장치로든 1.1.1.1에 방문해 인터넷을 더 빠르고 안전하게 만들어 주는 Cloudflare의 무료 앱을 사용해 보세요.

더 나은 인터넷을 만들기 위한 Cloudflare의 사명을 자세히 알아보려면 여기에서 시작하세요. 새로운 커리어 경로를 찾고 있다면 채용 공고를 확인해 보세요.
Birthday Week (KO)AI Bots (KO)AILLM (KO)

X에서 팔로우하기

Cloudflare|@cloudflare

관련 게시물

2024년 9월 23일 오후 1:00

Network performance update: Birthday Week 2024

Since June 2021, we’ve been measuring and ranking our network performance against the top global networks in the world. We use this data to improve our performance, and to share the results of those initiatives. In this post, we’re going to share with you how network performance has changed since our last post in March 2024, and discuss the tools and processes we are using to assess network performance. ...

2024년 9월 23일 오후 1:00

Introducing Ephemeral IDs: a new tool for fraud detection

As the Internet evolves, Turnstile does too. Introducing Ephemeral IDs — a new dimension in detecting fraudulent activity, bot or human, that links behavior to a specific client instead of an IP address. This makes Turnstile better for everyone, everywhere. ...