facts

Cloudflare가 검색 엔진용 크롤러와 AI 에이전트 및 학습용 크롤러를 분리하도록 강제하는 새로운 정책을 발표했다. 2026년 9월 15일부터 광고가 게재된 모든 페이지에 대해 '혼합 목적(mixed-use)' 크롤러의 접근을 기본적으로 차단하는 설정이 적용된다.

이번 기본 설정 변경의 적용 대상은 신규 Cloudflare 고객, 기존 고객이 새로 설정한 사이트, 그리고 모든 기존 무료 플랜 고객이다. 사이트 소유자가 설정을 직접 변경하지 않는 한, 검색과 AI 학습 및 에이전트 기능을 동시에 수행하는 봇은 해당 페이지에 접근할 수 없다.

Cloudflare는 특히 세계 최대 검색 엔진(구글)이 다른 AI 기업보다 약 2배 더 많은 정보에 접근하고 있다고 지적했다. 이는 검색 엔진의 노출 가능성을 유지하기 위해서는 AI 학습용 데이터 제공을 거부하기 어렵게 만드는 구조적 특성 때문이다. 이에 대응해 구글은 Gemini 앱이나 Vertex API 등 AI 제품 학습에서 제외할 수 있는 'Google Extended' 봇을 제공하고 있으며, 이는 구글 검색 인덱싱에는 영향을 주지 않는다고 밝힌 바 있다.

how-it-works

이번 정책의 핵심은 크롤러의 '의도(Intent)'를 명확히 분리하는 것이다. 기존의 혼합 목적 크롤러는 단일 봇이 웹 페이지를 방문해 검색 인덱싱을 수행하는 동시에, 해당 데이터를 LLM(대규모 언어 모델) 학습이나 AI 에이전트의 실시간 응답 생성에 활용했다. Cloudflare는 이러한 방식이 웹사이트 소유자의 지식재산권을 무단으로 활용하는 결과를 초래한다고 판단했다.

데이터 처리 효율성 측면에서도 변화가 있다. Cloudflare의 분석 결과에 따르면, AI 크롤러가 발생하는 트래픽의 50% 이상이 변경되지 않은 페이지를 다시 가져오는(re-fetching) 작업에 낭비되고 있다. 크롤러의 목적을 분리하면 불필요한 중복 호출을 줄여 발행자의 대역폭과 컴퓨팅 자원을 보존할 수 있다.

수익화 모델 또한 'Pay Per Crawl'에서 'Pay Per Use'로 진화한다. 기존의 Pay Per Crawl이 단순히 데이터를 긁어가는(fetching) 행위에 비용을 매겼다면, Pay Per Use는 해당 콘텐츠가 AI 서비스 내에서 실제 가치를 창출했을 때 비용을 청구하는 방식이다. 현재 Cloudflare는 Ceramic.ai 및 You.com과 파트너십을 맺고 이를 구현하고 있다. 발행자가 옵트인(Opt-in)하면, 콘텐츠가 Ceramic의 AI 검색 결과에 나타나거나 You.com이 프리미엄 콘텐츠에 접근할 때 비용을 지급받는 구조다.

implementation-impact

AI 모델 제공사와 에이전트 개발사는 이제 데이터 수집 파이프라인의 봇 정체성을 완전히 분리해야 한다. 검색 노출을 위한 봇과 학습을 위한 봇의 User-Agent를 구분하지 않고 통합 운영할 경우, 2026년 9월 이후 수많은 광고 기반 웹사이트로부터의 접근이 기본적으로 차단되어 학습 데이터셋의 손실이 발생할 수 있다.

실무적으로는 크롤링 전략을 '포괄적 수집'에서 '투명한 의도 기반 수집'으로 전환해야 한다. Cloudflare가 제시한 모델처럼 목적이 명확한 봇을 운영하고, 필요시 발행자와의 상업적 계약을 통해 데이터를 확보하는 체계가 필요하다. 특히 무료 플랜을 사용하는 소규모 발행자들이 대거 차단 설정에 포함되므로, 롱테일(Long-tail) 데이터를 수집하던 AI 기업들은 수집 성공률 저하에 대비해야 한다.

웹사이트 운영자와 발행자는 더 이상 '전부 허용' 또는 '전부 차단'의 이분법적 선택을 하지 않아도 된다. 검색 엔진을 통한 유입(Traffic)은 유지하면서, AI 학습용 데이터 제공에 대해서만 선택적으로 과금하거나 차단하는 세밀한 제어권을 갖게 된다. 이는 AI 기업에 대한 데이터 의존도를 낮추고, 콘텐츠의 가치에 기반한 새로운 수익 모델을 인프라 수준에서 적용할 수 있음을 의미한다.