AI 크롤러 분석, 서버 로그가 유일한 창구다

매일 아침 서버 로그를 열어보면, 익숙한 구글봇과 함께 낯선 이름들이 눈에 띄기 시작한다. GPTBot, ClaudeBot, PerplexityBot. 이들은 AI 검색 시스템이 웹을 수집하는 크롤러들이다. 하지만 구글 서치 콘솔처럼 이들이 내 사이트를 어떻게 수집하는지 보여주는 공식 도구는 아직 없다. 개발자와 SEO 담당자는 AI 크롤러의 활동을 확인할 수 있는 사실상 유일한 수단인 서버 로그 파일에 의존해야 한다.

AI 크롤러는 두 가지 유형으로 나뉜다

연구팀은 AI 크롤러를 학습(Training) 크롤러와 검색·응답(Retrieval) 크롤러로 구분한다. 학습 크롤러는 GPTBot, ClaudeBot, CCBot, Google-Extended 등이 해당하며, 대규모 데이터셋 구축과 모델 학습을 위해 콘텐츠를 수집한다. 이들은 실시간 질의와 무관하게 산발적으로 작동하기 때문에, 짧은 기간의 로그만으로는 활동 여부를 판단하기 어렵다. 반면 검색·응답 크롤러는 ChatGPT-User, PerplexityBot 등이 해당하며, 사용자의 실시간 질문에 대응해 특정 URL을 선택적으로 접근한다. 활동량이 적고 예측하기 어렵지만, 어떤 페이지까지 도달하는지가 AI 응답에 내 콘텐츠가 반영되는지를 가늠하는 단서가 된다.

예전에는 구글봇 하나만 신경 쓰면 됐다. 이제는 다르다

기존 SEO에서는 구글 서치 콘솔 하나로 노출수, 클릭수, 색인 상태, 크롤링 데이터를 모두 확인할 수 있었다. AI 검색 시스템(ChatGPT, Claude, Perplexity 등)에는 이런 피드백 루프 자체가 존재하지 않는다. Bing 웹마스터 도구에서 Copilot 관련 인사이트가 제공되기 시작했고, Scrunch, Profound 같은 AI 가시성 전문 플랫폼도 나타나고 있지만, 대부분 제한된 시간 범위만 제공하므로 장기 패턴 분석에는 한계가 있다. 서버 로그는 모든 요청, 모든 URL, 모든 크롤러를 필터 없이 기록하므로, AI 시스템이 내 사이트에 실제로 어떻게 접근하는지 파악할 수 있는 가장 원시적이면서도 신뢰할 수 있는 데이터다.

개발자가 바로 체감하는 변화는 로그 분석 방법 자체다. 호스팅 환경의 접근 로그를 내보내는 것에서 시작하며, Screaming Frog Log File Analyzer 같은 도구를 활용하면 사용자 에이전트(크롤러 식별 문자열)별, URL별, 응답 코드별로 데이터를 구조화할 수 있다. 크롤러 유형별 세그먼트 분리가 핵심이다. AI 크롤러와 구글봇의 행동을 나란히 비교하면, 구글에서는 잘 크롤링되지만 AI 시스템에서는 사각지대인 영역이 드러난다. 크롤링 가능 페이지와 실제 크롤링된 페이지를 대조하면, 기술적으로 접근 가능하지만 실제로는 한 번도 방문되지 않은 페이지를 식별할 수 있다.

로그 파일에서 확인해야 할 핵심 패턴은 네 가지다. 접근 여부(Discovery): AI 크롤러가 로그에 아예 나타나지 않는다면, robots.txt 차단이나 CDN(콘텐츠 전송 네트워크) 단의 속도 제한, 혹은 사이트 자체가 발견되지 않는 상황을 의심해볼 수 있다. 크롤링 깊이(Crawl Depth): AI 크롤러는 홈페이지나 상위 내비게이션 페이지에만 머무르는 경우가 많다. 깊은 하위 페이지까지 도달하지 못하면, AI 시스템이 사이트의 전체 맥락을 파악하기 어려워진다. 크롤링 경로(Crawl Paths): 자바스크립트 기반 내비게이션이나 내부 링크가 약한 구조에서는 AI 크롤러가 접근할 수 있는 범위가 크게 줄어든다. 사이트의 상당 부분이 사실상 보이지 않는 상태가 될 수 있다. 크롤링 장애(Crawl Friction): 403(차단), 429(속도 제한), 리다이렉트 체인 등의 응답 코드가 AI 크롤러에게 나타나면, 이미 제한적인 활동이 더욱 위축될 수 있다.

장기 분석을 위해서는 로그 보존 전략이 필수다. 대부분의 호스팅은 수 시간에서 수일 분량의 로그만 보관하므로 장기 추적이 어렵다. Amazon S3나 Cloudflare R2 같은 클라우드 스토리지에 로그를 지속적으로 저장하면, 시간에 따른 크롤링 패턴 변화를 추적할 수 있다. SFTP를 통해 정기적으로 로그를 가져오는 스케줄 작업(n8n 같은 워크플로 도구나 스크립트 활용)을 설정하면, 수동 작업 없이도 분석 가능한 데이터셋을 축적할 수 있다. 주의할 점은 CDN이나 보안 레이어(Cloudflare 등)를 사용하는 경우, 일부 크롤러 요청이 원본 서버에 도달하기 전에 차단될 수 있어 로그에 기록되지 않는다는 것이다. 로그에 없다고 해서 접근 시도 자체가 없었다고 단정하기는 어렵다. 엣지(Edge) 레벨 로깅(CDN 단에서의 로그 수집)을 추가하면 이 공백을 상당 부분 보완할 수 있다.

지금 측정을 시작하는 팀과 그렇지 않은 팀 사이의 격차는, AI 검색이 본격적으로 트래픽 흐름을 바꾸는 시점에 가서야 비로소 체감될 것이다.

AI 크롤러 분석, 서버 로그가 유일한 창구다

AI 크롤러는 두 가지 유형으로 나뉜다

예전에는 구글봇 하나만 신경 쓰면 됐다. 이제는 다르다

관련 기사