8,582개.

AI 모델들이 답변을 생성하며 참조한 한국 웹사이트 도메인 수다. 웬만한 중소도시의 상점 수보다 많은 사이트들이 AI의 '근거'로 선택된 셈이다. 그런데 정작 어떤 사이트가 왜 선택되는지는 그동안 블랙박스 영역이었다.

콘텐츠 제작자나 마케터는 자신의 글이 AI 답변에 포함되길 원하지만, 어떤 기준과 패턴으로 인용이 일어나는지 알 길이 없었다. 단순히 양질의 글을 쓴다고 해서 AI가 이를 찾아내 인용해 주는 것은 아니다. 검색 엔진 최적화(SEO)가 웹 시대의 필수였다면, 이제는 AI 검색 최적화(GEO)라는 새로운 기준이 필요해진 시점이다. 이러한 갈증을 해결하기 위해 4개 주요 AI 엔진의 인용 경로를 추적하는 도구인 Citly(시틀리)가 등장했다.

4개 AI 엔진과 20,239건의 인용 데이터 분석

AI 검색 엔진이 답변을 내놓는 과정은 단순한 정보 제공을 넘어 웹 트래픽의 재분배 과정이다. 사용자가 검색 결과 페이지를 거치지 않고 AI의 답변 내에서 정보를 소비하면 기존 웹사이트의 직접 방문 수는 감소하지만, AI가 선택한 인용처는 새로운 형태의 디지털 권위를 얻는다. Citly(AI 인용 분석 서비스)는 이러한 트래픽의 이동 경로를 추적하기 위해 ChatGPT, Perplexity, Gemini, Claude 등 4개 주요 AI 엔진을 대상으로 데이터를 수집했다. 1,000개 이상의 질문을 각 엔진에 입력하고 답변 과정에서 공개적으로 제시된 인용 URL을 추출한 결과, 누적 인용 데이터 20,239건과 8,582개의 수집 도메인을 확보했다. 이는 AI가 어떤 웹 생태계를 신뢰하고 우선적으로 노출하는지를 보여주는 정량적 지표가 된다.

데이터 수집 범위는 AI 모델이 외부로 출력한 공개 URL에 엄격히 한정된다. AI 내부의 학습 데이터나 비공개 정보는 분석 대상에서 제외했으며, 오직 최종 사용자가 확인할 수 있는 공개 인용 정보만을 수집했다. 분석 방식은 특정 질문 세트를 각 엔진에 입력하고 출력값에서 URL 패턴을 추출하는 자동화 프로세스로 진행된다. 이러한 접근은 AI의 내부 가중치나 알고리즘을 알 수 없는 상황에서 외부로 드러나는 결과값만을 통해 인용 패턴을 역추적하는 방식이다. 수집된 데이터는 AI Citation Rank(AI 인용 랭킹), CiteAsk(자연어 질의), CiteMap(브랜드 진단), GEO InCite(엔진별 패턴 분석)라는 네 가지 기능으로 세분화되어 제공되며, 특히 GEO(생성형 엔진 최적화) 관점의 인사이트를 도출하는 데 집중한다.

시스템 구현을 위해 최신 웹 기술 스택을 조합했다. 프론트엔드 구성과 배포 환경에는 Next.js 16과 Vercel을 도입했으며, 데이터 저장 및 관리는 Supabase(PostgreSQL 기반의 백엔드 서비스)를 통해 수행한다. 대량의 URL을 효율적으로 수집하기 위해 Node.js 기반의 배치 수집 프로세스를 구축하여 주기적으로 데이터를 갱신하고 저장하는 구조를 갖췄다. 개발 과정에서는 Claude Code(클로드 기반 코딩 어시스턴트)를 활용해 코드 구현과 최적화 속도를 높였다. 전체 소스 코드는 GitHub 저장소에 공개되어 있으며, 구체적인 데이터 수집 방법론은 공식 페이지에서 확인할 수 있다. 서비스의 실제 작동 모습은 citly.co.kr에서 제공된다.

GEO(AI 검색 최적화)를 위한 4가지 분석 기능

기존 검색 최적화가 키워드 배치와 백링크 수에 집중했다면, 생성형 엔진 최적화는 AI의 인용 빈도와 맥락에 집중한다. Citly(AI 인용 분석 서비스)는 ChatGPT, Perplexity, Gemini, Claude 등 4개 엔진에 1,000개 이상의 질문을 던져 답변에 포함된 공개 URL을 수집한다. 현재 누적 인용 데이터 20,239건과 8,582개의 수집 도메인을 확보한 상태다. AI Citation Rank는 이 데이터를 바탕으로 AI가 가장 많이 인용한 한국 사이트의 순위를 정량적으로 제공한다. 여기에 수집된 인용 데이터셋을 대상으로 자연어 질의응답이 가능한 CiteAsk 기능을 더했다. 사용자는 특정 주제나 키워드에 대해 어떤 도메인이 주로 인용되는지 자연어로 질문하고 즉각적인 답변을 얻는다. 단순한 순위 확인을 넘어 특정 조건에서 어떤 사이트가 인용되는지 데이터로 직접 확인하는 구조다.

특정 브랜드가 모든 AI 엔진에서 고르게 언급되는 사례가 있는 반면, 특정 엔진에서만 집중적으로 인용되는 사례도 존재한다. CiteMap은 개별 브랜드가 AI 답변 내에서 어느 정도의 비중으로 인용되고 있는지 현황을 진단하는 도구다. GEO InCite는 여기서 더 나아가 엔진별로 서로 다른 인용 패턴을 분석해 인사이트를 추출한다. 엔진마다 선호하는 정보의 형태나 출처의 신뢰도 기준이 다르다는 점을 수집된 데이터로 증명하는 작업이다. 기업 마케터나 SEO 전문가는 이를 통해 각 AI 모델의 특성에 맞춘 콘텐츠 최적화 전략을 수립할 수 있다. 단순히 웹페이지의 노출량을 늘리는 전통적 방식에서 벗어나, AI 엔진의 인용 로직에 대응하는 정밀한 콘텐츠 배치가 가능해진다. 이는 브랜드 진단과 엔진별 대응이라는 이분화된 전략 수립을 지원한다.

데이터 수집과 분석 시스템은 대량의 URL 데이터를 효율적으로 처리하기 위해 설계되었다. Next.js 16과 Supabase(PostgreSQL)를 기반으로 구축했으며, Node.js 배치 수집과 Vercel 환경을 통해 운영된다. 개발 과정에는 Claude Code가 활용되어 개발 효율을 높였다. 전체 소스코드는 GitHub(https://github.com/sheint-17/citly-web)에 공개되어 있으며, 데이터 수집 방법론은 공식 페이지(https://citly.co.kr/methodology)에서 확인할 수 있다. 현재는 AI가 공개적으로 인용한 URL 수집에 집중하고 있으나, 향후 GEO(Generative Engine Optimization, 생성형 엔진 최적화) 관점에서 분석 기능을 지속적으로 확장할 계획이다. PostgreSQL을 통한 정형 데이터 관리와 배치 수집 체계는 향후 데이터 규모가 커지더라도 엔진별 인용 패턴을 빠르게 분석할 수 있는 기반이 된다. 기술적 인프라를 통해 AI 검색 환경에서의 브랜드 가시성을 정량적으로 측정하는 체계를 구축하고 있다.

ChatGPT와 Claude의 인용 데이터는 단순한 유입 경로를 넘어 정보의 신뢰도를 증명하는 지표가 된다. Citly의 추적 결과는 AI 모델의 인용 패턴이 매체의 영향력을 결정하는 새로운 기준이 되었음을 보여준다. AI가 어떤 한국 사이트를 선택하고 인용하느냐에 따라 정보의 도달 범위가 달라진다. 결국 AI 모델의 선택을 받는 데이터의 품질이 매체의 생존을 결정한다.