발표에서 확인된 핵심 사실

AI 검색 결과에서 레딧(개발자 커뮤니티, 미국 커뮤니티 사이트)의 추천 글이나 커뮤니티 답변을 인용하는 모습은 이제 익숙하다. 하지만 짧은 홍보성 문구를 추가하는 것만으로도 AI 에이전트의 출력을 스팸이나 스캠 콘텐츠로 바꿀 수 있다.

ChatGPT와 Google AI 검색의 딥리서치 에이전트는 전체 질의의 약 절반에서 레딧, 위키피디아(Wikipedia) 등 사용자 생성 콘텐츠(UGC, User Generated Content)를 인용한다. 전체 인용 횟수의 약 4분의 1이 이러한 UGC 사이트에서 발생한다. AI 검색 에이전트가 정보의 출처로 UGC에 매우 높은 비중으로 의존하고 있다는 사실이 수치로 확인된다.

코넬 대학교(Cornell University) 연구진은 실제 웹을 오염시키지 않기 위해 개발자 커뮤니티 API로 콘텐츠를 가져와 에이전트 시스템 검색 단계에서 오염 콘텐츠를 끼워 넣는 샌드박스 시뮬레이션 환경을 구축했다. 레딧 댓글 끝에 홍보성 오염 문구를 덧붙이는 것만으로 LLM(LLM, 대규모 언어 모델)의 응답과 최종 인용 자료를 바꿀 수 있음을 입증했다. LLM이 정보의 정확성 대신 질의와의 어휘적 유사성을 신뢰 근거로 삼는 특성을 이용한 조작이다.

브랜드가 AI 도구가 자주 인용하고 수집하는 사이트에 비진정성 또는 스팸성 콘텐츠를 심어 제품을 홍보하는 AEO(AEO, AI 엔진 최적화) 산업이 급성장 중이다. 레드로버(RedRover) 같은 업체는 AI 검색 결과 변경을 목적으로 레딧 브랜드 배치 광고를 진행하기도 한다. AI 검색 결과의 신뢰도를 판단할 때 UGC 인용 비중과 AEO 조작 가능성을 고려해야 하는 이유다.

기술이 실제로 작동하는 방식

사용자가 AI 검색 결과에서 레딧(개발자 커뮤니티, 온라인 커뮤니티)의 추천 글을 인용해 답변을 받는 과정은 매우 자연스럽게 보인다. 그러나 단 11~15단어 분량의 짧은 문구만으로 AI 에이전트의 출력을 스팸이나 스캠 콘텐츠로 바꿀 수 있다. LLM은 정보의 정확성보다 질의와 어휘적으로 유사한 콘텐츠를 반환하는 경향이 있다.

LLM은 질의와 단어 구성이 비슷한 텍스트를 신뢰 근거로 삼는 어휘적 유사성(lexical similarity, 단어의 표면적 일치도) 구조를 가진다. 11~15단어 정도의 짧은 텍스트가 질의와 매우 유사하게 구성될 경우 LLM은 이를 특히 설득력 있는 정보로 판단한다. 브랜드 홍보성 콘텐츠가 AI 검색 결과를 오염시키는 원인은 정보의 정확성이 아닌 단어의 일치도에 의존하는 이 구조적 약점에 있다.

딥리서치(Deep Research, 심층 검색 시스템)는 10명의 사용자가 구글 검색 후 상위 10개 결과를 직접 읽는 과정을 모사하도록 설계되었다. 이 시스템은 Wikipedia, 개발자 커뮤니티, Quora(지식 공유 플랫폼), StackExchange(전문가 질의응답 사이트) 같은 외부 사이트의 모더레이션(moderation, 콘텐츠 관리)에 신뢰를 위임한다. LLM은 무작위 레딧 댓글과 정부 사이트 기사의 신뢰도를 사실상 동일하게 취급하며, 이로 인해 외부 모더레이션 시스템은 조작 시도로 인한 운영 부담을 겪고 있다.

AI 검색 결과의 신뢰도를 판단할 때는 UGC(User Generated Content, 사용자 생성 콘텐츠)의 인용 비중을 면밀히 고려해야 한다. AI 엔진 최적화(AEO, AI Engine Optimization)를 통해 의도적으로 조작된 콘텐츠가 검색 결과에 반영될 가능성이 상존하기 때문이다.

ChatGPT와 구글 AI 검색이 레딧의 추천 글을 인용하는 모습은 보편적이다. 그러나 단 13단어의 텍스트로 출력을 스팸이나 스캠으로 전환할 수 있다는 점은 LLM이 정확성보다 어휘적 유사성을 신뢰 근거로 삼는 구조적 허점을 증명한다.

AI 검색의 신뢰도는 UGC 인용 비중과 AEO 조작 가능성에 의해 결정된다. 매끄러운 답변의 완성도가 아닌, 인용 소스의 성격과 조작 가능성을 기준으로 결과를 검증해야 한다.