글쓰기 도구로 ChatGPT를 쓰면 문장이 갑자기 유려해진다. 한 블로거가 수학 블로그 운영 과정에서 LLM을 활용해 문장을 다듬은 결과, 특정 문장 구조가 인터넷 전반에 반복적으로 나타나는 'AI 냄새(AI-smell)' 현상을 발견했다.
초기에는 LLM이 생성한 어휘와 문장 구조가 인간의 글보다 우수하다고 판단했다. 하지만 약 3개월 뒤, 동일한 패턴의 문장들이 웹사이트 곳곳에서 공통적으로 발견되는 것을 확인했다. 이는 AI가 보조하는 다양한 작업에서 공통적으로 발생하는 일종의 인공물(artifact)로, 이제는 누구나 쉽게 식별할 수 있는 수준에 이르렀다.
LLM 기반 문장 교정의 초기 효과와 'AI-smell'의 발견
화면 속 문장은 이전과 다를 바 없지만, 그 문장을 다듬는 방식은 완전히 바뀌었다. 작년 말부터 수학 블로그를 운영하기 시작한 한 작성자는 자신의 원고를 다듬고 강화하기 위해 거대언어모델(LLM)을 활용했다. 초기 단계에서 LLM이 내놓은 결과물은 작성자 본인의 초안보다 확연히 뛰어난 품질을 보였다. 문장에는 더 풍부한 어휘가 사용되었고, 이전에는 시도하지 않았던 흥미로운 문장 구조가 곳곳에 배치되었다. 당시 작성자는 이러한 변화를 기술적 도약으로 받아들였으며, 결과물에서 기계적인 느낌이나 인위적인 흔적을 전혀 감지하지 못했다.
사용 시작 후 약 3개월이 지나자 상황은 반전되었다. 작성자가 LLM을 통해 생성한 문장 구조들이 인터넷 전반에서 동일한 형태로 반복해서 나타나기 시작했다. 특정 도메인이나 주제에 국한되지 않고 웹상의 수많은 게시물에서 유사한 문법적 패턴과 어휘 선택이 관찰된 것이다. 이는 단순히 우연한 일치가 아니라, 모델이 학습한 데이터의 편향과 최적화 알고리즘이 빚어낸 구조적 결과물로 확인되었다.
이러한 현상은 흔히 AI 냄새(AI-smell)라고 불리는 식별 가능한 패턴으로 고착되었다. AI 냄새는 인공지능 보조 도구를 활용하는 다양한 작업군에서 공통으로 발생하는 일종의 흔적이다. 작성자가 수집한 사례들을 보면, 수학 블로그를 포함한 여러 분야의 초안에서 동일한 문체적 특성이 발견된다. 초기에는 유려한 문장으로 보였던 것들이 결과적으로는 정형화된 틀을 벗어나지 못하고 있음이 드러난 셈이다. 결국 LLM의 문체는 단기적인 품질 향상이라는 착시를 제공하지만, 장기적으로는 누구나 쉽게 알아챌 수 있는 특유의 반복적 패턴을 남긴다.
작성자는 직접 운영하던 수학 블로그의 게시물을 모두 삭제하고, 자신이 생성했던 초안과 최종 결과물을 대조하며 이 현상을 분석했다. 그가 수집한 데이터는 인공지능이 생성한 텍스트가 어떻게 인간의 언어 습관을 잠식하고 표준화하는지를 보여주는 구체적인 근거가 된다. 이제는 문장을 읽을 때 특정 구조가 반복되면 그것이 기계의 개입으로 생성되었음을 직관적으로 알 수 있는 단계에 이르렀다. 기술의 도입이 초기에는 문장의 질적 향상을 가져오는 듯 보였으나, 결과적으로는 인터넷상의 언어적 다양성을 해치는 정형화된 패턴을 양산하고 있다.
AI-smell: 다양한 AI 보조 작업에서 나타나는 공통 인공물
글을 읽다가 어느 순간 기계가 쓴 것 같다는 느낌을 받는다. 한 사용자가 수학 블로그를 운영하며 LLM(대규모 언어 모델)으로 문장을 다듬은 결과, 초기에는 어휘력과 문장 구조가 개선되어 품질이 높아졌다고 판단했다. 그러나 3개월 뒤 인터넷 전반에서 동일한 문장 구조가 반복적으로 나타나는 것을 확인했다. 특정 모델의 개별적 특성이 아니라 생성형 AI가 텍스트를 처리하는 방식에서 기인한 공통 패턴이다. 사용자가 처음에는 고급스럽다고 느꼈던 문체적 특징이 시간이 지나며 보편적인 AI의 흔적으로 인식되는 과정이다.
AI-smell은 단순한 출력 오류가 아니라 AI 보조 작업 과정에서 발생하는 인공물(artifact)로 정의된다. 인공물은 원래 의도하지 않았으나 공정 과정에서 부수적으로 생성된 결과물을 의미하며, AI-smell 역시 텍스트 최적화라는 목적을 달성하는 과정에서 부수적으로 따라오는 문체적 지문과 같다. 이는 모델이 학습한 데이터의 확률적 분포에 따라 가장 효율적이라고 판단한 특정 문체나 연결어의 조합이 반복되는 현상이다. 개발자가 프롬프트를 수정해 톤앤매너를 조정하더라도 모델이 지향하는 최적의 문장 구조라는 틀을 완전히 벗어나지 못할 때 발생한다. 특정 모델의 성능 부족이나 일시적인 버그가 아니라 AI가 텍스트를 생성하는 구조적 특성에서 비롯된 결과다.
이 패턴은 수학 블로그와 같은 전문 영역부터 일반적인 웹 콘텐츠까지 도메인을 가리지 않고 공통적으로 나타난다. 사용자는 이제 텍스트의 논리적 완결성과 별개로 AI 특유의 정형화된 호흡과 단어 선택을 통해 AI의 개입을 즉각적으로 인식한다. 이는 최근 인터넷에 범람하는 AI-slop(AI가 생성한 저품질 콘텐츠)과 유사한 맥락에서 인식되며 콘텐츠의 신뢰도를 떨어뜨리는 요인이 된다. 정교하게 다듬어진 문장이 오히려 AI의 흔적으로 읽히는 역설이 발생하며 이는 정보의 출처와 진위 여부를 판단하는 새로운 기준이 된다.
실무 차원에서 AI-smell은 콘텐츠의 차별성을 없애는 제약 사항으로 작용한다. 많은 사용자가 AI를 통해 글의 완성도를 높이려 하지만 결과적으로는 모두가 비슷한 문체를 공유하게 되며 이는 브랜드 고유의 목소리를 지우는 결과를 초래한다. 기업이 AI를 이용해 대량의 마케팅 문구를 생성할 때 발생하는 정형화된 패턴은 소비자에게 즉각적인 거부감을 준다. 벤치마크 수치상의 점수 향상이 실제 사용자가 체감하는 질적 가치로 이어지지 않는 지점이 바로 여기다. AI가 제안하는 최적의 문장이 역설적으로 가장 식별하기 쉬운 표식이 되어 텍스트의 개성을 제거한다.
LLM의 정형화된 문체는 확률적 최적화가 낳은 필연적 결과다. RLHF를 통한 정렬 과정에서 발생하는 패턴의 단순화는 출력의 안정성을 확보했으나, 텍스트의 개성을 지우는 부작용을 남겼다. 인간의 문체와 AI의 패턴 사이의 간극은 단순한 데이터 증량만으로 해결되지 않는다. 결국 차세대 모델의 성패는 벤치마크 수치가 아닌, 이 정형성을 얼마나 정교하게 탈피하느냐에서 결정된다.




