"Understood. Let me know whenever you have a new prompt or question!"

구글의 AI 검색 서비스인 AI 오버뷰(AI Overview)에서 'disregard(무시하다)'라는 단어를 검색했을 때 튀어나온 답변이다. 사전적 정의를 알려줘야 할 AI가 갑자기 엉뚱한 시스템 메시지를 내뱉으며 상황을 종료시킨 해프닝이었다.

하지만 구글 AI의 문제는 이런 일시적인 버그에 그치지 않는다. 정작 자기 회사의 이름인 'Google'에 P가 몇 개 들어있는지 물으면 2개라고 답하고, 'poop'에 r이 몇 개인지 물으면 1개라고 우긴다. 'journalism'이라는 단어를 'journadism'으로 적거나, 미국 대통령의 성에 P가 하나 있다는 사실은 맞혔지만 정작 철자는 'trpum'이라고 쓰는 식이다.

복잡한 앱 코딩을 순식간에 해내고 수학 난제를 푸는 인공지능이, 정작 철자 맞히기에서는 유치원생 수준의 실력을 보여준다. 구글이 29년 역사의 검색 엔진을 생성형 AI 중심으로 교체하겠다고 선언한 시점에서, 이 오답들은 AI가 텍스트를 처리하는 방식에 한계가 있음을 보여준다.

'Google'에 P가 2개? AI 오버뷰의 황당한 오답 노트

무료로 제공되는 검색 서비스라고 해서 그 뒤에 숨겨진 비용까지 공짜인 것은 아니다. 사용자가 검색창에 입력하는 단어와 클릭하는 결과는 인공지능이 세상을 학습하는 데이터 자산이 되지만, 결과물은 때때로 상식 이하의 오류를 범한다.

이러한 현상은 단순히 일시적인 소프트웨어 결함이 아니다. 과거 AI 오버뷰가 사용자들에게 돌을 먹으라고 권하거나 피자에 풀을 붙여 먹으라는 조언을 내놓았던 사례와 맥을 같이 한다. 당시 이 서비스는 레딧(개발자 커뮤니티)이나 디 어니언(The Onion) 같은 풍자 사이트의 농담을 사실인 것처럼 인용했다. 구글은 검색 엔진의 핵심을 생성형 AI로 전면 교체하겠다고 공언했으나, 기본적인 철자 확인조차 제대로 수행하지 못하는 상황이 반복되고 있다.

구글 측은 단어 내의 글자를 세는 작업은 거대언어모델(LLM)이 해결하지 못한 기술적 한계이며, 이를 해결하기 위해 노력 중이라고 밝혔다. 하지만 업계에서는 이 문제가 단순한 버그 수정으로 해결될 성격이 아니라고 본다. 인공지능이 철자 맞히기에서 낮은 정확도를 보이는 것은 언어를 처리하는 방식 자체가 인간과 다르기 때문이다.

인공지능은 인간처럼 낱글자를 조합해 단어를 인식하지 않는다. 대신 텍스트를 '토큰'이라는 수치화된 덩어리로 잘게 쪼개어 처리한다. 예를 들어 'the'라는 단어를 볼 때, 인공지능은 T, H, E라는 세 개의 알파벳을 인식하는 것이 아니라 'the'라는 하나의 고유한 수치 코드만을 기억한다. 이 때문에 단어 내부의 철자 구성이나 개수를 묻는 질문은 인공지능에게 생소한 과제가 된다. 결국 철자 오류는 텍스트를 이해하는 방식에서 발생하는 설계상의 한계다.

글자를 읽지 않고 '숫자 덩어리'로 보는 토큰 구조의 한계

우리는 글자를 읽을 때 낱자 하나하나를 훑으며 단어를 조합한다. 하지만 구글 AI가 사용하는 트랜스포머(Transformer) 모델은 텍스트를 단어나 음절, 혹은 글자 단위의 토큰(데이터 처리 단위)이라는 덩어리로 쪼개서 인식한다. 인코딩(Encoding)을 거치면 개별 글자의 형태는 사라지고 고유한 숫자 값만 남는다. AI는 글자를 읽는 게 아니라 숫자의 배열과 패턴을 계산하며, 이 과정에서 낱자의 순서나 개수 같은 물리적 정보는 사라진다.

알버타 대학교의 매튜 구즈디알(Matthew Guzdial) 교수는 AI가 'the'라는 단어를 접했을 때 이를 하나의 숫자 덩어리로 처리한다고 설명한다. AI는 'the'가 문장에서 어떤 의미로 쓰였는지는 정확히 파악하지만, 그 안에 T, H, E라는 세 개의 글자가 들어있다는 사실은 인지하지 못한다. 단어를 구성하는 부품을 확인하지 않고 완성품에 붙은 이름표만 보고 판단하는 구조다. 숫자로 변환된 데이터 속에서 글자의 개수는 더 이상 유의미한 정보가 아니다.

노스이스턴 대학교의 셰리던 포이히트(Sheridan Feucht) 연구원은 완벽한 토크나이저(Tokenizer)를 만드는 것이 사실상 불가능하다고 말한다. 언어 모델이 방대한 데이터를 빠르게 처리하려면 정보를 적절히 뭉쳐서 인식하는 청킹(Chunking) 과정이 필수적이기 때문이다. AI는 연산 속도와 효율을 높이기 위해 데이터를 더 크게 뭉치려는 경향을 보인다. 철자 오류는 빠른 맥락 파악을 위해 세부 글자 인식을 생략한 설계 결과다.

AI의 유용성은 철자를 정확히 맞히는 능력이 아니라 방대한 데이터 속에서 논리적인 맥락을 찾아내는 힘에서 나온다. 하지만 이런 구조적 맹점은 AI 결과물을 무조건 신뢰할 수 없게 만든다. AI는 정답처럼 보이는 확률적 패턴을 생성할 뿐, 실제 글자 하나하나의 진위는 따지지 않는다. 출력값의 정확성을 확인하기 위해 인간이 다시 한번 교차 검증하는 과정이 필수적인 이유다.