벤치마크로 확인된 거대 모델의 환각률

모델의 파라미터(매개변수) 숫자가 많을수록 지능이 높아진다는 업계의 상식과 다른 결과가 나타났다. 최근 공개된 AA-Omniscience(범용 지식 측정 벤치마크) 결과, GPT-5.5의 환각률(hallucination rate, AI가 허위 정보를 사실처럼 말하는 현상)이 86%에 달했다. 모델 규모가 커졌음에도 정답 생성 능력보다 거짓 정보를 생성하는 빈도가 더 높게 나타난 것이다.

1.6T(조) 개의 파라미터를 보유한 DeepSeek V4 Pro는 환각률이 94%까지 치솟았다. 이 모델은 49B(십억) 개의 활성 파라미터와 44점의 AA Intelligence Index(AA 지능 지수) 점수를 기록했다. 반면 GLM-5.2는 28%, Opus 4.8은 36%, Fable 5는 48%의 환각률을 기록했다. 파라미터 규모가 가장 큰 모델들이 오히려 낮은 진실성을 보이며 모델 크기와 성능의 상관관계가 낮음을 보여주었다.

미국 정부는 국가 안보를 이유로 Claude Fable 5의 사용을 출시 3일 만에 제한했다. 단 한 번의 제일브레이크(jailbreak, AI의 안전 가드레일을 우회하는 공격) 위험이 국가 안보에 리스크가 된다고 판단한 결과다. 이는 미국 정부가 국가 안보를 근거로 AI 사용을 금지한 최초의 사례다.

오픈 웨이트 모델 GLM-5.2의 효율성과 추론 능력

Z.ai가 MIT 라이선스로 가중치를 공개한 GLM-5.2는 753B 파라미터를 보유했으며, 실제 연산에 쓰이는 활성 파라미터는 약 40B 수준이다. 이 모델은 벤치마크에서 GPT-5.5와 4점, Fable 5와 9점 차이로 근접한 성능 점수를 기록했다. 1.5~2배 더 큰 것으로 추정되는 폐쇄형 모델과 오픈 웨이트 모델의 격차가 좁혀지며 지능 상승 폭이 둔화되었음을 보여준다.

추론의 정확도에서도 차이가 나타났다. 1.6T 파라미터의 DeepSeek V4 Pro는 복잡한 파이썬 문제 테스트에서 추론 토큰을 10배 가까이 더 소모하고도 오답을 내놓았다. 반면 GLM-5.2는 12초의 시간과 약 800개의 추론 토큰만으로 정답을 도출했다. 시스템 폴링을 활용하거나 제어권을 양보하지 않은 상태에서 단일 스레드 작업이 멀티플렉싱 I/O를 실행하는 것이 기술적으로 불가능하다는 점을 정확히 인식한 결과다. 이는 모델의 물리적 크기가 추론의 정확도나 논리적 오류 인식 능력을 보장하지 않음을 증명한다.

규모의 경제를 넘어선 새로운 성능 지표의 필요성

파라미터 수와 학습 데이터를 무한하게 늘리는 스케일링(scaling) 방식의 한계가 드러나고 있다. 모델 크기를 키워도 지능이 정체되거나 오히려 악화되는 경향이 나타나며, 벤치마크 점수가 실제 정답률을 보장하지 못하는 사례가 늘고 있다.

이에 따라 LLM 도입의 기준은 원시 역량, 불확실성 보정 및 환각률, 계산 효율성이라는 세 가지 요소의 균형을 맞추는 '트릴레마' 해결로 이동하고 있다. 특히 불확실성 보정(Uncertainty Calibration)은 모델이 자신의 답변이 얼마나 정확한지 스스로 판단하여 확신도를 조절하는 능력으로, 실제 환경에서의 신뢰성을 확보하는 핵심 지표가 된다.

결국 AI의 실질적 지능은 파라미터의 양이 아니라, 자신의 오답 가능성을 제어하는 정밀함에서 결정된다. 단순한 모델 규모가 아닌 불확실성 보정 능력을 중심으로 모델을 검토해야 하는 이유다.

단순한 벤치마크 점수나 모델 규모가 아닌 불확실성 보정 능력을 도입의 핵심 지표로 삼아야 하는 이유다. AI의 실질적 지능은 이제 파라미터의 양이 아니라 자신의 오답 가능성을 제어하는 정밀함에서 결정된다.