"Much easier to understand model progress when it"라고 한 기술 평론가 티보 멜렌(Thibaut Mélen)이 X(구 트위터)에 남긴 글이다. 그는 수많은 모델의 성능이 적힌 거대한 표를 보며 갈피를 잡지 못하던 상황에서, 정규분포 곡선으로 시각화한 AI IQ의 방식이 훨씬 직관적이라고 평가했다. 이제 인공지능의 성능을 단순히 벤치마크 점수가 아니라 우리가 익숙한 지능 지수라는 틀로 바라보기 시작했다.

50개 모델을 정규분포 곡선에 배치한 AI IQ

엔지니어이자 투자자인 라이언 셰이(Ryan Shea)가 만든 aiiq.org는 50개가 넘는 최신 언어 모델을 인간의 IQ 벨 커브(정규분포 곡선) 위에 배치했다. 2026년 5월 중순 기준으로 OpenAI의 GPT-5.5가 추정 IQ 136을 기록하며 정점에 올랐다. 그 뒤를 Anthropic의 Opus 4.7(약 132), GPT-5.4(약 131), Google의 Gemini 3.1 Pro(약 131)가 바짝 추격하며 최상위권 모델들의 격차가 매우 좁아진 모습이다.

점수를 매기는 방식은 12개의 벤치마크(성능 측정 시험)를 네 가지 추론 영역으로 나누어 평균을 내는 식이다. 추상적 추론은 ARC-AGI-1과 ARC-AGI-2(패턴 인식 능력 시험)를, 수학적 추론은 FrontierMath, AIME, ProofBench(수학 문제 해결 능력 시험)를 활용한다. 프로그래밍 추론에는 Terminal-Bench 2.0, SWE-Bench Verified, SciCode(코드 작성 및 수정 능력 시험)가 쓰였으며, 학술적 추론은 Humanity's Last Exam, CritPt, GPQA Diamond(고난도 학술 지식 시험) 점수를 반영했다.

계산 과정에서는 수동으로 조정된 난이도 곡선을 적용해, 데이터 오염 가능성이 높거나 상대적으로 쉬운 시험이 점수를 과하게 올리지 못하도록 상한선을 뒀다. 데이터가 부족한 모델은 보수적으로 처리해 점수를 깎는 방식을 택했다. 중위권에서는 중국계 모델들의 약진이 눈에 띈다. Kimi K2.6, GLM-5, DeepSeek-V3.2, Qwen3.6, MiniMax-M2.7 같은 모델들이 IQ 112에서 118 사이에 밀집해 있어, 기업 사용자들이 가성비 좋은 모델을 선택할 수 있는 지표가 된다.

단순 점수 나열에서 지능의 입체적 분석으로

예전에는 모델의 성능을 확인하려면 수십 개의 항목이 적힌 거대한 표를 일일이 대조해야 했다. 하지만 AI IQ는 이를 하나의 숫자로 압축해 인간의 지능 수준과 직접 비교하게 만들었다. 쉽게 말하면, 전교 1등의 수학 점수와 영어 점수를 따로 보는 대신 이 학생의 전체적인 지능 지수가 어느 정도인지 한눈에 보여주는 방식이다.

여기서 더 나아간 지점은 EQ(정서적 지능) 점수를 도입했다는 것이다. EQ-Bench 3 Elo(모델의 공감 및 정서 이해도 측정 지표)와 Arena Elo(사용자 투표 기반의 상대적 순위 점수)를 50대 50 비율로 섞어 산출한다. IQ만 봤을 때는 GPT-5.5가 앞서지만, IQ와 EQ를 동시에 나타낸 산점도에서는 Anthropic의 Opus 4.7이 우상단 영역에 위치하며 가장 균형 잡힌 모델로 평가받았다.

개발자와 연구자들 사이에서는 우려의 목소리도 크다. AI의 능력은 특정 분야에서는 천재적이지만 다른 분야에서는 엉뚱한 답을 내놓는 들쭉날쭉한 특성이 강하기 때문이다. 비유하자면, 특정 과목만 만점인 학생을 전체 지능이 높다고 단정 짓는 것이 위험하다는 지적이다. 특히 EQ-Bench 3의 채점을 Anthropic의 모델인 Claude(클로드, 텍스트 생성 AI)가 수행한다는 점은 자사 모델에 유리한 편향성이 생길 수 있다는 논란을 낳았다.

결국 AI의 지능을 숫자로 정의하려는 시도는 정교한 측정 도구의 탄생보다 모델을 바라보는 우리의 관점을 단순화하려는 욕망에 가깝다.