3B 소형 모델이 Opus 4.5 추론 성능을 추월했다

발표에서 확인된 핵심 사실

보통 소형 AI 모델은 가벼운 채팅이나 간단한 요약 정도에만 쓴다고 생각한다. 복잡한 수학 문제나 코딩처럼 깊은 사고가 필요한 영역은 덩치가 큰 거대 모델의 전유물이었기 때문이다. 하지만 3B 파라미터 규모의 소형 밀집 모델 VibeThinker-3B는 정답이 명확한 추론 영역에서 플래그십 모델 수준의 성능을 증명하며 이 상식을 깼다. 작은 덩치로도 충분히 똑똑할 수 있다는 가능성을 수치로 보여준 것이다.

VibeThinker-3B는 30억 개의 파라미터(AI의 뇌세포 역할을 하는 연결 고리)만으로 검증 가능한 추론 능력을 어디까지 압축할 수 있는지 실험하기 위해 설계됐다. 모든 계산에 전체 파라미터를 사용하는 밀집 모델 구조를 택해 소형 모델이 가질 수 있는 성능 한계를 끝까지 밀어붙였다. 정답이 하나로 정해진 수학이나 코딩 같은 논리 연산 체계를 작은 모델에 얼마나 효율적으로 담아낼 수 있는지 확인하는 것이 이번 실험의 핵심이다.

실제 성능 지표는 프론티어급 모델들과 견줄 만하다. 수학 평가인 AIME26에서 94.3점을 기록했고, CLR(정답을 다시 검토해 수정하는 기법)을 적용하면 97.1점까지 올라간다. 코딩 능력도 뛰어나 LiveCodeBench v6 Pass@1에서 80.2점을, 최근 공개되지 않은 LeetCode 콘테스트 수락률에서는 96.1%를 달성했다. 지시 사항을 얼마나 정확히 따르는지 측정하는 IFEval에서도 93.4점을 기록하며 엄격한 제어 성능을 유지했다.

이번 결과는 무조건 모델 크기를 키우지 않고도 특정 추론 영역에서는 충분히 강력한 성능을 낼 수 있음을 보여준다. 추론 전용 소형 모델을 활용해 인프라 비용을 획기적으로 낮추면서도 고성능 논리 연산 체계를 구축할 수 있는 실질적인 가능성을 확인했다.

기술이 실제로 작동하는 방식

소형 모델은 성능이 낮아 간단한 비서 업무나 단순 작업용으로만 쓴다는 것이 일반적인 상식이다. 하지만 3B라는 매우 작은 파라미터(모델의 지능 규모를 결정하는 매개변수) 규모를 가진 VibeThinker-3B는 수학과 코딩처럼 정답이 명확한 추론 영역에서 이 상식을 깼다. DeepSeek V3.2, GLM-5, Gemini 3 Pro 같은 거대 플래그십 모델과 대등하거나 오히려 더 높은 성능대에 진입했다. 모델의 크기는 훨씬 작지만 논리적인 문제 해결 능력만큼은 최상위권 모델들과 경쟁할 수 있는 수준에 도달했다.

이런 효율적인 성능을 가능하게 만든 핵심은 CLR(Claim-Level Reliability Assessment)이다. 이는 모델이 답을 내놓는 순간에 각 단계의 주장이 얼마나 믿을만한지 평가해 연산 자원을 배분하는 테스트 타임 스케일링(답변 생성 시점에 연산량을 조절하는 방식) 전략이다. 정답을 찾기 위해 생각하는 시간을 유동적으로 늘려 논리적 허점을 메우는 기술이다. 실제로 CLR을 적용하자 수학 문제 해결 능력을 측정하는 AIME26 점수가 94.3점에서 97.1점으로 상승하며 실질적인 성능 향상을 증명했다.

추론 전용 소형 모델의 가능성은 인프라 비용을 획기적으로 낮추는 길을 제시한다. 굳이 수천억 개의 파라미터를 가진 거대 모델을 운용하지 않고도 고성능 논리 연산 체계를 구축할 수 있기 때문이다. 적은 자원으로도 플래그십 모델급의 추론 성능을 낼 수 있다는 점은 AI 도입 시 겪는 비용 부담을 줄이면서도 고도의 지능적 업무를 수행할 수 있는 판단 기준이 된다.

확인해야 할 핵심 지점

복잡한 수학 문제나 코딩을 풀 때 굳이 거대한 모델을 써야만 할까? VibeThinker-3B는 30억 개의 파라미터 규모로도 수학과 코딩 같은 검증 가능한 추론 영역에서 플래그십 모델의 성능을 넘어섰다. 소형 모델은 단순 작업에만 쓰인다는 상식을 깬 결과다.

이런 성능은 Spectrum-to-Signal이라는 사후 학습 방식에서 나왔다. 학습 데이터의 난이도를 단계별로 조절해 가르치는 커리큘럼 기반 지도 미세조정(SFT)과 여러 분야에서 정답을 맞히며 보상을 받는 다중 도메인 강화학습, 그리고 모델이 스스로 생성한 최선의 결과물을 다시 학습하는 오프라인 자기증류를 하나로 묶었다. 이전 1.5B 모델에서 시도한 확장 흐름을 그대로 이어받아 정교하게 다듬은 설계다.

여기에는 Parametric Compression-Coverage Hypothesis라는 가설이 깔려 있다. 정답이 명확해 검증 가능한 추론 능력은 작은 추론 핵심 영역에 압축해서 넣을 수 있지만, 세상의 방대한 지식을 담는 범용 역량은 더 넓은 파라미터 공간이 필요하다는 관점이다. 소형 모델을 거대 모델의 단순한 대체재가 아니라, 특정 기능에 특화된 보완 경로로 보는 해석이다.

추론 전용 소형 모델을 적재적소에 활용하면 인프라 비용을 획기적으로 낮출 수 있다. 고성능 논리 연산 체계를 효율적으로 구축할 수 있는 실질적인 방법을 확인한 셈이다.

소형 모델은 단순 작업용이라는 상식이 VibeThinker-3B의 등장으로 뒤집혔다. 데이터의 핵심 신호를 정밀하게 추출해 학습시키는 파이프라인을 통해 3B 규모의 작은 체급으로도 플래그십 모델의 추론 능력을 넘어섰다.

이제는 무조건 거대한 모델을 고집하기보다, 논리 연산이 필요한 지점에 추론 전용 소형 모델을 배치해 비용과 성능의 균형을 잡는 전략이 유효하다. AI 인프라의 효율성을 결정하는 기준이 모델의 크기에서 추론 최적화 능력으로 옮겨갔다.

3B 소형 모델이 Opus 4.5 추론 성능을 추월했다

발표에서 확인된 핵심 사실

기술이 실제로 작동하는 방식

확인해야 할 핵심 지점

관련 기사