중국 웨이보(Sina Weibo) 연구팀이 30억 파라미터
어제는 신기하게 느껴졌던 기술이 오늘은 어느새 기본 사양이 되는 일이 흔하다. 똑똑한 AI를 만들려면 수천억 개의 파라미터, 즉 AI의 뇌세포 역할을 하는 연결 고리가 많아야 한다는 믿음이 업계의 상식처럼 통했다. 뇌세포가 많을수록 더 복잡한 생각을 할 수 있다는 논리였다. 하지만 중국 웨이보(Sina Weibo) 연구팀은 단 30억 개의 파라미터만으로 구성된 VibeThinker-3B 모델을 발표하며 이 공식에 의문을 던졌다.
연구팀은 arXiv에 올린 14페이지 분량의 기술 보고서를 통해 이 소형 모델이 구글, 오픈AI, 앤스로픽(Anthropic), 딥시크(DeepSeek) 같은 대형 모델과 대등하거나 오히려 더 뛰어난 추론 성능을 보였다고 주장했다. 비교 대상인 플래그십 시스템들은 VibeThinker-3B보다 수백 배나 더 큰 규모를 가진 거대 모델들이다. 덩치는 훨씬 작지만 머리 쓰는 능력은 비슷하거나 더 좋다는 뜻이다. 특히 이 모델은 수억 원대 서버 장비 없이 일반 소비자용 노트북에서도 구동할 수 있을 만큼 가볍다.
AI 커뮤니티에서는 이 놀라운 성적표를 두고 뜨거운 논쟁이 벌어졌다. 일부는 적은 자원으로 고성능을 구현한 획기적인 돌파구라고 평가하며 환영했다. 반면 AI 성능을 측정하는 벤치마크가 정답을 맞히는 요령만 익히면 점수를 올릴 수 있을 정도로 조작 가능해졌다는 깊은 회의론도 제기된다. 시험 공부를 한 게 아니라 정답지를 외운 것 아니냐는 의심이다. 진정한 과학적 진보인지, 아니면 벤치마크라는 시험 체계가 의미를 잃은 것인지에 대한 의구심이 팽팽하게 맞서고 있다.
수학 시험에서 94.3점을 기록했다
똑똑한 AI를 만들려면 수천억 개의 파라미터(AI의 뇌세포 역할을 하는 연결 고리)가 필요하다는 믿음이 지배적이었다. VibeThinker-3B는 AIME 2026 수학 시험에서 94.3점을 기록하며 이 상식을 깼다. 6710억 파라미터 규모인 DeepSeek V3.2와 동등한 수준이며, 구글의 Gemini 3 Pro가 받은 91.7점을 앞선 수치다. 정답 도출 과정의 각 단계가 믿을만한지 검증하는 Claim-Level Reliability Assessment 기술을 적용하면 점수는 97.1점까지 올라간다.
연구팀은 파라미터 압축-커버리지 가설(Parametric Compression-Coverage Hypothesis)을 통해 이 현상을 설명한다. 수학처럼 정답이 명확한 추론 능력은 적은 양의 연결 고리로도 구현 가능한 파라미터 밀집형 능력이라는 주장이다. 반면 일반적인 상식 같은 오픈 도메인 지식은 방대한 정보를 담기 위해 넓은 범위의 연결 고리가 필요한 파라미터 확장형 능력이다. 실제로 VibeThinker-3B는 수학과 코딩에서는 뛰어나지만, 지식 측정 지표인 GPQA-Diamond 벤치마크에서는 대형 모델보다 낮은 점수를 기록했다.
알리바바의 Qwen2.5-Coder-3B 모델을 기초로 삼아 4단계 학습 과정을 거쳤다. 학습 데이터의 범위를 좁혀 핵심 신호를 찾아내는 Spectrum-to-Signal Principle을 적용했다. 특히 모델이 현재 가진 능력의 경계에 있는 문제를 우선적으로 학습하게 만드는 MGPO(MaxEnt-Guided Policy Optimization) 알고리즘을 사용했다. 정답이 명확한 추론 작업에 한해 거대 모델 대신 이런 초소형 모델을 도입하면 운영 비용을 획기적으로 줄일 수 있다.
AI의 뇌세포 역할을 하는 파라미터가 많아야만 똑똑하다는 믿음은 이제 옛말이다. VibeThinker-3B는 추론 능력만 따로 떼어내 압축할 수 있다는 가능성을 증명했다. 상식 같은 넓은 지식은 여전히 거대 모델이 필요하지만, 정답이 정해진 수학이나 코딩 같은 작업은 초소형 모델로도 충분하다.
이제는 무조건 큰 모델을 고집하기보다 내가 해결하려는 문제가 정답이 명확한 추론 작업인지부터 따져봐야 한다. 이 기준 하나로 불필요한 지출을 막으면서 최상위권의 성능을 확보할 수 있다. 결국 AI의 경쟁력은 모델의 크기가 아니라 목적에 맞는 최적의 압축률에서 결정된다.



