Sonata, LLM 추론 비용 최대 80% 절감하는 적응형 사고 할당 기술

복잡한 수학 문제를 풀거나 논리적 추론을 수행할 때 거대언어모델(LLM)은 정답을 내놓기 전 내부적으로 사고 과정을 거친다. 최근에는 이 사고 과정(Chain-of-Thought, 단계별 추론 과정)을 길게 가져갈수록 성능이 향상된다는 점이 확인되면서, 모델이 얼마나 깊게 생각해야 하는지에 대한 최적화 문제가 핵심 과제로 떠올랐다. 모든 질문에 동일한 연산 자원을 투입하는 것은 비효율적이며, 질문의 난이도에 따라 사고의 깊이를 조절하는 지능적인 자원 배분이 요구되는 시점이다.

Sonata의 작동 원리와 데이터 기반 설계

연구팀은 질문의 난이도를 판단하기 위해 자기 일관성(Self-Consistency, 여러 추론 경로가 동일한 결론에 도달하는지 확인하는 지표)을 활용하는 Sonata(Self-Consistency-Guided Adapter for Thinking Allocation, 질문의 난이도를 예측해 사고 과정을 조절하는 어댑터)를 공개했다. 이 기술은 모델이 질문을 처음 읽는 단계인 프리필링(Prefilling, 입력 토큰을 처리하여 내부 상태를 생성하는 과정) 시점에 마지막 층의 은닉 표현(Hidden Representations, 모델이 데이터를 처리하며 생성하는 내부 수치 정보)을 분석한다. 이를 통해 해당 질문이 얼마나 복잡한지, 즉 추가적인 사고 과정이 필요한지를 예측한다. 연구팀은 오프라인 보정 데이터셋을 통해 이 어댑터를 학습시켰으며, 추론 시점에 거의 제로에 가까운 추가 연산 비용으로 사고 토큰 할당량을 결정한다. 관련 상세 내용은 arXiv 논문에서 확인할 수 있다.

기존 방식과의 차이와 성능 비교

예전에는 모든 질문에 대해 고정된 길이의 사고 과정을 강제하거나, 단순히 모델의 크기를 키워 추론 능력을 보완하는 방식이 주를 이루었다. 그러나 Sonata는 질문마다 필요한 사고의 양을 실시간으로 다르게 적용한다는 점에서 차별화된다. 연구팀은 Qwen3-8B(알리바바가 개발한 80억 개의 매개변수를 가진 언어 모델), GPT-OSS-120B(오픈 소스 기반의 1200억 개 매개변수 모델), Qwen3-235B-A22B, Intern-S1-mini(상하이 인공지능 연구소에서 개발한 경량 추론 모델) 등 다양한 모델을 대상으로 AIME24(미국 수학 올림피아드 예선 문제셋), AIME25, GSM8K(초등 수학 문제셋), MATH500(고등 수학 문제셋), GPQA(전문가 수준의 질문셋) 등에서 성능을 검증했다. 그 결과, 동일한 정확도를 유지하면서도 사고 토큰 사용량을 20%에서 최대 80%까지 줄이는 성과를 거두었다. 반대로 동일한 비용을 투입했을 때는 정확도가 최대 5% 향상되는 결과를 보였다.

개발자와 시장에 미치는 영향

개발자가 바로 체감하는 변화는 추론 비용의 획기적인 절감이다. 기존의 사고 과정 기반 모델들은 긴 추론 시간으로 인해 운영 비용이 높았으나, Sonata를 적용하면 단순한 질문에는 최소한의 사고만 수행하고 복잡한 문제에만 자원을 집중할 수 있다. 이는 특히 실시간 응답이 중요한 서비스나 대규모 API 호출이 빈번한 환경에서 인프라 효율성을 극대화할 수 있는 핵심 기술이다. 또한 이 방식은 기존의 사고 과정 압축 기법들과 상호 보완적으로 작동하므로, 기존 시스템을 교체하지 않고도 추가적인 효율 개선이 가능하다는 점이 주목할 지점이다.

모델의 지능은 단순히 더 많이 생각하는 것이 아니라, 문제의 복잡도에 맞춰 사고의 깊이를 스스로 결정하는 효율성에서 완성된다.

Sonata, LLM 추론 비용 최대 80% 절감하는 적응형 사고 할당 기술

Sonata의 작동 원리와 데이터 기반 설계

기존 방식과의 차이와 성능 비교

개발자와 시장에 미치는 영향

관련 기사