학부 연구생 J씨는 거대 언어 모델을 서비스에 올릴 때마다 모델 크기별로 체크포인트를 따로 저장하고 관리해야 하는 상황에 직면했다. 8B, 30B, 70B 등 다양한 규모의 모델을 지원하기 위해 배포 스택을 각각 구성하고 컴퓨팅 비용을 곱절로 지불하는 과정에서 비효율이 발생한다. 이런 곤란을 겪는 개발자가 늘고 있다.
단일 체크포인트 내 다중 모델 내재화
NVIDIA 연구팀은 Star Elastic(단일 학습으로 여러 크기의 하위 모델을 하나의 체크포인트에 내재화하는 기법)을 제안했다. 이 방식은 Nemotron Nano v3(30B 매개변수를 가진 Mamba-Transformer-MoE 하이브리드 모델)를 기반으로 23B와 12B 변형 모델을 하나의 파일에 담는다. 약 160B 토큰으로 학습된 이 모델들은 추가적인 미세 조정 없이 즉시 추출 가능하다. 중요도 추정(Importance Estimation) 과정을 통해 임베딩 채널, 어텐션 헤드, Mamba SSM(상태 공간 모델) 헤드, MoE(전문가 혼합 모델) 전문가 등 핵심 가중치를 순위별로 정렬하여 작은 모델이 큰 모델의 일부를 재사용하도록 설계했다.
동적 아키텍처 선택과 추론 전략의 변화
예전에는 모델의 크기를 고정하고 추론 과정에서 토큰 생성 개수만 제한하는 방식이 일반적이었다. 이제는 Star Elastic을 통해 추론의 단계별로 모델 규모를 다르게 적용할 수 있다. 연구팀이 제시한 최적의 구성은 ℳS → ℳL(생각 단계에는 작은 모델, 답변 합성 단계에는 큰 모델 사용) 전략이다. 이 방식을 적용하면 기존 Nemotron Nano v3의 기본 제어 방식보다 정확도는 최대 16% 향상되고, 추론 지연 시간은 1.9배 감소한다. 이는 추론 과정의 사고 단계는 모델 용량을 줄여도 성능 저하가 적지만, 최종 답변 생성에는 높은 정밀도가 필요하다는 관찰에 근거한다.
메모리 효율과 양자화 최적화
개발자가 바로 체감하는 변화는 메모리 점유율의 획기적인 감소다. 12B, 23B, 30B BF16 체크포인트를 개별 저장할 경우 총 126.1GB가 필요하지만, Star Elastic을 적용한 단일 체크포인트는 58.9GB로 충분하다. 특히 NVFP4(NVIDIA의 4비트 부동소수점 형식)를 적용한 30B 체크포인트는 18.7GB까지 줄어들어, 일반적인 소비자용 GPU인 RTX 5080에서도 12B 변형 모델을 구동할 수 있는 환경이 조성된다. 양자화 과정에서도 QAD(양자화 인식 증류)를 통해 30B 모델 기준 97.79%의 정확도를 복구하며, 슬라이싱된 하위 모델들의 성능도 안정적으로 유지된다.
모델 배포의 복잡성을 줄이는 것은 단순한 최적화를 넘어 추론 파이프라인의 유연성을 확보하는 핵심 과제가 될 것이다.




