매일 아침 70B급 거대 언어모델(LLM)을 로컬에서 돌리려는 개발자라면 VRAM 압박을 겪는다. 4비트 양자화는 기본이 됐고, 2비트까지 내려가면 정확도가 급감하는 게 고질적 과제였다.

인텔 오토라운드, 2비트 양자화 정확도 97.9% 달성

인텔 연구팀이 공개한 AutoRound(거대 언어모델과 비전-언어모델을 위한 고급 양자화 툴킷)는 2~4비트 초저비트 폭에서도 높은 정확도를 유지한다. 2025년 3월 출시된 INT2 혼합 정밀도 DeepSeek-R1 모델(약 200GB)은 97.9%의 정확도를 보존했다. 7B 모델 기준 단일 GPU에서 약 10분 만에 양자화를 완료한다. 핵심 기술은 부호 경사 하강법(sign-gradient descent)으로, 미세 조정 없이도 라운딩 오차를 최소화한다.

2025년 12월 공개된 SignRoundV2 논문은 enable_alg_ext 플래그와 AutoScheme API(혼합 정밀도 양자화 구성을 자동 생성하는 도구)를 통해 LLaMA 모델 평가에서 최고 성능을 재현했다. 2025년 11월에는 LLM-Compressor(압축 모델 관리 도구)에 통합됐고, 같은 달 GGUF(LLM 추론용 바이너리 포맷) 양자화 알고리즘도 enable_alg_ext를 통해 개선됐다. 2025년 10월에는 SGLang(고속 LLM 추론 엔진)에 통합됐으며, 혼합 정밀도 스킴 생성 시간을 분 단위로 단축하는 알고리즘도 추가됐다. 2025년 9월에는 MXFP4와 NVFP4 데이터 타입을 지원하고, 8월에는 INT2 알고리즘을 개선했다. 7월에는 GGUF 포맷을 지원했고, 5월에는 vLLM(고성능 LLM 추론 서버)과 트랜스포머스(허깅페이스 모델 라이브러리)에 각각 통합됐다.

bash
auto-round -h

환경변수 설정으로 ModelScope(중국 모델 허브) 다운로드도 지원한다.

bash
export AR_USE_MODELSCOPE=1

블록 단위 FP8 양자화는 다음 명령어로 실행 가능하다.

bash
--scheme FP8_BLOCK --iters 0 --disable_opt_rtn

예전에는 4비트가 한계였지만, 이제는 2비트도 실용 영역

예전에는 4비트 이하 양자화가 정확도 손실을 감수해야 하는 트레이드오프였다. 오토라운드는 2비트에서도 97.9% 정확도를 유지하며 이 기준을 깼다. 경쟁 도구인 AutoGPTQ(4비트 양자화 라이브러리)나 AutoAWQ(가중치 기반 양자화 도구)는 4비트에서 강점을 보이지만, 2비트 영역에서는 오토라운드가 앞선다. 특히 enable_alg_ext 플래그를 켜면 MXFP4와 W2A16(2비트 가중치·16비트 활성화) 스킴에서 추가 개선이 발생한다.

오토라운드는 AutoRound, AutoAWQ, AutoGPTQ, GGUF 등 여러 포맷으로 내보내기를 지원한다. 추론 백엔드도 10개 이상을 자동 감지해 최적을 선택한다. MoE(혼합 전문가 모델)와 비전-언어모델(VLM) 지원은 아직 제한적이지만, 10개 이상의 VLM을 즉시 양자화할 수 있다. 양자화 레시피도 auto-round-best(최고 정확도), auto-round(균형), auto-round-light(최고 속도) 세 가지로 제공된다.

개발자가 바로 체감하는 변화는 추론 엔진 통합이다. vLLM, SGLang, 트랜스포머스와의 통합이 완료돼 별도 변환 과정 없이 양자화 모델을 바로 로드할 수 있다. 2025년 11월 vLLM 블로그와 레드햇 블로그, 10월 LMSYS 블로그에서 각각 사용 사례가 공개됐다. 추론 시 양자화 모델을 수동으로 다른 장치로 옮기면(model.to('cpu')) 예외가 발생할 수 있으므로 주의해야 한다.

2비트 양자화가 LLM 로컬 배포의 새 기준이 될 수 있다는 신호다.