매일 아침 70B급 거대 언어모델(LLM)을 로컬에서 돌리려는 개발자라면 VRAM 압박을 겪는다. 4비트 양자화는 기본이 됐고, 2비트까지 내려가면 정확도가 급감하는 게 고질적 과제였다.
인텔 오토라운드, 2비트 양자화 정확도 97.9% 달성
인텔 연구팀이 공개한 AutoRound(거대 언어모델과 비전-언어모델을 위한 고급 양자화 툴킷)는 2~4비트 초저비트 폭에서도 높은 정확도를 유지한다. 2025년 3월 출시된 INT2 혼합 정밀도 DeepSeek-R1 모델(약 200GB)은 97.9%의 정확도를 보존했다. 7B 모델 기준 단일 GPU에서 약 10분 만에 양자화를 완료한다. 핵심 기술은 부호 경사 하강법(sign-gradient descent)으로, 미세 조정 없이도 라운딩 오차를 최소화한다.
2025년 12월 공개된 SignRoundV2 논문은 enable_alg_ext 플래그와 AutoScheme API(혼합 정밀도 양자화 구성을 자동 생성하는 도구)를 통해 LLaMA 모델 평가에서 최고 성능을 재현했다. 2025년 11월에는 LLM-Compressor(압축 모델 관리 도구)에 통합됐고, 같은 달 GGUF(LLM 추론용 바이너리 포맷) 양자화 알고리즘도 enable_alg_ext를 통해 개선됐다. 2025년 10월에는 SGLang(고속 LLM 추론 엔진)에 통합됐으며, 혼합 정밀도 스킴 생성 시간을 분 단위로 단축하는 알고리즘도 추가됐다. 2025년 9월에는 MXFP4와 NVFP4 데이터 타입을 지원하고, 8월에는 INT2 알고리즘을 개선했다. 7월에는 GGUF 포맷을 지원했고, 5월에는 vLLM(고성능 LLM 추론 서버)과 트랜스포머스(허깅페이스 모델 라이브러리)에 각각 통합됐다.
auto-round -h환경변수 설정으로 ModelScope(중국 모델 허브) 다운로드도 지원한다.
export AR_USE_MODELSCOPE=1블록 단위 FP8 양자화는 다음 명령어로 실행 가능하다.
--scheme FP8_BLOCK --iters 0 --disable_opt_rtn예전에는 4비트가 한계였지만, 이제는 2비트도 실용 영역
예전에는 4비트 이하 양자화가 정확도 손실을 감수해야 하는 트레이드오프였다. 오토라운드는 2비트에서도 97.9% 정확도를 유지하며 이 기준을 깼다. 경쟁 도구인 AutoGPTQ(4비트 양자화 라이브러리)나 AutoAWQ(가중치 기반 양자화 도구)는 4비트에서 강점을 보이지만, 2비트 영역에서는 오토라운드가 앞선다. 특히 enable_alg_ext 플래그를 켜면 MXFP4와 W2A16(2비트 가중치·16비트 활성화) 스킴에서 추가 개선이 발생한다.
오토라운드는 AutoRound, AutoAWQ, AutoGPTQ, GGUF 등 여러 포맷으로 내보내기를 지원한다. 추론 백엔드도 10개 이상을 자동 감지해 최적을 선택한다. MoE(혼합 전문가 모델)와 비전-언어모델(VLM) 지원은 아직 제한적이지만, 10개 이상의 VLM을 즉시 양자화할 수 있다. 양자화 레시피도 auto-round-best(최고 정확도), auto-round(균형), auto-round-light(최고 속도) 세 가지로 제공된다.
개발자가 바로 체감하는 변화는 추론 엔진 통합이다. vLLM, SGLang, 트랜스포머스와의 통합이 완료돼 별도 변환 과정 없이 양자화 모델을 바로 로드할 수 있다. 2025년 11월 vLLM 블로그와 레드햇 블로그, 10월 LMSYS 블로그에서 각각 사용 사례가 공개됐다. 추론 시 양자화 모델을 수동으로 다른 장치로 옮기면(model.to('cpu')) 예외가 발생할 수 있으므로 주의해야 한다.



