6.8초에서 3.3초로, 로컬 추론 최적화한 Holo3.1 공개

클라우드 비용 제약 해결을 위한 Holo3.1 라인업의 등장

AI 에이전트 도입을 검토하는 개발자들은 클라우드 추론 비용의 부담과 브라우저 내에서만 작동하는 환경적 제약으로 인해 실제 도입에 어려움을 겪는다. Holo3.1은 이러한 제약을 해결하기 위해 Qwen 패밀리를 기반으로 설계되었으며, 웹, 데스크톱, 모바일 환경을 모두 아우르는 범용 컴퓨터 사용 능력을 목표로 한다. 개발팀은 배포 유연성을 확보하기 위해 0.8B, 4B, 9B, 35B-A3B 등 총 4종의 모델 사이즈를 공개했다. 0.8B부터 9B까지의 소형 모델은 비용 효율적인 프라이빗 배포를 타겟으로 하며, 35B-A3B 모델은 최상위 성능을 필요로 하는 복잡한 작업 수행에 최적화되었다. 이를 통해 사용자는 클라우드 추론부터 엔드 유저 기기에서의 완전 로컬 실행까지 워크플로우가 존재하는 모든 곳에 에이전트를 배포할 수 있는 구조를 갖추게 되었다.

AndroidWorld 성능 79.3% 달성과 모바일 제어 능력 확장

Holo3.1은 기존 Holo3가 집중했던 브라우저와 데스크톱 제어를 넘어 모바일 환경에서의 제어 능력을 대폭 강화했다. 개발팀은 모바일 기기, 에이전트 하네스, 실행 프레임워크의 차이로 발생하는 데이터 분포 변화(Distribution Shift) 문제를 해결하여 환경적 견고함을 높였다. 그 결과 모바일 에이전트 성능 측정 벤치마크인 AndroidWorld에서 35B-A3B 모델의 작업 성공률을 기존 67%에서 79.3%로 높였다. 상대적으로 크기가 작은 4B와 9B 변형 모델 역시 성공률을 58%에서 72%로 개선하며 모바일 환경에서의 실질적인 성능 도약을 이뤄냈다. 이러한 성능 향상은 에이전트가 모바일 OS의 복잡한 UI 요소와 상호작용하며 다양한 앱을 제어할 수 있는 기반이 된다.

NVIDIA Model Optimizer 기반 NVFP4 양자화와 로컬 실행 구조

로컬 추론의 효율성을 극대화하기 위해 Holo3.1은 FP8, Q4 GGUF, NVFP4 세 가지 양자화 포맷의 체크포인트를 제공한다. 특히 NVFP4 양자화는 NVIDIA Model Optimizer를 사용하여 W4A16(Weight 4-bit, Activation 16-bit) 구성으로 구현되었다. 가중치는 4비트로 압축해 메모리 사용량을 줄이고 활성화 값은 16비트로 유지해 연산 정밀도 저하를 방지하는 방식이다. 이 체크포인트들은 Windows PC, Apple Silicon 기반 Mac, 그리고 DGX Spark 환경에서 모델을 직접 구동할 수 있게 한다. 에이전트 하네스는 로컬 머신에서 실행되고 모델은 동일 네트워크 내의 DGX Spark나 로컬 기기에서 처리되므로, 모든 데이터 흐름이 사용자 네트워크 내부에서 완결되어 외부 유출 리스크를 차단하는 완전 로컬 실행 구조를 완성했다.

BF16 대비 1.74배 처리량 및 단계별 실행 시간 3.3초 달성

양자화 모델의 도입은 추론 속도와 처리량에서 구체적인 수치 향상으로 이어졌다. DGX Spark 환경에서 NVFP4 모델은 BF16 대비 1.74배, FP8 대비 1.41배 높은 총 토큰 처리량을 기록했다. NVIDIA와 공동 개발한 에이전트 하네스 최적화와 NVFP4 양자화를 결합한 결과, FP8 베이스라인 대비 약 2배의 엔드투엔드 속도 향상을 달성하며 평균 단계 실행 시간을 6.8초에서 3.3초로 단축했다. 정밀도 측면에서는 OSWorld 벤치마크 결과 FP8과 NVFP4 모델이 풀 프리시전인 BF16 체크포인트보다 약 2점 낮은 점수를 기록해, 속도 향상 대비 성능 하락폭을 최소화했다. 또한 vLLM을 적용한 NVFP4 설정은 기본 모드와 패스트 모드 모두에서 가장 높은 요청 처리율(Request rate)을 기록하며 로컬 추론의 병목 현상을 해결했다.

네이티브 함수 호출 지원과 로컬 에이전트 구축 판단 기준

Holo3.1은 서드파티 에이전트 스택과의 통합 유연성을 높이기 위해 기존 JSON 출력 방식 외에 네이티브 함수 호출(Function-calling) 프로토콜 지원을 추가했다. 이커머스, 비즈니스 소프트웨어, 협업 워크플로우를 포함한 내부 벤치마크 결과, 함수 호출과 네이티브 실행 성능은 거의 동일한 수준인 니어 패리티(Near-parity)에 도달했다. 실제 제품 환경인 Holotab 제품 하네스 평가에서도 Holo3.1은 이전 버전인 Holo3 대비 25% 이상의 성능 향상을 기록했다. 이제 개발자는 클라우드 의존 없이 로컬 환경에서 모바일과 데스크톱 제어 에이전트를 구축할 때, 모델 사이즈별 성능 수치와 NVFP4의 토큰 처리량, 단계별 실행 시간을 기준으로 비용과 속도 사이의 타협점을 결정할 수 있다. 이는 하드웨어 리소스 내에서 추론 효율성을 극대화하여 온디바이스 에이전트의 실효성을 판단하는 핵심 기준이 된다.