NVIDIA Nemotron 3 Nano Omni, RTX 5090에서 310억 파라미터 구동

매일 아침 개발자 커뮤니티에는 거대 언어 모델의 하드웨어 요구 사양을 낮추기 위한 새로운 시도들이 올라온다. 최근에는 수천억 개의 파라미터를 가진 모델을 어떻게든 개인용 그래픽 카드에 구겨 넣으려는 시도가 주를 이뤘다. 하지만 이번 주, NVIDIA가 공개한 Nemotron 3 Nano Omni는 단순히 모델을 압축하는 수준을 넘어, 310억 개의 파라미터를 가진 멀티모달 모델을 RTX 5090 한 장으로 구동할 수 있는 길을 열어주며 현장의 분위기를 뜨겁게 달구고 있다. 개발자들은 이제 서버실을 빌리지 않고도 로컬 환경에서 비디오, 오디오, 텍스트를 동시에 처리하는 모델을 돌릴 수 있게 되었다.

310억 파라미터와 30억 활성화 파라미터의 효율성

NVIDIA는 이번 모델에 맘바2(Mamba2, 기존 트랜스포머 구조의 연산 효율을 개선한 모델 아키텍처)와 트랜스포머(Transformer, 문맥을 파악하는 AI의 핵심 신경망 구조)를 결합한 하이브리드 구조를 도입했다. 핵심은 전문가 혼합 방식(Mixture of Experts, 전체 파라미터 중 일부만 활성화해 연산량을 줄이는 기술)이다. 전체 파라미터는 310억 개에 달하지만, 실제 토큰 처리 시 활성화되는 파라미터는 30억 개 수준으로 제한된다. 최대 256k 토큰의 컨텍스트 창을 지원하여 방대한 분량의 데이터도 한 번에 처리할 수 있다.

하드웨어 요구사항은 정밀도에 따라 달라진다. BF16 정밀도에서는 H100 80GB 한 장이 필요하며, FP8 정밀도에서는 L40S 48GB에서 구동된다. 가장 주목받는 NVFP4 정밀도를 사용하면 RTX 5090 32GB 한 장으로도 21GB의 메모리 점유율 내에서 모델을 실행할 수 있다. 추론 모드에 따른 설정값은 다음과 같다.

python

Thinking mode

temperature = 0.6

top_p = 0.95

max_tokens = 20480

reasoning_budget = 16384

grace_period = 1024

Instruct mode

temperature = 0.2

top_k = 1

max_tokens = 1024

기존 모델 대비 확장된 멀티모달 추론 환경

예전에는 텍스트와 이미지를 각각 다른 모델로 처리하거나, 거대한 서버급 자원을 투입해야만 멀티모달 분석이 가능했다. 이제는 모델 자체가 시각과 청각 정보를 통합적으로 이해하며, 특히 기본적으로 활성화된 추론 모드(Reasoning mode)를 통해 복잡한 문제 해결 과정을 스스로 수행한다. 이는 광학 문자 인식(OCR, 이미지 속 텍스트를 디지털 문자로 변환하는 기술)과 자동 음성 인식(ASR, 음성을 텍스트로 변환하는 기술)이 결합된 형태다. 개발자들은 이제 별도의 파이프라인 구축 없이도 영상 속 텍스트를 읽고 음성을 분석하는 통합된 워크플로우를 구현할 수 있다.

이러한 변화는 특히 그래픽 사용자 인터페이스(GUI, 사용자가 화면을 통해 컴퓨터와 상호작용하는 환경) 자동화 영역에서 체감된다. AI 에이전트가 브라우저나 이메일 화면을 직접 보고 조작하는 에이전틱 워크플로우(Agentic Workflow, AI가 스스로 판단하여 업무를 수행하는 방식) 구현이 가능해진 것이다. NVIDIA는 Qwen(알리바바가 개발한 오픈 소스 언어 모델 시리즈)과 gpt-oss-120b 등의 데이터를 활용해 성능을 고도화했으며, NVIDIA Open Model Agreement를 통해 상업적 이용의 문턱도 낮췄다.

개발자가 바로 체감하는 변화는 고가의 서버 인프라 없이도 기업용 워크플로우를 로컬에서 검증할 수 있다는 점이다. 고객 서비스 현장에서 배달 영상의 위치를 검증하거나, 금융 문서의 복잡한 내용을 분석하는 작업을 이제는 개인용 워크스테이션 수준에서 처리할 수 있다. 이는 클라우드 비용 문제로 멀티모달 AI 도입을 망설이던 기업들에게 실질적인 대안이 되고 있다. NVIDIA가 제시한 이 모델은 온디바이스 AI(클라우드 연결 없이 기기 자체에서 구동되는 AI)가 단순한 챗봇을 넘어 실무 자동화의 핵심 도구로 자리 잡을 수 있음을 증명한다.

하드웨어 제약을 효율적인 설계로 돌파한 이번 모델은 AI 개발의 무게중심을 서버에서 로컬로 완전히 옮겨놓았다.

NVIDIA Nemotron 3 Nano Omni, RTX 5090에서 310억 파라미터 구동

310억 파라미터와 30억 활성화 파라미터의 효율성

Thinking mode

Instruct mode

기존 모델 대비 확장된 멀티모달 추론 환경

관련 기사