수백 페이지의 계약서와 복잡한 도표, 그리고 설명이 곁들여진 1시간짜리 제품 시연 영상이 한꺼번에 쏟아진다. 분석가는 이 모든 데이터를 하나로 엮어 결론을 내야 하지만, 기존 AI는 텍스트를 읽고 영상을 따로 분석하는 파편화된 작업 방식을 강요했다.

Nemotron 3 Nano Omni의 기술 제원

NVIDIA는 텍스트, 이미지, 오디오를 동시에 처리하는 Nemotron 3 Nano Omni를 공개했다. 이 모델은 다중 문서 처리에서 7.4배, 비디오 처리에서 9.2배 높은 시스템 효율을 기록했다. 모델의 뼈대는 Nemotron 3 Nano 30B-A3B를 사용하며, C-RADIOv4-H 비전 인코더(이미지를 수치로 변환하는 도구)와 Parakeet-TDT-0.6B-v2 오디오 인코더(소리를 수치로 변환하는 도구)가 결합된 구조다.

내부 설계는 세 가지 핵심 요소가 교차 배치되었다. 긴 문맥을 효율적으로 처리하는 23개의 Mamba(상태 공간 모델의 일종으로 연산량을 줄이는 기술) 레이어와 128개의 전문가 모델 중 6개를 선택해 사용하는 23개의 MoE(Mixture of Experts, 필요한 부분만 활성화하는 구조) 레이어가 포함되었다. 여기에 전역적인 상호작용을 유지하는 6개의 그룹 쿼리 어텐션(데이터 간의 관계를 파악하는 메커니즘) 레이어가 더해졌다.

학습은 NVIDIA H100 GPU를 사용해 32개에서 128개 노드 규모로 진행되었다. 전체 스택은 Megatron-LM(대규모 언어 모델 학습 최적화 프레임워크)을 기반으로 구축되었다. 오디오는 16kHz로 샘플링되며, 학습 데이터는 최대 1,200초 분량이다. 모델이 지원하는 최대 문맥 길이는 5시간 이상의 오디오를 수용할 수 있는 수준이다.

통합 모달리티가 바꾼 처리 지형

예전의 VLM(Vision-Language Model, 이미지와 텍스트를 동시에 이해하는 모델) 파이프라인은 오디오와 비디오를 별도로 처리해 나중에 합치는 방식을 썼다. 이제는 오디오, 비디오, 텍스트 토큰이 하나의 공유 시퀀스 내에서 함께 모델링된다. 나레이션이 포함된 화면 녹화 영상에서 음성이 시각적 의미를 바꿀 때, 모델은 이를 실시간으로 통합해 추론한다.

이미지 처리 방식에서도 기준점이 달라졌다. 기존의 타일링(이미지를 격자로 나누어 처리하는 방식) 대신 원본 가로세로 비율을 유지하는 동적 해상도 프로세싱을 도입했다. 이미지당 최소 1,024개에서 최대 13,312개의 시각 패치(이미지를 잘게 나눈 단위)를 사용한다. 이는 금융 표나 연구 논문의 세밀한 수치와 전체 구조를 동시에 파악해야 하는 작업에서 정확도를 높인다.

비디오 처리 효율은 Conv3D(3차원 합성곱, 영상의 시간적 흐름을 함께 처리하는 연산 방식) 튜브렛 임베딩 경로를 통해 구현되었다. 연속된 두 프레임을 하나의 튜브렛으로 융합해 언어 모델이 처리해야 할 비전 토큰 수를 절반으로 줄였다. 여기에 EVS(Efficient Video Sampling, 중복된 영상 토큰을 제거하는 기술)를 적용해 변화가 없는 정적인 토큰은 버리고 동적인 토큰만 유지함으로써 지연 시간을 낮췄다.

개발자가 체감하는 실제 변화는 GUI(Graphical User Interface, 그래픽 사용자 인터페이스) 환경에서의 에이전트 활용 능력이다. 모델은 스크린샷을 해석하고 UI 상태를 모니터링하며, 화면상의 시각적 근거를 바탕으로 다음 행동을 선택한다. 100페이지가 넘는 복잡한 문서의 레이아웃과 표, 수식을 이해하는 능력을 통해 단순 OCR(광학 문자 인식)을 넘어선 문서 추론이 가능해졌다.

이제 AI는 단순한 분석 도구를 넘어 운영체제 위에서 직접 움직이는 실행 주체로 진화한다.