자연어 정책 입력으로 해결한 도메인별 안전 기준 최적화

AI 서비스 운영자는 의료 플랫폼, 금융 챗봇, 아동 교육 앱 등 서비스 성격에 따라 서로 다른 위험 프로필과 안전 기준을 적용해야 하는 운영상의 번거로움을 겪어왔다. 기존 시스템은 단일한 범용 안전 분류 체계에 의존했기에 특정 산업군이 요구하는 세밀한 제어를 위해서는 매번 모델을 새로 튜닝하거나 복잡한 필터 체인을 설계해야 했다.

엔비디아의 Nemotron 3.5는 추론 시점에 자연어로 작성된 맞춤형 정책 사양(Custom Policy Specification)을 직접 입력받아 판정하는 방식을 도입했다. 모델은 내장된 분류 체계에 전적으로 의존하는 대신, 입력값과 함께 제공된 맞춤형 정책을 기반으로 유해성을 추론한다. 운영자가 텍스트로 정책 가이드라인을 수정하면 모델이 이를 즉시 반영해 판정 결과에 적용하므로, 별도의 파인튜닝 과정 없이도 비즈니스 요구사항에 맞는 안전 가드레일을 실시간으로 구축할 수 있다. 이는 안전 기준의 제어권을 모델 학습 단계에서 추론 단계로 완전히 옮겨 기업의 운영 효율을 극대화한 결과다.

Gemma 3 기반 4B 파라미터 구조와 저사양 GPU 배포 환경

Nemotron 3.5의 기술적 구현은 구글의 Gemma 3 4B IT 모델을 기반으로 하며, 4B 파라미터 구조와 128K의 넓은 컨텍스트 윈도우를 탑재했다. 엔비디아는 이 베이스 모델에 LoRA(저차원 적응, Low-Rank Adaptation) 어댑터를 적용해 타겟팅된 안전 분류 동작을 학습시켰다. 모델 전체의 가중치를 업데이트하는 대신 일부 파라미터만 조정하는 방식을 통해 모델 크기를 콤팩트하게 유지하면서도 실시간 배포가 가능한 최적화 구조를 완성했다.

이러한 경량화 설계 덕분에 개발자는 8GB 이상의 VRAM을 갖춘 GPU만으로도 도메인 특화 안전 필터를 실시간으로 구축하고 운영할 수 있다. 고가의 하이엔드 인프라나 외부 클라우드 API에 의존하지 않고 엣지 디바이스나 소규모 내부 서버에서 독자적인 안전망을 구동할 수 있게 된 것이다. 결과적으로 하드웨어 제약을 제거함으로써 데이터 유출 민감도가 높은 금융이나 공공 분야 엔터프라이즈 환경에서 안전 모델의 배포 진입장벽을 획기적으로 낮췄다.

텍스트·이미지·응답을 통합 처리하는 멀티모달 및 다국어 확장성

Nemotron 3.5는 사용자 프롬프트, 선택적 이미지, 그리고 어시스턴트의 응답을 단일 컨텍스트 윈도우에 한꺼번에 넣고 처리하는 통합 구조를 채택했다. 기존 안전 필터가 텍스트와 이미지를 독립적으로 검사해 점수를 매겼던 것과 달리, 세 가지 요소를 하나의 맥락으로 읽어내어 최종 판정을 내린다. 이를 통해 텍스트나 이미지 단독으로는 무해하지만 둘이 결합했을 때만 발생하는 정책 위반 사항이나, 요청과 응답 사이의 상호작용에서 나타나는 유해성을 단일 패스로 포착할 수 있다.

글로벌 배포를 위한 언어 확장성 역시 강화했다. 한국어, 영어, 프랑스어, 스페인어, 독일어, 중국어, 일본어, 아랍어, 힌디어, 러시아어, 포르투갈어, 이탈리아어 등 총 12개 언어를 명시적으로 학습했다. 이에 더해 Gemma 3 베이스 모델의 능력을 상속받아 약 140개 언어에 대한 제로샷 일반화를 지원한다. 학습 데이터가 부족한 동남아시아, 북유럽, 아프리카 지역 언어에서도 별도 튜닝 없이 안전 필터를 작동시킬 수 있어, 국가별로 개별 모델을 구축해야 했던 글로벌 운영 비용을 크게 절감했다.

씽크 모드와 2단계 최적화를 통한 추론 과정의 투명성 확보

모든 안전 판정 결과에는 감사 가능한 리즈닝 트레이스(Reasoning Trace)를 생성할 수 있는 '씽크(Think) 모드'가 제공된다. 이 모드를 활성화하면 모델은 최종 안전/위험 라벨을 출력하기 전, 어떤 논리적 단계를 거쳐 결론에 도달했는지 단계별 추론 과정을 먼저 작성한다. 이는 AI 응답의 안전성을 검증하고 판정 근거를 문서화해야 하는 규제 준수 환경에서 필수적인 감사 증적으로 활용된다.

상세한 추론 과정으로 인해 발생하는 지연 시간 문제는 대형 모델을 활용한 2단계 최적화 공정으로 해결했다. 1단계에서는 Qwen 397B 모델을 사용해 프롬프트와 이미지, 응답을 기반으로 상세한 생각의 사슬(Chain-of-Thought) 트레이스를 생성하고, 2단계에서는 Qwen 80B 모델이 이를 3문장 이내의 간결한 요약문으로 재구성한다. 이를 통해 토큰 소비를 줄이면서도 추론의 핵심 내용은 보존했다. 운영자는 서비스 요구 사양에 따라 '저지연 이진 판정(Mode 1)', '카테고리가 포함된 이진 판정(Mode 2)', '추론 과정이 포함된 씽크 모드(Mode 3)' 중 최적의 모드를 선택해 배포할 수 있다.

Aegis 2.0 표준 준수와 오픈소스 안전 데이터셋의 공개

Nemotron 3.5의 안전 분류 체계는 Aegis 2.0 프레임워크를 준수하며, 13개 핵심 카테고리와 10개 세부 카테고리로 구성되었다. 이 표준 정렬을 통해 다른 오픈소스 및 폐쇄형 가드 시스템과 성능을 직접 비교할 수 있는 객관적 기준을 확보했다. 또한 엔비디아는 모델 학습에 사용된 'Nemotron 3.5 Content Safety Dataset'을 공개했다. 이 데이터셋은 멀티모달 및 다국어 데이터를 포함하며, 특히 모델이 정답을 도출하기까지의 단계별 추론 트레이스를 함께 담아 오픈소스 안전 모델의 블랙박스 문제를 해결했다.

성능 검증을 위해 VLGuard, MM-SafetyBench, PolyGuard, RTP-LX, Aya Redteaming, XSafety, MultiJail, Aegis, Dynaguardrail, CoSA 등 10종의 벤치마크를 활용했다. Nemotron 3.5는 멀티모달 유해 콘텐츠 테스트에서 Nemotron 3가 기록한 평균 정확도 84%의 베이스라인을 유지하면서도, 지연 시간은 LlamaGuard-4-12B 대비 약 절반 수준으로 단축했다. 이는 4B 파라미터의 콤팩트한 효율성을 유지하면서도 엔터프라이즈급의 정밀한 판정 능력과 실시간 응답 속도를 동시에 달성했음을 입증한다.