AWS GovCloud, 보안 경계 내 OpenAI GPT OSS 및 엔비디아 네모트론 공개

AWS GovCloud(US)에 도입된 OpenAI 및 NVIDIA 모델 스펙

"보안 규정 준수를 위해 최신 AI 모델 도입을 전면 보류하라"는 국방 보안 책임자의 단호한 지시는 그동안 공공 부문 AI 도입의 가장 큰 걸림돌이었다. 민감한 데이터를 다루는 정부 기관은 성능보다 데이터 유출 방지가 우선인 환경에서 상용 AI의 폐쇄적인 구조와 보안 취약점에 부딪혀왔다. 이러한 제약을 해결하기 위해 AWS GovCloud(US) 내 Amazon Bedrock(AWS의 완전 관리형 파운데이션 모델 서비스)에서 OpenAI GPT OSS 및 NVIDIA Nemotron 오픈 웨이트 모델을 사용할 수 있게 되었다.

이번 출시로 도입된 모델 라인업은 OpenAI의 `gpt-oss-120b`와 `gpt-oss-20b`, 그리고 NVIDIA Nemotron Nano 9B v2, Nano 12B v2, Nano 30B, Super 120B로 구성된다. OpenAI GPT OSS 모델은 텍스트를 입력받아 텍스트를 생성하는 텍스트-투-텍스트 모델로, 추론과 에이전트 작업 및 개발자 업무에 최적화되었다. gpt-oss-120b는 1,200억 개의 매개변수를 가진 모델로 고도의 추론이 필요한 범용 프로덕션 환경에 적합하다. gpt-oss-20b는 200억 개의 매개변수를 사용하여 지연 시간을 낮춰야 하는 특수 목적이나 로컬 환경에 최적화된 성능을 낸다.

GPT OSS 모델군은 공통적으로 128K 토큰의 컨텍스트 윈도우를 제공한다. 컨텍스트 윈도우는 모델이 한 번에 처리할 수 있는 텍스트의 양을 의미하며, 이를 통해 방대한 양의 문서를 한꺼번에 분석할 수 있다. 출력 토큰은 최대 16K까지 지원한다. 모델의 가중치(Weight, AI 모델의 학습된 파라미터 값)가 공개된 오픈 웨이트 방식이기에, 조직은 모델을 배포하기 전 아키텍처를 독립적으로 평가하고 자체 벤치마크를 실행해 동작을 검증할 수 있다.

AWS GovCloud(US)는 미국 시민이 관리하며 물리적으로 미국 내에 위치한 격리된 리전(Region, AWS 서비스가 제공되는 지리적 영역)을 통해 데이터를 관리한다. 이번 모델 도입은 FedRAMP High(미 연방 정부의 클라우드 보안 인증 표준)와 DoD SRG(미 국방부 클라우드 컴퓨팅 보안 요구사항 가이드) Impact Level 2, 4, 5를 준수한다. 또한 ITAR(국제 무기 거래 규정)와 CJIS(형사 사법 정보 서비스) 프레임워크를 충족하여 미 정부 기관과 국방 및 정보 커뮤니티, 그리고 이들을 지원하는 계약 업체들이 요구하는 엄격한 보안 및 컴플라이언스 기준을 만족한다.

제로 오퍼레이터 액세스와 통합 API 작동 방식

0명, 즉 단 한 명의 운영자도 데이터에 접근할 수 없다. 이것이 제로 오퍼레이터 액세스(Zero Operator Access, 운영자 접근 제로) 설계의 핵심이다. AWS나 모델 제공자, 심지어 고객사 운영자조차 추론 프롬프트나 결과값에 물리적으로 접근할 수 없는 구조다. 이 설계는 차세대 추론 엔진의 모델 배포 계정 격리(Model Deployment Account isolation, 모델을 실행하는 계정을 완전히 분리하는 기술)를 통해 구현된다. 정부 기관은 이를 AWS GovCloud(US)의 물리적 격리 경계와 결합하여 데이터 유출 가능성을 원천적으로 차단하는 보안 기반을 확보한다.

시스템 구조는 하부의 추론 엔진과 상부의 엔드포인트(접속 지점)로 명확히 구분된다. 엔진이 실제 연산을 수행하는 인프라라면, `bedrock-mantle`은 애플리케이션이 엔진에 요청을 보내기 위해 사용하는 OpenAI 호환 HTTPS API 엔드포인트다. 개발자는 OpenAI Python 및 TypeScript SDK를 그대로 활용해 Chat Completions와 Responses API를 호출하여 모델과 통신한다. 이는 기존의 AI 애플리케이션 코드를 거의 수정하지 않고도 오픈 웨이트 모델로 전환할 수 있는 강력한 호환성을 제공한다.

AWS 생태계의 기능을 온전히 활용하려면 `bedrock-runtime` 엔드포인트를 사용한다. 이 지점에서는 AWS SDK를 통해 Converse 및 InvokeModel API를 호출하여 모델을 구동하며, 특히 대화형 인터페이스 구축에 최적화된 기능을 제공한다. 특히 Amazon Bedrock의 내장 기능인 Guardrails(AI 응답 가드레일, 모델의 응답이 정책이나 보안 규정을 위반하지 않도록 필터링하는 기능)를 직접 연결할 수 있다. 보안 정책 준수가 최우선인 국방 및 정보 기관은 이 엔드포인트를 통해 모델의 출력을 실시간으로 제어하고 검증한다.

모델 운영에 필요한 인프라 관리 부담은 완전히 제거되었다. 사용자는 GPU 프로비저닝(GPU 자원 할당 및 설정)이나 복잡한 모델 배포 프로세스, 가속기 최적화에 대한 전문 지식을 갖출 필요가 없다. 모든 추론 과정은 Amazon Bedrock이 관리하는 완전 관리형 인프라 위에서 API 호출만으로 즉시 실행된다. 인프라 구축과 최적화라는 물리적 단계가 생략됨에 따라, 기관은 모델의 성능 평가와 실무 적용이라는 본질적인 작업에만 집중할 수 있다.

NVIDIA Nemotron과 OpenAI GPT OSS의 역할 대비

고도의 논리적 추론이 필요한 분석 업무와 빠른 응답 속도가 생명인 실시간 제어 업무는 서로 다른 모델 설계 방향을 요구한다. NVIDIA Nemotron은 컴퓨팅 효율성과 정확도에 최적화된 SLM(소형 언어 모델) 및 LLM(대형 언어 모델) 라인업을 통해 자원 효율성을 극대화한다. 이 모델군은 특수 목적의 에이전트 AI 시스템에서 연산 비용을 낮추면서도 정밀한 결과값을 내는 데 집중한다. 하드웨어 자원이 제한적인 환경에서도 특정 도메인의 정확도를 확보하려는 요구사항에 최적화된 구성이다.

OpenAI GPT OSS는 복잡한 논리 전개와 개발자 작업에 최적화된 텍스트-투-텍스트(텍스트를 입력받아 텍스트를 출력하는 방식) 모델의 특성을 가진다. 추론 과정에서 투입되는 노력 수준을 조정할 수 있으며 외부 도구와의 통합을 지원해 에이전트 작업의 완성도를 높인다. 고도의 추론이 필요한 범용 프로덕션 환경부터 저지연이 필수적인 특수 목적 환경까지 용도에 맞게 모델을 선택해 사용할 수 있다. 작업의 복잡도에 따라 모델 체급을 결정함으로써 운영 비용과 성능 사이의 균형점을 찾는 구조다.

두 모델 가족의 공통점은 오픈 웨이트(Open-weight, 모델의 학습 결과인 가중치 값이 공개된 형태) 방식으로 제공된다는 점이다. 조직은 공개된 가중치를 바탕으로 모델 아키텍처를 독립적으로 평가하고, 발행된 모델 카드를 검토하며 자체적인 벤치마크를 실행해 실제 업무 환경에서의 성능을 직접 검증할 수 있다. 이는 모델 내부 동작을 투명하게 확인해야 하는 정부 기관의 리스크 평가 기준을 충족하는 핵심 요소다. 보안 팀이 배포 전 모델의 행동을 직접 검토함으로써 제로 트러스트(내외부의 모든 접근을 신뢰하지 않고 매번 검증하는 보안 원칙) 원칙을 실무에 적용할 수 있다.

실제 정부 및 국방 워크로드에서는 모델의 특성에 따라 처리 업무를 분리해 배정한다. 자동 보안 제어 평가나 정책 준수 확인처럼 엄격한 기준과 투명한 검증이 필요한 작업에는 오픈 웨이트 모델의 아키텍처 분석 능력을 활용한다. 여러 문서에 흩어진 정보를 하나로 모으는 다중 문서 정보 합성이나 계약 및 획득 분석과 같이 방대한 텍스트 데이터에서 논리적 연결 고리를 찾아내야 하는 업무에는 고성능 추론 모델을 배치한다. 각 모델의 강점을 워크로드 성격에 맞춰 분리 배치함으로써 보안 규정을 준수하는 동시에 업무 자동화의 정밀도를 높이는 판단 기준을 제공한다.

워크로드 특성에 따른 3가지 서비스 티어

비싼 자원을 무조건 많이 투입해야만 빠른 응답을 얻을 수 있다는 상식은 모든 상황에 적용되지 않는다. Amazon Bedrock은 워크로드의 성격과 요구되는 응답 속도에 따라 선택할 수 있는 세 가지 서비스 티어를 제공해 운영 효율을 높인다. 기본 설정인 Standard 티어는 온디맨드(On-demand, 예약 없이 필요할 때 즉시 사용하는 방식) 추론을 수행한다. 사용자는 미리 컴퓨팅 용량을 확보하거나 인프라를 예약할 필요 없이 실제 사용한 토큰당 비용만 지불하면 된다. 이는 사용량 예측이 어렵거나 초기 실험 단계에 있는 워크로드에서 불필요한 고정비 지출을 막고 유연하게 자원을 사용하는 효율적인 선택지가 된다.

실시간 응답이 필수적인 고객 접점 워크로드는 Priority 티어를 사용해 지연 시간을 최소화한다. 사용자와 AI가 직접 상호작용하는 서비스의 경우 응답 속도가 곧 사용자 경험으로 이어지기에 개별 요청을 이 티어로 라우팅해 처리 우선순위를 확보한다. 반면 시간 제약이 없는 모델 평가나 배치 요약(Batch summarization, 대량의 데이터를 한꺼번에 처리하는 작업) 같은 업무는 Flex 티어를 활용한다. Flex 티어는 처리 속도보다 비용 절감이 우선인 작업에 최적화된 저비용 옵션으로, 대규모 데이터를 처리할 때 발생하는 비용 부담을 크게 낮춘다. 운영자는 작업의 긴급도와 예산 상황에 따라 티어를 전략적으로 분리함으로써 인퍼런스(Inference, 모델이 입력값을 바탕으로 결과값을 내놓는 추론 과정) 환경의 비용과 성능 균형을 맞출 수 있다.

모든 추론 과정은 AWS GovCloud(US) 경계 내에서만 처리된다. 데이터 거주성(Data Residency, 데이터가 물리적으로 저장 및 처리되는 위치)을 엄격히 유지하기 위해 글로벌 교차 리전 추론은 지원하지 않는다. 글로벌 교차 리전 추론은 요청을 전 세계의 상용 AWS 리전으로 분산해 처리량을 높이는 방식이지만, 보안 규정이 엄격한 정부 기관 환경에서는 데이터가 미국 외부의 물리적 경계를 벗어날 위험이 있다. 따라서 모든 요청과 응답은 미국 내 물리적 위치와 미국 시민이 관리하는 격리된 환경 내에서만 머물며, 단일 리전 또는 지리적 교차 리전(Geo cross-Region) 옵션 내에서만 작동한다. 이러한 설계는 데이터 유출 우려를 원천적으로 차단하면서도 오픈 웨이트 모델의 투명성과 성능을 실제 미션 시스템에 적용할 수 있는 명확한 판단 기준이 된다.

한국 공공·국방 AI 실무자를 위한 시사점

민감한 국가 데이터를 외부로 유출하지 않고 최신 AI를 실무에 적용할 방법이 있을까? AWS GovCloud (US)는 미국 시민이 관리하는 격리된 리전을 통해 이 문제를 해결한다. Amazon Bedrock에서 제공하는 OpenAI GPT OSS와 NVIDIA Nemotron 모델의 추론 과정은 모두 이 경계 내부에서만 수행된다. 데이터 거주성(특정 지리적 경계 내에 데이터를 저장하고 처리하는 원칙)을 확보해 민감 데이터를 외부로 이동시키지 않고도 고성능 모델을 활용할 수 있는 구조다. 보안 규정이 엄격한 공공 기관이나 국방 분야에서 데이터가 물리적 경계를 벗어나지 않는 조건은 타협 불가능한 필수 요구사항이다. 이러한 격리 환경은 데이터 유출 우려를 원천적으로 차단하면서도 상용 수준의 AI 성능을 확보하려는 조직에 구체적인 참조 모델을 제시한다.

모델이 내부적으로 어떻게 동작하는지 알 수 없는 상황에서 어떻게 보안 검증을 수행할까? 이번에 도입된 모델들은 가중치(모델이 학습을 통해 얻은 수치 데이터)가 공개된 오픈 웨이트 방식이다. 조직은 모델을 실제 시스템에 배포하기 전, 모델 아키텍처를 직접 평가하고 자체 보유한 대표 워크로드로 벤치마크를 실행해 동작을 검증할 수 있다. 이는 아무것도 신뢰하지 않고 모든 접근과 동작을 검증하는 제로 트러스트(Zero Trust) 원칙을 AI 도입 과정에 적용하는 방식이다. 보안 팀이 모델의 응답 특성과 잠재적 리스크를 사전에 정밀하게 평가함으로써 조직 차원의 리스크 평가를 수행하고 도입 단계의 불확실성을 제거할 수 있다. 투명성이 보장된 모델을 통해 배포 전 단계에서 모델의 거동을 직접 확인하는 과정은 공공 AI의 신뢰성을 높이는 핵심 장치가 된다.

특정 모델에 종속되어 나중에 더 좋은 모델이 나와도 코드를 전부 고쳐야 하는 상황을 어떻게 방지할까? Amazon Bedrock은 서로 다른 제공자의 모델을 하나의 통합 API로 호출하는 환경을 제공한다. 특히 `bedrock-mantle` 엔드포인트(API 접속 지점)를 사용하면 OpenAI 호환 API 형식을 그대로 유지하며 모델만 교체할 수 있다. 개발자는 애플리케이션 코드 수정 없이 모델의 파라미터 규모나 추론 성능에 따라 특정 유스케이스에 최적화된 모델을 선택해 적용하는 유연성을 얻는다. 이러한 구조는 기술 변화가 빠른 AI 환경에서 특정 벤더에 갇히지 않고 성능과 비용 효율성을 지속적으로 최적화할 수 있는 실무적 기반이 된다. 통합 API를 통해 모델 교체 비용을 최소화하면서도 최신 오픈 웨이트 모델의 성능을 즉각적으로 실무에 투입할 수 있는 판단 기준을 제공한다.

데이터 유출 우려로 최신 AI 도입을 보류하던 공공과 국방 기관은 이제 보안 경계 내부에서 오픈 웨이트 모델의 투명성과 성능을 동시에 확보할 수 있게 되었다. 제로 오퍼레이터 액세스로 접근 권한을 완전히 제거하고 bedrock-mantle 엔드포인트로 통합 API 환경을 구축한 것은 보안 규정 준수와 기술적 유연성을 동시에 달성한 결과다.

결국 도입의 성패는 모델의 명성이 아니라 워크로드 특성에 맞는 서비스 티어와 모델의 논리적 추론 능력을 정교하게 매칭하는 판단 기준에 달려 있다. 본문에서 다룬 모델별 강점과 티어별 성능 지표를 바탕으로 실무 시스템에 최적화된 모델을 선택해 즉각 투입하는 것이 가장 효율적인 전략이다.