추론 4.6배·인덱싱 10배 가속, AWS가 공개한 NVIDIA Blackwell 기반 인프라

PoC 성공 이후 마주하는 생산 AI의 확장성 장벽

AI 개발 팀은 프로토타입 단계의 개념 증명(PoC, 아이디어의 실현 가능성을 검증하는 단계)에서는 소규모 자원으로 성공적인 결과를 얻지만, 이를 실제 서비스 규모로 확장하는 과정에서 막대한 GPU 비용과 인프라 관리의 어려움이라는 장벽에 부딪힌다. 대규모 AI 시스템을 구축하기 위해서는 저지연 추론과 빠른 벡터 검색, 그리고 운영 복잡성을 증가시키지 않으면서도 확장 가능한 인프라가 필수적이다. 특히 인프라 관리자가 직접 GPU 플랫폼을 구축하고 유지보수하는 과정에서 발생하는 운영 오버헤드는 AI 모델의 성능 최적화라는 본질적인 작업에 투입될 자원을 분산시키는 원인이 된다.

기업들은 서비스 규모가 커질수록 추론 속도를 유지하기 위해 무조건 서버 대수를 늘리는 오버프로비저닝(Over-provisioning, 실제 필요보다 많은 자원을 미리 할당하는 것) 전략을 취해왔으며, 이는 곧 TCO(Total Cost of Ownership, 제품 구매부터 유지보수까지 드는 총 소유 비용)의 급격한 상승으로 이어진다. 이러한 제약 사항은 AI 프로젝트가 계획 단계에서 실제 생산 단계로 효율적으로 전환되는 것을 방해하는 핵심 요소로 작용한다. 결국 생산 단계의 AI 인프라는 성능 향상과 동시에 운영 부담을 최소화하는 방향으로 진화해야 한다.

AWS의 대응: EC2 G7 인스턴스와 cuVS 기반 OpenSearch

AWS는 생산 AI 인프라를 강화하기 위해 NVIDIA RTX PRO 4500 Blackwell Server Edition GPU를 탑재한 Amazon EC2 G7 인스턴스를 출시했다. EC2(Elastic Compute Cloud)는 사용자가 필요에 따라 가상 서버를 생성하고 확장할 수 있는 클라우드 컴퓨팅 서비스다. G7 인스턴스는 AI 추론, 그래픽, 공간 컴퓨팅 및 GPU 가속 데이터 분석 워크로드를 통합 지원하도록 설계되었다. 여기서 공간 컴퓨팅은 디지털 정보와 물리적 공간을 결합해 상호작용하게 하는 기술을 의미한다.

동시에 AWS는 Amazon OpenSearch Serverless의 기본 컴퓨팅 선택지로 NVIDIA cuVS 라이브러리를 적용했다. NVIDIA cuVS는 GPU 가속 벡터 검색 라이브러리로, 대량의 벡터 데이터를 빠르게 처리하고 검색하는 기능을 제공한다. OpenSearch Serverless는 사용자가 인프라를 직접 관리하지 않고도 검색 및 분석 기능을 사용할 수 있는 서버리스 환경이다. AWS는 이 통합을 통해 GPU 기반 벡터 검색을 특수한 최적화 프로젝트가 아닌 표준 클라우드 기능으로 전환하여, 개발자가 원천 데이터에서 생산 준비가 된 AI 검색 인프라로 이동하는 경로를 단축했다.

G6 대비 4.6배 추론 성능과 10배 빠른 벡터 인덱싱

Amazon EC2 G7 인스턴스는 이전 세대인 G6 인스턴스와 비교해 AI 추론 성능을 최대 4.6배, 그래픽 성능을 최대 2.1배 향상시켰다. 추론은 학습된 AI 모델이 새로운 입력 데이터에 대해 결과값을 출력하는 연산 과정이다. 또한 Amazon EMR 상의 Apache Spark 워크로드는 NVIDIA cuDF 라이브러리를 통해 데이터 분석 속도를 높였다. EMR은 빅데이터 프레임워크를 실행하는 관리형 클러스터 서비스이며, cuDF는 GPU를 활용해 표 형태의 데이터를 빠르게 처리하는 라이브러리다.

Amazon OpenSearch Serverless는 CPU 전용 빌드 대비 벡터 인덱싱 속도를 최대 10배 높였으며, 운영 비용은 25% 수준으로 절감했다. 벡터 인덱싱은 텍스트나 이미지를 수치화한 벡터 데이터에서 유사 항목을 빠르게 찾도록 색인을 생성하는 작업이다. 이러한 성능 향상은 검색 증강 생성(RAG, 외부 지식을 검색해 답변의 정확도를 높이는 기술), 시맨틱 검색, 추천 시스템 및 에이전트 AI 애플리케이션의 데이터 처리 단계를 가속한다. 특히 서버리스 스케일링 구조를 통해 워크로드가 유휴 상태일 때 발생하는 운영 오버헤드를 자동으로 제거하여 자원 효율성을 극대화했다.

1~8개 GPU 구성과 10억 건 규모 벡터 DB의 실무적 기준

AWS는 고객이 워크로드 규모에 맞게 인프라를 최적화할 수 있도록 G7 인스턴스에서 1개, 2개, 4개, 8개의 GPU 구성 옵션을 제공한다. 이는 무분별한 자원 할당을 막고 모델 크기와 추론 요청량에 따라 자원을 세밀하게 조정하는 실무적 기준이 된다. G7 인스턴스는 최대 256GB의 총 GPU 메모리를 지원하여 대규모 파라미터 모델의 저지연 추론을 가능하게 하며, 가상화 단계가 없는 베어메탈(Bare metal) 옵션도 곧 출시될 예정이다.

데이터 전송 효율을 위해 G7 인스턴스는 700 Gbps의 EFA(Elastic Fabric Adapter, 고성능 네트워크 인터페이스) 네트워킹과 최대 7.6TB의 로컬 NVMe SSD 스토리지를 탑재했다. 고대역폭 네트워크와 빠른 로컬 스토리지는 데이터 분석 파이프라인과 벡터 데이터베이스 워크로드의 로딩 시간을 줄여 전체 처리 속도를 높인다. 이를 통해 실무자는 10억 건 규모의 대규모 벡터 데이터베이스를 1시간 이내에 구축할 수 있는 현실적인 인프라 환경을 확보하게 되었다.

NVIDIA GB300 Exemplar Cloud 지위와 생태계 통합

AWS는 대규모 학습 워크로드의 신뢰성을 보장하기 위해 NVIDIA GB300 모델에 대해 NVIDIA Exemplar Cloud 지위를 획득했다. Exemplar Cloud는 NVIDIA가 제시하는 레퍼런스 아키텍처(표준 설계 도면)의 성능 기준을 엄격하게 충족한 클라우드 환경을 의미한다. AWS와 NVIDIA 팀의 공동 엔지니어링으로 달성한 이 지위는 개발자와 AI 리더가 일관된 고성능 인프라를 사용하여 TCO를 개선하고, AI 프로젝트를 계획 단계에서 생산 단계로 더 효율적으로 전환할 수 있게 한다.

현재 G7 인스턴스는 AWS Deep Learning AMIs(Amazon Machine Images, 최적화된 서버 이미지), Deep Learning Containers, Amazon EMR, Amazon EKS, Amazon ECS 및 그래픽 AMIs를 통해 즉시 사용 가능하다. 또한 머신러닝 모델 구축 및 배포 서비스인 Amazon SageMaker AI에서도 곧 지원될 예정이다. 이러한 생태계 통합은 인프라 설정에 드는 운영 공수를 줄이고, 모델 학습부터 배포까지의 전체 파이프라인에서 일관된 하드웨어 가속 환경을 유지함으로써 실제 서비스 적용 속도를 높이는 실질적인 이득을 제공한다.