SageMaker AI, 컨테이너 캐싱 도입으로 생성형 AI 확장 속도 2배 개선

Amazon SageMaker AI, 신규 인스턴스 확장 속도 최대 2배 향상

클라우드 서비스의 진짜 비용은 매달 청구되는 이용료보다 사용자가 응답을 기다리며 낭비하는 시간에 더 크게 결정된다. 서비스 이용자가 갑자기 몰리는 시점에 발생하는 수 분의 지연은 단순한 불편을 넘어 고객 이탈이라는 직접적인 수익 손실로 이어진다. Amazon SageMaker AI는 이러한 생성형 AI 모델의 확장 시 발생하는 엔드투엔드 지연 시간을 최대 2배까지 줄이는 컨테이너 이미지 캐싱 기능을 출시했다. 이는 트래픽 급증으로 인해 새로운 서버 인스턴스를 추가로 실행해야 하는 상황에서 발생하는 초기 구동 지연, 즉 콜드 스타트 문제를 해결하기 위한 조치다. 인스턴스가 생성되고 실제 추론 요청을 처리하기까지 걸리는 전체 시간을 단축함으로써 서비스의 연속성을 보장한다.

생성형 AI 모델을 운영하다 보면 트래픽 양에 따라 서버 수를 자동으로 늘리는 확장 과정이 필수적이다. 일반적으로 새로운 인스턴스가 실행될 때는 Amazon ECR(Elastic Container Registry, AWS의 컨테이너 이미지 저장소)에서 해당 모델을 구동할 컨테이너 이미지를 다운로드하는 과정이 선행되어야 한다. 이번에 도입된 캐싱 기능은 이 다운로드 단계를 제거하여 신규 인스턴스가 준비되는 속도를 획기적으로 높였다. 특히 사용자가 직접 구축한 커스텀 이미지를 포함해 Amazon ECR에 호스팅된 모든 이미지를 지원하며, 기존에 사용하던 컨테이너 내부 설정을 수정하거나 코드를 변경할 필요가 전혀 없다. 이는 엔지니어가 인프라 최적화를 위해 모델 이미지의 구조를 다시 설계해야 하는 번거로움을 없애준다.

해당 기능은 SageMaker AI 추론이 지원되는 모든 상용 AWS 리전에서 즉시 사용할 수 있다. 적용 대상은 가속기 인스턴스 유형의 SageMaker 추론 엔드포인트로, GPU와 같은 고성능 연산 자원을 사용하는 환경에 최적화되어 있다. 생성형 AI 워크로드는 모델의 크기가 매우 크고 이를 구동하기 위한 컨테이너 이미지 역시 무겁기 때문에, 네트워크를 통해 이미지를 매번 가져오는 과정이 전체 확장 시간의 상당 부분을 차지해 왔다. 이번 업데이트는 이러한 네트워크 대역폭의 경합과 다운로드 병목 현상을 제거하여 인스턴스 생성부터 실제 서비스 투입까지의 시간을 단축한다. 결과적으로 하드웨어 자원이 할당된 후 소프트웨어 환경이 준비되는 시간을 최소화한다.

운영자 관점에서 가장 큰 이점은 기존의 배포 파이프라인이나 컨테이너 이미지 구조를 변경하지 않고 설정만으로 가용성을 확보할 수 있다는 점이다. 인스턴스 확장 속도가 빨라지면 갑작스러운 요청 증가에도 서비스 응답 시간이 일정하게 유지되는 예측 가능성을 얻게 된다. 이는 생성형 AI 서비스가 실제 상용 환경에서 요구하는 높은 수준의 서비스 수준 협약(SLA, 서비스 제공자가 고객에게 약속하는 품질 수준)을 달성하는 데 필요한 기술적 토대가 된다. 결과적으로 인프라 관리자는 리소스 확장 지연으로 인한 서비스 품질 저하 우려 없이 모델의 규모를 유연하게 조정하며 사용자에게 일관된 경험을 제공할 수 있다.

이미지 풀링 단계 제거와 전용 캐시 구조

사용자가 갑자기 몰려 서버를 늘려야 할 때, 정작 모델이 로딩될 때까지 서비스가 멈추는 콜드 스타트 현상을 겪는다. SageMaker AI는 신규 인스턴스를 실행할 때 컨테이너 이미지 다운로드 단계를 제거해 이 지연을 없앴다. 이미지 풀링은 모델을 실행하기 위한 소프트웨어 환경인 컨테이너 이미지를 원격 저장소에서 가져오는 과정이다. 기존 시스템에서는 이 이미지 풀링과 모델 아티팩트 다운로드가 병렬로 진행되었다. 모델 아티팩트는 모델의 추론에 필요한 가중치와 설정 파일의 집합이다. 두 작업이 동시에 수행되더라도 이미지의 크기가 수십 기가바이트에 달하면 네트워크 대역폭을 서로 점유하려 경쟁하는 경합이 발생한다. 이 과정에서 발생하는 병목은 전체 인스턴스 시작 시간을 늦추는 주된 원인이 된다. 이미지 풀링 단계를 캐시로 대체해 제거하면 네트워크 경합이 사라져 인스턴스 준비 속도가 비약적으로 빨라진다.

캐시된 이미지가 존재하지 않는 예외 상황에서는 Amazon ECR에서 이미지를 다시 가져오는 폴백 메커니즘이 자동으로 작동한다. 폴백은 시스템의 주 경로에 문제가 생겼을 때 예비 수단으로 전환하여 서비스 연속성을 유지하는 방식이다. Amazon ECR은 AWS에서 제공하는 컨테이너 이미지 저장소 서비스다. 캐시 서버에 요청한 이미지가 없더라도 저장소에서 직접 풀링하여 인스턴스를 생성하므로 확장 프로세스가 완전히 차단되는 일이 없다. 이는 캐시 적중 여부와 관계없이 인프라의 확장성을 보장하는 안전장치다. 결과적으로 관리자는 캐시 상태를 일일이 확인하지 않고도 안정적인 스케일아웃 환경을 운영할 수 있다.

단일 고객 엔드포인트마다 전용 캐시를 할당하는 구조를 통해 엄격한 테넌트 격리를 유지한다. 테넌트 격리는 다수의 사용자가 공유 인프라를 사용하더라도 논리적, 물리적으로 데이터를 분리해 보안을 강화하는 기술이다. 이 구조에서는 서로 다른 AWS 계정 간 혹은 동일 계정 내의 서로 다른 엔드포인트 간에 캐시를 공유하지 않는다. 특정 고객이 SageMaker AI 엔드포인트를 삭제하면 해당 엔드포인트에 할당되어 있던 이미지 캐시도 시스템에서 자동으로 삭제된다. 이는 불필요한 저장 공간 낭비를 방지함과 동시에 데이터 유출 가능성을 원천적으로 차단하는 설계다. 보안 정책을 변경하거나 추가적인 설정 없이도 기존의 격리 수준을 그대로 이어간다.

인퍼런스 컴포넌트를 통해 여러 모델을 배포하는 환경에서도 각 컴포넌트가 참조하는 고유한 컨테이너 이미지를 개별적으로 저장하고 관리한다. 인퍼런스 컴포넌트는 하나의 엔드포인트 내에서 서로 다른 모델이나 버전을 효율적으로 나누어 배치하는 관리 단위다. 사용자는 기존에 구축한 컨테이너 이미지를 수정하거나 다시 빌드할 필요 없이 설정만으로 이 기능을 활성화할 수 있다. 이미지 풀링에 소요되던 시간이 사실상 제로가 되면서 생성형 AI 서비스의 응답 시간 예측 가능성이 확보된다. 이는 트래픽 변동성이 큰 환경에서 서비스 가용성을 높이는 핵심적인 판단 기준이 된다.

Qwen3-8B 모델로 증명한 51%의 지연 시간 단축

사용자가 갑자기 몰리는 시간대에 생성형 AI 서비스를 이용하다 보면 응답이 한참 뒤에 오거나 연결이 지연되는 상황을 겪는다. 이는 트래픽 증가에 맞춰 새로운 서버 인스턴스를 띄울 때 발생하는 콜드 스타트, 즉 시스템이 완전히 준비되어 요청을 처리하기까지 걸리는 초기 지연 시간 때문이다. 특히 모델 크기가 큰 생성형 AI 환경에서는 서버를 하나 추가하는 과정 자체가 매우 무겁게 작동한다. 새로운 인스턴스가 생성될 때마다 거대한 컨테이너 이미지를 다시 내려받아야 하므로, 이 대기 시간이 서비스 전체의 응답 속도와 품질을 결정하는 핵심 요소가 된다.

실제 성능 변화를 확인하기 위해 `ml.g6.2xlarge` 인스턴스 환경에서 Qwen3-8B 모델을 활용한 테스트를 진행했다. 테스트에 사용된 모델의 크기는 16GB이며, 이를 구동하기 위한 LMI 컨테이너의 크기는 압축 상태에서 17.7GB에 달했다. 여기서 LMI는 vLLM 기반의 대형 모델 추론 최적화 라이브러리로, 대규모 언어 모델이 효율적으로 추론을 수행하도록 돕는 소프트웨어 묶음이다. 캐싱 기술을 적용하기 전에는 컨테이너 이미지를 저장소에서 가져오는 이미지 풀링 단계와 모델 가중치 파일을 내려받는 작업이 동시에 병렬로 진행되었다. 하지만 두 작업 모두 수십 기가바이트에 달하는 대용량 데이터를 전송해야 했기에, 네트워크 자원을 나누어 쓰게 되면서 총 525초라는 긴 시작 지연 시간이 발생했다.

컨테이너 캐싱을 적용하면 신규 인스턴스가 실행되는 경로에서 이미지 풀링 단계가 완전히 제거된다. 이미지 풀링 시간이 제로화되면서 신규 인스턴스가 뜨는 즉시 모델 로딩 단계로 진입하게 된다. 동일한 환경에서 다시 테스트한 결과, 전체 시작 지연 시간은 258초로 급격히 줄어들었다. 이는 기존 525초에서 약 51%의 시간이 단축된 수치다. 이미지 다운로드 과정이 사라지면서 네트워크 대역폭 경합, 즉 한정된 네트워크 전송 통로를 두고 이미지 파일과 모델 데이터가 서로 먼저 전송되려고 경쟁하며 속도가 느려지는 병목 현상이 해결되었기 때문이다. 결과적으로 네트워크 자원이 오직 모델 데이터 전송에만 집중될 수 있어 서버가 준비되는 속도가 두 배 가까이 빨라지는 결과로 이어졌다.

이러한 최적화 결과는 LMI뿐만 아니라 NVIDIA Triton 같은 전문적인 추론 서버 환경에서도 동일하게 적용된다. 개발자가 기존에 구축해 둔 컨테이너 이미지를 수정하거나 복잡한 내부 코드를 변경할 필요 없이, 인프라 설정만으로 성능 개선을 즉시 얻을 수 있다는 점이 실무적인 이점이다. 17.7GB와 같은 대형 컨테이너를 사용하는 워크로드일수록 이미지 캐싱 유무에 따른 시작 시간의 격차는 더욱 명확하게 나타난다. 이를 통해 운영자는 갑작스러운 트래픽 변동 상황에서도 서비스 가용성을 안정적으로 유지하고, 사용자에게 지연 없는 예측 가능한 응답 시간을 제공할 수 있는 판단 기준을 갖게 된다.

3단계 최적화 스택을 통한 무중단 생성형 AI 서비스 구현

525초라는 대기 시간은 실시간 응답이 핵심인 생성형 AI 서비스에서 사용자 이탈을 유발하는 치명적인 지연으로 작용한다. Amazon SageMaker AI는 이러한 콜드 스타트(새 인스턴스가 실행될 때 발생하는 초기 지연) 문제를 해결하기 위해 지표 감지, 데이터 캐싱, 컨테이너 캐싱으로 이어지는 3단계 최적화 스택을 도입했다. 첫 번째 단계는 시스템이 확장 필요성을 얼마나 빠르게 알아차리느냐에 집중한다. 1분 미만 단위로 세밀하게 작동하는 Amazon CloudWatch(AWS의 통합 모니터링 서비스) 지표를 활용해, 기존의 전통적인 메커니즘보다 최대 6배 빠르게 트래픽 증가를 감지하고 확장 명령을 내린다. 이를 통해 인프라 확장 결정에 소요되는 시간을 분 단위에서 초 단위로 단축하여 대응 속도를 높였다.

두 번째 단계는 이미 실행 중인 인스턴스의 자원을 최대한 활용해 낭비를 줄이는 데이터 캐싱이다. 추론 컴포넌트(모델을 배포하고 관리하는 최소 실행 단위) 데이터 캐싱 기술을 적용하면, 기존 인스턴스 내에 이미 저장된 컨테이너 이미지와 모델 아티팩트(모델 가중치 및 설정 파일 등 실행에 필요한 파일)를 그대로 재사용한다. 새로운 추론 컴포넌트 복제본이 이미 프로비저닝되어 대기 중인 인스턴스에 배치될 때, 네트워크를 통해 무거운 데이터를 다시 다운로드하는 과정을 생략한다. 이 방식은 기존 인스턴스 내의 캐시를 통해 이미지 및 모델 다운로드 시간을 완전히 제거함으로써, 추가 자원 할당 없이도 즉각적인 서비스 투입이 가능하게 만든다.

세 번째 단계는 완전히 새로운 인스턴스를 생성해야만 하는 상황에서 발생하는 최대 병목 지점을 제거하는 컨테이너 이미지 캐싱이다. 신규 인스턴스 실행 시 가장 많은 시간이 소요되는 이미지 풀링(컨테이너 저장소에서 이미지를 내려받는 과정) 단계를 아예 삭제하여 시작 시간을 단축했다. 17.7GB 크기의 LMI(Large Model Inference, vLLM 기반의 대규모 모델 추론 프레임워크) 컨테이너를 사용해 ml.g6.2xlarge 인스턴스에서 테스트한 결과, 전체 시작 지연 시간이 525초에서 258초로 급격히 줄어들었다. 이는 이미지 다운로드와 모델 다운로드가 동시에 일어날 때 발생하는 네트워크 대역폭 경합을 제거해 약 51%의 성능 개선을 달성한 결과다.

이 세 가지 최적화 계층이 상호 보완적으로 결합되면 생성형 AI 서비스의 확장 체계는 예측 가능한 구조로 바뀐다. 1분 미만의 지표로 수요를 빠르게 감지하고, 기존 인스턴스에서는 데이터 캐싱으로, 신규 인스턴스에서는 컨테이너 캐싱으로 데이터 전송 시간을 없앴다. 결과적으로 분 단위의 콜드 스타트 지연 시간이 초 단위의 예측 가능한 응답 시간으로 전환되어 서비스의 안정성이 확보된다. 운영자는 이제 갑작스러운 트래픽 급증 상황에서도 서비스 가용성을 유지하며, 최종 사용자에게 지연 없는 일관된 응답 속도를 제공하는 무중단 AI 서비스 환경을 구현할 수 있다.

트래픽 급증 시 모델 로딩을 기다리며 발생하는 서비스 지연은 사용자 경험을 해치는 치명적인 요소다. 17.7GB 크기의 LMI 컨테이너 시작 지연 시간을 525초에서 258초로 단축해 확장 속도를 최대 2배 높인 결과는 인프라 운영의 효율성을 증명한다.

기존 컨테이너를 수정하지 않고 설정 변경만으로 서비스 가용성과 응답 예측 가능성을 확보할 수 있다는 점이 핵심이다. 생성형 AI 서비스의 실질적인 경쟁력은 모델의 지능을 넘어, 이를 지연 없이 즉각적으로 확장해 제공하는 응답 제어력에서 결정된다.