매일 아침 클라우드 인프라를 관리하는 개발자들은 특정 GPU 인스턴스 타입의 가용성 부족이라는 벽에 부딪힌다. 대규모 언어 모델(LLM)과 멀티모달 아키텍처를 운영할 때, 원하는 사양의 GPU를 확보하지 못하면 엔드포인트 자체가 생성되지 않거나 확장 이벤트가 실패하는 상황이 빈번하게 발생한다. 그동안 개발자들은 에러 메시지를 확인하고 수동으로 다른 인스턴스 타입을 선택해 재시도하는 과정을 반복해야 했다.
Amazon SageMaker AI의 인스턴스 풀 도입
Amazon SageMaker AI(머신러닝 모델을 구축, 학습, 배포하는 관리형 서비스)는 이번 업데이트를 통해 인스턴스 풀 기능을 새롭게 선보였다. 사용자는 엔드포인트 설정 시 인스턴스 타입의 우선순위 목록을 정의할 수 있다. Amazon SageMaker AI는 엔드포인트 생성, 확장(Scale-out), 축소(Scale-in) 과정에서 자원 제약이 발생하면 정의된 목록을 순차적으로 탐색하며 자동으로 가용한 인프라를 프로비저닝한다. 이 기능은 단일 모델 엔드포인트, 추론 컴포넌트 기반 엔드포인트, 비동기 추론 엔드포인트에서 모두 지원된다. 공식 문서와 GitHub 샘플 코드를 통해 상세한 설정 방법을 확인할 수 있다.
기존 수동 재시도 방식과의 차이
예전에는 단일 인스턴스 타입에 의존해야 했기에, 해당 타입의 용량이 부족하면 엔드포인트가 즉시 실패했다. 이제는 우선순위가 지정된 인스턴스 풀을 통해 첫 번째 선택지가 실패하더라도 즉시 두 번째, 세 번째 선택지로 자동 전환된다. 또한 오토스케일링(트래픽에 따라 서버 대수를 자동으로 조절하는 기능) 시에도 동일한 우선순위 로직이 적용되어, 트래픽이 몰리는 상황에서도 서비스 중단 없이 유연한 확장이 가능하다. 특히 축소 시에는 우선순위가 낮은 대체 인스턴스부터 제거하고, 선호하는 고성능 하드웨어가 다시 가용해지면 자연스럽게 해당 사양으로 복귀하는 지능형 관리가 이루어진다. 모니터링 측면에서도 Amazon CloudWatch(인프라 성능을 측정하는 관측 도구) 메트릭에 인스턴스 타입 차원이 추가되어, 어떤 하드웨어에서 지연이나 용량 문제가 발생하는지 즉각적으로 파악할 수 있게 되었다.
하드웨어별 최적화와 모델 배포 전략
개발자가 바로 체감하는 변화는 하드웨어 사양에 따른 모델 최적화 방식의 유연성이다. 인스턴스마다 GPU 메모리와 아키텍처가 다르기 때문에, 고성능 인스턴스에는 텐서 병렬 처리를 적용하고, 저사양 대체 인스턴스에는 양자화(모델의 가중치를 줄여 크기를 최적화하는 기술)나 추론 가속 기법인 스펙큘레이티브 디코딩(작은 모델로 초안을 생성해 속도를 높이는 기술)을 적용한 별도의 모델 아티팩트를 준비해야 한다. 각 인스턴스 풀 항목에 ModelNameOverride를 설정하면, Amazon SageMaker AI가 하드웨어 상황에 맞춰 최적화된 모델을 자동으로 배포한다. 직접 최적화가 어렵다면 Amazon SageMaker AI의 추론 권장 사항 기능을 통해 대상 인스턴스별로 최적화된 설정을 자동으로 생성할 수도 있다.
인프라 가용성 문제를 자동화된 우선순위 로직으로 해결함으로써 운영의 복잡성이 획기적으로 줄어들었다.




