GPU 메모리와 토큰 지연을 한눈에, SageMaker의 LLM 전용 모니터링 공개

100개 이상의 세부 지표를 제공하는 SageMaker Insights 공개

서비스 운영자는 P99 지연 시간이 급증했을 때 이것이 GPU 메모리 문제인지, 아니면 네트워크 경로의 문제인지 판단해야 한다. 아마존 세이지메이커 AI(Amazon SageMaker AI)는 진단 시간을 단축하기 위해 100개 이상의 세부 추론 지표와 전용 대시보드인 세이지메이커 인사이트(SageMaker Insights)를 도입했다. 이제 운영자는 추론 엔드포인트의 내부 상태를 정밀하게 확인하고 장애 원인을 빠르게 파악한다.

세이지메이커 인사이트는 아마존 클라우드워치(Amazon CloudWatch) 내에 구축된 관리형 관찰 가능성 솔루션이다. 기존 세이지메이커 엔드포인트는 호출 횟수나 모델 지연 시간 같은 기본 합계 지표만 제공해 병목 지점을 찾기 어려웠다. 이번 업데이트로 제공되는 100여 개의 지표는 GPU 상태, 토큰 레벨의 지연 시간, 가용 영역(AZ) 간 트래픽 분포, 추론 구성 요소의 배치 상태를 포함한다. 인프라 엔지니어는 별도의 외부 도구 설정 없이 클라우드워치 콘솔에서 즉시 지표를 분석할 수 있다.

특히 추론 성능에 직결되는 KV 캐시(Key-Value Cache, 추론 시 이전 토큰 정보를 저장하는 메모리 영역)의 압박 정도를 정밀하게 측정한다. KV 캐시가 가득 차면 요청이 내부 큐에 쌓이며 응답 속도가 급격히 떨어진다. 또한 모델이 처음 로드될 때 발생하는 지연인 콜드 스타트(Cold Start) 진단 기능이 추가되어, 새로운 인스턴스 투입 시 발생하는 일시적 지연이 전체 서비스 품질에 주는 영향을 수치로 확인하고 엔진의 요청 압박 상태와 대조 분석한다.

결과적으로 운영자는 P99 지연 시간(전체 요청 중 상위 1%의 응답 시간)이 상승했을 때, 이것이 GPU 메모리의 물리적 한계인지, KV 캐시의 효율적 배분 문제인지, 혹은 특정 가용 영역으로 트래픽이 쏠린 라우팅 문제인지를 수 분 내에 구분한다. 각 지표의 수치를 대조해 인프라 증설이 필요한 상황인지, 모델 설정 최적화가 필요한 상황인지 결정함으로써 수백 대의 GPU 인스턴스 운영 환경에서 장애 복구 시간을 단축한다.

OpenTelemetry와 PromQL 기반의 실시간 지표 수집 구조

Amazon SageMaker AI는 클라우드 네이티브 관찰 가능성 표준인 OpenTelemetry 기반으로 네이티브 지표를 송신하는 구조를 갖췄다. OpenTelemetry는 서로 다른 시스템의 로그와 메트릭을 통합 수집하는 표준 프로토콜이며, 수집된 데이터는 시계열 데이터 쿼리 언어인 PromQL을 통해 시각화된다. PromQL은 시간에 따라 변화하는 수치 데이터를 효율적으로 추출하고 계산하는 언어다. 표준 오픈소스 프로토콜을 통해 지표를 수집하고 쿼리함으로써 별도의 커스텀 대시보드 구축 없이 인프라 수준의 가시성을 확보한다.

신규 엔드포인트 구성 시에는 `EnableDetailedObservability` 파라미터의 기본값이 true로 지정되어 있어 별도의 코드 작성 없이 상세 지표 수집 기능을 사용할 수 있다. 지표 발행 주기는 `MetricsPublishFrequencyInSeconds` 파라미터를 통해 제어하며 기본 설정값은 60초다. 초 단위의 정밀 모니터링이 필요한 고부하 워크로드의 경우 이 값을 60초 미만으로 설정해 수집 간격을 좁힐 수 있다.

이미 배포되어 운영 중인 기존 엔드포인트는 MetricsConfig 플래그를 포함한 새로운 엔드포인트 설정을 생성하고 적용하는 옵트인(Opt-in) 과정이 필요하다. 이는 기존 서비스 중단 없이 설정을 갱신하는 방식이며, 사용자는 SageMaker 콘솔의 3단계 마법사를 통해 상세 관찰 가능성 기능을 활성화하고 OTel 강화 설정을 확인한 뒤 적용할 엔드포인트를 선택한다.

지표가 CloudWatch로 정상 송신되려면 CloudWatch 콘솔 설정 메뉴에서 OTel 메트릭 강화와 텔레메트리를 위한 리소스 태그 활성화 옵션을 켜야 한다. OTel 메트릭 강화는 기존 메트릭에 표준 메타데이터를 추가해 쿼리 효율을 높이는 작업이다. 설정 완료 후 엔드포인트가 `InService` 상태에 도달하면 2분 이내에 OpenTelemetry 형식의 지표가 유입되기 시작하며, 기존 클래식 메트릭을 SageMaker Insights 대시보드에서 PromQL로 조회하기 위해서도 이 설정이 필수적이다.

단순 지연 시간 측정을 넘어선 TTFT와 ITL의 정밀 분석

기존 모니터링 방식은 요청부터 응답 완료까지의 전체 시간만 측정했기에, 사용자가 느끼는 첫 반응의 대기 시간과 읽기 속도의 불편함을 구분할 수 없었다. Amazon SageMaker AI는 이를 해결하기 위해 토큰 단위의 지연 시간을 분리해 측정한다. TTFT(Time to First Token)는 사용자가 첫 응답 문자를 보기까지 대기하는 시간이며, ITL(Inter-Token Latency)은 연속된 토큰 사이의 생성 간격으로 스트리밍 출력의 부드러움을 결정하는 지표다.

전체 지연 시간의 원인을 파악하기 위해 이를 두 영역으로 분리한다. 모델 지연 시간(Model Latency)은 모델이 데이터를 처리하는 순수 연산 시간이며, 플랫폼 오버헤드 지연 시간(Overhead Latency)은 플랫폼이 요청을 라우팅하고 스케줄링하는 과정에서 발생하는 시간이다. Invoke 탭에서는 전체 요청 경로를, Streaming 탭에서는 첫 번째 청크가 전달되기까지의 시간을 추적한다. 만약 두 지표가 정상임에도 TTFT가 높다면, 이는 모델의 추론 엔진 내부 큐에서 요청이 대기하며 KV 캐시 슬롯을 기다리고 있다는 신호다.

이러한 정밀 측정은 vLLM, SGLang, DJL(Deep Java Library) 등 다양한 추론 프레임워크 데이터를 기반으로 작동한다. 사용자는 P50(중앙값)과 P99 토글을 통해 지연 시간 분포를 확인하며 성능 일관성을 검증한다. 특히 vLLM과 SGLang 환경에서는 TTFT, 출력 TPS(초당 토큰 수), 동시 요청 수 데이터를 인스턴스별로 비교해 특정 인스턴스에서만 발생하는 성능 아웃라이어를 수 분 내에 식별하고, 이를 리소스 제약이나 설정 오류의 근거로 활용한다.

KV 캐시 압박과 AZ 불균형을 통한 장애 사전 방지

SageMaker Insights는 육각형 그리드 뷰를 통해 플릿 내 모든 리소스 상태를 색상으로 시각화한다. 사용자는 인스턴스, IC 복제본, 엔드포인트 뷰 사이를 전환하며 상태를 확인하며, 각 육각형에 마우스를 올리면 인스턴스 유형, TTFT, 출력 TPS, 동시 요청 수, KV 캐시 점유율, CloudWatch 알람 상태를 즉시 확인한다. 특정 인스턴스를 선택해 필터링하면 페이지 내 모든 패널이 해당 장비의 데이터로 업데이트되어 개별 리소스의 이상 징후를 추적한다.

엔진 및 요청 압박 패널은 서비스 중단을 막는 조기 경보 시스템으로 작동한다. KV 캐시 사용량을 프레임워크별 시계열 뷰로 추적하며, 점유율이 반복적으로 40~50%까지 상승하는 패턴이 감지되면 실제 응답 속도 저하가 발생하기 전에 오토스케일링이 작동하도록 임계값을 설정해 서비스 가용성을 확보한다.

트래픽 분포 패널은 AZ 필터링을 통해 라우팅 문제를 식별한다. AZ 드롭다운 메뉴로 구역별 트래픽을 분리해 특정 AZ의 트래픽이 0으로 표시되거나 다른 영역에만 부하가 쏠리는 현상을 발견하면 이를 인스턴스 배치나 라우팅 설정 오류로 판별한다. 또한 인스턴스별 성능 지표 테이블에서 TTFT, 출력 TPS, 동시 요청 수의 아웃라이어를 탐색하고, vLLM이나 SGLang 프레임워크의 KV 캐시 사용량 데이터를 통해 특정 인스턴스의 메모리 압박 여부를 수 분 내에 판별한다.

국내 LLM 서비스 운영자를 위한 인프라 비용 및 성능 최적화 기준

Amazon SageMaker AI는 입력과 출력 토큰별 처리량(Token Throughput, 초당 처리하는 토큰 수)을 측정해 추론 효율성을 정량화한다. 토큰 처리량 패널은 실제 처리되는 초당 토큰 수를 입력과 출력으로 나누어 보여준다. 입력 토큰 처리량은 모델이 프롬프트를 읽는 속도를, 출력 토큰 처리량은 답변을 생성하는 속도를 의미하며, 이를 통해 병목 지점이 입력 단계인지 생성 단계인지 구분한다.

`ml.g6.4xlarge` 인스턴스 환경에서 모델 벤치마크상 500 TPS가 나와야 하지만 실제 출력값이 150 TPS에 그친다면 리소스 제약이나 설정 오류가 발생한 상태다. 특히 KV 캐시 압박이 심할 때 이런 처리량 저하가 빈번하게 나타난다. 벤치마크 수치와 실제 운영 수치의 대비는 인프라 증설이 필요한 상황인지, 단순 설정 최적화로 해결 가능한 상황인지를 판별하는 기준이 된다.

추론 효율을 극대화하려면 SGLang, vLLM, DJL 같은 추론 엔진 간의 처리량을 비교해야 한다. SageMaker Insights 대시보드는 여러 프레임워크의 데이터를 동시에 보여주는 범례를 제공한다. 운영자는 멀티 모델 엔드포인트 환경에서 동일 하드웨어 조건으로 어떤 엔진이 더 높은 처리량을 기록하고 더 낮은 지연 시간을 유지하는지 대조한다. 프레임워크별 처리량 차이를 정량적으로 확인해 서비스 특성에 맞는 최적의 엔진을 선택함으로써 불필요한 GPU 낭비를 줄이고 인프라 비용을 절감할 수 있다.

생성형 AI 서비스의 응답이 갑자기 느려지거나 중간에 끊기는 현상은 사용자 경험을 즉각적으로 저하시킨다. Amazon SageMaker AI가 제공하는 100개 이상의 세부 추론 지표와 SageMaker Insights 대시보드는 이러한 현상의 원인을 추측이 아닌 데이터로 규명한다.

OpenTelemetry 표준으로 측정된 TTFT와 ITL을 활용하면 P99 지연 시간 급증의 원인이 GPU 메모리 압박인지, KV 캐시 부족인지, 혹은 가용 영역 간 트래픽 불균형인지 수 분 내에 판별 가능하다. 이제 운영자는 정밀 지표를 근거로 인프라 최적화의 정답을 결정한다.