Amazon Bedrock Nova Micro로 95%↓ 비용·50%↓ 지연 라우팅 증류

이번 주 개발팀은 영상 검색에서 “의도 라우팅”이 느려져 검색 결과가 2~4초 뒤에 뜨는 문제를 다시 마주했다.

OpenAI가 아니라 Amazon Bedrock에서 Model Distillation으로 라우팅 지능을 옮기는 방식이 제시됐다.

교사(teacher) 모델은 Amazon Nova Premier이고, 학생(student) 모델은 Amazon Nova Micro다.

이 접근은 추론 비용을 95% 이상 줄이고 지연을 50% 줄이면서 라우팅 품질을 유지한다고 설명했다.

Part 1에서는 Claude Haiku(Anthropic이 내놓은 소형 추론 모델)를 써서 멀티모달 영상 의미 검색을 만들었고, 이때 엔드투엔드 검색 시간이 2~4초가 됐으며 전체 지연의 75%가 여기에 기여했다고 밝혔다.

예전에는 라우팅에 필요한 메타데이터가 5개 속성(제목, 캡션, 사람, 장르, 타임스탬프) 수준이면 비교적 단순한 프롬프트로도 의도 분류가 가능했다.

이제는 엔터프라이즈 메타데이터가 더 복잡해져 카메라 앵글, 분위기와 감성, 라이선싱과 권리 윈도우, 도메인별 택소노미까지 라우팅 조건으로 들어간다.

더 정교한 로직은 더 무거운 프롬프트를 요구하고, 무거운 프롬프트는 더 비싸고 더 느린 응답으로 이어진다고 정리했다.

그래서 “빠르지만 단순한 모델”과 “정확하지만 비싼·느린 모델” 사이에서 하나를 고르는 대신, 작은 모델을 학습해 세 가지(정확도·비용·지연)를 동시에 맞추는 포석을 제시했다.

연구팀은 supervised fine-tuning(SFT, 사람이 정답을 달아주는 방식) 대신 증류를 선택한 이유로 “완전 라벨 데이터 불필요”를 들었다.

SFT는 각 학습 예시에 사람이 만든 정답 응답이 필요하지만, 증류는 프롬프트만 있으면 된다고 설명했다.

Amazon Bedrock이 교사 모델을 자동으로 호출해 고품질 응답을 만들고, 데이터 합성·증강을 통해 최대 15,000개의 프롬프트-응답 페어를 만든다고 밝혔다.

선택적으로 라벨 데이터도 넣을 수 있으며, JSONL 레코드는 bedrock-conversation-2024 스키마를 따른다고 했다.

이 스키마에서는 user 역할(입력 프롬프트)이 필수이고 assistant 역할(원하는 응답)은 선택이라고 명시했다.

이번 글의 실험 구성은 Nova Premier로 10,000개의 합성 라벨 예시를 생성하는 것이었다.

시각, 오디오, 전사, 메타데이터 신호 쿼리에 대해 균형 분포로 데이터를 만들었다고 밝혔다.

예시는 예상 검색 입력 전 범위를 커버하고 난이도 레벨을 나눴으며, 엣지 케이스와 변형을 포함해 특정 쿼리 패턴에 과적합되는 것을 막았다고 적었다.

추가 데이터가 필요하면 generate_training_data.py 스크립트로 Nova Premier를 사용해 합성 학습 데이터를 더 만들 수 있다고 했다.

학습 데이터는 Amazon S3에 업로드한 뒤 증류 잡을 제출하며, Bedrock이 프롬프트로 교사 응답을 생성하고 그 페어로 학생 모델을 파인튜닝한다고 설명했다.

Bedrock은 오케스트레이션과 인프라를 자동으로 처리해 클러스터 프로비저닝, 하이퍼파라미터 튜닝, 교사-학생 파이프라인 설정이 필요 없다고 했다.

잡 실행은 비동기이며, Foundation models > Custom models에서 진행을 확인하거나 프로그램으로 모니터링할 수 있다고 적었다.

10,000개 라벨 예시와 Nova Micro 조합에서는 학습이 “수 시간 내” 완료된다고 제시했다.

배포는 Provisioned Throughput(예측 가능한 고볼륨)과 On-Demand Inference(선결제 없이 사용량 기반) 두 옵션이 있고, 시작 단계 팀에는 온디맨드가 권장된다고 했다.

온디맨드의 장점으로 엔드포인트 선할당, 시간당 커밋, 최소 사용량이 없다고 못 박았다.

모델이 InService 상태가 되면 InvokeModel 또는 Converse API로 다른 베이스 모델처럼 호출한다고 안내했다.

과금은 Nova Micro 추론 요율로만 토큰을 지불하며, 입력 1,000토큰당 $0.000035, 출력 1,000토큰당 $0.000140이라고 적었다.

개발자가 체감하는 변화는 “라우팅을 더 복잡하게 만들수록 지연과 비용이 함께 불어나는” 구조를 증류로 끊는 데 있다.

이 포석은 영상 의미 검색에서 라우터를 모델로 고정해 두고, 기업의 메타데이터 지형이 커져도 운영비를 통제하려는 전략으로 읽힌다.