흩어진 모델 정보 한곳에 — 아마존 베드락 '모델 프로파일러' 공개

파편화된 모델 탐색 과정을 해결하는 통합 인터페이스

생성형 AI 도입을 추진하는 기업들은 모델의 성능, 가격, 리전별 가용성, 컨텍스트 윈도우 제한 및 처리량을 비교하기 위해 AWS 콘솔 페이지와 공식 문서, 리전별 API 호출 결과 사이를 반복해서 오가야 하는 불편함을 겪는다. 이러한 파편화된 탐색 과정은 모델 평가를 위한 실험 속도를 늦추고 실제 프로덕션 도입 결정을 지연시키는 병목 구간으로 작용한다. 아마존 베드락 모델 프로파일러는 5개의 AWS API와 2개의 외부 URL에서 메타데이터를 수집해 하나의 검색 인터페이스로 통합하며 이 문제를 해결한다.

이 오픈 소스 도구는 Anthropic, OpenAI, Meta, Mistral AI, Cohere, Amazon을 포함한 다양한 제공자의 파운데이션 모델 100개 이상을 지원한다. 사용자는 단일 인터페이스 내에서 모델 카드, 리전별 가용성 지도, 상세 가격 내역을 매일 업데이트된 상태로 확인할 수 있다. 실무자는 수동 검색에 소요되는 시간을 줄이고, 데이터에 기반해 각 유스케이스에 가장 적합한 모델을 빠르게 선정하는 의사결정 환경을 갖게 된다.

모델 익스플로러를 통한 정밀 필터링과 모달리티 분석

모델 익스플로러는 120개 이상의 파운데이션 모델을 검색하고 필터링할 수 있는 시작점 역할을 수행한다. 사용자는 제공자(Anthropic, Meta, Amazon, Mistral AI, Cohere 등 20여 곳)뿐만 아니라 비전, 코드 생성, 함수 호출, 임베딩과 같은 세부 기능별로 결과를 좁힐 수 있다. 특히 입력 및 출력 모달리티(모델이 처리할 수 있는 데이터 유형, 예: 텍스트 전용 또는 텍스트와 이미지를 모두 처리하는 멀티모달) 필터를 통해 서비스의 데이터 성격에 맞는 모델을 선별한다.

리전 필터는 타겟으로 설정한 특정 AWS 리전에서 사용 가능한 모델만 표시하며, 상태 필터는 활성 모델과 레거시 옵션을 구분해 보여준다. 이를 통해 아키텍트는 인프라 설계 단계에서 특정 리전의 모델 가용 여부를 즉시 확정 지을 수 있으며, 이는 특히 데이터 거버넌스가 중요한 프로젝트에서 일정 단축으로 이어진다. 사용자는 이러한 필터링 기능을 통해 수십 개의 문서를 대조하던 기존 방식에서 벗어나 클릭 몇 번으로 최적의 모델 후보군을 도출한다.

API 호출을 97% 절감한 서버리스 데이터 파이프라인

모델 프로파일러의 백엔드는 AWS Step Functions(워크플로 오케스트레이터)가 제어하는 완전 자동화된 서버리스 파이프라인으로 구성된다. 총 17개의 AWS Lambda 함수가 4단계에 걸쳐 데이터를 처리하며, 매일 UTC 오전 6시에 Amazon EventBridge(이벤트 기반 서버리스 이벤트 버스) 규칙에 설정된 cron 표현식(시간 기반 작업 예약 문법)에 따라 실행된다. 전체 파이프라인은 실행 시 8분에서 12분 사이에 완료되며, 하드코딩된 리전 목록 없이 현재 베드락을 지원하는 리전을 동적으로 발견해 신규 리전 출시에도 자동으로 대응한다.

운영 효율을 높이기 위해 람다 함수 간 S3 캐싱 기법을 도입하여 실행당 API 호출 횟수를 약 480회에서 29회로 대폭 줄였다. 이는 97%의 캐시 적중률을 달성한 결과로, 시스템 부하를 낮추면서 데이터 업데이트의 안정성을 확보한 구조다. 파이프라인은 초기 실행 컨텍스트(S3 경로, 캐시 키)를 설정하고 백엔드와 React 프론트엔드 간의 설정을 동기화하여 수동 개입 없이도 양측의 일관성을 유지한다.

데이터 강화 프로세스와 자가 치유 에이전트의 품질 관리

데이터 수집은 세 개의 독립적인 분기로 동시에 진행된다. Pricing 분기는 AWS Price List API에서 3개의 서비스 코드를 쿼리해 가격을 집계하고, Models 분기는 각 리전의 ListFoundationModels를 호출해 중복을 제거한 표준 모델 목록을 생성하며, Quotas 분기는 TPM(분당 토큰 수, 처리량 상한선)과 RPM(분당 요청 수, API 호출 제한) 수치를 병렬로 수집한다. 이후 6개의 강화 단계가 캐시 데이터를 읽어 리전별 가용성, 컨텍스트 윈도우 크기, Mantle API 상태, 모델 라이프사이클 상태를 연결한다.

최종적으로 모든 데이터는 `bedrock_models.json`(사양, 쿼터, 가용성 포함)과 `bedrock_pricing.json`(제공자 및 모델별 가격)이라는 두 개의 JSON 파일로 병합되어 S3에 저장되고 CloudFront를 통해 서빙된다. 출판 전에는 7가지 유형의 데이터 품질 문제를 스캔하는 공백 감지 시스템이 작동한다. 데이터 공백이 임계치를 초과하면 아마존 베드락 기반의 자가 치유 에이전트가 보고서를 분석해 안전한 설정 수정을 자동으로 적용하며, 안전 기준을 충족하지 못하는 제안은 로그를 남겨 관리자가 수동 검토하도록 처리한다.

로컬 및 AWS 배포 옵션과 4가지 모델 소비 전략

모델 프로파일러는 사용자의 환경에 따라 두 가지 배포 옵션을 제공한다. 로컬 모드는 기존 AWS 자격 증명을 사용하여 자신의 머신에서 데이터 수집기와 프론트엔드를 실행하는 방식으로, 별도의 클라우드 인프라 구축 없이 즉시 탐색이 가능하다. AWS 배포 모드는 S3와 CloudFront를 활용한 완전 서버리스 아키텍처를 통해 매일 자동 갱신되는 파이프라인을 구축하는 방식이다. 로컬 수집기는 람다 코드와 동일한 변환 함수를 임포트하므로 어떤 환경에서 실행하든 동일한 출력 결과를 보장한다.

사용자는 인터페이스 내 소비 옵션 필터를 통해 모델 활용 방식을 결정할 수 있다. In Region은 특정 리전 내 온디맨드 추론을 수행하며 토큰당 비용을 지불하는 기본 방식이다. Cross-Region Inference Service(CRIS, 여러 리전으로 요청을 라우팅해 처리량을 높이는 서비스)는 단일 리전의 쿼터 제한을 극복해야 할 때 사용한다. Batch는 대량의 데이터를 비동기 방식으로 처리해 비용을 낮추는 옵션이며, Mantle은 전용 용량과 맞춤 설정을 갖춘 관리형 추론 엔드포인트를 통해 성능 일관성을 보장한다. 실무자는 TPM과 RPM 등 실제 쿼터 수치를 기반으로 이러한 소비 옵션을 비교하여 도입 비용과 성능을 즉시 판단할 수 있다.