이번 주 깃허브의 AI 인프라 저장소들 사이에서 NVIDIA의 Parakeet-TDT 모델을 AWS Batch(배치 작업 처리 서비스)와 엮어 비용을 극단적으로 낮추려는 시도들이 포착되고 있다. 수천 시간의 오디오 데이터를 전사해야 하는 개발자들은 API 호출 비용이 기하급수적으로 늘어나는 상황에서, 직접 인프라를 구축해 비용을 깎아내려는 움직임을 보이고 있다.

Parakeet-TDT-0.6B-v3 모델과 AWS GPU 인프라 구성

2025년 8월에 공개된 Parakeet-TDT-0.6B-v3는 25개 유럽 언어를 지원하는 오픈소스 ASR(자동 음성 인식) 모델이다. 이 모델은 CC-BY-4.0 라이선스를 따르며, 깨끗한 환경에서 6.34%, 0 dB SNR(신호 대 잡음비) 환경에서 11.66%의 WER(단어 오류율)을 기록했다. 로컬 어텐션 모드를 통해 최대 3시간 길이의 오디오를 처리할 수 있다. 지원 언어에는 영어, 프랑스어, 독일어, 스페인어, 러시아어, 우크라이나어, 불가리아어, 크로아티아어, 체코어, 덴마크어, 네덜란드어, 에스토니아어, 핀란드어, 그리스어, 헝가리어, 이탈리아어, 라트비아어, 리투아니아어, 몰타어, 폴란드어, 포르투갈어, 루마니아어, 슬로바키아어, 슬로베니아어, 스웨덴어가 포함된다.

배포를 위해서는 최소 4 GB의 VRAM(비디오 램)이 필요하며, 8 GB 이상일 때 성능이 최적화된다. 테스트 결과 NVIDIA L4 GPU가 탑재된 G6 인스턴스(AWS의 가상 서버 단위)가 가성비가 가장 좋았으며, G5(A10G), G4dn(T4)에서도 작동한다. 최대 처리량을 위해서는 P5(H100)나 P4(A100) 인스턴스를 사용할 수 있다.

전체 파이프라인은 Amazon S3(클라우드 저장소)에 파일이 업로드되면 Amazon EventBridge(이벤트 버스 서비스)가 이를 감지해 AWS Batch에 작업을 요청하는 구조다. AWS Batch는 Amazon ECR(컨테이너 이미지 저장소)에서 모델이 포함된 이미지를 가져와 추론을 수행하고, 결과 JSON 파일을 다시 S3에 저장한다.

컨테이너 빌드와 배포를 위해 다음 명령어를 사용한다.

bash
./updateImage.sh

인프라 구축은 CloudFormation(코드형 인프라 서비스) 템플릿을 통해 자동화되며, 다음 스크립트로 실행한다.

bash
./buildArch.sh

내부적으로는 `aws cloudformation deploy` 명령어가 실행되며, 특히 `UseSpotInstances=Yes` 파라미터를 통해 EC2 Spot Instances(남는 서버 자원을 저렴하게 사용하는 서비스)를 활성화하면 비용을 최대 90%까지 줄일 수 있다.

TDT 아키텍처와 이벤트 기반 스케일링의 결합

기존의 ASR 모델들이 오디오 전체 길이에 비례해 연산 자원을 소모했다면, Parakeet-TDT는 TDT(토큰 및 지속 시간 트랜스듀서) 아키텍처를 도입해 판을 바꿨다. 이 방식은 텍스트 토큰과 해당 토큰의 지속 시간을 동시에 예측한다. 즉, 모델이 스스로 침묵 구간이나 중복된 처리 구간을 지능적으로 건너뛰게 만든다. 이 덕분에 실시간보다 수십 배 빠른 추론 속도를 구현했으며, 오디오 전체 길이가 아니라 실제 음성이 있는 짧은 구간에 대해서만 컴퓨팅 비용을 지불하는 효과를 낸다.

인프라 측면에서는 상태가 없는(Stateless) ASR 작업의 특성을 극대화했다. EC2 Spot Instances는 가격이 저렴한 대신 AWS가 자원을 회수할 수 있다는 리스크가 있지만, ASR 작업은 멱등성(여러 번 실행해도 결과가 같은 성질)을 가지므로 작업이 중단되어도 AWS Batch가 자동으로 재시도하면 그만이다. 여기에 `MinvCpus: 0` 설정을 더해 작업이 없을 때는 자원을 완전히 반납하는 스케일 투 제로(Scale to Zero)를 구현했다.

메모리 관리 측면에서도 효율적이다. Fast Conformer(음성 인식용 인코더 모델) 인코더는 오디오 길이에 따라 VRAM 사용량이 선형적으로 증가한다. 따라서 오디오 길이가 길어질수록 더 큰 메모리를 가진 인스턴스가 필요하지만, TDT의 빠른 추론 속도 덕분에 전체적인 처리 시간은 획기적으로 단축된다. 개발자들은 고가의 매니지드 서비스 대신, 오픈소스 모델의 효율적인 아키텍처와 클라우드의 잉여 자원을 결합해 시간당 전사 비용을 1센트 미만으로 낮추는 전략을 택한 것이다. 이는 단순히 툴을 바꾸는 것이 아니라, 데이터의 특성과 인프라의 특성을 정확히 매칭시킨 최적화의 결과다.

이제 ASR의 핵심 경쟁력은 모델의 정확도를 넘어, 침묵을 얼마나 효율적으로 무시하느냐는 연산 최적화 싸움으로 옮겨갔다.