5개. 이 수치는 이전 버전인 Supertonic 2가 지원했던 언어의 개수다. 전 세계 주요 언어 몇 가지만 겨우 다루던 수준이었다. 그런데 이번에 공개된 Supertonic 3는 이 한계를 깨고 지원 범위를 31개국어로 대폭 확장했다.

Supertonic 3의 설계와 31개국어 지원

Supertonic 3는 ONNX Runtime(AI 모델을 다양한 하드웨어 환경에서 효율적으로 실행하게 돕는 도구)을 기반으로 설계되었다. 별도의 클라우드 연결 없이 기기 내부에서 모든 합성이 이루어지는 온디바이스(기기 자체 실행) 환경을 지향한다. 모델의 규모는 약 99M 파라미터(모델의 학습 가능한 변수 개수) 수준으로, 기존의 0.7B에서 2B 클래스 모델들과 비교하면 압도적으로 작다. 이는 다운로드 용량을 줄일 뿐만 아니라 프로그램 시작 시간과 추론 속도를 획기적으로 개선하는 결과로 이어진다.

지원 언어는 한국어(ko)를 포함해 영어(en), 일본어(ja), 아랍어(ar), 불가리아어(bg), 체코어(cs), 덴마크어(da), 독일어(de), 그리스어(el), 스페인어(es), 에스토니아어(et), 핀란드어(fi), 프랑스어(fr), 힌디어(hi), 크로아티아어(hr), 헝가리어(hu), 인도네시아어(id), 이탈리아어(it), 리투아니아어(lt), 라트비아어(lv), 네덜란드어(nl), 폴란드어(pl), 포르투갈어(pt), 루마니아어(ro), 러시아어(ru), 슬로바키아어(sk), 슬로베니아어(sl), 스웨덴어(sv), 터키어(tr), 우크라이나어(uk), 베트남어(vi)까지 총 31개국어로 확장되었다. 라이선스는 샘플 코드의 경우 MIT 라이선스를 따르며, 모델 자체는 OpenRAIL-M 라이선스로 배포된다.

설치와 실행은 SDK(소프트웨어 개발 도구 모음)를 통해 즉시 가능하다.

bash
pip install supertonic

실제 추론을 위한 파이썬 코드는 다음과 같이 구성된다. 처음 실행 시 SDK가 Hugging Face에서 모델 자산을 자동으로 다운로드한다.

python
from supertonic import TTS

tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")

text = "A gentle breeze moved through the open window while everyone listened to the story."
wav, duration = tts.synthesize(text, voice_style=style, lang="en")

tts.save_audio(wav, "output.wav")
print(f"Generated {duration:.2f}s of audio")

CPU 환경에서의 성능과 실무 적용

개발자가 고가의 A100 GPU(NVIDIA의 고성능 AI 가속기) 서버를 구축하지 않고 일반 노트북 CPU에서 모델을 돌리는 상황을 가정해 보자. Supertonic 3는 일반 CPU 환경에서도 매우 빠른 속도로 작동하며 메모리 점유율은 현저히 낮게 관찰된다. 이는 고가의 GPU(그래픽 처리 장치) 서버 없이도 웹 브라우저나 엣지(데이터 발생 지점과 가까운 말단 장치) 디바이스에 직접 배포할 수 있음을 의미한다.

단순히 크기만 줄인 것이 아니라 읽기 안정성 또한 개선되었다. 짧은 문장이나 긴 문장에서 빈번하게 발생하던 반복 읽기나 건너뛰기 오류가 크게 줄어든 점이 확인된다. 특히 <happy>, <sad>, <angry>와 같은 표현 태그를 삽입하여 음성의 감정을 조절할 수 있는 기능이 추가되었다. 이는 단순한 정보 전달을 넘어 감정 표현이 필요한 인터랙티브 콘텐츠 제작에 활용될 가능성을 보여준다.

성능 지표에서도 유의미한 결과가 나타난다. WER(단어 오류율) 및 CER(문자 오류율) 측정 결과, Supertonic 3는 VoxCPM2와 같은 훨씬 거대한 오픈 TTS(텍스트 음성 합성) 모델들과 비교해도 경쟁력 있는 정확도 범위를 유지한다. 결과적으로 개발자는 하드웨어 제약 없이 로컬 환경에서 고품질의 다국어 음성 합성 기능을 구현할 수 있게 되었다. 이는 개인용 비서 앱, 오프라인 번역기, 저사양 기기용 게임 캐릭터 보이스 등 다양한 실무 시나리오에서 즉각적인 효용을 제공한다.

이제 TTS의 경쟁력은 모델의 크기가 아니라, 얼마나 가볍게 사용자 기기 속으로 파고드느냐에 달려 있다.