우리는 이미 컴퓨터가 책을 읽어주는 세상에 살고 있습니다. 하지만 지금까지의 AI는 진짜 사람의 목소리를 미리 녹음해서 가르쳐줘야 비슷하게 흉내 낼 수 있었습니다. 만약 녹음 파일이 하나도 없다면 우리가 원하는 목소리를 가질 수 없을까요. 이제는 목소리를 직접 녹음하지 않고 글자로 설명만 해서 만드는 방법이 등장했습니다.
VoxCPM2 200만 시간 학습과 30개국어 구현
최근 VoxCPM2(글자를 목소리로 바꿔주는 AI)라는 도구가 공개되었습니다. 기존 AI들은 토크나이저(말소리를 아주 작은 조각으로 쪼개서 분석하는 도구)를 사용해 말을 배웠습니다. 소리를 조각내어 배우면 연결 부위가 어색해져서 기계 같은 느낌이 났습니다. VoxCPM2는 이 조각내는 과정을 완전히 없앴습니다. 대신 200만 시간이라는 엄청난 양의 말소리를 통째로 공부하는 방법을 선택했습니다.
이 AI는 2B 파라미터(AI가 공부한 지식의 양을 결정하는 뇌 세포 같은 단위)를 가지고 있습니다. 덕분에 한국어를 포함해 30개 나라의 말을 아주 자연스럽게 구사합니다. 소리의 품질을 결정하는 48kHz(소리가 얼마나 촘촘하고 깨끗한지를 나타내는 숫자)라는 높은 기준을 맞췄습니다. 전문 녹음실에서 만든 것 같은 깨끗한 소리가 나옵니다. 학습 방식의 변화가 소리의 자연스러움을 완전히 바꿨습니다.
녹음 파일 없는 목소리 생성과 제작 비용의 변화
과거에는 특정 목소리를 복제하려면 그 사람의 실제 녹음 파일이 반드시 필요했습니다. 하지만 이제는 샘플 파일이 없어도 됩니다. 사용자가 글자로 어떤 목소리를 원하는지 설명만 하면 AI가 즉석에서 목소리를 만들어냅니다. 다정한 목소리를 가진 어린 소녀라고 쓰면 그에 딱 맞는 목소리가 나옵니다. 이미 있는 목소리를 가져와서 기분만 바꾸는 것도 가능합니다. 짧은 녹음 파일만으로 슬픈 톤이나 빠른 말투를 자유롭게 조절할 수 있습니다.
이런 능력은 게임이나 영화를 만드는 산업의 지형을 바꿉니다. 수많은 캐릭터의 목소리를 일일이 성우가 녹음할 필요가 없어집니다. 상황에 맞는 다양한 연기를 AI가 즉시 만들어낼 수 있기 때문입니다. 제작자는 더 이상 녹음실 예약과 성우 섭외에 시간을 쓰지 않아도 됩니다. 목소리 제작에 들어가는 시간과 비용의 판도가 완전히 뒤집혔습니다.
RTX 4090 속도와 Apache-2.0 라이선스의 파급력
성능이 좋아도 만드는 시간이 너무 오래 걸리면 실제 서비스에 쓰기 어렵습니다. VoxCPM2는 속도 문제까지 해결했습니다. RTX 4090(고성능 그래픽 카드)에서 테스트한 결과 RTF(AI가 소리를 만드는 속도가 실제 말하는 속도보다 얼마나 빠른지 보여주는 숫자)가 0.3으로 측정되었습니다. 사람이 말하는 속도보다 훨씬 빠르게 소리를 만들어낼 수 있다는 뜻입니다. 실시간 대화 서비스에 바로 적용할 수 있는 수준입니다.
더욱 중요한 점은 Apache-2.0(누구나 무료로 가져다 쓰고 수정할 수 있게 허락한 규칙) 라이선스를 따른다는 것입니다. 기업들은 비싼 이용료를 내지 않고도 이 기술을 가져가서 자신들만의 서비스를 만들 수 있습니다. 거대 기업뿐만 아니라 작은 회사들도 고성능 목소리 AI를 가질 수 있게 되었습니다. 이는 기업들이 AI 서비스 시장에서 경쟁력을 갖추기 위한 전략적 포석이 됩니다. 기술의 문턱이 낮아지며 누구나 목소리 AI 서비스를 만들 수 있는 환경이 조성되었습니다.
목소리 AI는 이제 단순한 흉내를 넘어 창조의 영역으로 들어섰습니다. 우리가 인터넷에서 듣게 될 AI의 목소리는 앞으로 더 다양하고 풍성해질 것입니다.




