상용 API 성능 앞지른 440MB 소형 모델, 텐센트 Hy-MT2 공개

텐센트가 허깅페이스(HuggingFace, AI 모델 공유 플랫폼)에 다국어 번역 모델 Hy-MT2 시리즈를 전격 공개했다. 단순히 언어를 바꾸는 기존 기계 번역과 달리, 사용자가 요청한 톤이나 스타일, 특정 단어 유지 같은 세부 지시사항을 정확히 수행하는 '지시 이행' 능력에 집중한 모델이다.

특히 개발자 커뮤니티가 주목하는 지점은 극단적인 경량화다. AngelSlim 1.25비트 양자화(Quantization, 모델 가중치 정밀도를 낮춰 메모리를 줄이는 기술)를 적용해 1.8B 모델의 저장 공간을 440MB까지 깎아냈고, 추론 속도는 1.5배나 끌어올렸다. 이제 서버 연결 없이 스마트폰이나 소형 IoT 기기 자체에서 고성능 번역기를 상주시키는 것이 현실적인 옵션이 된 셈이다. 여기에 번역 지시 이행 능력을 측정하는 전용 벤치마크인 IFMTBench(Instruction Following Machine Translation Benchmark)까지 함께 내놓으며, 로컬 모델이 어디까지 정교해질 수 있는지 수치로 증명하려는 움직임을 보이고 있다.

1.8B부터 30B-A3B까지, Hy-MT2의 라인업과 초경량화 수치

개발자가 모델을 선택할 때 가장 먼저 확인하는 것은 하드웨어 제약 조건과 그에 따른 성능의 타협점이다. 텐센트가 공개한 Hy-MT2 시리즈는 1.8B, 7B, 그리고 30B-A3B라는 세 가지 라인업을 통해 이러한 선택의 폭을 넓혔다. 특히 30B-A3B 모델은 MoE(Mixture of Experts, 입력값에 따라 일부 파라미터만 활성화해 연산 효율을 높이는 구조) 방식을 채택하여, 거대한 파라미터 규모를 유지하면서도 실제 추론 시에는 필요한 전문가 네트워크만 활성화하는 방식으로 연산 효율을 극대화했다. 이는 단순히 모델을 작게 만드는 것을 넘어, 복잡한 언어 구조를 처리하는 지능과 실행 속도 사이의 균형을 맞추려는 시도로 풀이된다.

이번 라인업의 핵심은 총 33개 언어 간 상호 번역을 지원하면서도 온디바이스(On-device, 외부 서버 연결 없이 기기 자체에서 AI를 실행하는 방식) 배포를 가능하게 만든 최적화 기술이다. 텐센트는 AngelSlim 1.25비트 극단적 양자화(Quantization, 모델 가중치의 정밀도를 낮춰 메모리 사용량을 줄이는 기술)를 도입하여 메모리 점유율을 획기적으로 낮췄다. 그 결과 1.8B 모델의 저장 공간 요구량은 단 440MB에 불과하다. 이는 최신 스마트폰이나 임베디드 장치에서도 별도의 서버 통신 없이 고성능 번역 엔진을 구동할 수 있다는 의미로, 개발자 커뮤니티에서는 로컬 환경에서의 실시간 번역 구현이 한층 현실화되었다는 평가가 지배적이다.

단순히 용량만 줄어든 것이 아니다. 추론 속도 면에서도 기존 모델 대비 1.5배 향상된 수치를 기록하며 실시간성이라는 온디바이스 AI의 핵심 요구사항을 충족했다. 개발자들은 이제 네트워크 지연 시간 걱정 없이 로컬 환경에서 번역 기능을 통합할 수 있게 된 셈이다. 텐센트는 이러한 기술적 성과를 뒷받침하기 위해 번역 지시 이행 능력을 정밀하게 평가하는 전용 벤치마크인 IFMTBench(Instruction Following Machine Translation Benchmark)를 함께 공개했다. 단순히 언어를 치환하는 수준을 넘어, 사용자가 요구하는 문체나 특정 제약 사항을 얼마나 정확히 준수하는지를 수치화하여 공개한 점은 개발자들 사이에서 모델의 신뢰도를 높이는 결정적인 요소로 작용하고 있다.

커뮤니티의 반응은 뜨겁다. 특히 440MB라는 수치는 기존의 무거운 번역 모델들을 사용하던 개발자들에게 큰 충격을 주었다. 서버 비용을 절감하면서도 상용 API 수준의 성능을 로컬에서 구현할 수 있다는 점에서, 많은 개발자가 이미 자신의 프로젝트에 Hy-MT2를 적용하기 위한 테스트를 진행 중이다. 33개 언어를 아우르는 방대한 지원 범위와 초경량화가 결합된 이번 라인업은, 온디바이스 AI가 단순한 실험 단계를 넘어 실무 환경으로 빠르게 진입하고 있음을 보여주는 지표가 되고 있다.

MS·더우바오 API 압도한 1.8B 모델의 효율성

개발팀이 공개한 벤치마크 수치는 여기서 갈린다. 1.8B 소형 모델이 마이크로소프트(Microsoft)나 더우바오(Doubao, 텐센트의 AI 서비스) 같은 글로벌 기업의 상용 API 성능을 전반적으로 앞질렀다. 거대 모델의 API를 호출해 매달 비용을 지불하던 개발자들 사이에서 지금 이 결과는 꽤나 뜨거운 논쟁거리다. 굳이 무거운 외부 서버에 의존하지 않고도 로컬 환경에서 충분히 경쟁력 있는 번역 품질을 확보할 수 있다는 사실이 구체적인 수치로 증명됐기 때문이다. 상용 API의 성능을 소형 모델이 추월했다는 점은 단순한 벤치마크 점수 이상의 충격을 준다. 이는 API 종속성에서 벗어나 제어권을 완전히 가져올 수 있다는 실무적 이점으로 이어진다.

체급을 높인 모델들의 성적표는 더 공격적이다. 7B 모델과 MoE(Mixture of Experts, 입력값에 따라 일부 파라미터만 활성화해 연산 효율을 높이는 구조) 방식의 30B-A3B 모델은 빠른 사고 모드에서 DeepSeek-V4-Pro나 Kimi K2.6 같은 기존의 강력한 오픈소스 모델들을 상회했다. 커뮤니티에서는 이제 모델의 절대적인 크기가 아니라 최적화된 효율성의 시대로 진입했다는 반응이 나온다. 무조건 파라미터 수를 늘리는 물량 공세보다 특정 도메인에서 얼마나 정교하게 작동하는지가 핵심 경쟁력이 됐다. 특히 비즈니스 실무나 특정 전문 도메인, 그리고 복잡한 지시 이행 작업 등 다차원적인 영역에서 보여준 성과는 실무 적용 가능성을 비약적으로 높였다.

실제 배포 단계에서 개발자가 체감하는 강점은 최적화 포맷의 다양성이다. FP8(8비트 부동소수점, 연산 속도를 높이기 위한 데이터 형식)과 GGUF(llama.cpp에서 사용하는 효율적인 모델 저장 포맷) 등 다양한 양자화 버전을 지원한다. 이는 사용자가 보유한 하드웨어 환경에 맞춰 모델을 유연하게 최적화할 수 있음을 의미한다. 고가의 GPU 서버를 구축하지 않고도 로컬 머신에서 최적의 성능을 끌어낼 수 있는 구체적인 선택지를 제공한다. 개발자들은 이제 API 키를 관리하고 네트워크 지연 시간을 걱정하는 번거로움 대신 자신의 환경에 맞는 포맷을 선택해 모델을 직접 서빙하는 방향으로 빠르게 눈을 돌리고 있다. 로컬 환경의 경쟁력이 상용 API의 편의성을 압도하기 시작한 지점이다.

WMT26 파트너십과 로컬 번역 생태계의 변화

개발자가 바로 체감하는 변화는 단순한 모델의 성능 수치가 아니라, 이 모델이 실제 서비스의 어느 영역까지 침투할 수 있느냐는 제어권의 문제다. 텐센트는 이번 Hy-MT2 공개와 동시에 WMT26(World Machine Translation, 세계 기계 번역 대회)의 비디오 자막 번역 과제 공식 파트너십을 체결하며 그 무대를 텍스트 너머로 확장했다. 비디오 자막 번역은 단순히 문장을 옮기는 작업을 넘어, 화면 속 인물의 발화 속도라는 물리적 시간 제약과 영상 전체의 문맥 흐름을 동시에 맞춰야 하는 고난도 실전 영역이다. 커뮤니티에서는 이번 파트너십이 단순한 후원을 넘어, 온디바이스 모델이 영상 콘텐츠의 로컬라이제이션이라는 실무적 난제를 해결할 수 있음을 증명하려는 시도로 읽힌다.

실무 환경에서의 통합 편의성 또한 대폭 개선되었다. 개발자들은 이제 ClawHub(다양한 AI 모델과 도구를 통합 관리하는 플랫폼) 및 SkillHub(AI 모델의 특정 기능을 모듈화하여 제공하는 서비스)를 통해 Hy-MT2-Translator Skill을 즉시 호출할 수 있다. 이 방식은 복잡한 API 연동 없이도 로컬 환경에 번역 엔진을 이식할 수 있게 설계되어, 특히 지연 시간이 치명적인 실시간 영상 스트리밍 서비스 개발자들 사이에서 뜨거운 반응을 얻고 있다. 기존에는 클라우드 서버의 응답을 기다려야 했던 자막 생성 작업이 이제 기기 내부에서 즉각적으로 처리될 수 있는 환경이 조성된 셈이다.

현장에서는 이번 도구 통합이 온디바이스 번역 생태계를 어떻게 재편할지에 대한 논쟁이 뜨겁다. 일부 개발자들은 비디오 자막 작업이 가진 시간적 제약 조건이 1.8B 모델의 경량화된 추론 성능만으로 완벽히 커버될 수 있을지 의문을 제기하면서도, 텐센트가 제시한 IFMTBench(Instruction Following Machine Translation Benchmark, 번역 지시 이행 능력을 평가하는 벤치마크)를 통해 검증된 지시 이행 능력이 그 격차를 메울 것으로 기대하고 있다. 특히 영상의 맥락을 파악하고 톤을 유지해야 하는 자막 번역의 특성상, 모델의 지시 이행 능력이 곧 서비스의 품질로 직결되기 때문이다. 이번 WMT26 파트너십은 Hy-MT2가 단순한 번역 도구를 넘어, 고도의 정밀함이 요구되는 미디어 분야의 실무 표준으로 자리 잡을지 판가름하는 중요한 시험대가 될 것으로 보인다.

상용 API 성능 앞지른 440MB 소형 모델, 텐센트 Hy-MT2 공개

1.8B부터 30B-A3B까지, Hy-MT2의 라인업과 초경량화 수치

MS·더우바오 API 압도한 1.8B 모델의 효율성

WMT26 파트너십과 로컬 번역 생태계의 변화

관련 기사