33개. 텐센트(중국의 거대 IT 기업)가 공개한 다국어 번역 모델 Hy-MT2가 지원하는 언어의 수다. 전 세계 주요 언어 대부분을 하나의 작은 모델에 압축해 넣은 셈이다. 그런데 이번 발표의 핵심은 언어의 수가 아니라 '무게'에 있다.
기존의 거대 모델들은 막대한 컴퓨팅 자원을 요구하며 클라우드에 종속되어 있었다. 텐센트는 이를 기기 자체에서 구동하는 온디바이스(On-device, 기기 자체에서 AI를 구동하는 방식) 환경으로 끌어내리려 한다. 하드웨어 제약을 극복하기 위한 극단적인 최적화가 이번 모델의 본질이다. 이는 단순한 성능 개선을 넘어 AI 배포의 지형을 바꾸려는 전략적 포석이다.
Hy-MT2 라인업과 440MB의 극단적 경량화
텐센트가 공개한 Hy-MT2의 라인업은 1.8B, 7B, 30B-A3B 세 가지 체급으로 정밀하게 나뉜다. 이는 사용자의 하드웨어 환경에 따라 최적의 모델을 선택하게 만드는 세분화 전략이다. 가장 규모가 큰 30B-A3B 모델은 MoE(Mixture of Experts, 입력값에 따라 필요한 일부 신경망만 활성화해 연산 효율을 높이는 전문가 혼합 방식) 구조를 채택했다. 모든 파라미터를 가동하지 않고 입력값에 최적화된 일부 전문가 신경망만 호출함으로써 거대 모델의 추론 성능과 연산 효율성을 동시에 확보했다. 이는 고성능 GPU 서버부터 제한적인 엣지 컴퓨팅 환경까지 모두 아우르는 배포 지형을 구축하겠다는 계산이다. 모델 크기의 다양화는 기업이 서비스 규모에 맞춰 인프라 비용을 최적화할 수 있는 유연성을 제공한다.
개발자가 즉각적으로 체감하는 변화는 1.8B 모델의 극단적인 경량화 수치에서 나타난다. 텐센트는 AngelSlim이라는 1.25비트 양자화(Quantization, 모델 가중치 정밀도를 낮춰 용량을 줄이는 기술) 기술을 전면 적용했다. 이를 통해 1.8B 모델의 저장 용량을 440MB라는 파격적인 수준까지 낮췄다. 단순한 용량 감소에 그치지 않고 추론 속도는 기존 대비 1.5배 향상되는 결과로 이어졌다. 이는 AI 모델 배포의 최대 병목이었던 메모리 점유율과 전력 소모 문제를 정면으로 돌파한 결과다. 온디바이스(On-device, 기기 자체에서 AI를 구동하는 방식) 환경에서 지연 시간 없는 실시간 번역을 구현하기 위한 기술적 포석으로 읽힌다. 440MB라는 용량은 모바일 앱 내부에 모델을 직접 탑재해도 부담이 없는 수준이며 이는 클라우드 의존도를 낮추는 결정적 요인이 된다.
다양한 런타임 환경을 고려한 포맷 최적화는 배포 진입장벽을 낮추는 핵심 장치다. 텐센트는 FP8(8비트 부동소수점, 연산 정밀도를 조정해 속도를 높인 형식) 버전과 GGUF(llama.cpp에서 사용하는 효율적인 모델 저장 포맷) 버전을 동시에 제공하는 방식을 택했다. 특히 2비트와 1.25비트 GGUF 모델은 메모리 사용량을 극단적으로 억제해 모바일 기기나 저사양 PC에서도 원활한 구동을 보장한다. 이는 특정 고사양 하드웨어에 종속되지 않고 범용적인 기기에서 AI 기능을 실행하려는 전략적 선택이다. GGUF 포맷의 지원은 오픈소스 커뮤니티의 기존 툴체인과 즉각적인 호환을 가능케 하여 확산 속도를 높인다. 하드웨어 제약을 없애 배포 효율을 극대화함으로써 더 넓은 사용자 접점을 확보하려는 의도가 명확하다. 개발자들은 tencent/Hy-MT2-1.8B, tencent/Hy-MT2-7B, tencent/Hy-MT2-30B-A3B 경로를 통해 모델을 즉시 내려받아 테스트할 수 있다.
상용 API를 앞선 1.8B 모델의 추론 효율
개발팀이 공개한 벤치마크 수치는 상용 API의 효율성 신화를 깨뜨린다. 1.8B(18억 개 파라미터) 모델이 마이크로소프트(글로벌 소프트웨어 기업)와 도우바오(바이트댄스의 AI 챗봇)의 상용 API 성능을 추월했다. 이는 추론 비용의 구조적 변화를 의미한다. 그동안 기업들은 고성능 번역을 위해 막대한 API 호출 비용을 지불하며 외부 인프라에 종속되어 왔다. 하지만 초경량 모델이 상용 수준의 성능을 내면서 자체 서버나 사용자 기기 내에서 고품질 서비스를 구현할 수 있는 지형이 열렸다. 모델 크기를 극단적으로 줄이면서도 성능을 유지한 전략은 온디바이스 AI 시장의 판도를 바꾸는 결정적인 포석이다. 클라우드 중심의 AI 생태계를 엣지 단으로 끌어내려 인프라 비용을 절감하고 서비스 단가 경쟁력을 확보하려는 계산이다.
중형 및 대형 모델의 추론 속도 경쟁에서도 압도적인 우위를 점했다. 7B(70억 개 파라미터)와 30B-A3B 모델은 패스트 씽킹(Fast-thinking, 빠른 추론 모드) 상태에서 딥시크(DeepSeek, 중국 AI 연구소) V4-Pro와 키미(Kimi, Moonshot AI의 LLM) K2.6보다 뛰어난 성능을 기록했다. 특히 30B-A3B 모델은 MoE(Mixture of Experts, 입력값에 따라 필요한 일부 신경망만 활성화해 연산 효율을 높이는 전문가 혼합 방식) 구조를 통해 거대 모델의 성능과 추론 효율을 동시에 확보했다. 이는 단순한 파라미터 규모 경쟁에서 벗어나 실제 응답 속도와 정확도의 최적 지점을 찾아낸 결과다. 실시간성이 핵심인 서비스 환경에서 추론 효율은 곧 비즈니스 경쟁력으로 직결된다. 연산 자원을 최적화해 응답 지연을 최소화한 점은 엔터프라이즈 시장에서의 채택 가능성을 극대화하며 사용자 경험의 질을 높인다.
성능 검증의 객관성을 확보하고 시장 표준을 선점하기 위한 인프라 구축에도 집중했다. 텐센트는 번역 지침 수행 능력을 평가하는 IFMTBench(번역 지침 수행 능력 평가 벤치마크)를 공개해 투명한 검증 환경을 마련했다. 이는 단순한 텍스트 변환율을 넘어 사용자의 세부적인 번역 지침을 얼마나 정확히 수행하는지를 측정하는 새로운 기준이 된다. 동시에 WMT26(세계 기계 번역 컨퍼런스)과의 파트너십을 통해 비디오 자막 번역 과제에 착수했다. 비디오 자막은 엄격한 시간적 제약과 복잡한 문맥 파악이 동시에 요구되는 고난도 영역이다. Hy-MT2의 빠른 추론 속도는 이러한 실무적 제약을 해결하는 핵심 열쇠가 된다. 벤치마크 공개로 기술적 정당성을 확보하고, 글로벌 컨퍼런스와의 협력으로 실무 적용 범위를 확장하는 전략적 흐름이다.
온디바이스 번역 지형의 변화와 실무 적용
법률이나 의료 분야의 전문 번역은 단순한 언어 치환이 아니라 엄격한 용어집 준수가 핵심이다. Hy-MT2는 특정 도메인의 전문 용어집을 반영하고 타겟 독자에 맞춰 톤앤매너를 조절하는 세부 지침 수행 능력을 갖췄다. 이는 기존 범용 모델이 놓치던 실무적 디테일을 기기 내부에서 직접 제어할 수 있음을 의미한다. 전문 번역가나 실무자가 일일이 수정하던 후처리 공정을 AI가 온디바이스 단계에서 흡수하는 구조로 바뀐다. 실무자는 이제 클라우드에 데이터를 보내지 않고도 보안이 유지된 환경에서 전문 용어의 일관성을 확보할 수 있다.
개발자가 체감하는 통합 편의성은 플랫폼 연결 방식에서 갈린다. 텐센트는 ClawHub(클로허브, AI 모델 배포 플랫폼)와 SkillHub(스킬허브, AI 기능 제공 플랫폼)를 통해 Hy-MT2-Translator Skill을 제공한다. 개발자는 복잡한 추론 엔진 설정이나 환경 구축 없이 해당 스킬을 호출해 기존 시스템에 번역 기능을 즉시 통합할 수 있다. 이는 개별 모델의 파라미터 성능 경쟁을 넘어 배포 생태계를 선점하려는 전략적 포석이다. 시스템 통합 비용을 낮춰 더 많은 서비스가 온디바이스 번역을 채택하게 만드는 진입장벽 제거 전략으로 해석된다.
비즈니스 관점에서 가장 큰 임팩트는 API 비용 구조의 근본적인 파괴다. 그동안 기업들은 마이크로소프트나 도우바오 같은 상용 API(Application Programming Interface, 소프트웨어 간 통신 규약)의 호출 비용을 감당하며 서비스 규모를 확장했다. Hy-MT2는 가장 작은 1.8B 모델만으로도 이러한 상용 API의 전반적인 성능을 추월하며 자체 서버나 사용자 기기 내 구현을 가능하게 했다. 호출당 비용이 발생하는 가변 비용 구조에서 기기 자원을 활용하는 고정 비용 구조로 전환된다. 이는 고비용 API 의존도를 낮추고 인프라 제어권을 기업이 되찾는 지형 변화를 야기한다.
온디바이스 번역의 기준점은 이제 단순한 작동 여부가 아니라 실무 전문성 구현으로 이동한다. 하드웨어 제약을 극복한 초경량 모델이 전문 용어 처리와 시스템 통합이라는 실무적 요구를 동시에 충족했기 때문이다. 클라우드 의존도를 낮춘 독립적 번역 생태계는 보안이 극도로 중요한 기업 내부망이나 네트워크 단절 환경의 서비스 품질을 결정짓는 핵심 변수가 된다. 이는 온디바이스 AI 시장의 주도권이 단순한 모델 크기 줄이기에서 실질적인 비즈니스 임팩트를 내는 적용력으로 옮겨가고 있음을 보여준다.




