로봇이 단순히 정해진 명령을 수행하는 시대를 넘어, 주변 환경을 스스로 이해하고 판단해 움직이는 Embodied AI(체화된 인공지능) 시대가 다가오고 있다. 하지만 기존의 거대 언어 모델은 텍스트 기반의 지식은 풍부해도 실제 물리적 공간에서의 거리감이나 물체 간의 상호작용을 이해하는 데 한계가 있었다. 이러한 간극을 메우기 위해 Tencent Robotics X와 HY Vision Team이 협력하여 물리적 에이전트를 위한 전용 파운데이션 모델을 공개했다.
물리적 지능을 위한 MoT 아키텍처와 기술 사양
이번에 공개된 HY-Embodied-0.5는 실제 환경에서 작동하는 로봇 에이전트를 위해 설계된 모델이다. 핵심은 MoT(Mixture-of-Transformers, 트랜스포머 구조를 혼합하여 연산 효율을 높인 방식) 아키텍처에 있다. 이 구조는 잠재 토큰(Latent Token, 데이터를 압축해 표현한 단위)을 활용해 모달리티별로 최적화된 계산을 수행하며, 이를 통해 세밀한 시각적 인지 능력을 확보했다.
모델은 크게 두 가지 버전으로 제공된다. 엣지 디바이스(Edge Device, 중앙 서버가 아닌 말단 기기) 배포에 최적화된 2B 모델과 복잡한 추론을 수행하는 32B 모델이다. 특히 MoT-2B 모델은 전체 파라미터가 40억 개에 달하지만, 실제 추론 시에는 22억 개의 활성 파라미터만 사용한다. 이는 밀집형 2B 모델 수준의 빠른 추론 속도를 유지하면서도 훨씬 정교한 인지 표현력을 갖췄음을 의미한다.
학습 데이터의 규모 또한 압도적이다. 1억 개 이상의 체화 및 공간 특화 데이터 포인트와 2,000억 개 이상의 토큰으로 구성된 말뭉치를 학습했다. 이를 통해 3D 공간에 대한 이해와 물리적 객체 간의 상호작용, 에이전트의 동역학을 기본적으로 습득했다.
설치 및 실행을 위한 환경은 다음과 같다.
pip install git+https://github.com/huggingface/transformers@9293856c419762ebf98fbe2bd9440f9ce7069f1a
pip install -r requirements.txt실행을 위해서는 리눅스 운영체제와 파이썬 3.12 이상, CUDA 12.6, PyTorch 2.8.0 버전이 필요하며 NVIDIA GPU가 필수적이다.
git clone https://github.com/Tencent-Hunyuan/HY-Embodied
cd HY-Embodied/
pip install -r requirements.txt
python inference.py32B의 지능을 2B에 이식한 효율적 추론 성능
HY-Embodied-0.5의 진가는 단순한 크기가 아니라 지식 전이 방식에 있다. 개발팀은 온폴리시 증류(On-policy Distillation, 상위 모델의 추론 경로를 하위 모델이 그대로 학습하게 하는 기술)와 자기 진화형 사후 학습 파이프라인을 도입했다. 이를 통해 32B 모델이 가진 단계별 추론, 계획 수립, 고차원적 사고 능력을 2B 모델에 성공적으로 이식했다.
성능 지표에서도 뚜렷한 결과가 나타났다. MoT-2B 모델은 유사한 크기의 기존 모델들과 비교해 16개의 벤치마크에서 더 우수한 성능을 기록했다. 상위 모델인 32B 버전은 Gemini 3.0 Pro와 견줄 만한 최첨단 수준의 성능을 보여준다.
실무 관점에서 이 모델은 VLA(Vision-Language-Action, 시각-언어-행동 통합 제어) 파이프라인의 핵심 두뇌 역할을 수행한다. 단순히 이미지를 설명하는 VLM(Vision-Language Model, 시각-언어 모델)을 넘어, 특정 물체를 옮기라는 명령을 받았을 때 물체의 위치를 파악하고, 팔의 궤적을 계산하며, 실제 물리적 동작으로 연결하는 일련의 과정을 처리한다. 이는 학술적 수치를 넘어 실제 로봇 제어 성공률을 높이는 실질적인 결과로 이어진다.
물리적 세계와 디지털 지능을 연결하는 VLA 모델 시장에서 하드웨어 제약을 극복한 새로운 표준을 제시했다.




