LLM 넘어 피지컬 AI로, 알리바바 '큐웬 로봇 스위트' 공개

로보챌린지 1위 달성한 큐웬 로봇 스위트의 실전 스펙

챗봇과 대화하거나 이미지를 생성하는 인공지능은 이제 일상이 됐다. 하지만 화면 속의 지능이 실제 물리적 환경에서 움직이는 로봇에 적용되는 단계는 또 다른 문제다. 알리바바는 내비게이션과 월드모델, 조작 능력을 통합한 로봇 전용 AI 모델 제품군인 큐웬 로봇 스위트(Qwen Robot Suite)를 공개하며 이 간극을 좁혔다.

알리바바는 자사 AI 연구 조직인 통이랩(Tongyi Lab)을 통해 이 제품군을 발표했다. 현재 큐웬 로봇 스위트는 일부 알리바바 클라우드 기업 고객을 대상으로 시범 운영 중이다. 기존의 대규모언어모델(LLM) 중심 전략을 체화 AI(Embodied AI, 물리적 신체를 가진 AI) 영역으로 확장한 결과다.

실제 성능은 로보챌린지(RoboChallenge, 로봇 성능 평가 플랫폼) 범용 부문에서 증명됐다. 큐웬 로봇 스위트는 프로세스 점수 59.83점과 작업 성공률 45%를 기록하며 해당 부문 1위를 차지했다.

이 성과는 방대한 데이터 학습에서 나왔다. 조작을 담당하는 큐원 로봇 매니프(Qwen-RobotManip) 모델은 3만 8000시간 이상의 오픈소스 데이터를 학습했으며, 이를 통해 VLA(Vision-Language-Action, 시각-언어-행동) 모델 기반의 범용 조작 성능을 구현했다.

인식·예측·실행을 분리한 3계층 지능 구조

알리바바는 인식, 예측, 실행을 분리한 3계층 구조를 채택했다. Qwen-RobotNav는 시각과 언어를 기반으로 주변 환경을 이해하고 자율적으로 이동하는 내비게이션 모델이다. 큐웬 로봇월드는 비디오 기반 월드모델로, 로봇이 움직이기 전 물리적 환경의 변화를 예측하고 시뮬레이션한다. 인식과 예측 단계를 분리해 물리적 변수에 대한 대응력을 높였다.

실제 물체를 집거나 조작하는 일은 큐원 로봇 매니프(Qwen-RobotManip)가 수행한다. 이 모델은 큐웬 3.5-4B 아키텍처를 기반으로 한 VLA 모델이다. VLA는 시각 정보와 언어 명령을 로봇의 구체적인 동작으로 직접 변환하는 기술이다. 큐웬 3.5-4B의 연산 능력을 활용해 정밀한 조작 성능을 구현했다.

현재 텐센트의 HY-Embodied를 비롯해 유니트리, 애지봇, 유비테크, 갤봇 등이 로봇 파운데이션 모델 개발에 참여하고 있다. 샤오펑과 샤오미 같은 전기차 기업들도 자율주행 기술과 제조 역량을 활용해 피지컬 AI 시장 진출을 확대하고 있다.

알리바바의 이번 공개는 로봇의 지능 모델 구조가 실제 물리적 환경의 변수를 제어하는 핵심 요소임을 보여준다.

LLM 넘어 피지컬 AI로, 알리바바 '큐웬 로봇 스위트' 공개

로보챌린지 1위 달성한 큐웬 로봇 스위트의 실전 스펙

인식·예측·실행을 분리한 3계층 지능 구조

관련 기사