어느 오후, 보스턴 다이내믹스의 실험실.
노란색 로봇 개 Spot이 거실 바닥에 흩어진 신발과 음료수 캔을 하나씩 집어 올린다. 사람이 태블릿으로 조종하는 대신, 화이트보드에 적힌 텍스트 명령어를 읽고 움직이는 모습이다.
이 장면 뒤에는 Google의 시각-언어 모델이 설계한 새로운 제어 방식이 있다.
Gemini Robotics-ER 1.5와 Spot의 기술적 결합
2025년 보스턴 다이내믹스 해커톤에서 공개된 이번 프로젝트는 Gemini Robotics-ER 1.5(시각 정보와 언어를 동시에 처리하는 모델)를 Spot에 적용한 결과다. 연구팀은 VLM(시각-언어 모델)을 통해 Spot에 체화된 추론(물리적 신체를 가진 AI가 환경을 이해하고 행동하는 능력) 능력을 부여했다. 이를 위해 Spot의 SDK(소프트웨어 개발 키트)를 활용해 Gemini Robotics와 Spot의 API(응용 프로그램 인터페이스) 사이를 연결하는 계층을 개발했다.
Gemini Robotics는 로봇을 제어하기 위해 한정된 도구 세트를 사용한다. 여기서 도구란 내부 로직을 수행하고 Gemini Robotics의 입력을 실제 API 호출로 변환하는 경량 스크립트를 의미한다. 이번 실험에서 정의된 도구는 특정 위치로의 이동, 이미지 캡처, 객체 식별, 물건 잡기, 물건 놓기 등 다섯 가지 핵심 동작으로 제한되었다.
상태 머신에서 자연어 프롬프트로의 전환
예전에는 로봇의 모든 움직임을 단계별로 정의하는 상태 머신(각 단계의 동작을 미리 정의한 프로그램)을 작성해야 했다. 반면 이번 방식은 Gemini Robotics에 대화형 언어로 명령을 내리면 모델이 이를 해석해 Spot에게 전달하는 구조다. 개발자가 직접 소프트웨어 로직을 짜는 대신 자연어 프롬프트를 통해 로봇의 행동을 유도하는 방식으로 바뀐 것이다.
주목할 점은 프롬프트의 구체성이 결과에 직접적인 영향을 미쳤다는 사실이다. 단순히 물건을 내려놓으라는 명령은 기대한 동작을 끌어내지 못했다. 그러나 정면 카메라가 낮아 높은 곳의 물건을 촬영하기 어렵다는 맥락을 추가하자 결과가 눈에 띄게 개선되었다. 이는 모델이 로봇의 물리적 한계를 텍스트로 이해하고 이를 동작 시퀀스에 반영했음을 뜻한다.
개발자가 체감하는 가장 큰 변화는 운영자의 역할 전환이다. 기존에는 사람이 태블릿 컨트롤러를 이용해 로봇을 정밀하게 조종하고 잡기 마법사(물건을 잡기 위해 대상을 지정하는 도구)를 통해 타겟을 설정했다. 하지만 Gemini Robotics가 도입되면서 AI가 운영자와 태블릿의 역할을 동시에 수행하게 되었다. 사람은 이제 세부 조종이 아닌 고수준의 할 일 목록을 제공하는 팀장 역할만 수행한다.
실제 작동 과정에서 Gemini Robotics는 실시간 피드백 루프를 통해 동작을 수정한다. 예를 들어 물건을 잡으라는 명령을 내리면 모델은 이미지를 요청하고, 신발을 식별한 뒤 픽업 명령을 호출한다. 만약 손에 이미 물건이 있어 잡을 수 없다는 결과가 반환되면 Gemini Robotics는 이를 바탕으로 다음 행동을 즉시 조정한다. 다만 Gemini Robotics는 API를 통해 제공된 기능 외에 새로운 능력을 스스로 창조하거나 제어 범위를 벗어날 수 없도록 엄격히 제한되었다.
이러한 구조는 Spot을 사용하는 개발자들에게 작업 효율을 높이는 포스 멀티플라이어(능력을 증폭시키는 도구)로 작용한다. 복잡한 작업 로직을 API 위에 일일이 구현하는 대신, AI가 자연어 지시를 해석해 동적으로 기능을 선택하게 함으로써 애플리케이션 확장 속도를 높일 수 있기 때문이다.
물리적 AI의 실효성은 새로운 기능을 창조하는 능력이 아니라, 기존의 검증된 API를 얼마나 정교하게 호출하느냐에 달려 있다.




