매일 아침 공장 바닥을 누비는 로봇이 압력 게이지의 바늘 위치를 읽고, 복잡한 배관 속 유량계 숫자를 해석한다. 사람이 직접 확인해야 했던 작업이 로봇의 눈으로 대체되는 장면이다. 이번 주 Google이 공개한 Gemini Robotics-ER 1.6은 이런 장면을 현실로 만드는 핵심 모델이다.
공간 추론과 계측기 판독, 두 가지 핵심 개선
이번 릴리스에서 Google은 로봇이 물리적 세계를 이해하는 능력, 즉 '체화된 추론(embodied reasoning)'을 강화한 Gemini Robotics-ER 1.6을 발표했다. 이 모델은 이전 버전인 Gemini Robotics-ER 1.5 및 Gemini 3.0 Flash 대비 세 가지 영역에서 개선되었다: 시각적·공간적 이해, 작업 계획 및 성공 감지, 그리고 새롭게 추가된 계측기 판독(instrument reading) 기능이다.
Boston Dynamics와의 협력을 통해 발견된 계측기 판독은 로봇이 복잡한 게이지와 시야창(sight glass, 내부 액체 높이를 볼 수 있는 투명 창)을 읽을 수 있게 해준다. 이는 기존 로봇이 거의 불가능했던 정밀한 물리적 측정 작업을 가능하게 만든다.
개발자는 오늘부터 Gemini API와 Google AI Studio를 통해 이 모델에 접근할 수 있다. Google은 시작을 돕기 위해 Colab 노트북(클라우드 기반 파이썬 실행 환경)을 제공하며, 여기에는 모델 설정과 체화된 추론 작업을 위한 프롬프트 예시가 포함되어 있다.
예전에는 사람이 직접 붙잡고 보던 작업이다
기존 로봇 시스템은 명령어를 따르는 수준에 머물렀다. "오른쪽으로 30도 돌아라" 같은 구체적 지시가 필요했고, 환경 변화에 스스로 대응하지 못했다. Gemini Robotics-ER 1.6은 달라졌다. 이 모델은 고수준 추론 모델(high-level reasoning model) 역할을 하며, Google 검색 같은 도구를 직접 호출해 정보를 찾고, 비전-언어-행동 모델(VLA, Vision-Language-Action model: 이미지와 언어 명령을 받아 실제 로봇 동작을 생성하는 모델)이나 사용자 정의 함수를 실행할 수 있다.
"저 압력계가 정상 범위인지 확인해"라는 명령을 받으면, 모델은 먼저 게이지 위치를 파악하고, 바늘 각도를 읽고, 정상 범위와 비교한 뒤 결과를 반환한다. 이 모든 과정이 하나의 추론 체인으로 연결된다.
개발자가 바로 체감하는 변화는 도구 연결 방식이다. Gemini Robotics-ER 1.6은 natively(자체적으로) 타사 함수를 호출할 수 있어, 기존처럼 별도의 미들웨어(중간 연결 소프트웨어)를 구축할 필요가 줄었다. 다음은 Google이 제공한 Colab 예시의 핵심 설정 코드다:
import google.generativeai as genai
model = genai.GenerativeModel('gemini-robotics-er-1.6')
response = model.generate_content(
"이 압력 게이지의 현재 값을 읽고 정상 여부를 판단해줘",
safety_settings={
"HARM_CATEGORY_DANGEROUS_CONTENT": "BLOCK_NONE"
}
)실제 산업 현장에 들어가는 로봇 추론
Boston Dynamics와의 협력 사례가 보여주듯, 이 모델은 연구실을 넘어 공장과 물류 현장에 직접 적용될 수 있다. 계측기 판독은 화학 플랜트, 반도체 제조, 에너지 설비 등에서 필수적인 작업이다. 기존에는 사람이 정기적으로 순회하며 게이지를 확인해야 했지만, 이제 로봇이 대신할 수 있다.
또한 공간 추론 능력 향상은 로봇이 복잡한 환경에서 물체를 가리키고(pointing), 개수를 세고(counting), 작업 성공 여부를 스스로 판단(success detection)할 수 있게 한다. 이는 자율주행 물류 로봇이나 창고 관리 시스템에 직접적인 개선을 가져온다.
개발자는 Gemini API를 통해 이 모델을 기존 로봇 제어 파이프라인에 통합할 수 있다. Google AI Studio에서 무료로 테스트 가능하며, API 사용량에 따라 과금된다. 정확한 가격은 아직 공개되지 않았지만, Gemini 3.0 Flash와 유사한 수준으로 예상된다.
로봇이 단순히 움직이는 기계에서 환경을 이해하고 판단하는 에이전트로 진화하는 전환점이다.



