이번 주 로보틱스 업계의 화두는 연구실의 화려한 데모와 실제 공장 바닥의 괴리다. Physical Intelligence(물리적 지능을 연구하는 AI 기업)의 π0 모델이 인간 수준의 민첩성으로 빨래를 개는 모습은 놀랍지만, 이를 실제 서비스에 적용하려면 99.9%의 신뢰도가 필요하다. 개발자들은 텍스트 박스 하나로 성능을 증명하던 LLM 시대와 달리, 물리적 환경에서 로봇이 어떻게 움직이는지를 직접 관찰하며 한계를 체감하고 있다.

로보틱스 데이터 비용 30억 달러와 인재 집중도

Bessemer(벤처캐피털)는 향후 2년간 업계 전체의 로보틱스 데이터 수집 비용이 30억 달러를 넘어설 것으로 추산했다. 현재 전 세계 로봇 조작 데이터는 약 30만 시간 수준으로, 인터넷 비디오 10억 시간이나 텍스트 300조 토큰에 비해 구조적 격차가 크다. 인재 쏠림 현상도 뚜렷하게 관찰된다. 최근 5년간 3,000만 달러 이상 투자받은 미국 로보틱스 기업 창업자의 48%가 Stanford, MIT, Berkeley, CMU 4개 대학 출신이다.

방위 로보틱스 분야의 Series A(초기 대규모 투자 단계) 중앙값은 2025년 기준 1억 500만 달러로, 비방위 기업의 5,000만 달러보다 2배 이상 높다. Anduril(자율 국방 시스템 기업)은 2026년 3월 600억 달러의 기업 가치를 기록하며 이 분야의 성장을 견인하고 있다. 지난 5년간 3,000만 달러 이상 투자받은 로보틱스 기업은 42개에 불과하며, 이는 소프트웨어 기업의 18분의 1 수준으로 구조적 과소 투자 상태인 것으로 분석된다.

월드 모델의 등장과 풀스택 전략의 전환

예전에는 제어 알고리즘을 정교하게 짜는 것이 핵심이었다면, 이제는 물리 세계를 이해하는 파운데이션 모델(기초 모델)이 중심이 된다. Meta의 V-JEPA 2(비디오를 통해 물리 법칙을 학습하는 모델)는 100만 시간의 비디오 학습 후 단 62시간의 로봇 데이터만으로 80%의 제로샷 pick-and-place(물건을 집어 옮기는 작업) 성공률을 보였다. NVIDIA의 Cosmos(물리적 AI 학습 모델) 역시 10,000개의 H100 GPU를 3개월간 사용하여 월드 모델을 구축하는 자본 집약적 접근을 취하고 있다.

개발자가 체감하는 실질적 가치는 순수 모델 기업보다 풀스택(하드웨어부터 소프트웨어까지 통합 제공) 기업으로 이동하고 있다. LLM은 API 하나로 제품을 만들 수 있었으나, 로보틱스는 도메인별 데이터 수집과 하드웨어 통합, 운영 인프라가 필수적이기 때문이다. DroneDeploy(드론 데이터 플랫폼 기업)에 따르면 건설용 지상 로봇 가격이 10만 달러에서 1만 5,000달러 미만으로 하락하며 배포 확장의 임계점을 통과하고 있다. 이는 모델 아키텍처보다 독점 데이터 파이프라인과 고객 관계를 통한 피드백 루프가 더 강력한 해자가 됨을 뜻한다.

물리적 AI의 상용화 단계에서 가장 큰 걸림돌은 추론 비용과 신뢰도 격차다. 텍스트 모델과 달리 로보틱스 모델은 로봇당 수 밀리초마다 환경 상태를 생성해야 하므로 전용 GPU 파이프라인이 필요하다. 또한 작업 성공률을 80%에서 99.9%로 올리는 과정은 선형적인 데이터 추가만으로는 해결되지 않는 전문적인 데이터 큐레이션의 영역이다. 이에 따라 모델의 내부 동작을 분석하는 해석 가능성(Interpretability, AI의 판단 근거를 설명하는 기술) 도구를 만드는 스타트업들이 새로운 인프라 레이어로 부상하고 있다.

결국 로보틱스의 승패는 모델의 아키텍처가 아니라, 물리적 마찰을 뚫고 데이터를 긁어모으는 인프라의 품질에서 갈린다.