게임 데이터로 로봇의 '직관'을 깨운 General Intuition의 3조 원 베팅

투자금과 참여 투자자가 보여주는 신호

ChatGPT 같은 AI는 말은 잘하지만, 정작 로봇 팔 하나를 정교하게 움직이게 만드는 일은 훨씬 어렵다. General Intuition은 이 문제를 해결하기 위해 게임 플레이 영상과 버튼 조작 기록을 활용해 AI에게 공간과 시간 속에서 움직이는 법을 가르친다.

3억 2천만 달러의 투자금을 유치하며 기업 가치를 23억 달러로 인정받았다. Khosla Ventures(코슬라 벤처스, AI 전문 벤처캐피털)가 이번 라운드를 주도했고 General Catalyst(제너럴 카탈리스트), 제프 베이조스, 에릭 슈미트 등이 참여했다. 지난해 10월 출시 당시 유치한 1억 3,400만 달러를 포함해 General Intuition의 총 공개 투자금은 4억 5,400만 달러가 됐다.

Medal(메달, 게임 영상 공유 플랫폼)에서 수집한 수억 시간의 게임 영상과 액션 라벨을 데이터셋으로 쓴다. 액션 라벨은 플레이어가 어떤 버튼을 정확히 언제 눌렀는지 기록한 데이터다. 단순히 영상을 보는 것보다 중요한 것은 이 조작 기록이라는 핵심 재료다. AI는 영상 속 화면과 이 버튼 기록을 함께 학습하며 시공간 추론 능력, 즉 공간과 시간 속에서 어떻게 움직여야 하는지를 깨닫는다.

실제 로봇을 움직여 데이터를 수집하려면 막대한 비용과 시간이 들지만, 게임 데이터는 이미 인터넷에 방대하게 쌓여 있어 수집과 확장이 쉽다. 고비용의 실세계 데이터 수집 대신 확장 가능한 게임 데이터를 활용함으로써, 로봇 AI 학습에 들어가는 비용과 시간을 획기적으로 줄일 수 있는 가능성을 확인한 셈이다.

영상만으로 행동을 추론하는 기존 방식과 달리, 실제 입력

AI가 체스 챔피언을 이기는 건 쉽지만, 컵 하나를 집어 옮기는 로봇 팔을 만드는 팀은 매번 막대한 시행착오 비용을 지불한다. General Intuition은 비디오 영상만으로 행동을 짐작하게 하는 기존 방식 대신 액션 라벨(Action Labels)을 쓴다. 액션 라벨은 사용자가 게임 속에서 실제로 어떤 버튼을 눌렀는지 기록한 입력 데이터다. 대부분의 경쟁사는 영상만 보고 AI가 행동을 추론하게 하려 하지만, General Intuition은 이런 방식이 불충분하다고 본다. 버튼 기록까지 함께 학습하면 어떤 조작이 어떤 결과로 이어졌는지 정확한 인과 관계를 깨닫는다. 영상이라는 결과물에 버튼 입력이라는 원인을 더해 로봇의 직관을 깨우는 방식이다.

이런 직관을 대규모로 학습시키려면 엄청난 계산 능력이 뒷받침되어야 한다. General Intuition은 CoreWeave(코어위브, GPU 클라우드 서비스 기업)와 협력해 컴퓨팅 용량을 확장한다. 확보한 투자금 대부분을 이곳에 투입해 다음 버전 모델의 사전 학습(pre-training, 대량의 데이터를 미리 공부시켜 기본기를 다지는 과정)에 집중할 예정이다. 더 많은 데이터를 더 빠르게 처리해 모델의 지능을 높이려는 전략이다. 올여름 말까지는 외부 개발자들이 이 기술을 더 광범위하게 활용할 수 있도록 API(응용 프로그램 인터페이스, 소프트웨어 간 소통 창구)를 공개한다. 고비용의 실세계 데이터 수집 대신 확장 가능한 게임 데이터를 활용해 학습 비용과 시간을 줄이는 길을 택한 셈이다.

로봇 학습 데이터 병목을 겨냥한 해법

ChatGPT처럼 말 잘하는 AI를 만드는 것보다 로봇 팔 하나를 정교하게 움직이게 만드는 것이 훨씬 어렵다. 실제 로봇을 움직여 데이터를 쌓는 일은 막대한 비용과 시간이 들어가는 고된 작업이기 때문이다. General Intuition는 이 비용을 줄이기 위해 가상 게임 에이전트와 실제 물리 로봇을 동일한 AI 모델로 구동한다. 게임 플레이 영상과 버튼 조작 기록인 액션 라벨(Action Labels)을 통해 AI에게 공간과 시간의 추론 능력을 학습시킨 뒤, 이 두뇌를 4족 보행 로봇에 그대로 적용한 방식이다. 실제 로봇에 적용했을 때, 이미 학습된 모델을 특정 환경에 맞게 다듬는 미세 조정(fine-tuning)에 필요한 실세계 데이터는 단 8분뿐이었다. 가상 세계에서 충분히 똑똑해진 두뇌가 실제 물리 세계에서도 빠르게 적응할 수 있음을 보여준 결과다.

이런 효율은 자체 개발한 월드 모델을 AI 학습용 체육관(the gym)으로 활용했기에 가능했다. 프레임 단위로 생성되는 시뮬레이션 환경에서 AI는 벽이나 사다리, 그림자가 가진 물리적 특성을 반복해서 학습한다. 가상 공간에서 수만 번의 시행착오를 겪으며 물리적 인과관계를 익히는 과정이다. General Intuition의 최종 목적지는 이 체육관 자체를 판매하는 것이 아니다. 이곳에서 훈련된 에이전틱 모델, 즉 스스로 상황을 판단하고 행동하는 AI 모델을 판매하는 것이 핵심이다. 고비용의 실세계 데이터 수집 대신 무한히 확장 가능한 게임 데이터를 활용해 로봇 AI의 학습 비용과 시간을 획기적으로 낮출 수 있는 가능성을 확인했다.

말 잘하는 AI를 만드는 것보다 로봇 팔 하나를 정교하게 움직이게 하는 일이 훨씬 어렵다. 게임 영상과 버튼 조작 기록으로 공간과 시간의 흐름을 읽는 법을 먼저 배우면 이야기가 달라진다. 실제로 게임 데이터로 기초를 다진 모델은 단 8분의 실세계 데이터만으로도 로봇에 빠르게 적응했다. 결국 로봇 AI의 진화 속도는 비싼 실물 데이터를 얼마나 모으느냐가 아니라, 무한히 확장 가능한 게임 데이터를 얼마나 영리하게 활용하느냐에 달려 있다.

게임 데이터로 로봇의 '직관'을 깨운 General Intuition의 3조 원 베팅

투자금과 참여 투자자가 보여주는 신호

영상만으로 행동을 추론하는 기존 방식과 달리, 실제 입력

로봇 학습 데이터 병목을 겨냥한 해법

관련 기사