Google가 이번 주 Google I/O 개발자 컨퍼런스에서 스트리트 뷰(Street View)를 프로젝트 제니(Project Genie)에 연결했다. 제니는 다양한 인터랙티브 환경을 생성하는 범용 월드 모델(World Model, 현실 세계의 물리적 법칙과 상호작용을 학습한 AI 모델)이다. 이번 통합으로 사용자는 실제 거리 데이터를 기반으로 날씨를 조정하거나 가상 환경을 시뮬레이션하는 인터랙티브 경험을 할 수 있게 됐다.

구글 딥마인드(DeepMind)의 연구원 잭 파커-홀더(Jack Parker-Holder)는 이번 업데이트가 로보틱스 에이전트와 인간 모두에게 강력한 도구가 될 것이라고 밝혔다. 예를 들어 런던에 배치될 로봇이 드물게 발생하는 강한 햇빛에 당황하지 않도록, 빅토리아풍 주택에 햇빛이 반사되는 상황을 미리 시뮬레이션해 학습시키는 식이다. 이는 단순한 시각적 재현을 넘어, 특정 지역의 환경 변수를 자유롭게 조정해 가상 훈련 데이터를 생성하는 포석이다.

2,800억 장의 데이터와 제니 3의 결합

구글은 지난 20년간 카메라를 장착한 차량과 트래커 백팩(Tracker Backpack, 등에 메는 데이터 수집 장치)을 동원해 지구상의 거의 모든 구석을 기록했다. 7개 대륙 110개국에 걸쳐 확보한 이미지 데이터는 2,800억 장이라는 압도적인 규모에 달한다. 이는 단순한 거리 뷰 서비스 제공을 위한 아카이브가 아니다. 현실 세계의 물리적 구조와 시각적 정보를 디지털로 치환한 거대한 학습 데이터셋이다. 구글은 이 방대한 정적 데이터를 AI가 이해할 수 있는 동적 환경으로 변환하는 전략을 택했다. 데이터의 양과 질 모두에서 경쟁사가 따라올 수 없는 진입장벽을 구축한 셈이다.

지난 8월 공개된 제니 3(Genie 3) 연구 프리뷰는 이러한 데이터 전략의 실체다. 제니 3는 텍스트나 이미지를 기반으로 다양하고 상호작용 가능한 환경을 생성하는 범용 월드 모델(General-purpose World Model)이다. 정지된 이미지들의 집합인 거리 뷰 데이터를 제니 3의 생성 능력과 결합하면 현실의 공간이 시뮬레이션 가능한 가상 세계로 바뀐다. 이는 단순한 영상 생성을 넘어 사용자가 개입하고 상호작용할 수 있는 인터랙티브 환경을 구축하는 기술이다. 구글은 현실의 복제본을 만드는 수준을 넘어, 특정 조건에 따라 변형 가능한 가상 세계를 설계하는 포석을 뒀다.

상용화 단계는 이미 시작됐다. 올해 1월 구글은 미국 내 구글 AI 울트라(AI Ultra, 구글의 고성능 AI 구독 서비스) 구독자들을 대상으로 텍스트와 이미지를 이용한 게임 월드 생성 기능을 제공하기 시작했다. 사용자가 입력한 프롬프트에 따라 새로운 가상 세계가 즉각적으로 구축되는 구조다. 이 기능은 미국 내 일부 울트라 사용자부터 적용되었으며, 앞으로 몇 주 내에 전 세계 울트라 사용자로 확대 적용될 예정이다. 이는 고성능 AI 모델의 유료 구독 모델과 결합해 수익 구조를 공고히 하는 전략이다. 동시에 일반 사용자들의 피드백을 통해 월드 모델의 정확도를 높이는 대규모 테스트 베드로 활용한다.

결국 이번 결합의 핵심은 데이터 우위를 기술적 지배력으로 전환하는 것이다. 거리 뷰 데이터는 현실 세계의 공간적 연속성을 보장하는 유일한 소스다. 제니 3가 이 데이터를 흡수함으로써 AI는 현실의 지형과 구조를 정확하게 기억하고 시뮬레이션하는 능력을 갖추게 된다. 이는 자율주행, 로보틱스, 교육용 시뮬레이션 등 공간 지능이 필요한 모든 산업의 판도를 바꿀 수 있는 기반 기술이다. 구글은 20년의 축적물을 통해 AI 시대의 새로운 지형도를 그리고 있다. 단순한 정보 검색의 시대를 지나, 현실을 시뮬레이션하는 월드 모델의 시대로 진입하는 관문이다.

차량 시점의 시뮬레이터를 넘어 '에이전트' 관점으로

웨이모(Waymo, 구글 자회사 자율주행 서비스)가 사용하는 기존 시뮬레이터는 철저히 차량의 시점(POV)에 국한되어 있다. 운전석에서 전방과 측면을 바라보는 데이터 학습에 집중하는 구조다. 제니(Genie, 구글 딥마인드의 범용 월드 모델)는 이 시점의 한계를 완전히 무너뜨린다. 차량뿐 아니라 인간이나 로봇 등 다양한 에이전트의 시점으로 즉각적인 전환이 가능하다. 이는 자율주행 학습의 지형을 차량 중심에서 공간 중심으로 옮기는 전략적 포석이다. 특정 기기의 시야에 갇히지 않고 환경 전체를 조망하는 에이전트를 구축하겠다는 의도다. 로봇이 도심에 배치되었을 때 겪을 수 있는 다양한 시각적 변수를 시뮬레이션하는 능력이 비약적으로 상승한다. 이는 웨이모가 더 많은 글로벌 도시로 서비스를 확장하는 과정에서 필수적인 데이터 확보 수단이 된다.

기술적 돌파구는 공간 연속성의 확보에서 나타난다. 시뮬레이션 내에서 에이전트가 360도 회전을 수행해도 주변 환경의 정보를 정확하게 기억하고 재현한다. 뒤를 돌아봤을 때 이전에 보았던 지형지물이 그대로 유지되는 일관성을 보여준다. 이는 단순한 이미지의 연속 생성이 아니라 공간에 대한 입체적 이해가 전제되어야 가능한 영역이다. 기존 게임 엔진이 미리 설계된 맵을 불러오는 방식이라면 제니는 데이터를 통해 공간을 생성하고 기억한다. 기억된 공간 데이터를 기반으로 그 위에 새로운 환경 요소를 덧입히는 확장성까지 갖췄다. 가상 세계의 물리적 일관성이 유지되면서 복잡한 상호작용을 정밀하게 테스트할 수 있는 환경이 조성된 셈이다. 이는 로봇 공학의 훈련 비용을 낮추고 엣지 케이스(Edge Case) 대응력을 높이는 핵심 동력이 된다.

물리 법칙의 구현 수준은 아직 과제로 남아 있다. 물리 인식(Physics-aware) 능력이 부족해 시뮬레이션 속 인물이 선인장이나 덤불을 그대로 뚫고 지나가는 식의 오류가 관찰된다. 사물 간의 충돌이나 저항 같은 인과관계를 완전히 학습하지 못한 결과다. 구글의 고성능 비디오 생성 AI인 비오(Veo)와 비교하면 기술적 격차가 명확히 드러난다. 비오는 종이배가 물결을 따라 흐르거나 연기가 공중으로 확산되는 물리적 특성을 정교하게 구현한다. 제니는 물리적 정확도와 시각적 품질 면에서 비오보다 약 6개월에서 12개월 정도 뒤처진 상태다. 물리 법칙을 하드코딩하는 대신 데이터 관찰을 통해 직관적으로 학습하는 과정에 있으며 이는 시간이 해결할 영역으로 분석된다.

로보틱스 훈련 지형의 확장과 엣지 케이스 정복

웨이모(Waymo, 구글의 자율주행 부문) 시뮬레이터에 제니(Genie, 구글 딥마인드의 범용 월드 모델)가 결합됐다. 이제 자율주행 AI는 토네이도가 발생하거나 도로에 코끼리가 출현하는 극히 드문 상황을 가상 세계에서 반복 학습한다. 이를 엣지 케이스(Edge Case, 발생 확률은 낮지만 치명적인 예외 상황)라고 부른다. 실제 도로에서 이러한 희귀 사례를 마주칠 때까지 기다리는 것은 물리적으로 불가능하며 위험하다. 제니는 텍스트나 이미지 기반으로 이러한 극한 환경을 즉각 생성해 낸다. 결과적으로 자율주행 시스템의 안전성 검증 비용과 학습 기간이 획기적으로 단축된다.

스트리트 뷰(Street View, 구글 지도의 거리 뷰 서비스)의 통합은 로보틱스 훈련 지형을 전 지구적 규모로 확장한다. 구글은 지난 20년간 110개국에서 2,800억 장 이상의 이미지를 수집해 방대한 데이터셋을 구축했다. 기존의 시뮬레이터는 주로 차량의 시점에서만 세상을 관찰하는 한계가 있었다. 제니는 이를 인간이나 로봇 같은 다양한 에이전트(Agent, 자율적 행동 주체)의 시점으로 자유롭게 변환한다. 런던의 빅토리아풍 건물에 햇빛이 반사되는 찰나의 순간이나 뉴욕의 폭설 상황을 정밀하게 재현한다. 이는 웨이모가 새로운 도시로 진출할 때 겪는 현지 적응 기간을 줄이는 전략적 포석이 된다.

물리 법칙을 구현하는 메커니즘에서도 근본적인 변화가 일어난다. 나노 바나나(Nano Banana, 구글의 인포그래픽 특화 이미지 생성기) 같은 도구들과 달리 제니는 물리 법칙을 수동으로 코딩하지 않는다. 생명체가 환경을 관찰하며 성장하듯 방대한 영상 데이터를 통해 직관적으로 물리 현상을 학습한다. 종이배가 물결을 따라 흐르거나 연기가 공중으로 흩어지는 원리를 데이터 관찰만으로 깨닫는 방식이다. 현재는 비디오 생성 모델보다 정확도가 다소 낮지만 하드코딩된 규칙이 없는 유연한 세계 모델을 지향한다. 개발자가 일일이 물리 엔진을 설정할 필요 없이 AI가 스스로 현실의 인과관계를 파악하게 된다.

이러한 기술적 진보는 로보틱스를 넘어 교육과 게임 산업의 판도를 바꾼다. 사용자가 간단한 텍스트 입력만으로 상호작용 가능한 고정밀 게임 월드를 구축하는 시대가 열린다. 현실의 공간 데이터를 기반으로 가상 세계를 생성하는 능력은 콘텐츠 제작 비용을 파괴적으로 낮춘다. 특히 360도 회전 시에도 주변 환경을 정확히 기억하고 유지하는 공간적 연속성은 가상 환경의 몰입감을 극대화한다. 단순한 지도 서비스였던 스트리트 뷰가 인터랙티브한 세계 모델의 기초 자산으로 변모했다. 이는 구글이 보유한 데이터 패권을 AI 시대의 실행력으로 전환하는 핵심 경로가 된다.