엣지 케이스 수집 비용을 낮추는 실시간 월드 모델의 등장

자율주행 기업들은 희귀 사고 상황인 '엣지 케이스(Edge Case)' 데이터를 수집하기 위해 막대한 비용과 시간을 쏟는다. AI 스타트업 Decart는 이 문제를 해결하기 위해 텍스트 한 줄로 실시간 주행 환경을 만드는 월드 모델 'Oasis 3'를 API 형태로 공개했다. 텍스트 프롬프트만으로 실제 도로와 흡사한 고화질 환경을 무한히 생성해 대규모 시뮬레이션을 수행하는 것이 핵심이다. 향후 적용 범위를 로보틱스와 기타 물리 AI 애플리케이션으로 확장할 계획이다.

딘 라이터스도르프(Dean Leitersdorf) CEO는 OpenAI가 언어 모델로 구축한 것과 유사한 개발자 생태계를 월드 모델 분야에서 조성하겠다는 전략이다. 이미 실시간 비디오 모델 'Lucy'를 통해 10만 명 이상의 개발자 커뮤니티를 확보했으며, Oasis 3는 이 Lucy의 파운데이션 모델을 기반으로 개발됐다. API 이용 가격은 초당 0.02달러로 책정되었으며, 기업용 가격은 사용 사례에 따라 별도로 협의한다.

하드웨어 최적화 스택 DOS를 통한 비용 효율성 확보

경쟁사 대비 10배 이상의 비용 효율을 낸 비결은 자체 하드웨어 최적화 소프트웨어인 'DOS(Decart Optimization Stack)'에 있다. Nvidia, Amazon, Google 하드웨어에서 모델이 최적의 효율로 실행되도록 돕는 최적화 스택이다. 하드웨어 계층부터 소프트웨어까지 수직 계열화를 달성해 모델 구동 비용을 업계 최저 수준으로 낮췄으며, 덕분에 설립 이후 누적 지출 비용을 1억 달러 미만으로 유지했다.

기술적 우위는 대규모 투자 유치로 이어졌다. 최근 3억 달러의 투자금을 유치하며 기업 가치를 약 40억 달러로 끌어올렸다. 이번 라운드에는 Toyota, Adobe, eBay가 전략적 투자자로 참여했고 기존 투자자인 Nvidia도 추가 자금을 투입했다. 이들은 단순 투자자를 넘어 Decart의 솔루션을 실제 서비스나 제품에 도입할 가능성이 높은 잠재적 고객사들이다.

자기회귀 구조의 작동 원리와 물리적 일관성의 한계

Oasis 3는 이전 프레임을 참조해 다음 프레임을 생성하는 자기회귀(Auto-regressive) 방식으로 동작한다. 정면 카메라 1대와 측면 카메라 2대로 구성된 멀티 카메라 환경을 생성하며, 프레임 하나당 약 8,000개의 토큰을 소모한다. 초당 수십 프레임을 생성하는 환경에서는 매초 수십만 개의 토큰이 처리되는데, 이 과정에서 모델의 컨텍스트 윈도우(한 번에 처리 가능한 정보 범위)가 빠르게 채워지는 특성을 보인다.

다만 장시간 환경을 생성할 때 테마 일관성이 저하되는 한계가 있다. 뉴욕 거리 같은 구체적인 환경이 점차 일반적인 서구권 도시 모습으로 변하거나, 이전 교차로로 돌아갔을 때 지형이 완전히 바뀌어 있기도 한다. 주행 중인 차량이 다른 차량을 그대로 통과하는 등 물리 법칙을 정확히 시뮬레이션하지 못하는 문제도 나타난다. 딘 라이터스도르프 CEO는 사고 데이터보다 정상 주행 데이터가 압도적으로 많기 때문에 발생하는 연구 과제라고 설명했다.

Decart는 이를 해결하기 위해 메모리 압축 기술과 컨텍스트 확장 연구를 진행 중이다. 수백만 개의 토큰을 저장해 모델의 기억력을 높이고, 차기 버전에서는 실제 환경 비디오를 기반으로 세계를 생성하는 기능을 추가해 일관성을 개선할 계획이다. 결국 핵심은 초당 0.02달러라는 낮은 비용으로 시뮬레이션 환경을 구축해, 엣지 케이스 테스트 횟수를 얼마나 극대화할 수 있느냐는 실무적 판단에 있다.