단 한 장의 사진을 보고 그 너머의 공간을 상상해 걷는 경험은 오랫동안 컴퓨터 그래픽스의 숙원이었다. 기존의 생성형 AI는 짧은 영상이나 단편적인 3D 객체를 만드는 데 그쳤으며, 사용자가 공간을 이동할 때 이전에 봤던 지형이 바뀌거나 형태가 뭉개지는 현상이 빈번했다. 이러한 한계는 AI가 공간의 일관성을 기억하지 못하는 공간 망각과 시간이 흐를수록 좌표가 어긋나는 시간적 표류 현상 때문이다. NVIDIA는 이러한 난제를 해결하기 위해 단일 이미지로부터 지속적이고 탐험 가능한 3D 월드를 생성하는 Lyra 2.0 프레임워크를 공개했다.

Lyra 2.0의 기술적 구성과 구동 사양

Lyra 2.0은 WAN-14B(비디오 생성 모델의 일종)를 기반으로 설계되었으며 총 140억 개의 파라미터(매개변수, 모델의 학습 가능한 가중치)를 가진 트랜스포머(Transformer, 데이터 간의 관계를 파악하는 어텐션 메커니즘 기반 구조) 아키텍처를 채택했다. 이 모델은 CNN(합성곱 신경망, 이미지 특징 추출에 최적화된 구조)과 트랜스포머가 결합된 형태를 띤다. 입력값으로는 480x832 해상도의 이미지 한 장과 81프레임으로 구성된 카메라 파라미터(카메라의 위치와 각도 정보)를 요구한다. 결과물로는 3D 가우시안 씬(3D Gaussian Scene, 공간의 점들을 타원체 형태로 표현해 실시간 렌더링하는 방식)을 생성하며, 이는 .ply(다각형 데이터 저장용 파일 형식) 형태의 포인트 클라우드 파일로 출력된다. 라이선스는 NVIDIA 내부 과학 연구 및 개발 모델 라이선스를 따르며, 상업적 이용이나 배포, 생산 환경에서의 사용은 엄격히 금지된다. 모델의 상세 구현은 아래의 경로를 통해 확인할 수 있다.

https://github.com/nv-tlabs/lyra/tree/main/Lyra-2

공간 망각과 시간적 표류를 해결한 두 단계 설계

Lyra 2.0이 기존 모델과 차별화되는 지점은 생성과 재구성의 이분법적 접근이다. 먼저 모델은 전역적 기하학적 일관성이 강한 장거리 비디오를 합성한다. 이후 이 비디오 시퀀스를 명시적인 3D 표현체로 재구성한다. 특히 개발자들이 주목해야 할 부분은 공간 망각을 해결하기 위해 도입한 정보 라우팅 방식이다. 모델은 프레임별 3D 기하 구조를 유지하며, 이를 통해 과거 프레임에서 관련 정보를 검색하고 대상 시점과 밀집된 대응 관계를 설정한다. 외형 합성은 생성형 사전 학습 모델에 맡기되, 구조적 뼈대는 3D 기하 정보를 활용해 고정하는 방식이다. 또한 시간적 표류를 막기 위해 자기 증강 이력(Self-augmented histories, 모델이 생성한 저하된 결과물을 다시 학습 데이터로 사용하는 기법)을 통해 학습했다. 이는 모델이 스스로의 오류를 인지하고 이를 수정하며 생성하는 능력을 갖추게 하여, 장시간 탐색 시에도 공간이 무너지지 않게 만든다. 결과적으로 140억 개의 파라미터를 통해 복잡한 공간적 관계를 학습함으로써 단일 이미지라는 극소량의 정보만으로도 일관성 있는 3D 월드를 구축하는 성과를 냈다.

단일 이미지 기반 3D 씬 생성 분야에서 새로운 기준점을 제시하며 실시간 렌더링 가능성을 입증했다.