칭화대학교와 텐센트 ARC 랩(Tencent ARC Lab) 연구진이 단 한 장의 2D 이미지에서 고정밀 3D 모델을 추출하는 기술인 Pixal3D를 공개했다. 기존 생성 모델들은 이미지의 특징을 추상적으로 파악해 3D 형태로 변환하는 방식을 취해왔으나, 이 과정에서 세부 묘사가 뭉개지거나 형태가 왜곡되는 한계가 빈번하게 관찰되었다.
픽셀 정렬(Pixel Alignment)이라는 새로운 접근법을 도입한 Pixal3D는 이미지의 세부 정보를 3D 공간으로 정밀하게 옮기는 데 집중했다. 해당 기술은 SIGGRAPH 2026에 채택되며 학계의 주목을 받았으며, 단순한 형태 모사를 넘어 물리 기반 렌더링(PBR) 텍스처까지 생성할 수 있는 수준에 도달했다. 현재 이 프로젝트는 Trellis.2(마이크로소프트가 개발한 최신 3D 생성 기반 모델)를 백본으로 활용하는 메인 브랜치와 연구 재현을 위한 페이퍼 브랜치로 나뉘어 운영되고 있다. 개발자는 로컬 환경에서 의존성 패키지를 설치한 뒤, 단 한 줄의 명령어로 이미지 파일을 GLB 형식의 3D 메쉬로 변환할 수 있다.
Pixal3D의 기술적 핵심과 구현 환경
2D 이미지의 픽셀 정보가 3D 공간의 기하학적 구조로 변환되는 과정에서 발생하는 데이터 손실은 개발자가 3D 생성 모델을 다룰 때 가장 먼저 마주하는 벽이다. 기존 모델들이 이미지의 특징을 추상화하여 3D 형태로 재구성하는 방식을 취했다면, Pixal3D는 역투영(Back-projection: 2D 픽셀 정보를 3D 공간의 좌표로 직접 투영하는 방식) 기술을 도입하여 이러한 대응 관계를 물리적으로 강제한다. 이는 SIGGRAPH(시그래프: 컴퓨터 그래픽스 및 인터랙티브 기술 분야의 세계 최고 권위 학회) 2026에 채택된 핵심 기법으로, 픽셀과 3D 좌표 간의 직접적인 매핑을 통해 형태 왜곡을 최소화하고 정밀도를 극대화한다.
마이크로소프트의 최신 3D 생성 기반 모델인 Trellis.2(트렐리스 2)를 백본으로 채택하여 구조적 안정성을 확보했다. Trellis.2가 가진 강력한 생성 역량을 바탕으로 Pixal3D는 픽셀 단위의 정렬을 수행하며, 이를 통해 단순한 형태 모사를 넘어 PBR(Physically Based Rendering: 빛의 물리적 성질을 계산해 사실적인 질감을 표현하는 물리 기반 렌더링) 텍스처까지 정교하게 생성해낸다. 개발 환경 구축 과정은 표준적인 파이썬 패키지 관리 체계를 따르며, 로컬 환경에서 모델을 구동하기 위해서는 우선 Trellis.2의 기본 의존성을 설치한 뒤 다음의 추가 과정을 거쳐야 한다.
pip install -r requirements.txt
pip install https://github.com/LDYang694/Storages/releases/download/20260430/utils3d-0.0.2-py3-none-any.whl기존의 복잡한 3D 파이프라인과 비교해 매우 간결한 인터페이스를 제공하는 것이 이 구현 환경의 특징이다. 특히 텐센트 ARC 랩(Tencent ARC Lab)과 칭화대학교 연구진은 개발자가 즉시 모델의 성능을 검증할 수 있도록 환경 설정 이후의 추론 과정을 단계별로 분리했다. 이는 단순히 논문 수준의 프로토타입을 넘어, 실무 현장에서 즉각적인 워크플로우 통합이 가능하도록 설계된 의도적인 구조다. 역투영 기술을 통해 정밀도를 확보한 Pixal3D는 2D 데이터와 3D 에셋 사이의 기술적 간극을 픽셀 단위에서 직접 연결하며, 향후 6개월 내에 현업의 3D 에셋 제작 프로세스에 실질적인 영향을 미칠 것으로 관찰된다.
기존 생성 방식과의 차별점 및 동작 원리
추상적인 특징 주입 방식에서 픽셀 단위의 기하학적 정렬로 전환되었다는 점이 개발자가 바로 체감하는 변화다. 기존의 생성 모델들은 어텐션(Attention: 데이터의 특정 부분에 집중해 관계를 파악하는 메커니즘)을 활용하여 이미지의 전체적인 맥락을 파악하고 이를 3D 공간에 느슨하게 투영하는 방식을 택해왔다. 이러한 접근은 모델이 이미지의 전체적인 형상을 추론하는 데에는 유리했으나, 세부적인 기하학적 구조가 뭉개지거나 원본 이미지의 디테일이 왜곡되는 문제를 피하기 어려웠다. 반면 Pixal3D는 픽셀과 3D 좌표 간의 직접적인 대응 관계를 설정하는 역투영 방식을 채택하여 원본 이미지의 정보를 3D 공간으로 정밀하게 재구성한다.
PBR(Physically Based Rendering: 빛의 물리적 성질을 계산해 사실적인 질감을 표현하는 물리 기반 렌더링) 텍스처를 직접 지원한다는 사실이 실무 환경에서 가장 큰 차별점이다. 기존 모델들이 단순한 색상 맵을 생성하는 데 그쳤다면, 이 모델은 금속성이나 거칠기와 같은 물리적 속성값을 포함한 텍스처를 출력한다. 이는 생성된 모델을 언리얼 엔진이나 유니티와 같은 전문 렌더링 도구로 가져갔을 때, 별도의 추가 수정 없이도 조명 환경에 따른 사실적인 반응을 기대할 수 있음을 의미한다. 결과적으로 3D 모델링 파이프라인에서 생성 후 수작업으로 텍스처를 보정해야 했던 공수가 획기적으로 줄어든다.
복잡한 설정 없이도 단 한 줄의 명령어로 이미지에서 직접 GLB(GL Transmission Format: 3D 모델의 효율적인 전송을 위한 표준 파일 포맷) 파일을 추출할 수 있는 구조를 갖추어 기술적 구현의 편의성을 높였다. 개발자는 다음과 같은 명령어를 통해 로컬 환경에서 즉각적인 결과물을 확보할 수 있다.
python inference.py --image assets/test_image/0.png --output ./output.glb연구진은 모델의 추론 과정을 시각적으로 확인하고 즉각적인 피드백을 얻을 수 있도록 Gradio(그라디오: 머신러닝 모델을 웹 인터페이스로 빠르게 구현하는 도구) 기반의 웹 데모 환경을 제공한다. 이는 단순히 논문상의 성능 수치를 검증하는 단계를 넘어, 실제 프로젝트 환경에서 입력 이미지에 따른 3D 재구성 결과물의 정밀도를 즉시 테스트할 수 있는 실무 중심의 인터페이스를 구축한 것이다. 픽셀 정렬을 통한 이러한 재구성 방식은 데이터의 손실을 최소화하며, 향후 게임 에셋 제작이나 전자상거래용 제품 모델링 등 고정밀 3D 데이터가 필요한 분야에서 핵심적인 도구로 자리 잡을 것으로 관찰된다.
실무 파이프라인 도입 및 산업적 가치
생성된 결과물을 별도의 변환 과정 없이 전문 렌더링 엔진인 언리얼 엔진(Unreal Engine)이나 유니티(Unity)에 즉시 임포트하여 활용할 수 있다는 점이 개발자가 바로 체감하는 변화다. 기존의 생성형 모델이 출력하는 3D 데이터는 메쉬의 위상 구조가 불안정하거나 텍스처 좌표가 어긋나 있어, 실무자가 이를 엔진에 올리기 전 수작업으로 수정하는 시간이 전체 공정의 절반 이상을 차지하곤 했다. 그러나 Pixal3D는 생성 단계부터 GLB(GL Transmission Format: 3D 모델의 효율적인 전송을 위한 표준 파일 포맷) 형식을 지원함으로써, 별도의 중간 변환 소프트웨어 없이도 즉각적인 에셋 통합이 가능하다.
인터페이스 구축 방식에서도 이러한 워크플로우의 효율성이 관찰된다. 개발자는 복잡한 API 연동 없이도 로컬 환경에서 즉시 모델을 구동할 수 있으며, 특히 Gradio(그라디오: 머신러닝 모델을 웹 인터페이스로 빠르게 구현하는 도구)를 활용한 웹 데모 환경을 통해 비전문가인 아티스트도 직관적으로 에셋을 생성하고 검토할 수 있다. 환경 설정이 완료된 후 사용자는 아래 명령어를 통해 즉시 로컬 웹 서버를 실행하여 작업 파이프라인을 가동할 수 있다.
python app.py생성 AI가 단순히 시각적 결과물을 내놓는 도구를 넘어 산업용 생산성 도구로 진화하고 있음을 이러한 도구적 접근이 시사한다. 특히 디지털 트윈(Digital Twin: 현실 세계의 기계나 장비 등을 컴퓨터 속 가상세계에 구현한 것) 제작 현장에서는 하나의 객체를 모델링하기 위해 소요되는 수작업 수정 시간을 획기적으로 단축할 수 있다. 픽셀 정렬 기술을 통해 이미지의 세부 정보를 3D 공간으로 정밀하게 투영함으로써, 재작업 비율을 최소화하고 결과물의 물리적 신뢰도를 확보하는 데 기여한다.
현장 실무자가 기존에 사용하던 렌더링 파이프라인을 그대로 유지하면서도 생성 AI의 속도감을 결합할 수 있다는 점이 결국 Pixal3D의 가치다. 금속성이나 거칠기 같은 물리적 속성을 포함한 PBR(Physically Based Rendering: 빛의 물리적 성질을 계산해 사실적인 질감을 표현하는 물리 기반 렌더링) 텍스처가 자동으로 생성되므로, 조명 환경이 복잡한 게임 엔진 내부에서도 별도의 셰이더 수정 없이 즉시 사실적인 광원 효과를 구현할 수 있다. 이는 단순한 자동화를 넘어 고품질 3D 에셋 제작의 진입 장벽을 낮추는 실질적인 공정 개선 사례로 평가된다.



