이미지 생성 AI의 핵심, 스코어와 밀도의 수학적 원리

Stable Diffusion이나 DALL-E 같은 디퓨전 기반 이미지 생성 AI는 무작위 노이즈 상태에서 시작해 정교한 이미지를 복원하는 과정을 거친다. 이 모델들은 데이터 분포의 '밀도'와 '스코어'라는 두 가지 핵심 수치를 추적하며 작동한다. 밀도는 데이터 포인트가 밀집된 곳은 높고 희소한 곳은 낮게 나타나는 히스토그램의 매끄러운 버전으로 정의된다. 스코어는 로그 밀도의 기울기를 의미하며, 데이터 밀도가 가장 빠르게 상승하는 방향을 가리키는 수학적 지표다.

생성 AI는 무작위 노이즈 상태의 점을 이 스코어 방향으로 반복적으로 이동시켜 확률이 더 높은 영역, 즉 실제 이미지에 가까운 형태로 데이터를 변환한다. 이러한 스코어 추정 원리는 이미지 생성뿐만 아니라 베이지안 샘플링이나 플라스마 시스템 모델링을 위한 입자 시뮬레이션 같은 과학 연산 분야에서도 동일하게 사용된다. 즉, 스코어는 무작위 상태의 데이터를 유의미한 데이터 분포로 복원시키는 나침반 역할을 수행한다.

재학습의 굴레를 끊는 DiScoFormer의 단일 연산 추정

기존의 데이터 분포 추정 도구들은 범용성과 정확도 사이에서 상충 관계(Trade-off)를 가졌다. 커널 밀도 추정(KDE) 방식은 별도의 학습 없이 어떤 분포에도 적용 가능하지만, 데이터의 차원이 높아질수록 정확도가 급격히 하락하는 한계가 있다. 반면 신경망 기반의 스코어 매칭 모델은 고차원에서도 정확도를 유지하지만, 새로운 데이터셋을 적용할 때마다 모델을 처음부터 다시 학습시켜야 하는 막대한 시간과 연산 비용이 발생한다.

DiScoFormer(Density and Score Transformer)는 이러한 제약을 해결하기 위해 데이터 포인트 집합을 입력받아 해당 분포의 밀도와 스코어를 단일 forward pass(한 번의 연산 과정)로 즉시 추정한다. 이 모델은 데이터셋이 바뀔 때마다 가중치를 수정하는 재학습 과정 없이, 입력된 샘플 전체를 분석해 배후의 분포 특성을 읽어낸다. 이는 학습 데이터의 분포가 변경되어도 인프라를 다시 구축하거나 학습 시간을 투입할 필요가 없음을 의미한다.

트랜스포머 구조를 통한 KDE의 수학적 일반화와 일관성 손실

DiScoFormer는 스택형 트랜스포머 블록과 교차 어텐션(Cross-attention) 메커니즘을 결합해 고차원 데이터 분석 구조를 설계했다. 교차 어텐션은 모델이 데이터가 존재하는 지점뿐만 아니라 임의의 쿼리 지점에서도 밀도와 스코어를 평가할 수 있게 만든다. 특히 단일 어텐션 헤드의 가중치가 데이터에 대한 가우시안 커널과 유사하게 작동한다는 점을 수학적으로 증명하여, 고전적인 KDE 방식을 트랜스포머 구조 내에서 일반화했다. 모델은 여러 개의 스케일을 동시에 학습하고 이를 데이터 특성에 맞게 조정하며 KDE의 한계를 극복한다.

모델의 내부 구조는 공유 백본(Shared Backbone)과 밀도 및 스코어 출력용 헤드 두 개가 병렬로 배치된 형태다. 스코어가 로그 밀도의 기울기라는 수학적 관계를 이용해, 스코어 헤드의 출력값이 로그 밀도 헤드의 기울기와 일치하도록 강제하는 '일관성 손실(Consistency Loss)' 함수를 적용했다. 이는 정답 라벨이 없는 환경에서도 두 헤드의 간극을 통해 오차를 계산하는 라벨 프리(Label-free) 방식이다. 추론 단계에서는 컨텍스트를 고정한 채 이 일관성 손실에 대해 몇 단계의 기울기 업데이트를 수행함으로써, 학습하지 않은 분포 외(Out-of-distribution) 입력에도 즉각적으로 적응한다.

GMM 기반 학습과 100차원 데이터에서의 수치적 성능 검증

연구진은 모델의 일반화 성능을 확보하기 위해 가우시안 혼합 모델(GMM)을 학습 데이터로 활용했다. GMM은 충분한 구성 요소가 있다면 어떤 매끄러운 분포든 임의의 오차 범위 내에서 근사할 수 있는 유니버설 밀도 근사치이며, 밀도와 스코어를 수식으로 정확히 계산할 수 있는 폐형식(Closed-form) 솔루션을 제공한다. DiScoFormer는 매 배치마다 새로운 GMM을 생성해 학습함으로써 사실상 무한한 종류의 대상 분포를 경험하고, 각 샘플을 GMM의 정확한 수치로 감독 학습했다.

100차원 환경에서 수작업으로 최적화한 KDE와 성능을 비교한 결과, DiScoFormer는 스코어 오차를 약 6.5배, 밀도 오차를 37배 이상 감소시켰다. 특히 샘플 수가 증가할수록 성능이 지속적으로 향상되는 확장성을 보였으며, 이는 모든 포인트 간 거리를 계산해야 해 메모리 부족으로 작동이 멈추는 KDE와 대조적이다. 또한 학습 과정에서 보지 못한 라플라스(Laplace)나 스튜던트 t(Student-t) 같은 비정규 분포, 그리고 더 많은 모드(Mode)를 가진 혼합 분포에서도 정밀한 추정 수치를 산출했다. 다만 데이터셋 규모가 매우 작을 때는 단순 거리 계산 기반인 KDE가 처리 속도 면에서 상대적 우위를 가진다.

생성 모델과 과학 연산 인프라의 비용 효율적 도입 기준

사전 학습된 플러그인 형태의 DiScoFormer는 생성 모델, 베이지안 추론, 과학적 컴퓨팅 등 스코어 추정이 공통적으로 필요한 다양한 분야에 즉시 적용 가능하다. 기존에는 고차원 정확도를 위해 문제마다 개별 신경망 모델을 학습시켜야 했으나, 이제는 단 한 번의 연산으로 분포를 찾아내는 모델을 여러 도메인에 재사용할 수 있다. 이는 특정 문제마다 수많은 GPU 자원을 투입해 모델을 새로 학습시키고 하이퍼파라미터를 튜닝하던 반복적인 인프라 운영 방식을 효율화한다.

실무자가 이 기술의 도입 여부를 결정하는 핵심 기준은 데이터의 차원수와 재학습 비용이다. KDE로 정확도를 확보하기 어려운 고차원 환경이거나, 데이터 분포가 수시로 변하여 매번 신경망 모델을 재학습시키기 어려운 환경일 때 DiScoFormer의 도입 가치가 극대화된다. 결과적으로 엔지니어는 모델 학습에 소요되던 시간과 컴퓨팅 자원을 데이터 준비 및 분석이라는 본연의 작업에 더 많이 배분할 수 있다. 고차원 데이터의 정밀한 분포 분석이 필수적이면서도 반복적인 재학습의 시간적 비용을 감당하기 어려운 환경이 이 모델의 최적 도입 시점이다.