호르헤 루이스 보르헤스의 단편 소설 속 주인공 푸네스는 모든 사소한 세부 사항을 기억하지만, 정작 사물의 본질을 꿰뚫는 사고는 불가능했다. 모든 데이터를 무차별적으로 수용하는 능력은 오히려 일반화라는 지적 활동을 가로막는 장애물이 된다. 현대 딥러닝 역시 이와 유사한 딜레마에 직면해 있다. 모델의 크기가 커지고 데이터가 방대해질수록, 기계는 모든 노이즈를 암기하는 푸네스의 기억력에 가까워지고 있다. 그러나 역설적으로 이 거대한 모델들은 학습 데이터의 경계를 넘어 새로운 상황에서도 작동하는 일반화 능력을 보여준다. 학계는 이를 설명하기 위해 수많은 가설을 내놓았으나, 여전히 딥러닝은 이론적 근거보다 실무적 경험에 의존하는 연금술의 영역에 머물러 있다.
딥러닝의 이론적 한계와 이중 하강 현상
고전적인 통계 학습 이론은 편향-분산 트레이드오프(모델의 복잡도와 오차 사이의 균형)를 통해 과적합을 설명해 왔다. 그러나 현대의 심층 신경망은 이 이론을 정면으로 위반한다. 신경망은 학습 데이터의 노이즈까지 완벽하게 암기하여 훈련 오차를 0으로 만들지만, 테스트 데이터에서는 여전히 높은 성능을 유지한다. 이를 양성 과적합(Benign Overfitting)이라 부른다. 특히 모델의 복잡도가 증가할수록 테스트 오차가 다시 감소하는 이중 하강(Double Descent) 현상은 기존의 용량 기반 설명으로는 해석이 불가능하다. Belkin et al., 2019 연구는 모델이 모든 데이터를 암기할 수 있는 임계점을 넘어서는 순간, 오히려 일반화가 시작된다는 사실을 입증했다. 또한 경사 하강법(Gradient Descent, 오차를 줄이는 방향으로 매개변수를 조정하는 최적화 알고리즘)은 수많은 해답 중에서도 일반화 성능이 좋은 해를 스스로 선택하는 암묵적 편향(Implicit Bias)을 가진다.
매개변수 공간을 버리고 출력 공간으로의 전환
예전에는 신경망을 수십억 개의 매개변수를 가진 복잡한 가설 공간의 점으로 간주하고 그 복잡도를 계산하려 했다. 이제는 매개변수 공간을 완전히 포기하고 신경망을 출력 공간의 동역학적 시스템으로 분석하는 접근이 등장했다. 스탠퍼드 확산 그룹(Diffusion Group)은 arXiv:2605.01172를 통해 신경망의 예측값이 어떻게 진화하고 오차가 어디로 흐르는지에 집중하는 새로운 이론을 발표했다. 이들은 모든 훈련 출력을 벡터로 쌓고, 자코비안(Jacobian, 다변수 함수의 미분 행렬)을 통해 경험적 신경 접선 커널(eNTK, 신경망의 학습 동역학을 결정하는 핵심 행렬)을 도출했다. 이 행렬은 훈련 데이터의 한 지점에 대한 경사 하강이 다른 지점의 예측에 어떤 영향을 미치는지 정량화한다. 학습 과정에서 훈련 출력과 그 경사는 다음과 같이 진화한다.
bash
훈련 출력과 경사의 진화식
\dot{u}_S = -K_S \nabla \Phi_S(u_S)
\dot{g} = -B K_S g
여기서 g는 출력 경사이며, B는 손실 헤시안(Loss Hessian, 손실 함수의 곡률을 나타내는 행렬)이다. 테스트 출력은 교차 커널(Cross-kernel)인 K_QS를 통해 병렬로 진화하며, 손실 함수는 다음과 같은 속도로 소멸한다.
bash
손실 함수의 소멸 속도
\dot{\Phi}_S = -g^\top K_S g
이 방식은 무한 폭이나 깊이의 극한 없이도 임의의 미분 가능한 아키텍처와 볼록 손실 함수에 적용 가능하다. 개발자가 체감하는 변화는 명확하다. 모델의 복잡도를 매개변수 개수로 측정하던 시대에서, 데이터 간의 상호작용을 결정하는 커널의 흐름을 제어하는 시대로 전환되고 있다. 이는 딥러닝이 왜 작동하는지에 대한 근본적인 질문에 수학적 해답을 제시하며, 향후 모델 설계의 효율성을 극대화하는 전략적 포석이 될 것이다.
딥러닝의 일반화는 더 이상 운에 맡기는 연금술이 아니라, 출력 공간의 동역학을 제어하는 공학적 설계의 영역으로 편입된다.




