TabPFN 98.8% 정확도 기록, CatBoost 대비 학습 시간 94% 단축

데이터 분석가가 CatBoost(정형 데이터 분석용 그래디언트 부스팅 라이브러리)의 하이퍼파라미터를 수십 번 수정하며 정확도 0.1%를 올리기 위해 밤을 지새우는 장면은 흔하다. 수천 개의 행과 열로 구성된 표 형태의 데이터를 처리하기 위해 모델을 설계하고, 검증 세트로 성능을 확인하며 최적의 설정값을 찾는 반복 작업에 많은 시간이 소요된다.

TabPFN-2.5의 성능 수치와 실험 데이터

해외 매체는 TabPFN(정형 데이터용 사전 학습 파운데이션 모델)이 기존의 트리 기반 모델인 Random Forest(여러 결정 트리를 만들어 평균을 내는 앙상블 모델)와 CatBoost를 상회하는 성능을 보였다고 분석했다. 실험에는 scikit-learn(파이썬 머신러닝 라이브러리)의 make_classification 함수로 생성한 5,000개의 샘플과 20개의 특성을 가진 이진 분류 데이터셋이 사용되었다. 이 중 10개는 유효한 정보였으며 5개는 중복된 정보로 구성되어 실제 데이터와 유사한 노이즈 환경을 조성했다.

Random Forest는 200개의 트리를 사용하여 95.5%의 정확도를 기록했다. 학습 시간은 9.56초가 소요되었으며 추론 속도는 0.0627초였다. 반면 CatBoost는 500번의 반복 학습을 통해 96.7%의 정확도를 달성했다. 학습 시간은 8.15초로 단축되었고 추론 속도는 0.0119초로 매우 빨랐다. 주목할 점은 TabPFN의 수치다. TabPFN은 98.8%라는 가장 높은 정확도를 기록했으며 fit(모델을 데이터에 맞추는 과정) 시간은 0.47초에 불과했다. 그러나 추론 속도는 2.21초로 다른 모델들에 비해 현저히 느렸다.

모델 실행을 위해서는 TabPFN API 키가 필요하며 https://ux.priorlabs.ai/home 에서 발급 가능하다.

학습과 추론의 경계가 사라진 인컨텍스트 러닝

기존의 Random Forest나 CatBoost는 새로운 데이터셋을 만날 때마다 처음부터 학습을 시작하는 구조다. 데이터의 패턴을 파악해 트리를 생성하는 과정이 fit 단계에서 집중적으로 일어나며, 이 과정이 끝난 후의 추론은 이미 만들어진 경로를 따라가기 때문에 매우 빠르다. 그러나 TabPFN은 접근 방식이 완전히 다르다. 수백만 개의 합성 데이터 작업으로 사전 학습된 모델을 사용하여, 새로운 데이터를 입력받았을 때 이를 문맥으로 이해하는 In-Context Learning(추가 학습 없이 입력값만으로 작업을 수행하는 방식)을 적용한다.

결과적으로 TabPFN에서 fit 단계는 단순히 사전 학습된 가중치를 로드하는 과정에 가깝다. 학습 시간이 0.47초로 극단적으로 짧은 이유는 실제 학습을 하지 않기 때문이다. 반면 추론 단계에서는 훈련 데이터와 테스트 데이터를 동시에 처리하며 실시간으로 예측을 수행해야 하므로 연산량이 급증한다. 이것이 추론 속도가 2.21초까지 늘어난 원인이다.

이러한 속도 저하를 해결하기 위해 TabPFN은 증류(큰 모델의 지식을 작은 모델로 전이하는 기술) 방식을 도입했다. TabPFN의 예측 결과를 신경망이나 트리 앙상블 같은 작은 모델로 변환함으로써 정확도는 유지하면서 추론 속도를 획기적으로 높이는 전략이다. 이는 TabPFN이 단순한 예측 도구를 넘어, 고성능 모델을 빠르게 생성하는 교사 모델의 역할을 수행할 수 있음을 의미한다.

정형 데이터 분석의 핵심이 모델 최적화에서 사전 학습 모델의 선택과 조건화로 이동하고 있다.

TabPFN 98.8% 정확도 기록, CatBoost 대비 학습 시간 94% 단축

TabPFN-2.5의 성능 수치와 실험 데이터

학습과 추론의 경계가 사라진 인컨텍스트 러닝

관련 기사