이번 주 ICLR 2026 워크숍(NADPFM)에서 발표된 MixAtlas 논문이 개발자 커뮤니티에서 화제다. 멀티모달 대규모 언어 모델(MLLM)을 학습할 때 데이터 혼합 비율을 정하는 게 그동안은 거의 감에 의존해 왔는데, 이 프레임워크가 그 문제를 체계적으로 풀어냈다.

MixAtlas: 이미지 개념과 태스크 유형으로 데이터를 분해해 최적 혼합 탐색

연구팀(빙빙 원, 시라줄 살레킨 등)은 MixAtlas라는 프레임워크를 공개했다. 핵심은 학습 데이터를 '이미지 개념'과 '태스크 감독(지도 신호)'이라는 두 가지 해석 가능한 축으로 분해하는 것이다. 이렇게 쪼개진 도메인별로 작은 프록시 모델(proxy model, 본 학습보다 훨씬 작은 모델)을 돌려 성능을 측정하고, 가우시안 프로세스(Gaussian process, 불확실성을 모델링하는 통계 기법)로 최적 혼합 비율을 찾는다. 전체 비용은 본 학습의 1/100 수준이다.

기존 방식과의 차이: 단일 기준이 아닌 다차원 최적화, 프록시 모델 전이 가능

예전에는 데이터 혼합을 데이터 포맷이나 태스크 유형 같은 단일 기준으로만 튜닝했다. MixAtlas는 두 축을 동시에 고려해 미세한 기여도를 추적한다. 예를 들어 '차트 이미지'라는 개념과 '질의응답'이라는 태스크가 만나는 도메인이 성능에 얼마나 기여하는지 수치로 알 수 있다. 더 중요한 건, 작은 프록시 모델로 찾은 최적 혼합 비율을 그대로 큰 모델 학습에 적용해도 효율과 정확도 향상이 유지된다는 점이다.

개발자가 바로 체감하는 변화: ChartQA 10%, TextVQA 13% 향상

MixAtlas로 최적화된 혼합 비율을 적용한 결과, 기존 방식 대비 수렴 속도가 최대 3배 빨라졌고 다양한 벤치마크에서 2~5% 일관된 성능 향상을 보였다. 특히 텍스트가 많이 포함된 벤치마크에서 두드러졌다. ChartQA(차트 이해)에서 10%, TextVQA(텍스트가 포함된 이미지 질의응답)에서 13% 각각 개선됐다. 개발자 입장에서는 같은 GPU 예산으로 더 좋은 모델을 얻거나, 같은 성능을 더 적은 학습으로 달성할 수 있다는 뜻이다.

MixAtlas는 멀티모달 데이터 혼합 최적화를 실용적이고 해석 가능하게 만들었다. 이제 '데이터 비율 감'에 의존하던 시대는 끝났다.