뇌파(EEG, 뇌의 전기적 활동을 기록한 데이터)를 활용한 인공지능 모델 연구는 그동안 파편화된 환경 탓에 모델 간 성능 비교가 사실상 불가능했다. 연구팀마다 전처리 방식이 다르고, 각기 다른 데이터셋을 사용하며, 평가 기준조차 제각각이었기 때문이다. 이러한 혼란을 해결하기 위해 Meta AI 연구팀은 뇌 활동 AI 모델을 위한 통합 오픈소스 프레임워크인 NeuralBench를 발표했다.
36개 작업과 94개 데이터셋을 통합한 NeuralBench-EEG v1.0
이번에 공개된 NeuralBench-EEG v1.0은 뇌파 분야에서 가장 방대한 규모의 오픈 벤치마크다. 9,478명의 피험자로부터 수집된 13,603시간 분량의 뇌파 데이터를 포함하며, 14개의 딥러닝 아키텍처를 단일 인터페이스에서 평가할 수 있도록 설계되었다. 이 프레임워크는 크게 세 가지 파이썬 패키지로 구성된다. 데이터 수집을 담당하는 NeuralFetch, 데이터를 PyTorch(딥러닝 프레임워크) 학습용으로 변환하는 NeuralSet, 그리고 모델 학습을 수행하는 NeuralTrain이 핵심이다.
설치는 간단하다. 터미널에서 다음 명령어를 실행하면 즉시 환경을 구축할 수 있다.
pip install neuralbench모든 작업은 YAML(설정 파일 형식) 파일을 통해 데이터 소스, 학습 및 검증 분할, 전처리 단계, 하이퍼파라미터 등을 정의한다. 사용자는 데이터를 다운로드하고 캐시를 준비한 뒤 실행하는 세 단계만으로 벤치마크를 수행할 수 있다. 평가 지표 또한 작업 유형에 따라 표준화되어, 이진 분류는 정확도, 회귀 분석은 피어슨 상관계수 등을 사용하며 모든 결과는 0에서 1 사이의 정규화된 점수로 변환된다.
파편화된 기존 벤치마크와 달라진 표준화된 평가 방식
예전에는 MOABB(뇌-컴퓨터 인터페이스 데이터셋 모음)와 같은 도구가 존재했으나, 5개 정도의 제한적인 작업만 다룰 수 있었다. EEG-Bench나 AdaBrain-Bench 등 다른 시도들도 특정 분야에만 국한되어 있어, 모델의 범용성을 입증하기에는 한계가 명확했다. 이제는 NeuralBench를 통해 인지 디코딩, 뇌-컴퓨터 인터페이스(BCI), 임상 작업, 수면 분석 등 8개 카테고리에 걸친 광범위한 평가가 가능해졌다.
특히 이번 연구는 모델별로 제각각이던 최적화 기법을 배제하고, 모든 모델에 동일한 학습 레시피를 적용했다. AdamW 옵티마이저, 10⁻⁴ 학습률, 10% 웜업 등 표준화된 설정을 통해 모델 고유의 아키텍처와 사전 학습 방법론만이 성능에 기여하도록 설계했다. 이는 특정 모델에 유리한 꼼수를 제거하고, 실제 모델의 기초 체력을 측정하려는 의도다. 또한 사전 학습 데이터와 평가 데이터가 겹치는 경우를 대비해, 결과 그래프에 해시 표시를 남겨 데이터 누출 가능성을 투명하게 공개한다.
기초 모델과 작업 특화 모델의 성능 격차 확인
개발자가 바로 체감하는 변화는 기초 모델(Foundation Model)과 작업 특화 모델 간의 성능 차이가 생각보다 크지 않다는 점이다. REVE(69.2M 파라미터), LaBraM(5.8M 파라미터) 같은 대규모 기초 모델이 상위권을 차지했으나, CTNet(150K 파라미터)이나 Deep4Net(146K 파라미터)처럼 처음부터 특정 작업만을 위해 학습된 모델들이 그 뒤를 바짝 추격하고 있다. 이는 뇌파 분석 분야에서 무조건 큰 모델이 정답이 아닐 수 있음을 시사한다.
NeuralBench GitHub 저장소는 현재 공개되어 있으며, 연구팀은 향후 MEG(뇌자도)나 fMRI(기능적 자기공명영상) 등 다른 뇌 영상 데이터로도 범위를 확장할 계획이다. 이번 프레임워크는 뇌 과학과 딥러닝이 만나는 지점에서 모델의 실질적인 범용성을 검증하는 새로운 기준점이 될 것이다.




