아랍어 LLM 성능 측정의 함정, QIMMA가 검증한 109개 벤치마크 데이터

최근 아랍어 언어 모델(LLM)의 성능을 측정하는 지표가 우후죽순 늘어나고 있지만, 정작 그 지표들이 아랍어의 복잡한 맥락을 제대로 반영하고 있는지에 대해서는 의문이 제기되고 있다. 아랍어는 4억 명 이상이 사용하는 언어임에도 불구하고, 기존 평가 방식들은 영어 데이터를 단순히 번역하거나 품질 검증 없이 데이터를 나열하는 수준에 머물러 있었다. 이번에 공개된 QIMMA(아랍어로 정상이라는 뜻의 아랍어 특화 언어 모델 평가 플랫폼)는 이러한 평가 데이터의 신뢰성 문제를 해결하기 위해 등장했다.

아랍어 평가의 신뢰성을 높이는 5단계 검증 파이프라인

QIMMA는 기존 14개 벤치마크(모델의 성능을 측정하기 위한 문제 세트)에서 추출한 109개 하위 데이터셋, 총 5만 2천여 개의 샘플을 통합하여 평가를 진행한다. 연구팀은 모델을 평가하기 전에 데이터 자체의 품질을 확인하는 과정을 필수 단계로 설정했다. 먼저 두 개의 최신 언어 모델이 각 샘플을 10점 만점의 기준표에 따라 평가하며, 여기서 7점 미만을 받은 샘플은 즉시 탈락시킨다. 한 모델이라도 낮은 점수를 주면, 아랍어 원어민 전문가들이 직접 문화적 맥락과 언어적 정확성을 재검토하는 2단계 심층 평가를 거친다. 이러한 과정을 통해 연구팀은 기존 벤치마크에 존재하던 오답, 인코딩 오류, 문화적 편향 등을 대거 걸러냈다. 특히 코딩 관련 벤치마크의 경우, 문제의 의도를 명확히 하기 위해 아랍어 지시문을 수정하는 작업도 병행했다. QIMMA의 상세한 방법론은 공식 논문에서 확인할 수 있다.

기존 방식과 달라진 평가 기준과 모델 순위

예전에는 단순히 기존 벤치마크 점수를 합산하는 방식이 주를 이뤘다면, 이제는 데이터의 품질을 먼저 정제하고 평가하는 방식이 표준으로 자리 잡고 있다. QIMMA는 LightEval(모델 성능을 표준화된 방식으로 측정하는 도구), EvalPlus(코드 생성 모델의 정확도를 엄격하게 검증하는 도구), FannOrFlop(모델의 답변 품질을 판별하는 도구)을 활용해 일관된 평가 환경을 구축했다. 평가 결과, Jais-2-70B-Chat(아랍어에 특화된 대규모 언어 모델)이 종합 점수 65.81점으로 1위를 차지하며 문화, STEM(과학·기술·공학·수학), 법률, 안전성 분야에서 압도적인 성능을 보였다. 반면 Qwen2.5-72B-Instruct(범용 다국어 모델)는 65.75점으로 근소한 차이로 2위를 기록했다. 특히 코딩 분야에서는 Qwen3.5-27B가, 시 문학 분야에서는 gemma-3-27b-it(Google의 경량화된 오픈 모델)이 각각 강세를 보이며 모델별 특화 영역이 뚜렷하게 나뉘는 양상을 보였다. 전체 순위와 데이터셋은 QIMMA 리더보드와 GitHub 저장소에서 직접 확인할 수 있다.

데이터의 양보다 질을 우선시하는 검증 체계가 구축됨에 따라, 이제 언어 모델의 성능 평가는 단순한 점수 경쟁을 넘어 문화적 맥락과 언어적 정확성을 담보하는 방향으로 재편될 것이다.

아랍어 LLM 성능 측정의 함정, QIMMA가 검증한 109개 벤치마크 데이터

아랍어 평가의 신뢰성을 높이는 5단계 검증 파이프라인

기존 방식과 달라진 평가 기준과 모델 순위

관련 기사