Open ASR 리더보드, 벤치마크 오염 방지용 비공개 데이터셋 도입

음성 인식 모델의 성능을 측정하는 Open ASR 리더보드(음성 인식 모델의 성능을 비교하는 플랫폼)에 접속하면, 이전에는 볼 수 없던 새로운 데이터셋 항목이 추가된 것을 확인할 수 있다. 특정 모델이 리더보드 상위권에 오르기 위해 공개된 테스트셋을 학습 데이터에 포함하는 이른바 벤치마킹 오염 현상이 지속되자, 운영진이 대응책을 내놓은 것이다.

비공개 데이터셋 도입과 운영 방식

이번 업데이트의 핵심은 Appen(데이터 수집 및 라벨링 기업)과 DataoceanAI(음성 데이터 전문 기업)로부터 확보한 고품질 영어 음성 데이터셋을 리더보드에 통합한 것이다. 이 데이터셋은 대본이 있는 음성부터 일상적인 대화까지 다양한 억양을 포함하고 있다. 운영진은 벤치마킹 오염을 방지하기 위해 이 데이터셋을 비공개로 유지하며, 리더보드의 기본 평균 WER(단어 오류율, 낮을수록 정확함) 산출에는 포함하지 않는다. 사용자는 리더보드 UI에서 비공개 데이터 토글을 활성화하여 해당 데이터셋이 모델 순위에 미치는 영향을 직접 확인할 수 있다. 리더보드 운영진은 이 데이터셋을 통해 모델이 실제 환경에서 얼마나 견고한지 검증할 계획이다.

표준화와 평가 방식의 변화

예전에는 모델마다 구두점 처리나 대소문자 표기 방식이 달라 성능 비교가 어려웠으나, 이제는 Whisper(OpenAI가 개발한 음성 인식 모델)의 정규화 도구를 기반으로 모든 출력을 표준화한다. 또한 평가 스크립트와 UI 코드는 모두 오픈소스로 공개되어 커뮤니티의 피드백을 반영하고 있다. 모델 개발자는 자신의 모델을 리더보드에 추가하기 위해 아래와 같은 절차를 따라야 한다.

bash

Open ASR 리더보드 GitHub 저장소에 모델 등록 요청

https://github.com/huggingface/open-asr-leaderboard

또한 모델 카드에 YAML(설정 파일 형식) 파일을 추가하여 자체 평가 지표를 제출하는 방식도 지원한다. 이는 분산형 평가를 통해 리더보드 운영진의 검증을 기다리지 않고도 즉시 성능을 공개할 수 있는 방법이다.

yaml

모델 카드에 추가할 YAML 예시

metrics:

- name: WER

value: 0.12

dataset: common_voice

데이터 신뢰도 확보와 향후 과제

결과적으로 이번 조치는 특정 데이터 제공업체나 억양에 최적화된 모델이 리더보드 점수를 왜곡하는 현상을 차단하는 데 목적이 있다. 비공개 데이터셋을 도입함으로써 모델 개발자가 테스트 데이터를 미리 학습하는 행위를 원천적으로 방지하고, 실제 환경과 유사한 조건에서 모델의 성능을 평가할 수 있게 되었다. 운영진은 향후 소음이 섞인 환경 등 실제 현장과 더 가까운 평가 지표를 추가할 예정이다. 특정 모델이 모든 환경에서 완벽할 수는 없으며, 사용자는 자신의 애플리케이션 목적에 맞는 데이터 분포를 선택해 모델을 평가해야 한다.

벤치마크 수치는 모델의 잠재력을 보여주는 지표일 뿐, 실제 서비스 환경에서의 강건함을 보장하는 절대적인 정답지는 아니다.