수어 영상 데이터는 방대한 양에도 불구하고 정교한 주석이 부족해 인공지능 학습에 활용되지 못하는 경우가 많다. 전문 수어 통역사가 수백 시간 분량의 영상을 일일이 분석하여 시간대별로 의미를 부여하는 작업은 막대한 비용과 시간을 요구하기 때문이다. 최근 연구팀은 이러한 병목 현상을 해결하기 위해 수어 영상과 영어 텍스트를 입력하면 시간대별로 수어 단어와 지문자, 분류사를 자동으로 추론하는 의사 주석 파이프라인을 구축했다.
수어 주석 자동화를 위한 기술적 접근
이번 파이프라인은 지문자 인식기(Fingerspelling Recognizer)와 고립 수어 인식기(ISR, 개별 수어 동작을 식별하는 모델)의 희소 예측값을 기반으로 작동한다. 여기에 K-Shot LLM(소수의 예시를 통해 언어 모델의 추론 능력을 극대화하는 방식) 접근법을 결합하여 주석의 정확도를 높였다. 연구팀은 이 파이프라인의 성능을 검증하기 위해 FSBoard(지문자 인식 성능을 측정하는 벤치마크)에서 6.7%의 문자 오류율(CER)을 기록했으며, ASL Citizen(수어 인식 모델의 정확도를 평가하는 데이터셋)에서는 74%의 Top-1 정확도를 달성했다. 이는 현재 업계 최고 수준의 성능이다. 연구팀은 ASL STEM Wiki(과학 기술 분야 수어 데이터셋) 영상 500개를 전문 통역사가 직접 주석을 달아 골드 스탠다드 벤치마크로 활용했다.
기존 수어 데이터 활용 방식과의 차이
예전에는 수어 데이터셋이 공개되어도 주석이 부분적으로만 되어 있어 실제 모델 학습에 활용하기 어려웠다. 이제는 300시간이 넘는 분량의 의사 주석 데이터를 통해 모델이 스스로 학습할 수 있는 환경이 조성되었다. 특히 기존에는 수어의 문법 구조나 얼굴 표정, 신체 언어와 같은 비수지 신호(Non-manual markers)를 구현하는 데 한계가 있었으나, 이번 파이프라인은 수어의 핵심 요소인 분류사와 지문자를 포함한 시퀀스 단위의 라벨링을 지원한다. 이는 단순히 동작을 인식하는 수준을 넘어 수어의 문맥적 의미를 파악하는 방향으로 기술 지형이 이동하고 있음을 보여준다.
데이터셋 공개와 향후 시장 영향
개발자가 바로 체감하는 변화는 고품질 수어 데이터 확보의 진입 장벽이 낮아졌다는 점이다. 연구팀은 이번 연구에서 생성된 300시간 이상의 의사 주석 데이터와 인간이 직접 작성한 주석 데이터를 모두 공개했다. 이는 접근성 기술 분야에서 데이터 부족 문제를 겪던 기업과 연구소에 중요한 자산이 될 전망이다. 향후 수어 생성 시스템은 이러한 고품질 데이터를 바탕으로 더 자연스러운 동작과 문법을 구사하게 될 것이다. 이번 연구 결과는 공식 연구 페이지를 통해 상세 내용을 확인할 수 있다.
수어 데이터의 자동 주석화는 접근성 기술의 상용화 속도를 결정짓는 핵심 포석이 될 것이다.




