매일 아침 수많은 계약직 노동자가 인공지능 학습을 위해 자신의 목소리를 녹음하고 신분증을 업로드한다. 지난 2026년 4월 4일, 해킹 그룹 랩서스(Lapsus$, 기업의 데이터를 탈취해 협박하는 범죄 조직)는 자신들의 유출 사이트에 머코(Mercor, AI 학습용 데이터를 수집하고 라벨링하는 플랫폼)의 내부 데이터를 공개했다. 이번에 유출된 데이터는 총 4테라바이트 규모로, AI 학습을 위해 등록한 4만 명 이상의 계약직 노동자 정보가 고스란히 담겨 있다. 단순히 개인정보가 유출된 수준을 넘어, 음성 생체 인식 데이터와 정부가 발행한 신분증 사본이 한 세트로 묶여 있다는 점이 사태의 심각성을 키운다.
유출된 데이터의 구성과 위험성
사건 발생 열흘 만에 5건의 집단 소송이 제기되었다. 원고 측은 머코가 학습 데이터 수집이라는 명목으로 음성 정보를 수집하면서, 이것이 영구적인 생체 식별자로 사용될 수 있음을 명확히 고지하지 않았다고 주장한다. 유출된 데이터베이스의 각 행에는 여권이나 운전면허증 스캔본, 웹캠 셀카, 그리고 조용한 환경에서 대본을 읽은 음성 녹음 파일이 포함되어 있다. 이는 합성 음성 복제 서비스가 요구하는 입력값의 완벽한 조합이다. 2026년 2월 보고된 바에 따르면, 고품질 음성 복제에는 약 15초의 깨끗한 참조 오디오만 있으면 충분하다. 머코의 데이터는 계약직 1인당 평균 2분에서 5분 분량의 스튜디오급 음성 데이터를 포함하고 있어, 복제 임계치를 훨씬 상회한다.
기존 데이터 유출과의 차이점
예전에는 콜센터 서버가 해킹되어 음성 데이터만 유출되거나, 신분증 브로커가 면허증과 셀카만 유출하는 경우가 대부분이었다. 이제는 음성 데이터와 신분증이 하나의 데이터베이스에 결합되어 유출되는 새로운 국면을 맞이했다. 공격자는 30초 분량의 깨끗한 음성 샘플과 신분증 스캔본만 있으면, 복제된 목소리로 본인 인증 과정을 통과할 수 있는 강력한 도구를 손에 넣게 된다. 과거의 유출이 파편화된 정보에 그쳤다면, 이번 머코 사태는 공격자가 복제본을 생성하고 이를 활용할 수 있는 자격 증명까지 한꺼번에 확보했다는 점에서 지형이 완전히 바뀌었다.
피해자를 위한 대응 가이드
개발자가 바로 체감하는 변화는 음성 데이터가 이제는 비밀번호와 같은 취급을 받아야 한다는 점이다. 목소리는 비밀번호처럼 변경할 수 없으므로, 해당 목소리로 접근 가능한 인증 수단을 변경하는 것이 유일한 방어책이다. 포렌식 분석가들은 합성 음성에서 나타나는 미세한 오류를 통해 유출 여부를 판별한다. 머코 계약직 중 자신의 음성이 유출되었다고 판단되는 경우, 오라비스(ORAVYS, 음성 데이터의 위변조 여부를 분석하는 포렌식 서비스)를 통해 무료로 분석 보고서를 받을 수 있다. 해당 서비스는 워터마크 탐지, 안티 스푸핑(Anti-spoofing, 위조 방지) 점수, 아티팩트 체크리스트를 포함한다.
생체 정보와 신분증이 결합된 데이터 유출은 단순한 개인정보 사고를 넘어, AI 시대의 신원 인증 체계 전체를 무력화하는 치명적인 포석이 될 것이다.




