내부 데이터 유출로 인해 AI 학습 프로그램을 일시 중단했다

메타는 최근 발생한 보안 사고를 SEV 2(Severity 2, 심각도 2단계)로 분류했다. 0부터 5까지의 척도 중 0이 가장 심각한 단계인 시스템에서 SEV 2는 단순 오류를 넘어 조직 전체의 보안 체계에 영향을 미치는 중대한 결함이 발생했음을 의미한다. 전사적 차원의 즉각적인 대응과 복구가 필요한 수준이다.

사고의 원인은 내부 AI 학습 프로그램의 데이터 접근 권한 관리 실패였다. 민감한 정보가 포함된 학습 자료가 회사 전체에 공개된 상태로 방치된 사실이 드러났다. 메타는 이를 확인한 즉시 해당 프로그램을 중단했다. 내부 운영 데이터를 AI 학습에 투입하는 과정에서 권한 설정이 누락되어 데이터 접근 제어가 전혀 이루어지지 않은 셈이다.

현재 메타는 데이터가 유출된 정확한 경로와 실제 접근 범위를 조사하고 있다. 내부 구성원 누구나 민감 정보에 접근할 수 있었던 기술적 허점을 찾는 단계다. 이번 사건은 AI 학습 데이터의 양적 확보보다, 이를 보호하는 접근 제어의 무결성이 보안의 핵심 판단 기준이 되어야 함을 보여준다.

로봇 학습 데이터 병목을 겨냥한 해법

메타는 AI 모델의 성능을 높이기 위해 직원들의 작업 패턴을 수집하는 MCI(Model Capability Initiative) 프로그램을 운영했다. 이 프로그램은 대부분의 직원에게 의무적으로 적용되었으며, 사용자의 키보드 입력값(keystrokes)과 마우스 움직임을 직접 학습 데이터로 활용했다. 실무자의 세밀한 조작 방식을 모델에 이식해 문제 해결 능력을 고도화하려는 목적이었다.

하지만 이런 공격적인 데이터 수집은 보안 취약점과 결합할 때 치명적인 통로가 된다. 지난달 AI 챗봇 결함으로 외부 사용자가 다수의 인스타그램 계정을 탈취한 사례나, 지난 3월 개발자의 의도와 다르게 동작하는 '로그 AI 에이전트(rogue AI agent)' 사고가 대표적이다. 내부 데이터가 학습된 모델에 결함이 생기면, 수집된 민감 정보는 즉시 외부로 노출될 위험에 처한다.

결국 키스트로크 수준의 정밀한 데이터 수집은 모델 성능을 높이지만, 유출 시 피해 규모를 기하급수적으로 키운다. 보안 통제가 전제되지 않은 데이터 수집은 성능 향상이라는 이득보다 훨씬 큰 운영 리스크를 야기한다는 점이 이번 사례로 증명되었다.

이번 유출 사고로 직원들의 개인 대화, 성과 데이터, 전사 기록 노출

비즈니스 인사이더(Business Insider)가 입수한 스크린샷에는 직원들의 개인 대화와 성과 데이터, 전사 기록이 필터링 없이 노출된 모습이 담겼다. AI 모델 학습을 위해 수집된 내부 데이터가 적절한 권한 제어 없이 방치되면서 보안 체계의 허점이 구체적인 실체로 드러난 결과다.

강제 적용된 MCI 프로그램은 도입 단계부터 내부 반발이 심했다. 직원들은 자신의 데이터가 기록되는 환경에 거부감을 느꼈으며, 특히 수집된 데이터가 당초 약속과 달리 엄격하게 잠금 처리되지 않았다는 점을 지적했다. 보안 설계 단계부터 데이터 보호 조치가 미흡했다는 비판이 쏟아진 이유다.

운영 효율을 위해 내부 데이터를 AI 학습에 투입할 때, 접근 제어 실패가 조직 내 신뢰를 어떻게 무너뜨리는지 보여주는 사례다. 데이터 수집의 강제성과 관리 부실이 결합해 실질적인 보안 리스크로 전환되었다.

메타는 효율성이 보안 프로토콜을 앞설 때 AI 학습 도구가 어떻게 내부 정보 유출의 통로가 되는지 확인했다. 이제 내부 운영 데이터를 AI 학습에 투입하는 모든 과정에서 '데이터 접근 권한의 엄격한 분리'와 '무결성 검증'을 최우선 판단 기준으로 설정해야 한다.