15%. 최근 개인정보 삭제 서비스 기업인 DeleteMe(개인정보를 인터넷에서 제거해 주는 서비스)에 접수된 생성형 AI 관련 문의 중 Claude(Anthropic이 개발한 대화형 AI)가 차지하는 비중이다. 이 수치는 단순히 특정 모델의 오류를 넘어, 생성형 AI가 학습 데이터에 포함된 개인 식별 정보(PII)를 어떻게 무분별하게 노출하고 있는지를 보여주는 단면이다. 일상적인 질문에 답변을 얻으려던 사용자가 자신의 집 주소나 타인의 전화번호를 마주하게 되는 상황이 빈번해지고 있다. 그런데 이러한 정보 유출을 막을 수 있는 확실한 기술적 방어책은 아직 요원한 상태다.
생성형 AI의 개인정보 노출 현황과 데이터 유출 사례
최근 개발자 커뮤니티와 소셜 미디어에서는 Google의 Gemini(Google이 개발한 멀티모달 AI)가 잘못된 고객 서비스 정보를 제공하며 실제 개인의 전화번호를 안내했다는 제보가 잇따르고 있다. 이스라엘의 한 소프트웨어 엔지니어는 자신이 전혀 관계없는 결제 앱의 고객센터 번호로 자신의 개인 번호가 노출되어, 모르는 사람들로부터 끊임없이 연락을 받는 피해를 입었다. 또한 워싱턴 대학교의 한 박사 과정 학생은 Gemini를 테스트하던 중 동료의 개인 휴대전화 번호를 모델이 답변으로 내놓는 장면을 직접 목격하기도 했다. DeleteMe의 CEO인 Rob Shavell은 이러한 문의가 지난 7개월 동안 400% 증가했으며, 전체 문의 중 ChatGPT(OpenAI가 개발한 대화형 AI) 관련 비중이 55%, Gemini가 20%, Claude가 15%, 기타 도구가 10%를 차지한다고 밝혔다.
학습 데이터의 한계와 모델의 정보 재생산 방식
예전에는 검색 엔진이 웹상의 정보를 인덱싱하여 보여주는 방식이었다면, 이제는 거대언어모델(LLM)이 방대한 웹 데이터를 학습하여 정보를 생성하는 방식으로 변화했다. 과거의 검색은 출처를 확인할 수 있었지만, 현재의 AI는 학습 데이터에 포함된 수억 개의 개인 식별 정보를 모델 내부에 내재화한 뒤, 마치 사실인 것처럼 답변을 구성한다. 특히 데이터 브로커(개인정보를 수집하여 판매하는 업체)들이 생성형 AI 개발사에 데이터를 판매하는 사례가 늘어나면서, 학습 데이터의 오염도는 더욱 높아지고 있다. 캘리포니아 데이터 브로커 등록부에 따르면, 등록된 브로커 중 31곳이 지난 1년간 생성형 AI 모델 개발자에게 소비자 데이터를 공유하거나 판매했다고 보고했다.
개발자가 체감하는 프라이버시 보호의 어려움
모델 설계 단계에서 개인정보 노출을 막기 위한 가드레일(AI의 부적절한 출력을 제한하는 안전장치)을 적용하고 있지만, 실제 효과는 미미하다. Anthropic(Claude를 개발한 AI 기업)은 Claude에게 타인의 개인정보를 최소화하도록 지시하는 등 안전 조치를 취하고 있으나, 모델이 학습 데이터 내의 정보를 verbatim(글자 그대로) 암기하고 재생산하는 특성상 완벽한 차단은 불가능에 가깝다. 특히 모델은 빈번하게 등장하는 데이터뿐만 아니라, 특정 맥락에서 학습된 파편화된 정보까지 조합하여 답변을 생성하기 때문에 개발자가 이를 사전에 필터링하기란 매우 어렵다. 결국 현재의 생성형 AI는 사용자가 입력한 질문에 대해 가장 그럴듯한 답변을 내놓는 과정에서, 검증되지 않은 개인의 연락처를 마치 공식 정보인 것처럼 섞어버리는 치명적인 결함을 안고 있다.
개인정보가 학습 데이터의 일부로 전락한 이상, AI 챗봇의 답변을 맹신하는 것은 개인의 프라이버시를 스스로 위험에 노출하는 행위가 될 수 있다.




