1,001개 리서치 체인으로 증명한 '모자이크 유출' 위험

AI 에이전트가 기업 내부 문서와 외부 웹 검색 도구를 결합해 업무 분석을 수행하는 환경에서 새로운 보안 취약점이 발견되었다. 리서치 에이전트가 외부 웹 검색을 수행할 때 발생하는 쿼리 로그만으로 기업 비밀을 재구성하는 '모자이크 유출(Mosaic Leakage)' 위험이 존재한다. 가상의 헬스케어 기업 MediConn 사례에서 에이전트는 클라우드 마이그레이션 시점과 비율에 대해 개별적으로 웹 검색을 수행했다. 외부 관찰자는 이 쿼리 로그를 수집해 MediConn이 2025년 1월까지 인프라의 70%를 클라우드로 이전했다는 내부 기밀을 재구성했다. 공격자는 내부 문서나 AI의 추론 과정을 직접 보지 않고 오직 누적된 쿼리 로그만을 통해 기업 정보를 추론한다. 이는 개별 쿼리가 무해해 보이더라도 파편화된 정보가 모여 하나의 완성된 기밀이 되는 모자이크 효과에 기인한다.

MosaicLeaks 벤치마크의 구조와 프라이버시 측정 기준

MosaicLeaks는 딥 리서치 에이전트의 프라이버시 위험을 측정하기 위해 로컬 기업 문서와 제어된 웹 코퍼스를 결합한 1,001개의 멀티홉 리서치 체인을 구축했다. 전체 데이터셋은 학습용 559개, 검증용 98개, 테스트용 344개 체인으로 분할하여 구성했다. 멀티홉 구조는 내부 정보의 답변이 다음 단계 웹 검색의 징검다리 엔티티(Bridge Entity)가 되도록 설계하여, 에이전트가 유용한 쿼리를 만들기 위해 반드시 내부 정보를 먼저 참조하게 만든다. 유출 측정 기준은 공격자의 추론 수준에 따라 세 단계로 나뉜다. 첫 번째는 쿼리 로그를 통해 조사 주제를 예측하는 '의도 유출', 두 번째는 특정 질문의 답을 찾아내는 '답변 유출', 세 번째는 사전 정보 없이 검증 가능한 내부 사실을 스스로 진술하는 '전체 정보 유출'이다. 이 세 가지 지표는 공격자가 획득하는 정보의 양에 따라 위험 수준이 증가하는 계층적 구조를 가진다.

프롬프트 제어의 한계와 성능-보안의 상충 관계

단순한 프롬프트 제어와 작업 중심의 학습은 보안과 성능 사이의 상충 관계를 해결하지 못했다. Qwen3-4B 모델의 Plan 프롬프트에 "내부 정보를 유출하지 말 것"이라는 지시문을 추가한 결과, 답변 및 전체 정보 유출률은 34.0%에서 25.5%로 낮아졌으나 엄격한 체인 성공률은 48.7%에서 44.5%로 하락했다. 반대로 작업 성공률만을 높이기 위해 강화학습을 진행하자 성공률은 59.3%까지 상승했지만, 유출률은 51.7%로 급증했다. 모델이 정답 문서를 더 정확히 찾기 위해 쿼리에 더 많은 내부 맥락을 포함하는 법을 학습했기 때문이다. 이는 정보량이 많은 쿼리가 작업 성능에는 유리하지만 프라이버시에는 치명적이라는 역설을 보여준다. 결국 단순한 지시문 추가는 쿼리 개수를 줄일 뿐, 일관되게 안전한 쿼리를 생성하는 근본적인 해결책이 되지 못했다.

PA-DR: 상황별 작업 보상과 프라이버시 보상의 결합

PA-DR(Privacy-Aware Deep Research)은 상황별 작업 보상과 학습된 프라이버시 보상을 결합한 강화학습 구조를 통해 이 문제를 해결한다. PA-DR은 에이전트의 행동을 `Plan`(쿼리 생성), `Choose`(문서 선택), `Read`(답변 추출), `Resolve`(최종 결정)의 네 단계로 세분화하여 각 호출별로 보상을 부여한다. Plan 단계에서는 정답 소스 검색 여부를, Choose 단계에서는 정답 문서 선택 여부를 판단해 보상을 주는 '상황별 작업 보상'을 적용한다. 동시에 Qwen3-4B 분류기가 현재 쿼리의 직접 유출 위험과 쿼리 로그 누적으로 인한 모자이크 유출 위험을 추정하는 '학습된 프라이버시 보상'을 결합한다. 시스템은 두 위험 중 더 큰 값에 페널티를 부여해 프라이버시를 침해하는 구체적인 계획 결정 단계에 즉각적인 제동을 건다. 이러한 세분화된 보상 체계는 DRBench 기반의 에이전트 하네스에서 정밀한 신용 할당을 가능하게 하여 학습 효율을 높인다.

PA-DR의 정량적 성과와 기업 AI 도입을 위한 시사점

PA-DR을 적용한 모델은 엄격한 체인 성공률 58.7%를 유지하면서 답변 및 전체 정보 유출률을 9.9%까지 낮추는 성과를 거두었다. 이는 작업 중심 RL의 성공률(59.3%)에 근접하면서도 베이스 모델의 유출률(34.0%)을 획기적으로 개선한 결과다. PA-DR 에이전트는 단순히 검색 횟수를 줄이는 대신, 쿼리에서 '15%'와 같은 구체적 수치나 '2024년' 같은 날짜 정보를 제거하고 일반적인 키워드로 변환해 검색하는 행동 변화를 보였다. 결과적으로 에이전트는 민감한 파편을 제거하고도 필요한 공공 문서를 정확히 찾아내는 최적의 행동 양식을 학습했다. 기업 환경에서 AI 에이전트의 보안은 단순한 프롬프트 주의사항이 아니라, 쿼리 로그의 재구성 가능성을 측정하는 검증 기준과 보상 함수 기반의 학습 체계를 구축함으로써 달성 가능하다. 결국 AI 도입의 성패는 성능과 보안이라는 상충하는 가치를 데이터로 정렬해낼 수 있는 엔지니어링 역량에 달려 있다.