모델 내부 로짓에서 이미지 정보가 새나간다

매일 아침 연구실에서 모델 출력만 보고 안심하던 개발자들이 있다. 이번 주 arXiv에 올라온 논문 한 편이 그 가정을 흔든다.

연구팀이 비전-언어 모델의 내부 표현을 체계적으로 비교했다

Masha Fedzechkina, Eleonora Gualdoni, Rita Ramos, Sinead Williamson이 작성한 논문 "What Do Your Logits Know?"는 모델 내부를 분석(probing)하면 생성 결과에서 드러나지 않는 정보가 다수 발견된다는 최근 연구 흐름을 이어간다. 연구팀은 비전-언어 모델(VLM, 이미지와 텍스트를 함께 처리하는 모델)을 실험 대상으로 삼았다. 비교 대상은 두 가지 자연스러운 병목 지점이다. 하나는 튜닝 렌즈(tuned lens, 잔차 스트림을 저차원으로 투영하는 기법)로 얻은 저차원 투영이고, 다른 하나는 모델의 답변에 가장 큰 영향을 미칠 상위 k개 로짓(logit, 모델이 다음 토큰을 예측할 때 각 후보에 할당한 점수)이다. 연구 결과, 모델의 상위 로짓 값만으로도 이미지 질의에 포함된 작업과 무관한 정보가 유출될 수 있음이 확인되었다. 어떤 경우에는 전체 잔차 스트림(residual stream, 모델의 각 층을 거치며 정보가 흐르는 통로)을 직접 투영한 것과 거의 동등한 수준의 정보가 드러났다.

예전에는 모델 출력만 보면 안전하다고 생각했다

예전에는 모델이 생성한 텍스트만 확인하면 내부 정보가 보호된다고 여겨졌다. 이제는 로짓이라는 가장 접근하기 쉬운 병목조차도 이미지의 불필요한 세부 정보를 누출할 수 있다는 사실이 밝혀졌다. 연구팀은 정보가 잔차 스트림에서 두 가지 병목을 거치며 압축되는 과정을 비교했다. 튜닝 렌즈는 의도적으로 저차원으로 축소한 투영이고, 상위 k개 로짓은 모델이 답변을 생성하기 위해 자연스럽게 만드는 값이다. 후자는 모델 제공자가 특별히 보호 조치를 취하지 않는 한 누구나 접근할 수 있는 정보이다. 연구는 이 두 경로가 이미지 기반 질의에서 작업과 무관한 정보를 얼마나 보존하는지 정량적으로 비교한 첫 번째 체계적 분석이다.

개발자가 바로 체감하는 변화는 모델 배포 시 고려해야 할 새로운 위험이다

모델 제공자는 로짓을 API로 노출할 때 이미지의 민감한 세부 정보가 유출될 가능성을 염두에 두어야 한다. 예를 들어, 의료 이미지를 분석하는 모델이 환자의 신원이나 촬영 장비 정보를 로짓에 암묵적으로 인코딩할 수 있다. 사용자가 이 로짓을 분석하면 모델 제공자가 의도하지 않은 정보를 얻을 수 있다. 연구팀은 상위 k개 로짓이 전체 잔차 스트림의 직접 투영과 비슷한 수준의 정보를 담을 수 있다는 점을 강조한다. 이는 모델 내부를 보호하기 위한 추가적인 메커니즘(예: 로짗에 노이즈 추가, 특정 차원 제거)이 필요함을 시사한다.

모델의 출력만 안전하다고 믿는 시대는 끝났다. 로짓 하나하나가 이미지의 모든 비밀을 품고 있을 수 있다.

모델 내부 로짓에서 이미지 정보가 새나간다

연구팀이 비전-언어 모델의 내부 표현을 체계적으로 비교했다

예전에는 모델 출력만 보면 안전하다고 생각했다

개발자가 바로 체감하는 변화는 모델 배포 시 고려해야 할 새로운 위험이다

관련 기사