이번 주 깃허브 저장소와 허깅페이스를 살피던 개발자들이 갑자기 한 모델에 주목하기 시작했다. LLM(거대언어모델)에 데이터를 넣기 전, 사용자 이메일이나 전화번호가 섞여 들어갈까 봐 전전긍긍하며 정규표현식을 짜던 이들이 이제는 로컬에서 가볍게 돌릴 수 있는 전용 필터를 발견했기 때문이다. 서버로 데이터를 보내기 전 내 장치에서 먼저 개인정보를 쳐낼 수 있다는 점이 커뮤니티의 온도를 빠르게 올리고 있다.
Privacy Filter의 구체적 스펙과 성능
OpenAI는 개인식별정보 탐지에 특화된 오픈웨이트(모델의 가중치 값을 공개해 누구나 내려받아 쓸 수 있는 방식) 모델인 Privacy Filter를 공개했다. 이 모델은 전체 1.5B 파라미터를 가지며, 실제 연산에 쓰이는 활성 파라미터는 50M에 불과해 매우 가볍다. 최대 128,000 토큰의 문맥을 한 번에 처리할 수 있도록 설계되었으며, Apache 2.0(상업적 이용과 수정이 자유로운 오픈소스 라이선스) 라이선스로 Hugging Face와 GitHub에 배포되었다.
탐지 범위는 총 8개 범주로 나뉜다. private_person, private_address, private_email, private_phone, private_url, private_date와 더불어 신용카드나 은행 계좌번호를 포함하는 account_number, 그리고 비밀번호나 API 키를 다루는 secret이 포함된다. 성능 지표는 더욱 구체적이다. PII-Masking-300k(개인정보 마스킹 성능을 측정하는 데이터셋)에서 F1 score(정밀도와 재현율의 조화 평균으로 모델의 정확도를 나타내는 지표) 96%를 기록했고, 주석 문제를 보정한 버전에서는 F1 97.43%, 정밀도 96.79%, 재현율 98.08%라는 수치를 냈다. 특히 소량의 데이터만으로 도메인 적응을 시켰을 때 F1 점수가 54%에서 96%로 급등하는 효율성을 보였다.
모델의 내부 구조는 양방향 토큰 분류 모델에 span decoding(텍스트 내 특정 구간을 찾아내는 방식)을 결합한 형태다. 자기회귀 사전학습 체크포인트에서 시작해 고정된 프라이버시 라벨 체계 위의 토큰 분류기로 적응시켰다. 텍스트를 하나씩 생성하는 대신 입력 시퀀스를 한 번에 라벨링하고, 제약된 Viterbi 절차(가장 확률이 높은 경로를 찾는 알고리즘)를 통해 일관된 span을 복원한다. 결과적으로 모든 토큰을 단일 forward pass(데이터가 입력층에서 출력층으로 한 번 흐르는 과정)로 처리해 고속 추론이 가능하다. 최종 라벨은 BIOES span 태그(데이터의 시작, 내부, 끝 등을 표시하는 라벨링 체계)로 디코딩되어 마스킹 경계가 매우 깔끔하게 처리된다.
규칙 기반 탐지에서 문맥 인식으로의 전환
예전에는 정규표현식으로 이메일이나 전화번호 형식을 일일이 지정해 긁어내는 방식이 주류였다. 하지만 이런 규칙 기반 방식은 형식이 조금만 틀어져도 놓치기 일쑤였고, 무엇보다 문맥을 읽지 못했다. 예를 들어 유명인의 공개된 이메일 주소는 남겨두고 사용자의 개인 이메일만 가려야 하는 미묘한 상황에서 규칙 기반 도구는 무용지물이었다. 이제는 언어와 문맥 인식을 바탕으로 공개 정보와 마스킹이 필요한 정보를 구분하는 단계로 넘어왔다.
개발자가 체감하는 가장 큰 변화는 데이터의 흐름이다. 기존에는 비식별화를 위해 데이터를 외부 API 서버로 보내야 했기에 그 과정에서 데이터가 노출될 위험이 늘 존재했다. Privacy Filter는 로컬 실행을 지원하므로 필터링 전의 원본 데이터가 장치를 벗어나지 않는다. 또한 공개 데이터와 합성 데이터를 섞어 학습했기에 현실의 까다로운 프라이버시 패턴을 더 잘 포착한다. 다만 이 모델이 모든 것을 해결하는 마법의 도구는 아니다. 익명화 도구나 컴플라이언스(법규 준수) 인증 대체물이 아니며, 법률이나 의료 같은 고위험 영역에서는 여전히 사람의 검토와 추가적인 미세조정이 필수적이다.
이제 프라이버시는 단순한 정책의 영역이 아니라, 로컬에서 정밀하게 제어 가능한 엔지니어링의 영역으로 들어왔다.




