"수년 걸릴 작업을 몇 달로", 4억 건 문서 비식별화한 헌팅턴 은행의 AWS 전략

수천 장의 수동 마스킹 작업과 4억 건의 데이터 규모

실무자가 수천 장의 PDF나 이미지 문서에서 주민등록번호나 계좌번호를 찾아 수동으로 가리는(마스킹) 작업은 막대한 시간 소요와 휴먼 에러라는 리스크를 동반한다. 미국 10대 은행 중 하나인 헌팅턴 은행(Huntington)은 2015년부터 온프레미스 문서 관리 시스템에 누적해 온 4억 건 이상의 방대한 문서를 대상으로 동일한 과제에 직면했다. 헌팅턴 은행은 2025년 선제적 컴플라이언스(Compliance) 이니셔티브의 일환으로 해당 문서 내 민감 정보를 찾아 삭제하는 비식별화(Redaction) 작업을 추진했다.

대상 문서들은 형식이 제각각인 비정형 데이터였기에, 다양한 파일 타입을 수용하면서도 하루 수백만 건을 처리할 수 있는 높은 처리량이 필수적이었다. 헌팅턴 은행이 초기 분석을 수행한 결과, 문서를 순차적으로 처리하는 기존 방식으로는 전체 작업을 완료하는 데 수년(Years)이 걸릴 것으로 예측되었다. 이를 해결하기 위해 헌팅턴 은행은 Amazon Textract, Amazon SageMaker, AWS Step Functions, AWS Lambda를 결합한 확장 가능한 비식별화 워크플로 파이프라인을 설계하여 처리 기간을 수개월(Months)로 단축했다.

온프레미스에서 S3로 이어지는 데이터 전송 및 식별 구조

헌팅턴 은행은 온프레미스 파일 공유 서버에 저장된 4억 건 이상의 문서를 Amazon S3 버킷으로 이동시키기 위해 AWS DataSync와 AWS Direct Connect를 도입했다. AWS DataSync를 온프레미스 데이터 센터에 에이전트로 배치하여 SMB 파일 공유 소스를 모니터링하고 데이터를 동기화했으며, 전송 중인 데이터와 저장된 데이터 모두에 AWS KMS(키 관리 서비스)를 적용해 암호화했다. 이 과정에서 AWS DataSync의 양방향 동기화 기능을 활용해 처리 완료된 데이터를 다시 온프레미스로 회수하는 경로를 확보했다.

클라우드로 이동한 문서의 민감 정보 식별에는 Amazon Textract를 사용했다. Amazon Textract는 스캔된 문서에서 텍스트, 표, 양식을 추출하는 머신러닝 서비스로, 사회보장번호, 계좌번호, 개인 주소와 같은 민감 정보를 탐지한다. 헌팅턴 은행은 Amazon Textract가 출력하는 JSON 형식의 메타데이터에서 탐지된 필드의 정확한 좌표값을 추출했다. 이 좌표 정보는 이후 단계에서 사람이 개입하지 않고도 특정 영역을 정확하게 가릴 수 있는 물리적 근거가 되었다.

Step Functions 분산 맵을 통한 서비스 쿼터 제한 극복

헌팅턴 은행은 수백만 건의 문서를 매일 처리하기 위해 AWS Step Functions의 분산 맵(Distributed Map) 상태를 도입했다. 분산 맵은 JSON, CSV 등 대규모 입력 컬렉션을 작은 묶음으로 나누어 수천 개의 병렬 실행 단위로 동시에 처리하는 오케스트레이션 기능이다. 팀은 Amazon S3에 저장된 문서 경로들을 JSON 컬렉션으로 구성하고 이를 분산 맵 모드로 실행하여 Amazon Textract의 병렬 처리량을 극대화했다.

병렬 처리 과정에서 발생하는 Amazon Textract의 초당 작업 수 제한(Service Quotas)은 AWS Service Quotas 콘솔을 통해 상향 요청하여 해결했다. 헌팅턴 은행은 Amazon CloudWatch 대시보드를 구축해 응답 시간, 스로틀링(Throttling, 요청 제한) 횟수, 성공 및 에러율을 실시간으로 모니터링했다. 스로틀링 횟수가 증가하는 지점을 확인하면 자식 워크플로 실행의 동시성 한도를 조정하여, 서비스 쿼터를 초과하지 않으면서도 최대 처리량을 유지하는 최적점을 찾아냈다.

오픈소스 라이브러리와 신뢰도 점수를 활용한 정밀 비식별화

헌팅턴 은행은 Amazon Textract가 제공한 좌표값과 정규표현식(Regex) 패턴을 결합해 실제 데이터를 삭제하는 비식별화 공정을 구현했다. 구체적으로 PyMuPDF나 PIL(Python Imaging Library)과 같은 오픈소스 파이썬 라이브러리를 사용하여, 탐지된 좌표 영역을 물리적으로 덮어씌우는 방식을 채택했다. 비식별화가 완료된 파일은 다시 Amazon S3에 저장되었으며, AWS DataSync가 이를 감지해 온프레미스 파일 저장소로 최종 전송했다.

작업의 정확도를 높이기 위해 헌팅턴 은행은 Amazon Textract의 신뢰도 점수(Confidence scores)를 검증 필터로 활용했다. 신뢰도 점수는 모델이 추출한 결과가 정답일 확률을 수치화한 지표로, 헌팅턴 은행은 설정한 임계값보다 낮은 점수가 기록된 문서만 별도의 검증 워크플로로 분류했다. 이를 통해 전체 문서 중 고위험 데이터가 누락될 가능성이 있는 일부 문서만 사람이 직접 확인하게 함으로써, 처리 속도를 유지하면서도 비식별화 정확도를 95% 이상으로 확보했다.

하루 1,000만 건 처리 성과와 대규모 데이터 처리 판단 기준

헌팅턴 은행은 AWS 기반 자동화 파이프라인을 통해 하루 약 1,000만 건의 문서를 처리하는 능력을 확보했으며, 전체 처리 기간을 수년에서 수개월로 단축했다. 전체 문서 저장소 처리 비용은 초기 예상치의 약 5% 수준으로 절감되었다. 이는 서버리스 기반의 오케스트레이션과 자동화된 리소스 할당을 통해 불필요한 컴퓨팅 낭비를 제거한 결과다. 헌팅턴 은행은 이 프레임워크를 향후 기업 인수합병(M&A) 시 발생하는 대규모 데이터 통합 및 비식별화 작업에도 지속적으로 적용할 계획이다.

대규모 비정형 데이터 처리 시 실무자가 가져야 할 판단 기준은 단일 서비스의 성능이 아니라 '오케스트레이션을 통한 처리량 제어'에 있다. 헌팅턴 은행의 사례처럼 Amazon Textract와 같은 개별 API의 서비스 쿼터 제한을 AWS Step Functions의 분산 처리 구조로 해결하고, CloudWatch로 동시성을 실시간 조정하는 것이 비용과 속도를 동시에 잡는 핵심이다. 또한, 모든 과정을 ML로 처리하기보다 'ML 기반 탐지(Textract) $ ightarrow$ 라이브러리 기반 삭제(PyMuPDF/PIL)'로 역할을 분담하고, 신뢰도 점수를 기준으로 인간의 개입 시점을 설계하는 것이 가장 효율적인 실무 워크플로가 된다.