금융 서류 검토의 병목 현상과 위조 문서의 급증

대출이나 금융 서비스를 신청하는 고객은 은행 거래 내역서, 급여 명세서, 세무 서류, 신분증 등 수많은 증빙 서류를 제출해야 한다. 금융기관의 심사역은 이 서류들의 진위 여부를 확인하고 문서 간 정보를 교차 검증하며, 고용주와 주소지의 실제 여부를 외부에서 조사하는 수작업을 수행한다. 기존의 수동 검토 방식은 신청서 한 건당 평균 30분이 소요되어, 처리 시간이 길어질수록 고객 이탈률이 높아지는 결과를 초래했다.

서류 위조의 규모와 정교함은 더욱 심화하고 있다. Inscribe의 '2026년 문서 위조 보고서'에 따르면, 제출된 문서 16개 중 1개꼴로 위조 사례가 발견되며, 특히 2025년 4월부터 12월까지 AI 생성 위조 문서의 수는 5배 급증했다. 정교한 딥페이크와 AI 도구를 활용한 위조 전술은 기존의 규칙 기반 시스템이나 육안 검사로는 탐지가 불가능한 수준에 이르렀다. 단 한 건의 위조 서류 누락은 금융기관에 수백만 달러의 직접적인 금전 손실과 규제 위반에 따른 리스크, 그리고 회복하기 어려운 평판 손실을 입힌다.

Amazon Bedrock 기반 에이전트 시스템의 도입과 성과

Inscribe는 Amazon Bedrock을 활용해 전문 분석가처럼 추론하는 '에이전트 AI 시스템'을 구축했다. 이 시스템은 위조, 변조 및 AI 생성 금융 문서를 탐지하는 시간을 신청서당 90초 미만으로 단축하며, 기존 수동 검토 대비 20배의 처리 속도 향상을 달성했다. 여기서 에이전트 AI 시스템이란 사용자가 설정한 최종 목표를 달성하기 위해 스스로 세부 단계를 나누고, 필요한 도구를 호출하며, 작업을 완수하는 자율적 AI 구조를 의미한다.

이 시스템은 단순한 필드 탐지를 넘어 복잡한 분석 워크플로를 수행한다. 에이전트는 문서를 제출하고 적절한 모델로 라우팅하며, 병렬 포렌식 체크를 실행하고, 웹 검색을 통해 고용주 세부 정보를 확인하며, 전체 문서 세트의 데이터를 교차 참조한다. 최종적으로는 사람이 개입하지 않고도 금융 서비스 규제에서 요구하는 정확도와 설명 가능성을 갖춘 '감사 준비 완료(Audit-ready)' 보고서를 수초 내에 생성한다.

유연한 확장성과 보안을 지원하는 관리형 인프라 구조

Inscribe는 AI21 Labs, Anthropic, Cohere, Meta, Stability AI, Amazon의 기초 모델(FM)을 단일 API로 제공하는 Amazon Bedrock을 통해 인프라 관리 부담을 제거했다. 이를 통해 모델 선택을 복잡한 통합 프로젝트가 아닌 단순한 설정 변경(Configuration choice) 수준으로 전환했다. 또한 서버리스 스케일링 기능을 도입해 야간의 정적 시간대부터 업무 시간의 트래픽 급증 시점까지 전용 인프라 구축 없이 처리 물량의 변동에 유연하게 대응한다.

금융권의 엄격한 데이터 보호 표준을 충족하기 위해 AWS Identity and Access Management(IAM) 기반의 세밀한 접근 제어 체계를 적용했다. 모든 데이터는 전송 중 및 저장 시 상태에서 암호화되며, 최소 권한 원칙에 따라 API 호출 권한을 제한해 보안성을 높였다. 더불어 스테이징 환경에서 신규 모델 버전을 먼저 테스트하고 운영 환경에 반영하는 모델 거버넌스 체계를 구축하여, 모델 업데이트 시 발생할 수 있는 탐지 정확도의 변동 리스크를 최소화했다.

작업 난이도에 따른 멀티 모델 배치 전략

Inscribe는 모든 공정에 단일 모델을 사용하는 대신, 작업의 난이도와 특성에 따라 세 가지 모델을 분리 배치하는 전략을 취했다. 먼저 문서 파싱, 필드 추출, 초기 분류, 사전 스크리닝과 같은 고볼륨 단순 작업에는 Claude Haiku 4.5를 배치했다. Haiku 4.5는 초 단위의 빠른 처리 속도를 유지하면서도 루틴한 작업에서 높은 정확도를 제공해 운영 효율을 높였다.

거래 내역 상세 정보를 추가하는 트랜잭션 보강과 이름, 날짜, 금액 등을 식별하는 엔티티 추출 단계에서는 Meta Llama 모델을 사용한다. Inscribe의 엔지니어링 매니저 Ivo는 내부 테스트를 통해 Llama의 성능이 상위 모델과 대등함을 확인하고, 비용 효율성을 위해 Llama를 선택했다. 이는 요구되는 성능 임계치를 충족하는 최저가 모델을 찾는 실용적 접근 방식의 결과다.

가장 복잡한 추론이 필요한 조율 레이어(Coordination layer)에는 Claude Sonnet을 배치했다. Sonnet은 여러 문서 간의 교차 분석, 다단계 추론 워크플로 제어, 웹 검색 통합, 자연어 기반의 감사 보고서 생성을 전담한다. 특히 Sonnet의 확장된 컨텍스트 윈도우(한 번에 처리할 수 있는 데이터 양)를 활용해, 개별 문서 분석으로는 식별할 수 없는 정교한 위조 패턴을 전체 문서 세트 관점에서 찾아낸다.

비용 40% 절감을 이끈 '적정 모델 매칭'의 판단 기준

Inscribe는 작업별로 모델을 최적화하여 배치함으로써, 모든 루틴 작업을 Claude Sonnet으로 처리했을 때보다 추론 비용을 약 40% 절감했다. 이러한 성과는 '어떤 모델이 가장 똑똑한가'라는 브랜드 중심의 사고에서 벗어나, '해당 공정에서 요구하는 최소 성능이 무엇인가'를 정의한 결과다. 기초 모델의 성능이 상향 평준화된 구간에서는 비용이 낮은 모델을 과감하게 선택하는 것이 실제 운영 경쟁력으로 이어진다.

결국 AI 서비스의 ROI를 극대화하는 핵심은 작업 난이도에 따른 적정 모델의 매칭이다. 전체 맥락을 유지하며 복잡한 추론을 수행해야 하는 영역에만 고비용 모델을 투입하고, 단순 추출이나 분류 작업은 경량 모델로 대체하는 구조적 설계가 필요하다. 모델의 브랜드보다 공정별 비용 효율성을 우선하는 판단 기준이 AI 서비스의 실제 운영 경쟁력을 결정한다.