검토 시간 26% 줄인 Stripe의 금융 컴플라이언스 AI 에이전트

연간 1.4조 달러 처리 규모와 검토 시간 26% 단축

금융권 실무자는 리스크 분석이라는 핵심 업무보다 서류를 수집하고 여러 시스템을 탐색하는 단순 작업에 업무 시간의 80%를 쓴다. 필요한 정보를 찾기 위해 여러 화면을 오가며 데이터를 복사하고 붙여넣는 반복 노동은 분석가의 숙련도와 상관없이 발생하는 고질적인 비효율이다. Stripe는 이러한 문제를 해결하기 위해 ReAct(추론 및 행동) 프레임워크 기반의 AI 에이전트를 도입했다. 그 결과 컴플라이언스 검토 처리 시간을 26% 단축하며 단순 반복 업무의 부하를 낮췄다.

Stripe는 전 세계 50개국에서 서비스를 제공하며 연간 1.4조 달러의 결제 규모를 처리하는 프로그래머블 금융 인프라(코드로 제어 가능한 금융 시스템)를 운영한다. 포춘 500대 기업의 62%가 Stripe의 서비스를 이용하고 있으며 이는 전 세계 국내총생산(GDP)의 약 1.3%에 해당하는 막대한 규모다. 글로벌 경제의 핵심 축으로 성장함에 따라 규제 준수 업무인 컴플라이언스 부하도 함께 급증했다. 매일 수천 건의 거래를 검토해야 하는 상황에서 인력을 단순 증원하는 방식으로는 규제 품질 표준을 유지하며 운영 규모를 확장하는 데 한계가 있었다.

기존의 컴플라이언스 팀은 파편화된 내부 시스템에서 증빙 서류를 모으는 데 대부분의 시간을 소모했다. 숙련된 분석가조차 업무 시간의 최대 80%를 단순 정보 수집에 썼으며 정작 중요한 고부가가치 리스크 평가에 집중할 시간은 부족했다. 이러한 비효율은 Stripe만의 문제가 아니라 전 세계적으로 약 2,060억 달러 규모의 비용 부담을 만드는 컴플라이언스 영역의 공통된 과제다. 판단이 필요한 복잡한 컴플라이언스 업무는 전통적인 자동화 방식으로는 수행이 불가능했기에 AI 에이전트의 도입이 필요했다.

Stripe는 AI 에이전트와 자동화된 오케스트레이션(여러 작업을 조율하고 배치하는 시스템)을 통합해 이 과정을 개선했다. 단순한 자동화를 넘어 판단이 필요한 조사를 AI가 보조함으로써 리소스 집약적인 프로세스를 확장 가능한 엔진으로 전환했다. 이를 통해 카드 테스팅 공격(훔친 카드 정보를 무작위로 입력해 유효성을 확인하는 공격)의 95%를 실시간으로 식별했다. 동시에 불필요한 고객 마찰을 20% 줄였으며 규제 기관이 요구하는 감사 가능성과 정밀도를 유지하는 구현 기준을 마련했다.

DAG 기반 작업 분해와 인간 중심의 검토 구조

방대한 분량의 서류를 검토할 때 처음부터 끝까지 한 번에 읽으려 하면 정작 중요한 단서를 놓치거나 지엽적인 정보에 매몰되기 쉽다. Stripe는 이 문제를 해결하기 위해 단일 에이전트가 전체 검토 과정을 한 번에 처리하는 방식 대신, 복잡한 검토 업무를 구성 가능한 작은 단위의 하위 작업(sub-tasks)으로 분해했다. 제약 없는 단일 에이전트를 사용할 경우 엉뚱한 정보에 과도하게 집중하거나 정작 필요한 핵심 요소를 간과할 위험이 크기 때문이다. 업무를 작게 쪼개어 처리함으로써 에이전트가 각 단계에서 수행해야 할 역할과 범위를 명확히 제한하고, 결과적으로 처리 과정의 예측 가능성과 정확도를 높였다. 이러한 구성 가능한 구조는 검토 대상이나 규제 환경의 변화에 따라 하위 작업의 순서와 종류를 유연하게 조정할 수 있는 기반이 된다.

분해된 하위 작업들은 서로 유기적으로 연결되어 있으며, 그 의존 관계는 DAG(Directed Acyclic Graph, 방향성 비순환 그래프) 형태로 설계되었다. DAG는 작업의 흐름이 한 방향으로만 진행되고 다시 되돌아오는 순환 고리가 없는 그래프 구조를 의미한다. 이러한 설계를 통해 각 에이전트 프로세스는 품질 테스트를 통해 검증된 질문에 대해서만 실행되며, 전체 조사 과정이 규제 준수를 위해 필요한 필수 항목들을 빠짐없이 다루었는지 체계적으로 확인할 수 있다. 또한 에이전트에게 충분한 맥락과 집중력을 제공하여 고품질의 결과를 도출하도록 돕는다. 검토 도구(review tooling)가 오케스트레이터(orchestrator, 여러 작업을 조율하고 실행 순서를 제어하는 시스템) 역할을 수행하며, 인간 검토자가 확정한 답변을 다음 하위 작업의 맥락으로 전달해 전체 워크플로우를 제어한다.

에이전트가 도출한 결과물을 그대로 최종 답안으로 채택하지 않는 구조를 통해 시스템의 신뢰성을 확보했다. Stripe의 구현 방식에서 에이전트의 응답은 확정된 답이 아니라, 인간 검토자가 판단을 내릴 때 참고하는 보조 정보로 제공된다. 최종 답변은 반드시 인간 검토자가 직접 작성해야 하며, 이 과정을 통해 금융 규제 환경에서 필수적인 책임성과 감사 가능성을 유지한다. 에이전트는 방대한 내부 신호 속에서 관련성 높은 데이터를 수집하고 정리하는 고된 작업을 수행하고, 인간은 그 결과를 바탕으로 최종 승인 여부를 결정한다. 에이전트가 제공하는 보조 정보는 검토자가 수동으로 데이터를 찾는 시간을 획기적으로 줄여주며, 동시에 의사결정 과정의 투명성을 보장한다. 이는 AI의 효율성을 취하면서도 판단의 주체는 인간이 유지함으로써 규제 준수 품질을 타협하지 않고 운영 규모를 확장하는 구현 기준이 된다.

기존 방식과 달라진 지점

컴플라이언스 담당자가 정해진 규칙에 맞지 않는 예외 사례를 만났을 때 기존의 자동화 도구는 무용지물이 된다. 과거의 규칙 기반 자동화는 미리 정의된 경로를 따라 데이터를 수집하지만, 판단이 필요한 복잡한 검토 업무에서는 유연하게 대응하지 못하는 한계를 보였다. Stripe는 이러한 판단 영역을 해결하기 위해 단순 자동화가 아닌 추론 능력을 갖춘 AI 에이전트를 도입했다.

Stripe는 추론과 행동을 결합한 ReAct(Reasoning and Acting, 추론 및 행동) 프레임워크를 채택했다. 이 방식은 Amazon Bedrock의 거대언어모델(LLM)이 단순히 답을 내놓는 것이 아니라, 스스로 사고하고 도구를 사용하는 루프를 반복한다. 에이전트는 먼저 현재 상황에서 무엇을 해야 할지 생각하는 Thought 단계를 거친다. 이후 필요한 신호를 수집하기 위해 특정 도구를 호출하는 Action을 수행하고, 그 결과값인 Observation을 받아들인다. 에이전트의 사고 과정은 10을 원주율로 나눈 값을 구하는 과정과 같다. 먼저 모델은 자신이 답을 알고 있는지 생각하고, 모른다는 판단이 서면 계산기를 사용한다는 행동을 결정한다. 계산기가 내놓은 결과값을 관찰한 뒤, 이 값이 최종 답안이 될 수 있는지 다시 생각하여 확정한다. 복잡한 기업 매출 예측 분석 같은 업무에서도 데이터베이스 쿼리라는 도구 사용과 결과 해석이라는 추론 단계를 여러 차례 반복하며 정밀도를 높인다.

이러한 작동 방식은 공학의 피드백 제어 시스템과 유사한 폐쇄 루프(closed-loop, 출력이 다시 입력으로 돌아와 제어하는 구조) 메커니즘으로 작동한다. 에이전트는 이전 행동에서 얻은 관찰 결과인 Observation을 처리하기 전까지는 다음 단계로 넘어가지 못하도록 설계되었다. 이는 모델이 근거 없이 다음 단계로 비약하는 오픈 루프(open-loop) 동작을 차단한다. 결과적으로 모델이 허구의 정보를 만들어내는 환각 현상을 방지하고 추론의 궤적을 유지하며 정확한 신호를 수집하게 만든다. 추론-행동-관찰의 반복 루프를 통해 에이전트는 수많은 신호 중 해당 사례에 정말 필요한 정보가 무엇인지 스스로 결정하며 정답에 접근한다.

프롬프트 캐싱을 통한 비용 최적화와 96%의 유용성

고성능 AI 에이전트를 도입하고 싶지만 매 호출마다 누적되는 토큰 비용 때문에 망설이는 조직이 많다. 대화가 길어질수록 이전 맥락을 모두 다시 입력해야 하는 LLM 구조상 비용이 기하급수적으로 늘어나기 때문이다. Stripe는 Amazon Bedrock의 프롬프트 캐싱(Prompt Caching, 자주 사용하는 프롬프트 일부를 저장해 재사용하는 기능)을 도입해 이 문제를 해결했다. 캐싱을 적용하면 매 턴마다 전체 메시지를 다시 읽지 않고, 이전 메시지에 새롭게 추가된 관찰 내용과 추론 결과에 대해서만 비용을 지불한다. ReAct 루프가 반복되며 관찰 내용이 누적될수록 프롬프트가 비대해지는 특성을 고려해, 입력 토큰 비용이라는 핵심 비용 동인을 직접적으로 제어한 설계다.

인프라 최적화와 더불어 실제 운영 성능에서도 구체적인 수치를 확보했다. 에이전트 시스템의 도움됨(helpfulness) 평가에서 96% 이상의 점수를 기록했다. 이는 인간 전문가가 에이전트가 제공한 보조 정보의 정확성과 유용성을 직접 평가한 결과다. 특히 보안 영역에서 카드 테스팅 공격(Card-testing attacks, 도난당한 카드 번호의 유효성을 확인하기 위해 소액 결제를 반복하는 공격)의 95%를 실시간으로 식별해냈다. 단순한 업무 보조 도구를 넘어 금융 범죄 탐지라는 핵심 보안 영역에서 실질적인 방어력을 증명한 수치다.

보안 강화가 고객 경험의 저하로 이어지는 문제는 수치로 제어했다. 불필요한 고객 마찰(friction, 과도한 본인 인증 요구 등으로 사용자가 느끼는 불편함)을 20% 감소시켰다. 정밀한 실시간 식별 능력을 통해 정상 사용자를 오탐하여 차단하거나 불필요한 서류를 요구하는 사례를 줄인 결과다. 보안 수준을 높이면서도 사용자 이탈을 막는 최적점을 찾았으며, 이는 컴플라이언스 팀이 고부가가치 리스크 분석에 집중할 수 있는 환경을 만든다.

결과적으로 Stripe는 인프라 비용 효율과 탐지 정확도라는 두 가지 목표를 동시에 달성했다. Amazon Bedrock의 캐싱 기능을 통해 토큰 비용의 선형적 증가를 막고, 95% 이상의 공격 식별률을 유지하며 운영 규모를 확장했다. 규제 준수 품질과 감사 가능성을 유지하면서도 인력 증원 없이 시스템만으로 대응 가능한 구현 기준을 세운 것이다. 비용 최적화가 단순히 지출을 줄이는 것이 아니라, 더 복잡한 추론 루프를 안정적으로 돌리기 위한 전제 조건임을 보여준다.

한국 금융 AI 실무자를 위한 확장 가능성

금융권 컴플라이언스 담당자가 AI 도입을 망설이는 가장 큰 이유는 오판으로 인한 법적 책임이 개인에게 돌아올 수 있다는 불안감이다. Stripe는 AI 에이전트의 응답을 확정 답안이 아닌 인간 검토자를 위한 보조 정보로 제공하는 구조를 택했다. 에이전트가 수집한 데이터와 추론 결과는 참고 자료로만 활용되며 모든 하위 작업의 최종 답변은 반드시 인간 검토자가 직접 작성한다. 이 방식은 AI의 효율성을 취하면서도 책임성과 감사 가능성을 유지하는 장치가 된다. 이러한 인간 중심의 최종 결정권 보장 구조는 금융 사고 발생 시 책임 소재를 명확히 해야 하는 한국의 금융 규제 및 감독 환경과 부합한다.

단일 에이전트에게 복잡한 검토 전체를 한 번에 맡기면 엉뚱한 정보에 과하게 집중하거나 정작 필요한 핵심 신호를 누락하는 현상이 발생한다. Stripe는 이를 해결하기 위해 복잡한 검토 과정을 구성 가능한 작은 하위 작업으로 나누는 작업 분해(Task Decomposition) 방식을 적용했다. 각 하위 작업은 방향성 비순환 그래프(DAG, 한 방향으로만 흐르고 순환하지 않는 구조) 형태로 설계되어 앞선 작업의 결과가 다음 작업의 맥락으로 이어지도록 제어한다. 이러한 구조는 작업 범위를 제한해 에이전트가 처리해야 할 토큰 양을 줄이고 집중도를 높인다. 세분화된 작업 단위는 복잡한 국내 금융 법규를 개별 검토 항목으로 쪼개어 적용할 때 유리하며 각 단계의 품질을 개별적으로 측정하고 검증할 수 있는 명확한 기준이 된다.

내부 데이터 유출 방지와 시스템 제어권 확보를 위해 전용 에이전트 서비스와 LLM 프록시 계층을 둔 아키텍처를 구축했다. LLM 프록시(LLM Proxy, 모델 호출 전후에 필터링이나 로깅을 수행하는 중계 계층)는 에이전트 서비스와 거대언어모델 사이에서 모든 요청과 응답을 중계한다. 에이전트 서비스는 에이전트 로직을 호스팅하고 내부 신호 도구와 연결되어 실제 실행을 촉진하는 역할을 수행한다. 한국 금융사들이 외부 모델을 사용할 때 직면하는 가장 큰 제약인 데이터 보안 문제는 이 프록시 계층에서 데이터 마스킹이나 민감 정보 필터링을 구현함으로써 해결 가능하다. 전용 서비스 계층을 분리함으로써 모델 교체나 프롬프트 수정 시 전체 시스템을 다시 구축하지 않고도 유연하게 대응할 수 있는 운영 기반을 갖춘다.

결국 핵심은 AI가 판단을 대신하는 것이 아니라, 인간이 판단에만 집중할 수 있도록 정보 수집의 경로를 최적화하는 설계에 있다. Stripe는 DAG 구조의 작업 분해와 ReAct 프레임워크를 통해 규제 준수라는 보수적인 영역에서도 운영 규모의 확장이 가능하다는 사실을 입증했다.

이제 중요한 것은 단순한 자동화 도입 여부가 아니라, 감사 가능성을 유지하며 인력 증원 없이 처리량을 늘릴 수 있는 구현 기준을 세우는 일이다. 본문에서 다룬 서비스 계층 분리와 프롬프트 캐싱 설정을 통해 비용 효율적인 추론 루프를 구축하는 것부터 시작해야 한다.