PDF 3천 장도 한 번에, AWS가 공개한 지능형 문서 처리 파이프라인

수작업의 병목을 해결하는 Amazon Bedrock Data Automation의 통합 API

많은 기업이 보험금 청구서, 송장, 법률 계약서, 의료 기록 등 매일 수백만 건의 문서를 처리하며 데이터 추출에 어려움을 겪는다. 기존의 광학 문자 인식(OCR, Optical Character Recognition) 솔루션은 이미지 속 텍스트를 읽어낼 수는 있지만, 복잡한 문서 내에 내재된 맥락이나 요소 간의 관계, 의미를 파악하지 못하는 한계가 있다. 이러한 기술적 제약은 결국 사람이 직접 수치를 찾아 엑셀에 옮겨 적는 수작업 개입을 강제하며, 이는 처리 시간과 비용을 증가시키고 데이터 입력 오류를 유발하는 병목 현상으로 이어진다.

Amazon Bedrock Data Automation(BDA)은 이러한 비효율을 제거하기 위해 API 요청당 최대 3,000페이지, 500MB의 멀티모달 문서를 분류하고 데이터를 추출하는 통합 API를 제공한다. BDA는 단순한 텍스트 추출을 넘어 문서의 전체적인 맥락을 이해하고, 추출된 데이터의 정확도를 검증하며, 신뢰도 점수(Confidence Score)를 함께 제공하여 데이터의 품질을 보장한다. 이를 통해 기업은 PDF, PNG, JPG, TIFF, DOC, DOCX 등 다양한 형식의 파일에서 유의미한 인사이트를 일관된 방식으로 확보할 수 있다.

문서 분류부터 검증까지, BDA의 지능형 데이터 추출 메커니즘

BDA는 문서 분류, 추출, 정규화, 검증으로 이어지는 자동화 파이프라인을 통해 복잡한 문서 처리 과업을 수행한다. 시스템은 먼저 입력된 문서를 논리적 경계에 따라 자동으로 분할하고, 각 섹션을 적절한 문서 유형으로 분류한다. 이후 분류된 유형에 최적화된 처리 블루프린트(Processing Blueprints, 문서 처리 설계도)를 매칭하여 필요한 데이터를 정밀하게 추출하는 지능형 라우팅 방식을 채택한다. 이 과정은 사용자가 수동으로 문서를 분류하거나 여러 AI 모델을 직접 연결해 조율해야 하는 오케스트레이션(Orchestration)의 번거로움을 완전히 제거한다.

추출된 데이터는 정규화 과정을 거쳐 표준 규칙에 따라 통일되며, 최종적으로 구조화된 JSON(JavaScript Object Notation, 데이터 교환 표준 형식) 형태로 출력된다. 특히 BDA는 추출 결과와 함께 신뢰도 점수를 제공하므로, 운영자는 점수가 낮은 항목에 대해서만 선택적으로 사람이 개입하여 수정하는 효율적인 검수 체계를 구축할 수 있다. 결과적으로 원본 파일의 형식이 무엇이든 관계없이 모든 정보가 표준화된 데이터셋으로 변환되어 후속 파이프라인에서 즉시 활용 가능한 상태가 된다.

입력에서 통찰까지 연결하는 4계층 서버리스 파이프라인 구조

AWS는 BDA를 중심으로 입력-추출-통찰-오케스트레이션으로 이어지는 4계층 지능형 파이프라인을 통해 문서 처리 전 과정을 자동화한다. 첫 번째 '입력 처리 계층'은 Amazon S3 버킷에 문서가 업로드되는 순간 이벤트 트리거를 발생시켜 워크플로우를 시작하며, PDF 및 스캔 문서 등 다양한 포맷의 유입을 관리한다. 두 번째 '추출 및 저장 계층'에서는 BDA가 핵심 엔진으로 작동하여 원본 콘텐츠를 구조화된 데이터로 변환하며, AWS Step Functions(서버리스 워크플로우 오케스트레이터)가 전체 흐름의 분기 로직과 예외 상황을 제어하여 운영 가시성을 확보한다.

세 번째 '통찰 생성 계층'은 Amazon Bedrock Knowledge Bases(지식 기반 서비스)와 Amazon OpenSearch Serverless(서버리스 검색 엔진)를 연동하여 시맨틱 검색과 RAG(검색 증강 생성, 외부 지식을 참조해 답변의 정확도를 높이는 기술)를 구현한다. 이 계층은 문서의 레이아웃을 이해하고 텍스트와 시각적 구성 요소 사이의 교차 모달 관계를 분석하여 단순 키워드 매칭 이상의 인지 능력을 수행한다. 마지막 '오케스트레이션 계층'에서는 Amazon Bedrock AgentCore Runtime 기반의 Strands Agents가 요청 유형에 따라 전문 에이전트로 작업을 라우팅하고 에이전트 간 통신을 조율하여 복잡한 문서 분석을 완결한다.

단순 텍스트 추출을 넘어선 시각적 요소의 데이터화와 RAG 통합

BDA의 핵심 경쟁력은 전통적인 OCR이 해석하지 못하는 플롯, 다이어그램, 차트와 같은 시각적 요소에서 인사이트를 직접 추출하는 능력에 있다. BDA는 시각적 분석 과정에서 이미지 크롭(Image Crops, 분석 대상 영역 추출) 기능을 제공하여 근거를 명확히 하며, 차트의 수치뿐만 아니라 해당 시각 자료가 가진 의미를 상세한 텍스트 설명과 구조화된 데이터로 생성한다. 이렇게 변환된 시각적 정보는 하위 워크플로우로 전달되어 텍스트 데이터와 동일한 수준의 분석 대상으로 활용된다.

특히 BDA는 Amazon Bedrock Knowledge Bases의 파서(Parser, 데이터 분석 및 형식 변환 도구)로 직접 통합될 수 있어, 별도의 블루프린트 설정 없이도 문서 인입 단계에서 즉시 인덱싱이 가능하다. 이를 통해 차트 속의 추세선이나 그래프의 굴곡이 가진 의미까지 텍스트로 변환되어 저장되므로, 사용자는 자연어 질의를 통해 "지난 분기 대비 성장률이 가장 높은 제품의 그래프 추이는 어떠한가?"와 같은 복잡한 질문에 정확한 답변을 얻을 수 있다. 이는 텍스트와 시각적 구성 요소 간의 관계를 탐지하는 교차 모달 분석이 RAG 파이프라인에 통합되었기에 가능한 결과다.

비정형 데이터의 정형화가 결정하는 기업의 AI 실무 경쟁력

이러한 이벤트 기반의 서버리스 파이프라인은 인프라 관리 부담을 최소화하면서도 대규모 문서 처리량을 유연하게 수용할 수 있는 확장성을 제공한다. 엔지니어는 서버 설정이나 패치 같은 운영 업무 대신, 추출된 데이터의 정규화 로직을 설계하고 검증 프로세스를 고도화하는 작업에 집중할 수 있다. 결과적으로 원본 문서의 업로드부터 최종 인사이트 도출까지의 전 과정이 유기적으로 연결되어, 수작업으로 수치를 옮기던 관성에서 벗어나 데이터 기반의 즉각적인 의사결정 체계로 전환된다.

기업의 실무 효율은 이제 단순한 글자 읽기를 넘어 문서의 시각적 구조와 차트의 맥락까지 얼마나 정밀하게 데이터화하느냐에 따라 결정된다. 3,000페이지에 달하는 대규모 멀티모달 문서를 단일 API로 처리하고 이를 RAG 파이프라인에 통합해 자연어로 질의하는 구조는 비정형 데이터 활용의 새로운 기준이 된다. 따라서 현재 운용 중인 문서 처리 공정이 단순 텍스트 추출에 머물러 있는지, 아니면 시각적 요소의 해석까지 포함하는지 판단하여 파이프라인을 재설계해야 한다.