스캔 문서의 데이터 매칭 한계와 93%의 고신뢰도 달성
이름과 사진이 혼재된 오래된 졸업앨범이나 스캔 문서를 디지털 데이터로 변환할 때, 사진과 이름을 정확히 연결하는 매칭 작업에서 큰 어려움이 발생한다. 스캔된 페이지에는 176개의 인쇄된 이름과 4장의 인물 사진이 포함되어 있지만, 이를 연결하는 기계 판독 가능 구조가 전혀 없기 때문이다. Amazon Bedrock 기반의 Nova 2 Lite와 Claude Sonnet 4.6 2단계 파이프라인은 이러한 수동 매칭 과정을 자동화하여 해결했다. 개발팀이 336페이지의 스캔 문서를 대상으로 이 파이프라인을 실행한 결과, 총 3,122개의 이름-얼굴 관계를 추출했으며 이 중 93%가 0.95 이상의 고신뢰도 점수를 기록했다. 이러한 2모델 접근 방식은 모든 작업을 단일 비전-언어 모델(VLM)에 맡기는 대안보다 페이지당 비용을 약 33% 절감하는 성과를 냈다.
Nova 2 Lite 추출과 Claude 공간 추론의 2단계 파이프라인
전체 프로세스는 고부하 추출과 고차원 추론으로 역할을 분리한 순차적 구조로 설계되었다. 1단계에서 Amazon Nova 2 Lite는 단일 `Converse` API 호출을 통해 사진 탐지, 바운딩 박스(Bounding Box, 객체의 위치를 나타내는 사각형 좌표) 추출, 가시적 이름 및 페이지 레벨 메타데이터 추출을 동시에 수행한다. Nova 2 Lite는 각 사진에 대해 인물, 그룹, 스냅 사진 등의 유형과 카테고리 태그, 짧은 설명을 포함한 JSON 객체를 반환한다. 2단계에서는 Claude Sonnet 4.6이 Nova 2 Lite가 전달한 좌표 데이터를 바탕으로 공간 추론을 수행하여 이름과 얼굴을 최종 매칭한다. 두 모델은 0에서 1000 사이의 동일한 좌표 체계를 공유하므로, Claude는 별도의 좌표 변환 과정 없이 Nova의 출력을 그대로 읽어 처리 효율을 높였다.
Nova 2 Lite의 추론 설정 및 토큰 최적화 전략
1단계 추출 과정의 비용을 최소화하기 위해 Amazon Nova 2 Lite의 `reasoning_config` 설정을 LOW로 지정했다. 336페이지 전체 테스트 결과, 구조화된 추출 작업에서 LOW, MEDIUM, HIGH 설정 간에 유의미한 정확도 차이가 없음을 확인하여 가장 저렴한 옵션을 채택했다. 또한 Nova 2 Lite가 페이지의 모든 OCR 토큰을 읽지 않고 사진 주변의 이름만 추출하도록 프롬프트를 제한했다. 이 설정을 통해 페이지당 출력 토큰 수를 전체 OCR 수행 시 예상되는 4,500개에서 약 1,000개 수준으로 압축했다. 이러한 토큰 최적화는 다운스트림 단계인 Claude의 공간 추론에 필요한 핵심 정보만 전달함으로써 전체 파이프라인의 처리 속도와 경제성을 동시에 확보하는 결과로 이어졌다.
고정 과금 체계를 통한 예산 예측 가능성과 전처리 간소화
Amazon Nova 2 Lite는 이미지 해상도나 파일 크기에 관계없이 이미지 및 문서 페이지 입력에 대해 고정 요금제를 적용했다. 기존 비전 모델들은 해상도에 따라 토큰 비용이 변동되어 샘플 테스트 없이는 정확한 비용 추정이 어려웠으나, 고정 과금제 도입으로 입력 단계의 비용 변동성이 제거되었다. 이 체계는 연간 수십만 페이지를 처리하는 대규모 워크로드에서 이미지 입력 비용이 페이지 수에 선형적으로 비례하게 만들어 예산 수립의 명확한 근거를 제공한다. 특히 고정 요금제 적용으로 인해 기존 전처리 과정의 필수 단계였던 해상도 정규화(Resolution Normalization, 비용 절감을 위해 이미지 크기를 일정하게 맞추는 작업) 과정이 완전히 제거되었다. 이를 통해 원본 파일을 그대로 입력해도 비용 증가가 발생하지 않으며, 전처리 과정에서의 이미지 손실이나 화질 저하 리스크 없이 시스템 복잡도를 낮췄다.
적응형 사고(Adaptive Thinking) 기반의 레이아웃 자동화
Claude Sonnet 4.6은 `thinking` 설정의 `type`을 `adaptive`로 지정하여 입력 데이터의 복잡도에 따라 내부 추론 깊이를 스스로 조절하는 적응형 사고(Adaptive Thinking) 기능을 수행한다.
{
"thinking": {
"type": "adaptive"
}
}
적응형 사고는 레이아웃의 가변성에 따라 서로 다른 추론 경로를 선택한다. 8개의 이름이 사진 위에 정갈하게 배치된 단순 그리드 구조에서는 최소한의 추론만 거쳐 즉각 응답하지만, 3개의 단체 사진이 하나의 캡션 블록을 공유하는 복잡한 구조에서는 단계별 공간 분석을 수행한다. 336페이지 실행 결과, Claude는 모든 페이지에서 적응형 추론을 작동시켰으며 추론 기록(Reasoning Trace)은 544자에서 1,658자까지 다양하게 나타났다. 모델은 추론 기록을 통해 이름의 위치와 얼굴 사진 사이의 열 정렬 및 수직 오프셋(Vertical Offset, 수직 방향의 위치 차이)을 정밀하게 계산했다. 이 방식은 개발자가 레이아웃 유형별로 별도의 프롬프트를 작성하거나 토큰 예산을 수동으로 설정할 필요 없이, 다양한 문서 양식에 대응하는 자동화 파이프라인을 구현하는 기준이 된다.
전체 구현 과정의 소스 코드와 샘플 이미지, Jupyter 노트북은 AWS Samples GitHub 저장소에 공개되어 있다. 실무자는 제공된 자산을 통해 Nova 2 Lite의 고정 비용 체계와 Claude의 적응형 사고 구조를 검증하여 대규모 아카이브 디지털화의 운영 공수를 절감할 수 있다.



