facts
이번 업데이트에서 가장 먼저 바뀐 건 단순 텍스트 추출을 넘어 문서의 구조적 정보를 함께 제공한다는 점이다. Mistral이 공개한 OCR 4는 추출된 텍스트와 함께 바운딩 박스(Bounding Box), 블록 분류(Block Classification), 인라인 신뢰도 점수(Inline Confidence Scores)를 동시에 반환한다. 바운딩 박스를 통해 텍스트의 정확한 위치를 파악할 수 있으며, 제목, 표, 수식, 서명 등 블록 유형을 구분해 문서의 역할을 정의한다.
성능 지표에서는 독립 평가단이 테스트한 주요 OCR 및 문서 AI 시스템 대비 평균 72%의 승률을 기록했다. 공개 벤치마크인 OlmOCRBench에서는 85.20점의 최고 점수를 얻었으며, OmniDocBench에서는 93.07점을 기록했다. 지원 범위는 10개 언어 그룹에 걸쳐 총 170개 언어로 확장되었으며, 특히 기존 시스템들이 성능 저하를 보였던 희귀 언어 및 저자원 언어에서 유의미한 개선이 이뤄졌다.
입력 가능한 파일 형식은 PDF, DOC, PPT, OpenDocument 등 기업에서 흔히 사용하는 포맷을 모두 지원한다. 비용 체계는 API 기준 1,000페이지당 4달러이며, 배치 API(Batch-API) 이용 시 50% 할인된 2달러에 이용 가능하다. 여기에 사용자 정의 스키마를 통해 구조화된 JSON 출력을 생성하는 'Document AI' 기능을 추가하면 1,000페이지당 5달러가 적용된다.
market-flow
OCR 4의 등장은 단순한 인식률 경쟁이 아니라, AI 에이전트와 RAG(검색 증강 생성) 파이프라인의 '데이터 입력 단계'를 고도화하려는 흐름에 맞닿아 있다. 기존 OCR이 페이지를 깨끗한 텍스트로 변환하는 데 집중했다면, OCR 4는 문서의 구조적 표현(Structured Representation)을 반환하는 데 초점을 맞춘다.
이러한 변화는 RAG의 핵심인 시맨틱 청킹(Semantic Chunking) 효율을 직접적으로 높인다. 분류된 블록 단위로 데이터를 나누면 검색 단위가 정교해지고, 바운딩 박스와 신뢰도 점수를 활용해 답변의 근거가 되는 원문 위치를 정확히 제시하는 '소스 기반 인용'이 가능해진다. 이는 Mistral이 함께 공개한 오픈소스 검색 프레임워크인 'Mistral Search Toolkit'과 결합되어 기업용 검색 및 도메인 특화 검색 파이프라인의 구성 요소로 작동한다.
채택 관점에서는 '데이터 주권'과 '컴플라이언스'라는 기업의 현실적 제약을 정조준했다. OCR 4는 단일 컨테이너에서 구동될 만큼 컴팩트하게 설계되어, 기업이 자체 인프라에 완전히 셀프 호스팅(Self-hosted)할 수 있다. 민감한 문서 데이터를 외부 API로 전송하지 않고 내부 환경에서 처리하면서도 고성능 추출 기능을 사용할 수 있게 함으로써, 금융, 법률, 의료 등 규제가 엄격한 산업군의 도입 문턱을 낮췄다.
reader-impact
한국의 AI 실무자와 개발자가 주목해야 할 지점은 '원시 데이터 추출'과 '구조화된 결과 생성' 사이의 선택지다. Mistral은 동일한 엔드포인트에서 OCR 4의 순수 추출 모드와 Document AI 모드를 구분해 제공한다. 단순히 텍스트와 위치 정보가 필요하다면 OCR 4를 그대로 사용해 비용을 낮추고, 특정 JSON 스키마에 맞춘 결과물이 필요하다면 Document AI 파라미터를 추가해 후처리 로직을 줄이는 전략이 필요하다.
특히 RAG 시스템을 구축 중인 팀이라면, 단순 텍스트 기반의 청킹에서 벗어나 OCR 4가 제공하는 블록 분류 정보를 활용해 청킹 전략을 수정할 필요가 있다. 표나 수식 같은 특수 블록을 별도로 처리함으로써 LLM이 문서 구조를 오인해 발생하는 환각(Hallucination)을 줄일 수 있기 때문이다.
또한, 셀프 호스팅 옵션은 클라우드 비용 최적화와 보안이라는 두 마리 토끼를 잡을 수 있는 선택지다. 대량의 문서 아카이브를 디지털화해야 하는 기업의 경우, 배치 API의 할인 혜택과 셀프 호스팅의 처리량 제어 능력을 비교해 최적의 배포 모델을 결정해야 한다. 결과적으로 이번 업데이트는 OCR을 단순한 '글자 읽기 도구'에서 AI 에이전트가 문서를 해석하고 행동하게 만드는 '구조적 인터페이스'로 격상시켰다는 점에서 실무적 가치가 크다.




