미스트랄, OCR 4 공개... 단순 텍스트 넘어 '문서 구조' 통째로 추출

문서 인텔리전스 모델인 OCR 4를 출시했다

기술적 우위가 유지되는 기간이 극단적으로 짧아졌다. 1년 남짓한 시간 동안 모델의 세대가 빠르게 교체되며 기존의 표준을 무너뜨린다. Mistral AI가 약 15개월 만에 4세대 광학 문자 인식(OCR, Optical Character Recognition) 기술인 OCR 4를 출시했다.

PDF나 PPT 문서의 표와 레이아웃이 깨져 AI가 엉뚱한 답을 내놓는 문제는 고질적인 불편함이었다. OCR 4는 단순한 텍스트 추출을 넘어 문서 전체의 구조화된 표현을 반환한다. 바운딩 박스(Bounding Box, 텍스트 영역 좌표)와 블록 유형 분류, 단어별 신뢰도 점수가 함께 제공된다. 단순한 텍스트 스트림이 아니라 각 블록의 좌표와 제목, 표, 서명 같은 유형을 레이어 형태로 구분해 전달하는 방식이다.

10개 언어 그룹에 걸쳐 170개 언어를 지원한다. PDF, DOC, PPT, OpenDocument 형식을 모두 수용한다. 단일 컨테이너 형태로 조직의 자체 인프라에 배포할 수 있다. 미국 관할권의 클라우드 API를 사용할 수 없는 규제 산업 기업이 민감한 문서를 외부로 보내지 않고 처리할 수 있는 환경을 제공한다.

RAG(Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인 구축 시 문서 레이아웃 재구성 시간을 줄인다. 데이터 출처 추적 가능성을 확보해 처리 비용과 지연시간을 낮출 수 있다. 문서 인텔리전스의 정밀도가 데이터 전처리 비용의 효율성으로 이어진다.

기술이 실제로 작동하는 방식

PDF나 PPT의 복잡한 표와 레이아웃이 깨져 AI가 엉뚱한 답을 내놓는 이유는 무엇일까. OCR 4는 수십 년간 업계를 정의해 온 평면적 텍스트 스트림 추출 방식을 대체한다. 텍스트를 단순한 나열로 뽑아내는 대신 정보의 위치와 속성을 층으로 구성한 레이어드 표현 방식을 도입했다. 문서 내의 모든 블록을 바운딩 박스(텍스트나 이미지의 좌표 영역)로 위치화해 개별 요소의 정확한 좌표를 반환한다. 추출된 각 블록은 제목, 표, 수식, 서명 등 구체적인 유형으로 분류되어 데이터의 성격을 규정한다. 여기에 페이지 수준과 단어 수준의 신뢰도 점수를 각각 부여해 추출된 값의 정밀도를 검증한다. 기업이 데이터 파이프라인 구축 시 별도로 수행해야 했던 레이아웃 분석 단계를 모델 자체의 출력 기능으로 통합했다.

독립 평가자들이 참여한 1대1 인간 평가에서 평균 승률 72%를 기록했다. 벤치마크 평가에서는 OlmOCRBench 85.20점, OmniDocBench 93.07점을 획득하며 최상위권 성적을 거뒀다. 미스트랄 AI는 성적 공개와 함께 참조 주석의 오류 등 스코어링 아티팩트(측정 과정에서 발생하는 인위적 오류)를 투명하게 밝혔다. 집계된 점수를 절대적인 성능의 확정치로 받아들이기보다 기술적 방향성을 제시하는 지표로 해석할 것을 권고했다.

실제 기업 도입 사례에서 OCR 4는 비용 절감과 속도 향상

17배 낮은 지연 시간과 8배 낮은 비용으로 기존과 동일한 정확도를 구현했다. 금융 AI 기업 Rogo(로고)의 AI 엔지니어 에이단 도노휴(Aidan Donohue)가 벤치마크를 통해 확인한 수치다. 지식재산 관리 기업 Anaqua(아나콰)의 AI 엔지니어 이반 미하일로프(Ivan Mihailov)는 기존 제공업체보다 페이지당 처리 속도가 약 4배 빠르다고 평가했다. 실제 기업 운영 환경에서 데이터 추출에 소요되는 시간과 비용의 임계점을 낮춘 결과다.

1,000페이지당 4달러부터 시작하는 페이지 단위 과금 체계를 적용한다. 배치 API(대량 데이터를 한 번에 처리하는 인터페이스) 할인을 적용하면 비용은 1,000페이지당 2달러까지 낮아진다. 현재 Mistral API와 Mistral Studio의 Document AI에서 즉시 사용할 수 있다. Amazon SageMaker와 Microsoft Foundry를 통한 접근도 가능하다. Snowflake Parse Document 지원이 추가로 예정되어 있다. 다양한 플랫폼 제공과 가격 최적화로 기업의 실질적인 도입 진입장벽을 제거했다.

PDF나 PPT의 깨진 레이아웃은 AI의 오답을 만드는 주범이다. OCR 4는 단순 텍스트 추출을 넘어 바운딩 박스와 블록 분류가 포함된 구조화된 데이터를 반환한다. 각 블록의 좌표와 유형을 레이어로 제공해 문서의 물리적 구조를 보존한다.

RAG 파이프라인 구축 시 레이아웃 재구성 시간을 줄여 비용과 지연시간을 낮출 수 있다. 데이터 출처 추적 가능성도 함께 확보된다. 이제는 단순 텍스트 추출량이 아니라 데이터의 구조적 무결성이 RAG의 성능을 가르는 기준이 된다.

미스트랄, OCR 4 공개... 단순 텍스트 넘어 '문서 구조' 통째로 추출

문서 인텔리전스 모델인 OCR 4를 출시했다

기술이 실제로 작동하는 방식

실제 기업 도입 사례에서 OCR 4는 비용 절감과 속도 향상

관련 기사