34.5M 파라미터로 50개 언어 읽어내는 PP-OCRv6 공개

50개 언어 지원하는 1.5M~34.5M 규모의 PP-OCRv6

이미지 속 글자를 텍스트로 바꾸는 OCR(광학 문자 인식) 도구는 이제 일상적인 기능이다. 하지만 고성능 모델을 운용하기 위해 고사양 서버를 구축해야 하는 비용 부담은 늘 존재했다. PP-OCRv6는 PaddleOCR의 최신 세대 범용 모델군으로, 최소 1.5M에서 최대 34.5M 파라미터 규모로 설계되어 저사양 환경에서도 50개 언어를 지원하는 경량 OCR 모델이다.

모델은 하드웨어 제약과 요구 정확도에 따라 선택할 수 있도록 `tiny`, `small`, `medium` 세 가지 티어로 구분된다. 특히 medium과 small 티어는 간체 중국어, 번체 중국어, 영어, 일본어를 비롯해 알파벳을 사용하는 라틴 문자 기반의 46개 언어를 동시에 지원한다.

PP-OCRv6는 정제된 문서뿐만 아니라 실제 환경의 다양한 이미지도 처리한다. 일반적인 문서 스캔본, 컴퓨터 화면의 스크린샷, 다국어 혼용 이미지, 디지털 디스플레이 텍스트는 물론 공정 라인의 산업용 라벨이나 거리의 간판처럼 배경이 복잡한 장면 텍스트까지 인식 범위에 포함한다. 개발자가 언어나 환경마다 모델을 개별적으로 구축할 필요 없이 하나의 모델 제품군으로 다국어 OCR 서비스를 구축할 수 있어 인프라 관리 비용과 모델 교체 비용을 낮췄다.

최근 거대 시각 언어 모델(VLM)이 등장했음에도 불구하고, 특정 작업에 최적화된 전문 OCR 모델은 효율성 측면에서 여전히 유효하다. PP-OCRv6는 모델 규모를 작게 유지하면서 실제 서비스에 즉시 적용 가능한 수준의 정확한 정형 텍스트 출력을 내는 것에 집중했다. 모델의 실제 성능과 언어별 인식 범위는 PP-OCRv6 Online Demo에서 직접 검증할 수 있다.

PPLCNetV4 백본과 RepLKFPN 기반의 검출·인식 구조

PP-OCRv6는 텍스트 검출과 인식 단계 모두에 PPLCNetV4를 통합 백본으로 사용한다. 백본은 이미지에서 핵심 특징을 추출하는 기본 신경망이다. 텍스트의 위치를 찾는 검출 단계와 내용을 읽어내는 인식 단계가 동일한 구조의 신경망을 공유함으로써 모델 전체의 일관성을 유지하고, 저사양 환경에서의 연산 효율을 극대화한다.

텍스트 검출 단계에는 RepLKFPN(경량 대형 커널 특징 피라미드 네트워크)을 적용했다. 특징 피라미드 네트워크는 이미지 내 서로 다른 크기의 객체를 동시에 탐지하기 위해 여러 층의 특징 맵을 계층적으로 사용하는 구조다. 여기에 대형 커널을 도입해 넓은 영역의 시각적 정보를 빠르게 수집함으로써, 글자가 매우 작거나 촘촘하게 밀집된 경우, 혹은 각도가 회전된 텍스트를 정확하게 찾아낸다. 저해상도 이미지나 배경이 복잡한 산업 현장 이미지에서도 텍스트 경계를 정확히 구분해 인식 모듈로 전달한다.

인식 모듈에는 EncoderWithLightSVTR를 탑재했다. 이 모듈은 인접한 글자 간의 관계를 파악하는 지역 문맥 모델링과 텍스트 전체의 흐름을 읽는 전역 주의 집중(Global Attention) 방식을 결합해 작동한다. 전역 주의 집중은 특정 글자가 전체 문맥에서 어떤 위치와 의미를 갖는지 가중치를 두어 분석하는 기술이다. 이 방식은 다국어 텍스트나 디지털 화면의 글자, 산업용 라벨의 특수 기호처럼 노이즈가 많은 이미지 영역에서 개별 문자를 정확하게 식별하는 데 강점을 보인다.

PP-OCRv5server 대비 검출 4.6%p, 인식 5.1%p 향상

PP-OCRv6_medium 모델은 검출 Hmean 86.2%와 인식 정확도 83.2%를 기록했다. Hmean은 정밀도와 재현율의 조화 평균으로, 모델이 텍스트 영역을 얼마나 정확하게 찾아내면서도 놓치지 않았는지를 보여주는 지표다. 인식 정확도는 찾아낸 영역 내의 글자를 실제 텍스트로 얼마나 정확하게 변환했는지를 의미한다.

이전 세대인 PP-OCRv5_server와 비교하면 텍스트 검출 성능은 4.6%p, 텍스트 인식 성능은 5.1%p 상승했다. 이는 PaddleOCR의 공식 내부 다중 시나리오 벤치마크 결과에 근거한다.

검출 단계의 품질은 인식 단계의 결과물에 직접적인 영향을 준다. 검출 모델이 텍스트 영역을 정교하게 잘라내어 전달해야 오독률을 낮출 수 있기 때문이다. 이번 버전에서 검출 성능이 4.6%p 향상된 것은 인식 모델로 전달되는 이미지 조각의 품질이 개선되었음을 뜻하며, 여기에 인식 모델 자체의 성능이 5.1%p 추가로 상승하며 최종 출력값의 정확도를 높였다. 이러한 개선은 아키텍처와 학습 데이터 최적화를 통해 달성되었으며, 문서, 스크린샷, 산업용 라벨 등 서로 다른 특성을 가진 이미지에서도 일관된 성능을 낸다.

Transformers 백엔드 지원과 정형 JSON 출력

성능 향상과 더불어, 실제 서비스 배포를 위한 유연한 인프라 지원 체계도 강화했다. PP-OCRv6는 기본인 Paddle Inference 외에도 Transformers와 ONNX Runtime을 추론 백엔드로 지원한다. PaddleOCR 3.7 버전은 통합 추론 엔진 인터페이스를 도입하여 `engine` 식별자로 하위 런타임을 선택하고 관련 설정을 API로 전달하는 구조를 갖췄다. 특히 ONNX Runtime을 사용하면 특정 프레임워크에 의존하지 않고 다양한 하드웨어 가속기에서 모델을 구동할 수 있어 배포 유연성이 높아진다.

모델의 출력물은 시각화 이미지와 정형 JSON 데이터로 제공된다. JSON에는 인식된 텍스트의 내용과 이미지 내 정확한 좌표 정보가 구조화되어 담긴다. 이러한 정형 데이터는 단순 텍스트 추출을 넘어 문서 파싱, 검색, RAG(검색 증강 생성) 및 분석, 에이전트 워크플로우에 즉시 결합할 수 있다. 텍스트를 위치 정보와 함께 데이터베이스화함으로써 하위 시스템이 문서의 물리적 레이아웃을 인식하고 논리적 구조로 재구성하는 것이 가능해진다.

모델 포맷은 safetensors, Paddle inference 모델, ONNX 모델로 세분화하여 제공한다. 사용자는 PP-OCRv6 Collection에서 모델 자산을 확인하고 PaddleOCR with Transformers Backend 가이드를 통해 구현 방법을 파악할 수 있다. 상세 API 명세는 PP-OCRv6 Documentation과 공식 웹사이트 https://www.paddleocr.com에 명시되어 있다.

다국어 문서 처리 환경을 위한 저비용·고효율 대안

PP-OCRv6의 경량 설계는 인프라 비용의 진입 장벽을 낮춘다. 고가의 GPU 서버를 구축하지 않고도 온디바이스(On-device) 환경이나 저사양 클라우드 인스턴스에서 모델을 상시 구동할 수 있다. 이는 네트워크 연결이 제한적인 공장 내부의 산업용 라벨 인식이나 전력 소모를 줄여야 하는 모바일 기기 기반의 문서 스캔 서비스에서 실용적인 대안이 된다.

또한, 모델 규모에 따른 세 가지 티어 제공은 서비스 상황에 맞는 선택지를 준다. 모든 티어가 동일한 아키텍처 방향성을 공유하므로, 초기에는 가장 작은 모델로 빠르게 프로토타입을 만들고 이후 정밀도가 필요한 시점에 상위 모델로 교체해도 구현 로직을 수정할 필요가 없다. 개발자는 인프라 상황에 맞춰 모델 크기만 변경하며 최적의 비용 대비 성능 지점을 찾을 수 있다.

결과적으로 PP-OCRv6는 제한된 자원 내에서 다국어 데이터를 정형화하는 효율적인 경로를 제공한다. 엔지니어는 Hugging Face Hub의 모델 자산을 활용해 다국어 문서 처리 공정을 저비용으로 설계할 수 있는 실질적인 구현 기준을 갖게 되었다.

저사양 인프라에서 50개 언어를 처리하며 JSON 형태의 정형 데이터를 확보하는 과정은 더 이상 고비용의 GPU 서버를 전제로 하지 않는다. PPLCNetV4와 RepLKFPN 기반의 경량 구조는 하드웨어 제약이 큰 환경에서도 다국어 텍스트를 정밀하게 추출할 수 있는 기술적 토대를 제공한다.