팀이 문서 레이아웃 분석 및 문자 인식 모델인

복잡한 표가 섞인 문서를 파싱할 때 발생하는 데이터 꼬임은 LLM의 오답을 유발하는 고질적인 문제다. PaddlePaddle 팀은 이 한계를 해결하기 위해 문서 레이아웃 분석 및 문자 인식 모델인 PaddleOCR-VL-1.6을 공개했다. 이 모델은 단순한 문자 인식을 넘어 문서 내의 복잡한 레이아웃을 분석하고 의미 있는 정보를 추출하는 작업에 최적화되었다. 특히 산업 현장에서 요구하는 높은 정확도를 구현하기 위해 미세한 영역의 오차를 줄이는 데 집중했다.

시각 정보와 언어 정보를 유기적으로 결합하는 VL(Vision-Language, 시각 언어) 구조를 채택했다. 이미지로 된 문서의 시각적 특징과 텍스트의 언어적 맥락을 동시에 처리하여 데이터의 상관관계를 도출하는 방식이다. 이미지 속의 시각적 요소와 텍스트가 가진 의미를 함께 분석함으로써 단순한 텍스트 추출 이상의 결과물을 만들어낸다. 시각적 데이터와 언어적 데이터의 결합은 문서의 입체적인 분석을 가능하게 한다.

VL 구조를 통한 분석은 단순한 글자 읽기 단계를 넘어선다. 해당 텍스트가 문서 내에서 어떤 역할을 수행하는지 파악하는 능력을 갖췄기 때문이다. 시각적 특징과 언어적 맥락을 동시에 처리함으로써 표의 구조나 문서의 레이아웃이 복잡하더라도 정보의 의미를 정확하게 식별한다. 이는 텍스트의 단순 나열이 아닌 문서의 논리적 구조를 이해하는 과정이다.

미세 오차를 제어하는 설계를 적용해 산업 현장의 요구사항인 고정밀도 인식을 구현했다. 문서 내의 복잡한 레이아웃 분석과 의미 있는 정보 추출이라는 목적을 동시에 달성한다. 이는 복잡한 표 데이터가 포함된 문서 파싱의 한계를 극복하는 실질적인 대안이 된다.

정밀한 문서 파싱으로 RAG 시스템의 데이터 순도를 높여

문서 내 표 데이터의 오인식으로 인한 수정 작업에 소요되던 시간이 빠르게 줄고 있다. 정교해진 영역 정밀화 기능이 표의 셀 구분과 텍스트 흐름을 정확하게 파악해 데이터의 왜곡을 막기 때문이다. 이는 RAG(검색 증강 생성) 시스템에 전달되는 입력 값의 순도를 높여 LLM(대규모 언어 모델)이 잘못된 맥락을 참조해 답변하는 환각 현상을 억제한다. 특히 금융 보고서의 수치 표, 법률 문서의 조항 구분, 의료 기록의 정형 데이터처럼 구조적 정확성이 필수적인 도메인에서 전처리 파이프라인의 효율이 실질적으로 개선된다. 데이터 순도의 향상은 LLM이 참조하는 근거 데이터의 무결성을 확보하는 핵심 장치가 된다.

인식 안정성은 PPT(Progressive Post-Training, 점진적 사후 학습) 전략을 통해 단계적으로 확보했다. 모델은 우선 단순한 텍스트 나열부터 학습하며 기초적인 인식 능력을 구축하는 단계부터 시작한다. 이후 표와 다단 구성이 포함된 문서로 학습 강도를 높여 복잡한 레이아웃에 대응하는 능력을 키운다. 최종적으로는 이미지와 텍스트가 혼합된 복잡한 양식까지 학습 범위를 확장해 인식의 범용성을 극대화했다. 이러한 점진적 학습 방식은 정형화되지 않은 다양한 양식의 문서에서도 일관된 인식률을 유지하게 하며, 텍스트 누락을 최소화하는 결과로 이어진다. 단순 텍스트에서 표, 그리고 이미지 혼합 양식으로 이어지는 학습 단계의 세분화가 모델의 인식 안정성을 지지하는 기반이 된다.

기술이 실제로 작동하는 방식

RAG(Retrieval-Augmented Generation, 검색 증강 생성) 구축 과정에서 표 데이터가 섞여 들어오면 LLM이 엉뚱한 답변을 내놓는 현상이 빈번하게 발생한다. 이는 텍스트 추출 단계에서 영역 설정이 부정확해 데이터가 오염되기 때문이다. UORR(Under-Optimized Region Refinement, 최적화되지 않은 영역의 정밀한 재조정) 기술은 이러한 경계선 오차를 정밀하게 재조정하여 추출 신뢰도를 높이는 데 집중한다. 기존 모델에서 빈번하게 발생하던 텍스트 잘림 현상이나 불필요한 여백이 포함되는 고질적인 문제를 해결한다. 모델이 지정한 영역 중 최적화되지 않은 경계 영역을 다시 한번 정밀하게 검토하고 조정함으로써 최종적인 텍스트 영역을 더욱 정확하게 확정하는 방식이다.

이러한 정밀도는 시각 정보와 언어 정보를 동시에 처리하는 VL(Vision-Language) 구조를 통해 구현된다. 텍스트의 위치를 찾는 시각적 분석과 해당 텍스트의 의미를 파악하는 언어적 분석을 결합해 영역 확정의 정확도를 높였다. 단순히 픽셀 단위의 경계를 찾는 것을 넘어 문맥적 흐름을 함께 고려하는 방식이다.

국내 기업들은 한국어 특유의 복잡한 문서 구조를 처리하기 위해 별도의 데이터 정제 파이프라인을 구축하고 운영하는 데 많은 리소스를 투입해 왔다. PaddleOCR-VL-1.6은 모델 초기화 단계에서 `lang='korean'` 설정을 적용함으로써 한국어 문서의 텍스트 및 영역 추출을 직접 수행할 수 있도록 지원한다. 여기에 `use_angle_cls=True` 설정을 추가하면 텍스트의 각도를 분류하여 정밀하게 추출하는 기능이 활성화된다. 이는 복잡한 한국어 문서의 구조를 파악해 데이터를 정제하는 전처리 파이프라인을 단순화하는 실무적 도구가 된다. 결과적으로 전문 도메인 문서의 전처리 공정을 얼마나 줄일 수 있는지 판단하는 실질적인 기준을 제공한다.

RAG 구축 시 표 데이터 혼입으로 발생하는 LLM의 오답은 전처리 단계의 정밀도 부족에서 기인한다. PaddleOCR-VL-1.6은 시각과 언어 정보를 동시에 처리하는 VL 구조와 UORR 기술로 텍스트 경계선 오차를 정밀하게 재조정한다.

이제 관건은 전문 도메인 문서 전처리 파이프라인의 물리적 단순화 가능 여부다. 데이터 정제 공정의 효율성이 RAG 시스템의 실질적 성능을 결정한다.