Unlimited OCR의 핵심 사양과 벤치마크 성과
이번에 공개된 Unlimited OCR은 DeepSeek OCR를 베이스라인으로 하며, 디코더의 모든 어텐션을 교체해 수십 페이지의 문서를 한 번의 순전파(forward pass)로 처리하는 엔드투엔드(E2E) 모델이다. 모델 아키텍처는 DeepEncoder와 MoE(Mixture of Experts) 디코더가 결합된 구조로, 전체 파라미터는 3B이며 추론 시 활성화되는 파라미터는 500M다.
성능 검증을 위해 사용된 OmniDocBench v1.6에서 93.92%의 정확도를 기록하며 SOTA(State-of-the-Art)를 달성했다. 이전 버전인 v1.5에서는 93%를 기록해 DeepSeek OCR 대비 6%의 우위를 보였다. 추론 속도 측면에서는 "Base" 모드(1024×1024 해상도) 기준 5580 TPS를 기록했으며, 이는 DeepSeek OCR의 4951 TPS보다 12.7% 향상된 수치다.
학습에는 약 200만 건의 문서 OCR 데이터가 사용되었으며, 단일 페이지와 멀티페이지의 비율은 9:1로 구성되었다. 멀티페이지 샘플은 2~50페이지 분량의 데이터를 연결해 최대 32K 토큰 시퀀스로 패킹하여 학습했다. 하드웨어 환경은 8×16 A800 GPU를 사용했으며, DeepEncoder는 동결한 채 LLM 파라미터만 4,000 스텝 추가 학습하는 방식을 취했다.
R-SWA의 작동 방식과 메모리 관리 구조
기존 OCR 모델이 페이지별로 처리(for-loop)하며 메모리를 초기화하던 방식과 달리, Unlimited OCR은 참조 슬라이딩 윈도우 어텐션(R-SWA, Reference Sliding Window Attention)을 통해 장문 문맥을 유지한다. R-SWA는 어텐션 범위를 m+n의 두 구간 윈도우로 제한하는 것이 핵심이다.
첫 번째 구간인 prefix 윈도우(m)는 시각 토큰과 프롬프트를 포함하며, 단일 추론 동안 고정된다. 이 영역은 페이지 수와 해상도에만 의존하며 디코딩 길이와는 무관하다. 두 번째 구간인 디코드 윈도우(n)는 직전 n개 토큰(기본값 128)으로 제한되어 인과적으로 슬라이딩한다. 결과적으로 KV 캐시 크기는 $L_m + \min(n, T) \le L_m + n$으로 유지되어, 출력 길이 $T$가 늘어나도 메모리 소비가 선형적으로 증가하지 않고 상수 상한을 갖는다.
시각 정보를 처리하는 DeepEncoder는 SAM-ViT와 CLIP-ViT를 캐스케이드 구조로 연결하고 브리지에서 16배 토큰 압축을 적용한다. 이를 통해 1024×1024 PDF 이미지를 256개의 토큰으로 압축하여 GPU 메모리 점유율을 낮췄다. Flash Attention v3 커널 측정 결과, 표준 MHA(Multi-Head Attention)를 사용하는 DeepSeek OCR은 디코딩 단계마다 지연 시간이 증가하고 특정 정렬 경계에서 데이터 전송 효율 급락으로 인한 스파이크가 발생했으나, R-SWA는 지속 시간이 일정하게 유지되는 특성을 보였다.
실무 도입 시 고려사항과 제약 조건
개발자가 기존의 페이지 단위 처리 방식에서 Unlimited OCR로 전환할 때 가장 크게 체감하는 변화는 추론 지연 시간의 일관성이다. 표준 MHA 모델은 출력 길이가 6,000 토큰에 도달하면 TPS가 꾸준히 하락하여 Unlimited OCR보다 35% 느려지지만, R-SWA는 KV 캐시를 큐(Queue) 형태로 관리하며 새 토큰 생성 시 오래된 KV를 축출하므로 생성 속도가 일정하게 유지된다.
다만, 물리적인 컨텍스트 길이의 제약은 여전히 존재한다. 현재 모델의 최대 시퀀스는 32K로 설정되어 있어, DeepEncoder의 압축률이 높더라도 페이지 수가 누적되면 prefill 길이가 길어져 진정한 의미의 무제한 파싱에는 한계가 있다. 40페이지 이상의 문서에서도 편집 거리 0.11 미만, Distinct-35 97%의 강건함을 보였으나, 매우 작은 글자 식별 시 발생하는 반복 오류는 R-SWA의 메커니즘 문제가 아닌 "Base" 모드의 해상도 한계에서 기인한다.
운영 관점에서는 SGLang 엔진 최적화 지원과 Transformers 라이브러리 구현을 통해 상수 TPS와 GPU 메모리 동작을 확보할 수 있다. 향후 128K 이상의 긴 컨텍스트 모델 학습과 prefill KV 청크를 자동 fetch하는 prefill pool 구축이 계획되어 있어, 도입 시점의 컨텍스트 윈도우 크기에 따른 최대 처리 가능 페이지 수를 산정해야 한다. 해당 모델은 Hugging Face와 ModelScope에서 제공되며, 상세 내용은 arXiv 논문을 통해 확인할 수 있다.




