텍스트 파싱 생략을 통한 정확도 및 비용 개선
기존 엔터프라이즈 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인은 웹페이지나 문서를 평문 텍스트로 변환하는 텍스트 파서(Text Parser)에서 시작한다. 하지만 연구진은 이 변환 단계에서 검색 신호가 파괴되어 오답의 주원인이 된다고 분석했다. UC 버클리, 프린스턴 대학, EPFL, Databricks 연구팀이 공개한 PixelRAG는 이 파싱 과정을 완전히 생략하고 페이지를 스크린샷으로 렌더링해 인덱싱하는 방식을 취한다.
연구팀이 1,000개의 위키피디아 사실 질문으로 구성된 SimpleQA 벤치마크를 통해 분석한 결과, 텍스트 기반 RAG의 실패 원인은 세 가지로 구분됐다. 첫째는 파서 손실(Parser loss)로, HTML-to-text 변환 중 구조적 콘텐츠가 파괴되어 답을 찾지 못하는 경우(실패의 36.6%)다. 둘째는 랭크 손실(Rank loss)로, 답은 존재하지만 키워드가 밀집된 인포박스가 상위에 랭크되어 실제 정답 문단이 20위 밖으로 밀려나는 경우(실패의 55.2%)다. 마지막은 리더 손실(Reader loss)로, 정답 콘텐츠가 전달됐으나 평탄화된 구조 탓에 잘못 속성이 부여되는 경우(실패의 8.2%)다.
PixelRAG는 위키피디아 전체를 커버하는 3,000만 개의 스크린샷 타일을 대상으로 테스트되었으며, 6개 벤치마크 모두에서 텍스트 기반 RAG를 앞섰다. SimpleQA에서는 기존 최강 텍스트 파서의 정확도 71.6%를 상회하는 78.8%를 기록했다. 특히 구조화된 표 쿼리(Structured table queries)에서는 42.5%에서 48.8%로 정확도가 상승했다. 비용 측면의 이점은 더 뚜렷하다. AI 에이전트의 검색 백엔드로 사용했을 때, 텍스트 검색이 3,750만 개의 프롬프트 토큰을 소모한 반면 PixelRAG는 360만 개만 사용해 토큰 비용을 10배 낮췄으며, 이는 구글 등 대안 서비스보다 2~4배 낮은 비용이다.
VLM 기반의 4단계 렌더링 및 인덱싱 구조
PixelRAG는 텍스트 파싱 파이프라인을 대체하는 4단계 시스템으로 작동한다. 핵심은 VLM(Vision-Language Model, 시각-언어 모델)이 인간처럼 레이아웃과 구조를 유지한 채 페이지를 읽게 하는 것이다.
첫 번째 단계는 렌더링(Rendering)이다. 브라우저 자동화 라이브러리인 Playwright를 사용해 페이지를 875픽셀 뷰포트로 렌더링하고, 이를 1,024픽셀 높이의 타일로 슬라이싱한다. 위키피디아 700만 개 문서는 약 3,000만 개의 타일로 생성되며, 모든 자산은 로컬에 캐싱되어 오프라인으로 처리된다.
두 번째 단계는 인덱싱(Indexing)이다. 각 타일은 Qwen3-VL-Embedding-2B 모델을 통해 2,048차원의 단일 벡터로 인코딩된다. 저장소로는 FAISS(Facebook AI Similarity Search) 근사 최근접 이웃(ANN) 인덱스를 사용하며, fp16 정밀도 기준 전체 인덱스 크기는 약 120GB다. 이 구조는 전체 재인덱싱 없이 증분 업데이트를 지원한다.
세 번째 단계는 학습(Training)이다. 데이터스토어에서 생성된 합성 대조 데이터(Synthetic contrastive data)를 사용해 검색 모델을 미세 조정한다. 이때 거짓 음성(False negatives)을 필터링하기 위해 동적 하드 네거티브 마이닝(Dynamic hard-negative mining)을 적용한다. 언어 모델 백본과 비주얼 인코더 모두에 LoRA(Low-Rank Adaptation) 기법을 적용했으며, 약 40,000쌍의 데이터로 H100 GPU 1대에서 3시간 미만으로 학습을 완료했다.
마지막 단계는 저장(Storage)이다. 위키피디아의 원본 스크린샷 타일은 5.6TB의 공간을 차지하지만, '온디맨드 렌더링(Render-on-demand)' 방식을 통해 이를 해결할 수 있다. 모든 타일을 임베딩한 후 스크린샷은 삭제하고, 쿼리 시점에만 페이지를 다시 렌더링하는 방식이다. 이 경우 필요한 저장 공간은 벡터 인덱스 크기인 약 120GB로 압축된다.
실무 도입 시 고려사항: 모델 크기와 시각적 청킹 제약
개발자와 실무자가 PixelRAG를 도입할 때 가장 먼저 판단해야 할 기준은 사용하는 VLM의 체급이다. 벤치마크 결과, Qwen3-VL-4B 클래스 이상의 모델을 사용해야만 텍스트 검색 대비 이점이 발생한다. 이보다 작은 모델을 사용할 경우 텍스트 검색보다 정확도가 12.5%포인트 이상 낮게 나타났다. 즉, 시각적 레이아웃과 콘텐츠를 동시에 추론하는 능력은 모델 파라미터 규모에 강하게 의존한다.
운영 단계에서 해결해야 할 핵심 과제는 '시각적 청킹(Visual Chunking)'이다. 텍스트 기반 RAG는 주제나 섹션, 시맨틱 콘텐츠를 기준으로 문서를 나누는 전략을 고도화해왔으나, PixelRAG는 현재 고정된 픽셀 높이로 페이지를 자른다. 이로 인해 표나 문단이 타일 중간에서 절단될 수 있으며, 모델이 콘텐츠 경계를 인식하지 못하는 문제가 발생한다. 이는 향후 시각적 검색 연구에서 해결해야 할 지점으로 남아 있다.
따라서 기존 RAG 파이프라인을 운영 중인 팀이 시스템을 완전히 재구축하기보다, PixelRAG를 기존 텍스트 검색 시스템 위에 보완 계층(Enhancement layer)으로 추가하는 하이브리드 배포 방식이 가장 현실적이다. 텍스트 검색의 정밀함과 VLM의 구조적 이해력을 결합함으로써, 파싱 과정에서 유실되는 정보를 복구하고 토큰 비용을 최적화하는 전략이 유효하다. 관련 상세 내용은 공식 GitHub 리포지토리(https://github.com/StarTrail-org/PixelRAG)와 논문(https://github.com/StarTrail-org/PixelRAG/blob/main/assets/pixelrag-paper.pdf)에서 확인할 수 있다.




