발표에서 확인된 핵심 사실
매 쿼리마다 고해상도 이미지를 모델에 입력하던 개발자는 급증하는 토큰 비용과 컨텍스트 윈도우 부족 문제에 직면한다. Kapa(카파, AI 기반 기술 문서 검색 서비스)는 이미지 처리 시점을 쿼리 단계가 아닌 인덱싱 단계로 옮겨 비용 구조를 최적화했다. 비전 모델을 활용해 인덱싱 단계에서 각 이미지의 캡션을 미리 생성하고, 이를 일반 텍스트 청크와 동일한 저장소에 함께 저장하는 방식이다. 검색 과정에서는 텍스트 캡션만 찾아내 모델에 전달하며, 모델은 원본 이미지의 URL을 인용해 답을 내놓는다. 쿼리마다 이미지를 처리하는 비용을 지불하는 대신 인덱싱 시점에 한 번만 비용을 지불하면, 이후의 검색과 생성 과정은 전적으로 텍스트 데이터만으로 수행된다. 이 방식은 쿼리 시점에 멀티모달 모델에 이미지를 직접 입력할 때 발생하는 막대한 토큰 소모를 제거한다.
기술 문서 내 이미지는 성격에 따라 두 가지 유형으로 구분된다. 텍스트가 설명하는 내용을 시각적으로 보조해 사용자 실행을 쉽게 만드는 설명적(illustrative) 이미지가 그 하나다. 다른 하나는 배선도, 사양표, 인증서, 색상 가용성 매트릭스처럼 이미지 자체가 정답의 유일한 소스가 되는 핵심 정보 포함(load-bearing) 이미지다. 핵심 정보 포함 이미지는 텍스트의 다른 어느 곳에도 존재하지 않는 특정 값을 이미지 내에만 보유하고 있는 특성이 있다. 따라서 이미지 속의 수치나 도표 내용을 텍스트로 정확히 변환해 저장해야만 검색 단계에서 해당 이미지를 누락 없이 찾아낼 수 있다.
기존 방식과 달라진 지점
멀티모달 임베딩은 일반적인 이미지 검색에서는 효율적이지만, 정밀한 기술 문서 앞에서는 무력하다. CLIP(Contrastive Language-Image Pre-training, 이미지와 텍스트를 동일 공간에 매핑하는 모델) 스타일의 임베딩은 차트나 표, 주석이 달린 스크린샷에 포함된 세밀한 정보를 소실시킨다. 정작 분석에 필요한 핵심 세부 데이터가 뭉뚱그려져 처리되는 구조다. 특히 "X를 어떻게 설정하는가"와 같은 짧은 기술적 쿼리는 이미지 벡터와 매칭할 신호가 턱없이 부족해 검색 정확도가 급격히 떨어진다. 기술 도메인의 특성상 단순 벡터 매칭 방식으로는 실용적인 수준의 검색 품질을 확보하기 어렵다는 사실을 입증한다.
인덱싱 단계에서 이미지를 텍스트 캡션으로 변환해 저장하면 쿼리 시점의 비용 부담을 획기적으로 줄일 수 있다. 인덱싱 과정은 일회성 비용으로 처리되며, 이후 발생하는 쿼리당 비용 오버헤드는 텍스트 전용 방식 대비 1%에서 6% 수준에 그친다. 비용 증가폭은 낮지만 성능 향상은 뚜렷하다. LLM(Large Language Model, 거대언어모델) 판정 결과, 세 가지 고객 프로젝트와 두 가지 모델 모두에서 이미지 컨텍스트가 제공된 답변을 더 선호하는 결과가 도출됐다. 이는 McNemar's test(맥네마 검정, 쌍체 표본의 비율 차이를 분석하는 통계 방법)를 통해 p < 0.05의 통계적 유의성이 확인된 수치다. 쿼리당 비용 상승을 최소화하면서 답변 품질을 유의미하게 끌어올린 운영 최적화 결과다.
쿼리 시점에 이미지를 직접 모델에 전달하는 방식은 비용
멀티모달 입력 비용의 상승 속도는 체감보다 훨씬 빠르다. GPT 5.1은 쿼리당 비용이 27% 증가했고, Claude 4.6 Sonnet은 51% 올랐다. Claude가 이미지 하나를 약 975토큰으로 처리하는 반면 GPT는 716토큰을 사용하며 토큰 소모량에서 뚜렷한 차이를 보인다. 페이로드 제한 역시 실무적인 병목으로 작용한다. Claude의 제한치는 30MB, OpenAI는 50MB 수준으로 설정되어 있다. 이미지 25장만 추가해도 Claude의 전송 한계치에 도달해 더 이상의 데이터 입력이 불가능한 상황이 발생한다. 데이터 전송량의 한계는 다량의 이미지를 동시에 처리해야 하는 환경에서 치명적인 제약이 된다. 쿼리 시점에 이미지를 직접 전달하는 방식은 비용 상승과 페이로드 제한이라는 두 가지 제약으로 인해 운영 효율이 낮다.
Kapa(카파, AI 기반 지식 관리 솔루션)는 휴리스틱과 제로샷 분류기를 결합해 불필요한 이미지를 먼저 걸러내는 필터링 공정을 도입했다. 휴리스틱 단계에서는 지원되지 않는 파일 형식뿐 아니라, 분석 가치가 낮은 작은 이미지나 종횡비가 극단적인 데이터를 빠르게 제거해 연산 낭비를 막는다. 1차 필터를 통과한 데이터는 멀티모달 임베딩 기반의 제로샷 분류기로 처리해 이미지의 유효성을 다시 한번 판단한다. 이 과정에서 명확한 이미지에 대해 96.8%의 정확도와 0.974의 F1 스코어를 기록하며 높은 분류 성능을 확보했다. 선제적인 필터링 전략을 통해 모델에 전달되는 데이터의 순도를 높이고 운영 비용을 최적화하는 기준을 마련했다.
이미지와 도표 데이터를 쿼리 시점에 직접 전송하는 방식은 토큰 비용 상승과 컨텍스트 윈도우 고갈을 야기한다. 인덱싱 단계에서 텍스트 캡션으로 변환해 저장하고, 별도 청크 구성과 제로샷 분류기로 필터링하는 공정은 이 비용 구조를 근본적으로 바꾼다. 멀티모달 모델의 직접 입력보다 선 캡셔닝 전략을 통한 운영 최적화가 실질적인 구현 기준이 된다. 결국 RAG의 경제성은 모델의 체급이 아닌 인덱싱 설계의 정밀도에서 결정된다.




