여러 대학의 연구진이 임베딩 모델을 완전히 우회하여 표준 커맨드라인 도구로 원시 코퍼스를 직접 검색하는 DCI(Direct Corpus Interaction) 기술을 제안했다. 기존의 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 시스템은 문서를 청크 단위로 나누고 벡터 데이터베이스에 인덱싱하는 과정을 거치지만, DCI는 이러한 중간 단계 없이 에이전트가 직접 파일 시스템에 접근한다.

이러한 변화는 특히 정밀한 정보 추출이 필요한 작업에서 중요하다. 시맨틱(Semantic, 의미론적) 유사성에 기반한 기존 검색 방식은 정확한 문자열, 버전 번호, 에러 코드, 파일 경로와 같은 '롱테일' 세부 정보를 찾는 데 취약하기 때문이다. 반면 DCI는 에이전트가 터미널 환경에서 직접 쿼리를 수행하게 함으로써, 검색 단계에서 정보가 필터링되어 손실되는 병목 현상을 제거한다. 주목할 점은 이 방식이 데이터의 최신성 문제를 해결한다는 것이다. 벡터 인덱스는 구축 시점의 스냅샷에 불과하지만, DCI는 실시간으로 변경되는 로그나 코드 커밋 등 동적인 작업 공간의 현재 상태를 즉시 반영할 수 있다.

DCI-Agent-Lite와 CC의 구성 및 벤치마크 수치

개발팀이 공개한 수치는 DCI(Direct Corpus Interaction, 직접 말뭉치 상호작용) 기술이 모델 규모와 관계없이 기존 검색 방식보다 높은 정확도와 비용 효율성을 확보했음을 증명한다. 연구진은 성능과 자원 투입 수준에 따라 두 가지 버전의 에이전트를 설계했다. DCI-Agent-Lite는 OpenAI의 GPT-5.4 nano 모델을 기반으로 구축되었으며, bash 명령어와 기본적인 파일 읽기 기능으로만 동작을 제한한 경량화 모델이다. 이 버전은 파일 읽기 과정에서 발생할 수 있는 메모리 점유 문제를 해결하기 위해 고안된 런타임 컨텍스트 관리 전략을 통해 장기 탐색을 수행한다. 반면 DCI-Agent-CC는 Anthropic의 Claude Sonnet 4.6을 백본으로 활용하며, Claude Code가 제공하는 도구 오케스트레이션 기능을 통해 복잡한 다단계 검색 환경에서 높은 안정성을 유지하도록 설계되었다.

벤치마크 결과는 이러한 구조적 차이가 실질적인 성능 향상으로 이어짐을 보여준다. BrowseComp-Plus 벤치마크에서 Claude Sonnet 4.6을 기반으로 기존의 시맨틱 검색 방식을 DCI로 교체했을 때, 정확도는 69.0%에서 80.0%로 상승했다. 주목할 점은 이 과정에서 API 비용 또한 1,440달러에서 1,016달러로 유의미하게 감소했다는 사실이다. DCI-Agent-Lite 역시 OpenAI o3 모델이 전통적인 검색 방식을 사용할 때와 비교하여 대등한 수준의 성능을 유지하면서도, 운영 비용을 600달러 이상 절감하는 효율성을 보였다. 이는 에이전트가 복잡한 인덱싱 과정 없이 원시 데이터를 직접 탐색하는 것만으로도 충분한 경쟁력을 갖출 수 있음을 시사한다.

다단계 질문 응답(Multi-hop QA) 벤치마크에서의 격차는 더욱 뚜렷하다. DCI-Agent-CC는 평균 정확도 83.0%를 기록하며, 기존 최강 오픈 웨이트 베이스라인 대비 30.7포인트 높은 수치를 달성했다. 이는 단순한 의미론적 유사도 검색이 놓치기 쉬운 정확한 수치, 파일 경로, 혹은 특정 코드 조각을 에이전트가 직접 추적하여 추출한 결과다. 결과적으로 DCI는 검색의 폭보다는 정확한 증거의 위치 파악과 검증에 최적화된 구조를 갖추고 있다. 데이터가 실시간으로 변하는 기업 환경에서 임베딩 인덱스 업데이트 없이 최신 상태의 워크스페이스를 직접 조회할 수 있다는 점은 기존 RAG(검색 증강 생성) 파이프라인이 가진 고질적인 병목 현상을 해결하는 핵심 기제로 작용한다.

벡터 DB의 시맨틱 검색과 DCI의 렉시컬(Lexical) 접근 방식 비교

기존의 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 시스템은 문서를 청킹하고 벡터 표현으로 변환한 뒤 오프라인에서 인덱싱하는 정형화된 과정을 거친다. 사용자가 쿼리를 입력하면 리트리버가 데이터베이스 전체를 필터링하여 유사도가 높은 상위 k개의 문서 조각인 Top-k 리스트를 반환하는 구조다. 모든 증거는 추론 단계로 넘어가기 전 이 점수 산정 메커니즘을 반드시 통과해야 하며, 이 과정에서 리트리버가 정보를 사전에 필터링한다. 그러나 이러한 시맨틱(Semantic) 검색 방식은 광범위한 의미적 회상에는 유리하지만, 정확한 문자열, 숫자, 버전, 에러 코드, 파일 경로 같은 세부 정보를 찾는 데는 취약하다. 반면 DCI(Direct Corpus Interaction, 직접 코퍼스 상호작용)는 임베딩 모델을 완전히 건너뛰고 원시 코퍼스에 직접 접근하여 정밀 탐색을 수행한다.

DCI의 핵심은 터미널 환경의 표준 명령줄 도구를 에이전트에게 부여하는 점이다. 에이전트는 디렉토리 구조를 탐색하고 파일을 찾기 위해 `find`와 `glob`을 사용하며, 정확한 키워드나 정규표현식 매칭이 필요할 때는 `grep`과 `rg`를 통해 특정 문자열을 추적한다. 특정 지점을 찾은 후 주변 맥락을 확인하는 로컬 검사 단계에서는 `head`, `tail`, `sed`, `cat` 및 경량 Python 스크립트를 활용해 파일의 특정 섹션을 읽어낸다. 주목할 점은 이러한 도구들이 쉘 파이프라인(Shell Pipelines)으로 연결되어 복합적인 검색 로직을 단일 단계에서 실행할 수 있다는 사실이다. 이는 에이전트가 단순히 주어진 결과를 읽는 것이 아니라, 도구의 조합을 통해 스스로 검색 쿼리를 설계하고 실행하는 구조를 의미한다.

동작 원리 측면에서 두 방식은 정보의 제어권과 가용성에서 극명한 차이를 보인다. RAG는 리트리버가 무엇을 보여줄지 미리 결정하므로, 유사도 검색에서 누락된 정보는 이후의 추론 능력이 아무리 뛰어나도 다시 복구할 수 없는 병목 현상이 발생한다. 반면 DCI는 에이전트가 직접 가설을 세우고 렉시컬(Lexical, 어휘적) 패턴을 테스트하며 정보를 탐색한다. 예를 들어 특정 파일 유형을 먼저 찾고, 그 안에서 리포트라는 키워드를 검색한 뒤, 다시 2024년이라는 연도를 필터링하는 식의 다단계 정밀 탐색이 가능하다. 또한 벡터 DB가 특정 시점의 스냅샷인 것과 달리, DCI는 실시간으로 변하는 로그나 코드 커밋 등 작업 공간의 현재 상태를 즉각적으로 반영한다. 결과적으로 DCI는 의미론적 유사성에 의존하는 대신 에이전트의 판단하에 정확한 증거를 국소화하는 방식을 취한다.

엔터프라이즈 로그 분석 및 코드베이스 탐색으로의 확장성

관중 수, 옐로카드, 선수 생년월일 등 12개의 복잡한 단서가 서로 얽혀 있는 축구 경기 식별 작업에서 DCI(Direct Corpus Interaction, 직접 코퍼스 상호작용)는 성공적인 결과를 도출했다. 기존의 리트리버가 서로 연결되지 않은 짧은 스니펫들만 나열해 실패한 것과 달리, DCI는 파일 디렉토리를 직접 탐색하고 1990년 잉글랜드 대 벨기에 경기 보고서의 특정 라인을 읽어 교체 선수 수를 확인하는 방식으로 정답을 찾아냈다. 이러한 정밀한 탐색 능력은 프로덕션 인시던트 디버깅이나 대규모 코드베이스 검색과 같은 실무 환경에서 강력한 효율성을 제공한다. 특히 로그 분석, 컴플라이언스 조사, 감사 추적처럼 정확한 증거의 위치를 특정하고 인과관계를 추적해야 하는 작업에서 DCI는 기존 시맨틱 검색이 가진 불확실성을 제거하는 대안이 된다.

다만 검색의 메커니즘 측면에서 임베딩 모델과 뚜렷한 대조를 이룬다. DCI는 일단 유망한 문서를 찾아내면 그 내부에서 매우 세밀한 정보를 추출하는 검색 깊이(Depth) 영역에서 탁월한 성능을 발휘한다. 반면 광범위한 문서 집합에서 관련 가능성이 있는 내용을 넓게 훑어내는 검색 너비(Breadth)와 전반적인 문서 리콜(Recall) 능력은 밀집 임베딩 모델보다 낮게 측정되었다. 이는 시맨틱 유사성에 의존해 데이터 전체를 한 번에 필터링하는 방식과 달리, DCI가 구체적인 렉시컬 제약 조건과 도구 호출을 통해 가설을 검증하며 단계적으로 접근하기 때문이다. 결과적으로 DCI는 방대한 양의 문서를 포괄적으로 수집하는 능력보다, 특정 지점을 포착한 뒤 그 주변 맥락을 정밀하게 파고드는 능력에 최적화되어 있다.

데이터 규모의 확장에 따른 성능 변동성은 실무 도입 시 반드시 고려해야 할 지점이다. 실험 데이터에 따르면 코퍼스 규모가 100,000개에서 400,000개로 확장될 때 시스템의 정확도는 유의미하게 하락했으며, 동시에 평균 도구 호출 횟수는 증가하는 경향을 보였다. 이는 검색 대상이 되는 후보 공간이 넓어질수록 정답으로 향하는 첫 번째 단서인 앵커 문서(Anchor Document)를 찾는 비용이 급격히 상승한다는 것을 의미한다. 즉, DCI는 동적 데이터 환경에서 디버깅과 감사 추적의 효율을 극대화하지만, 데이터셋의 절대적인 크기가 커질수록 초기 진입 경로를 확보하는 과정에서 더 많은 연산 자원과 시간이 소모되는 트레이드오프가 발생한다. 결국 DCI의 확장성은 단순한 데이터 양의 증가보다는, 정밀한 추적이 필요한 특정 워크플로우의 복잡도를 얼마나 효율적으로 해결하느냐에 달려 있다.