최근 개발자 커뮤니티에서는 RAG(검색 증강 생성, 외부 데이터를 참조해 답변하는 기술) 파이프라인의 성능 최적화를 위해 임베딩 모델을 미세 조정(Fine-tuning)하는 작업이 활발하다. 하지만 이번 주 공개된 연구 결과는 이러한 노력이 오히려 시스템의 근간을 흔들 수 있다는 경고를 던지고 있다. 현장에서는 모델의 정밀도를 높이려다 정작 중요한 검색 정확도가 최대 40%까지 급락하는 현상이 보고되고 있다.
임베딩 모델의 구조적 한계와 성능 저하
Redis(데이터베이스 관리 시스템) 연구팀이 발표한 논문 'Training for Compositional Sensitivity Reduces Dense Retrieval Generalization'에 따르면, 임베딩 모델을 구성적 민감도(Compositional Sensitivity)에 맞춰 훈련할 때 문제가 발생한다. 구성적 민감도란 '개가 사람을 물었다'와 '사람이 개를 물었다'처럼 단어 구성은 같지만 의미가 정반대인 문장을 구분하는 능력을 말한다. 연구 결과, 이러한 미세 조정을 거친 모델은 특정 도메인에서는 성능이 개선되지만, 훈련받지 않은 광범위한 주제에 대한 일반 검색 성능은 소형 모델에서 8~9%, 현재 기업 현장에서 주로 쓰이는 중형 모델에서는 40%까지 하락하는 것으로 나타났다.
검색 정확도와 일반화의 충돌
예전에는 임베딩 모델이 문장 전체를 고차원 공간의 하나의 점으로 압축하여 유사도를 측정하는 방식만으로도 충분했다. 이제는 기업들이 에이전트 기반의 AI 파이프라인을 구축하면서, 검색 오류가 단순한 답변 실수를 넘어 잘못된 행동을 유발하는 연쇄적인 문제로 이어지고 있다. 연구팀은 모델이 구조적으로 다른 문장을 분리하도록 학습하면, 기존에 광범위한 주제를 포괄하기 위해 사용하던 벡터 공간을 그 좁은 영역에 할당하게 된다고 설명한다. 즉, 검색의 일반화와 정밀도라는 두 가지 목표가 하나의 벡터를 두고 서로 경쟁하는 구조인 셈이다.
기존 해결책들의 한계와 대안
개발자가 흔히 시도하는 하이브리드 검색(임베딩 기반 검색과 키워드 검색을 결합하는 방식)이나 MaxSim(ColBERT와 같이 쿼리와 문서의 단어를 개별적으로 비교하는 방식) 리랭킹도 근본적인 해결책이 되지 못한다. 하이브리드 검색은 단어 구성이 동일한 문장의 구조적 차이를 구분하지 못하며, MaxSim은 관련성(Relevance) 측정에는 최적화되어 있으나 문장의 정체성(Identity)을 판단하는 데는 맹점을 보인다. 또한 Cross-encoders(쿼리와 문서를 동시에 입력받아 비교하는 모델)는 실험실 환경에서는 정확하지만 실제 운영 환경의 트래픽을 감당하기에는 비용이 너무 높다. 결국 단일 스코어링 메커니즘으로 검색의 재현율(Recall)과 정밀도(Precision)를 동시에 잡으려는 시도 자체가 실패의 원인이다. 연구팀은 검색과 정밀도 판단을 하나의 모델에 맡기지 말고, 두 작업을 분리하는 새로운 아키텍처를 설계해야 한다고 제언한다.
검색의 정밀도를 높이려는 시도가 오히려 시스템 전체의 신뢰성을 무너뜨리고 있다.




