Gemini API File Search, 이미지 검색과 페이지 인용 기능 추가

스타트업 대표 H씨는 수천 장의 이미지와 PDF 문서가 뒤섞인 아카이브에서 특정 분위기의 디자인 시안을 찾느라 몇 시간을 허비했다. 파일 이름이나 키워드만으로는 원하는 결과물을 찾기 어렵다. 텍스트가 아닌 시각적 스타일이나 감정적인 톤으로 자료를 검색해야 하는 상황이 빈번하다. 이런 곤란을 겪는 개발자가 늘고 있다.

Gemini API File Search 업데이트 내용

Google은 Gemini API의 File Search(파일 검색 도구)에 세 가지 주요 업데이트를 적용했다. 멀티모달(텍스트와 이미지를 동시에 처리하는 능력) 지원, 커스텀 메타데이터(데이터에 붙이는 추가 정보 태그), 그리고 페이지 단위의 인용 기능이 그 핵심이다.

멀티모달 기능은 Gemini Embedding 2(데이터를 숫자로 변환해 의미를 파악하게 돕는 모델)를 기반으로 작동한다. Embedding(데이터를 다차원 공간의 좌표로 변환하는 기술)은 이미지의 색감, 구도, 피사체의 관계를 숫자의 집합으로 바꾼다. 이를 통해 컴퓨터는 슬픈 분위기의 푸른색 배경 사진이라는 문장과 실제 이미지의 유사도를 계산할 수 있게 된다.

커스텀 메타데이터는 비정형 데이터에 키-값 형태의 라벨을 붙이는 방식이다. 예를 들어 부서: 법무팀이나 상태: 최종본 같은 정보를 추가할 수 있다. 이를 통해 개발자는 데이터에 구조적인 질서를 부여하고 효율적으로 관리할 수 있다.

페이지 인용 기능은 모델이 답변을 생성할 때 참고한 원본 PDF의 정확한 페이지 번호를 함께 제공한다. 인덱싱된 모든 정보에 대해 페이지 번호를 캡처하여 사용자에게 직접 제시함으로써 답변의 투명성을 높였다.

RAG 시스템의 변화와 효율성

예전에는 파일을 데이터베이스에 단순히 저장하고 텍스트 기반의 키워드로 검색하는 방식이 주를 이뤘다. 이제는 쿼리 시점에 메타데이터 필터를 적용해 필요한 데이터 슬라이스만 정밀하게 요청할 수 있다.

쉽게 말하면, 거대한 도서관에서 책 제목만 보고 찾는 게 아니라 2023년 발행이면서 법률 카테고리인 책들만 먼저 추려낸 뒤 내용을 찾는 것과 같다. 불필요한 문서에서 발생하는 노이즈를 획기적으로 줄여 RAG(외부 지식을 가져와 답변을 생성하는 기술) 워크플로우의 속도와 정확도를 동시에 높였다.

비유하자면, 이전의 검색이 넓은 바다에서 낚싯줄 하나로 고기를 잡는 것이었다면, 이제는 정밀한 그물을 사용해 원하는 어종만 골라내는 식이다. 특히 이미지 검색의 경우, 파일명이 아닌 자연어 브리프에 기술된 감정적 톤이나 시각적 스타일만으로 아카이브 전체에서 일치하는 이미지를 찾아낼 수 있다. 이는 창의적인 에이전시가 수많은 시각적 자산 중에서 특정 느낌의 이미지를 빠르게 발굴해야 할 때 매우 유용하다.

RAG 시스템에서 가장 큰 문제는 관련 없는 문서가 검색 결과에 섞여 들어와 모델이 엉뚱한 답변을 내놓는 환각 현상이다. 커스텀 메타데이터는 검색 범위를 미리 좁혀줌으로써 모델이 읽어야 할 텍스트의 양을 줄이고, 정답에 가까운 정보만 집중적으로 처리하게 만든다.

단순히 정답만 제시하던 기존 방식과 달리, 이제는 답변의 근거가 되는 정확한 위치를 짚어준다. 사용자는 모델이 생성한 답변이 실제 문서의 몇 페이지에 있는지 즉시 확인하며 팩트체크를 수행할 수 있다. 이는 특히 엄격한 검증이 필요한 전문 분야에서 신뢰도를 높이는 결정적인 차이가 된다.

상세한 구현 방법은 Gemini API documentation과 Developer Guide에서 확인할 수 있다.

인프라의 복잡함이 사라진 자리에 이제는 어떤 데이터를 어떻게 연결할 것인가라는 기획의 영역이 남았다.

Gemini API File Search, 이미지 검색과 페이지 인용 기능 추가

Gemini API File Search 업데이트 내용

RAG 시스템의 변화와 효율성

관련 기사