기억력 한계 깼다, GPT-5.4 성능 넘은 20B 오픈소스 검색 에이전트

UIUC·UC 버클리·Chroma, 오픈소스 검색 에이전트 Harness-1 공개

AI 에이전트가 방대한 문서를 분석할 때 질문의 핵심을 놓치거나 동일 페이지를 반복해서 읽는 비효율을 해결하기 위해 UIUC(일리노이 대학교 어바나-샴페인), UC 버클리, Chroma(크로마) 연구진이 오픈소스 검색 에이전트 Harness-1을 공개했다. 이 모델은 OpenAI의 gpt-oss-20B를 기반으로 구축된 200억 개의 파라미터 규모 모델이다. 기존 검색 방식에서 벗어나 정보 회수 경로를 최적화하도록 프로세스를 재설계한 것이 특징이다.

연구진은 Harness-1의 성능 검증을 위해 8개의 고난도 검색 벤치마크를 수행했다. SEC(미국 증권거래위원회) 금융 보고서와 USPTO(미국 특허청) 기술 특허 데이터베이스 등 실제 산업 데이터셋을 활용했다. 특히 여러 문서의 단서를 논리적으로 조합해야 하는 멀티홉(multi-hop) 질의응답 작업에서 파편화된 대규모 데이터 속 증거를 정확히 연결하는 능력을 입증했다.

상태 외재화 구조로 GPT-5.4 성능 추월

이러한 최적화 구조는 모델 크기를 무조건 늘리는 것보다 효율적인 성능 향상을 가져왔다. 큐레이션된 데이터셋의 정보 회상 능력 측정 결과, Harness-1은 평균 73%의 정확도를 기록하며 GPT-5.4(70.9%)와 Tongyi DeepResearch 30B(11.4%p 차이)를 앞섰다. 전체 평균 성능에서는 거대 모델인 Opus-4.6이 앞섰으나, 특정 작업의 회상 능력에서는 소형 모델인 Harness-1이 더 우수한 성능을 보였다.

성능 향상의 핵심은 '상태 외부화 하네스(state-externalizing harness)' 구조다. 기존 모델들이 모든 검색 기록을 컨텍스트 윈도우에 쌓아 정보를 망각하는 것과 달리, Harness-1은 기록 관리 기능을 모델 외부로 분리했다. 소프트웨어 환경 내부에 후보 문서 풀, 중요도 태그 증거 세트, 압축된 증거 링크, 검증 기록을 포함한 작업 메모리를 별도로 유지한다. 이를 통해 모델은 단순 기록 관리 업무 대신 의미론적 선택과 판단이라는 핵심 추론에만 연산 자원을 집중한다.

Apache 2.0 라이선스와 Tinker API로 배포 효율 극대화

모델 코드와 가중치는 Hugging Face에 공개되어 즉시 구축이 가능하다. 특히 Apache 2.0 라이선스를 적용해 기업이 상업적 목적으로 모델을 수정하거나 서비스에 배포할 때 발생하는 법적 제약을 제거했다. 실행 환경을 함께 제공해 설치와 설정에 소요되는 리소스를 최소화했다.

구축 과정에는 Thinking Machines가 개발한 분산형 웹 기반 AI 모델 훈련 및 미세 조정 API인 Tinker가 사용되었다. Tinker API는 모델의 훈련부터 실제 추론 과정까지 모두 수행하며, 복잡한 훈련 인프라를 웹 기반으로 분산 처리하는 방식의 유효성을 입증했다. 이는 물리적 서버 제약 없이 다양한 환경에서 모델을 미세 조정할 수 있는 유연성을 제공하며, 인프라 최적화가 모델 성능에 직접적인 영향을 미친다는 점을 보여준다.

AI 에이전트가 복잡한 문서를 분석하며 질문을 잊거나 내용을 반복 읽는 문제는 모델 크기가 아닌 구조의 한계다. 컨텍스트 윈도우에 의존하지 않고 증거 세트와 검증 기록을 별도로 관리하는 상태 외재화 하네스 구조가 실질적인 성능 향상을 이끌었다.

성능 최적화의 핵심은 이제 파라미터를 늘리는 경쟁이 아니라 에이전트의 작업 환경을 설계하는 영역으로 옮겨간다. 모델의 지능보다 모델이 활용하는 외부 메모리 체계의 정교함이 실제 구현 단계의 효율을 결정한다.

기억력 한계 깼다, GPT-5.4 성능 넘은 20B 오픈소스 검색 에이전트

UIUC·UC 버클리·Chroma, 오픈소스 검색 에이전트 Harness-1 공개

상태 외재화 구조로 GPT-5.4 성능 추월

Apache 2.0 라이선스와 Tinker API로 배포 효율 극대화

관련 기사