최근 기업용 인공지능 시스템을 구축하는 현장에서는 여러 개의 모델이 역할을 나누어 협업하는 멀티 에이전트 구조가 표준처럼 자리 잡고 있다. 그러나 복잡한 추론 작업을 수행할 때, 과연 여러 모델을 연결하는 것이 단일 모델을 정교하게 사용하는 것보다 효율적인지에 대해서는 의문이 제기된다. 이번 주 스탠퍼드 대학교 연구팀이 발표한 연구 결과는 이러한 멀티 에이전트 시스템이 실제로는 컴퓨팅 자원 대비 기대 이하의 효율을 보일 수 있음을 시사한다.
동일한 추론 예산에서의 성능 비교
연구팀은 단일 에이전트 시스템(SAS, 하나의 모델이 모든 추론을 전담하는 방식)과 멀티 에이전트 시스템(MAS, 여러 모델이 역할을 분담해 협업하는 방식)의 성능을 비교하기 위해 엄격한 추론 토큰 예산을 설정했다. 여기서 추론 토큰이란 초기 프롬프트와 최종 답변을 제외하고 중간 사고 과정에 사용된 모든 토큰을 의미한다. 실험 결과, 동일한 컴퓨팅 자원을 투입했을 때 단일 에이전트가 멀티 에이전트보다 복잡한 다단계 추론 작업에서 더 높은 정확도를 기록했다. 특히 Google의 Gemini 모델을 활용했을 때, 단일 에이전트가 사고 과정을 길게 가져가는 방식이 멀티 에이전트의 협업 구조보다 더 나은 종합 성능을 보였다.
아키텍처의 차이와 정보 손실의 문제
예전에는 복잡한 문제를 해결하기 위해 여러 모델을 배치하는 것이 당연한 수순으로 여겨졌다. 그러나 이제는 단일 에이전트가 왜 더 효율적인지에 대한 기술적 근거가 명확해지고 있다. 연구팀은 데이터 처리 불평등(Data Processing Inequality, 정보가 전달될 때마다 손실이 발생한다는 이론)을 근거로 제시한다. 멀티 에이전트 시스템은 정보를 요약하고 다른 에이전트에게 전달하는 과정에서 필연적으로 정보 손실이 발생하며, 이는 오류를 누적시키는 결과를 초래한다. 반면 단일 에이전트는 하나의 연속된 문맥 안에서 사고하기 때문에 정보의 파편화 없이 전체 맥락을 유지할 수 있다. 즉, 멀티 에이전트가 보고하는 높은 정확도는 아키텍처의 우수함 때문이 아니라, 단순히 더 많은 토큰과 자원을 소모한 결과일 가능성이 높다.
단일 에이전트의 효율적 활용 전략
개발자가 바로 체감할 수 있는 변화는 복잡한 오케스트레이션(여러 에이전트의 작업을 조율하는 과정) 없이도 성능을 극대화할 수 있다는 점이다. 연구팀은 SAS-L(Single-Agent System with Longer thinking, 단일 모델이 더 긴 사고 과정을 거치도록 유도하는 기법)을 제안한다. 이는 모델이 최종 답변을 내놓기 전, 모호한 지점을 식별하고 후보 해석을 나열하며 대안을 검증하도록 프롬프트를 재구성하는 방식이다. 다만, 멀티 에이전트 시스템이 유용한 경우도 분명히 존재한다. 단일 에이전트가 처리하기 어려운 노이즈가 많은 데이터, 방대한 입력값, 혹은 정보가 오염된 환경에서는 멀티 에이전트의 구조적 필터링과 검증 과정이 여전히 강력한 대안이 된다.
기업은 멀티 에이전트 도입 전, 단일 모델의 추론 예산을 최적화하는 것만으로도 충분한 성능을 낼 수 있는지 먼저 검토해야 한다.




