RecursiveMAS가 멀티 에이전트 추론 속도 2.4배 높이고 토큰 75% 줄였다

늦은 밤의 개발자 사무실, 모니터 앞.

터미널 창에는 여러 AI 에이전트가 서로 텍스트를 주고받는 로그가 끝없이 올라가고, 다음 응답을 기다리는 커서만 깜빡인다. 에이전트 A가 추론한 내용을 텍스트로 쓰고, 에이전트 B가 이를 다시 읽어 분석하는 과정에서 발생하는 지연 시간이 화면 가득 채워진다.

이런 비효율적인 소통 방식이 곧 바뀐다.

임베딩 공간에서 이루어지는 에이전트 간 협업

일리노이 대학교 어바나-샴페인과 스탠퍼드 대학교 연구진은 RecursiveMAS(에이전트 간 통신을 텍스트가 아닌 임베딩 공간에서 처리하는 프레임워크)를 공개했다. 이 시스템은 에이전트들이 텍스트 시퀀스를 생성하고 공유하는 대신, Embedding space(데이터의 의미를 고차원 숫자로 표현한 공간)를 통해 정보를 전달하도록 설계되었다. 연구팀이 공개한 실험 결과에 따르면, RecursiveMAS는 코드 생성, 의료 추론, 검색과 같은 복잡한 도메인에서 정확도를 향상시키는 동시에 추론 속도를 2.4배 높였다. 특히 토큰 사용량을 75%나 절감하며 운영 비용을 획기적으로 낮춘 점이 관찰된다.

이 프레임워크의 핵심은 RecursiveLink(임베딩 공간의 정보를 전달하고 정제하는 경량 모듈)라는 특수 구조에 있다. RecursiveLink는 모델이 텍스트를 디코딩하도록 강제하는 대신, 모델의 마지막 레이어에 남은 Latent representations(모델 내부에서 처리되는 숨겨진 의미 정보)를 그대로 보존하여 다음 에이전트에게 전달한다. 이 모듈은 단 두 개의 레이어로 구성된 가벼운 구조이며, 전체 시스템을 학습시킬 때 거대 모델의 파라미터는 고정하고 오직 이 RecursiveLink의 파라미터만 최적화한다. 덕분에 전체 파인튜닝이나 LoRA(Low-Rank Adaptation, 모델의 일부 파라미터만 효율적으로 학습시키는 기법) 방식보다 훨씬 적은 비용으로 시스템을 구축할 수 있다.

텍스트 기반 소통의 병목을 제거한 재귀적 구조

예전에는 에이전트들이 서로 대화하기 위해 중간 추론 과정을 일일이 텍스트로 출력해야 했다. 다음 에이전트가 읽을 수 있도록 토큰을 하나하나 생성하는 방식은 필연적으로 지연 시간을 발생시키며, 이는 전체 시스템의 연산 비용을 급격히 상승시키는 원인이 되었다. 이제는 에이전트들이 텍스트를 거치지 않고 연속적인 잠재 표현을 주고받으며, 마치 텔레파시를 나누듯 통합된 하나의 시스템으로 작동한다.

이러한 변화는 Recursive Language Models(RLMs, 동일한 레이어를 반복적으로 사용하여 추론 능력을 높이는 언어 모델)의 원리를 멀티 에이전트 구조로 확장한 결과다. 각 에이전트는 재귀 모델의 하나의 레이어처럼 작동하며, 마지막 에이전트가 최종 결과물을 텍스트로 출력하기 전까지 모든 상호작용과 성찰, 추론 정제 과정은 잠재 공간 내부에서 루프 형태로 반복된다. 개발자가 체감하는 가장 큰 차이는 에이전트 간의 인터페이스가 텍스트 파일이나 API 메시지가 아니라, 고차원 벡터의 흐름으로 바뀌었다는 점이다.

시스템 내부의 효율을 극대화하기 위해 RecursiveLink는 두 가지 버전으로 운용된다. Inner RecursiveLink는 에이전트 내부의 추론 단계에서 작동하며, 새로 생성된 임베딩을 다시 입력 임베딩 공간으로 매핑해 텍스트 생성 없이도 연속적인 사고 흐름을 유지하게 한다. 반면 Outer RecursiveLink는 서로 다른 아키텍처나 크기를 가진 모델들 사이의 가교 역할을 한다. 모델마다 서로 다른 임베딩 차원을 가지고 있기 때문에, Outer RecursiveLink가 이를 일치시켜 정보가 손실 없이 전달되도록 조정한다.

학습 과정은 단계적으로 진행된다. 먼저 각 에이전트가 잠재 임베딩으로 사고할 수 있도록 Inner Link를 독립적으로 학습시켜 웜업 단계를 거친다. 이후 다양한 고정 모델들을 루프로 연결하고, 마지막 에이전트가 내놓는 최종 텍스트 출력값을 기준으로 시스템 전체를 평가하며 Outer-loop 학습을 수행한다. 이 과정을 통해 개별 에이전트의 성능에 의존하던 기존 방식에서 벗어나, 전체 시스템이 하나의 유기체처럼 함께 진화하는 구조가 완성된다.

이제 멀티 에이전트 시스템은 개별 모델의 집합이 아니라, 하나의 거대한 가상 신경망으로 진화하고 있다.

RecursiveMAS가 멀티 에이전트 추론 속도 2.4배 높이고 토큰 75% 줄였다

임베딩 공간에서 이루어지는 에이전트 간 협업

텍스트 기반 소통의 병목을 제거한 재귀적 구조

관련 기사