중앙 통제 버리고 비용 50% 줄인 스탠퍼드의 DeLM

발표에서 확인된 핵심 사실

대규모 언어 모델을 활용한 워크플로우에서 토큰 사용량은 곧 운영 비용으로 직결된다. 에이전트 수를 늘려 성능을 높이려는 시도가 비용 폭증이라는 현실적 제약에 부딪히는 이유다. 분산형 언어 모델 DeLM(Decentralized Language Model)은 이러한 비용 구조 속에서도 LongBench-v2 Multi-Doc QA 벤치마크에서 최고 정확도를 기록하며 효율성을 입증했다.

DeLM은 실세계의 롱 컨텍스트 문제를 처리하는 능력을 평가하는 LongBench-v2 Multi-Doc QA에서 압도적인 성능을 보였다. GPT-5.4, Claude Sonnet, Gemini Flash, DeepSeek-V4-Pro를 포함한 4개 모델 제품군 전반에 걸쳐 가장 높은 정확도를 기록했다. 복잡한 다중 문서 질의 응답 환경에서 분산형 구조가 기존 단일 모델 제품군보다 정교하게 답을 찾아낸 결과다.

성능의 핵심은 초기화, 병렬 실행, 압축 및 검증, 추가 작업, 최종 단계로 이어지는 체계적인 파이프라인에 있다. 입력값이 큐에 추가되면 에이전트들이 독립적으로 작업을 수행하며 공유 컨텍스트를 읽는 병렬 실행 단계가 진행된다. 수행 결과는 재사용 가능한 기스트(Gists, 핵심 요약 정보)로 압축되며, 증거 기반의 검증을 통과한 기스트만 공유 컨텍스트에 저장해 다른 에이전트가 활용하게 한다. 마지막 에이전트가 추가 작업 필요 여부를 판단해 최종 답변을 반환하며 프로세스를 마친다.

중앙 컨트롤러 없이 에이전트 간의 독립적 실행과 검증된 정보 공유만으로 높은 정확도를 구현했다. 이는 추론 비용을 최적화하면서도 성능을 유지하는 구체적인 설계 기준이 된다.

중앙 오케스트레이터 없이 에이전트들이 직접 조정하는 분산형

복잡한 에이전트 워크플로우를 설계하다 보면 중앙 관리자 모델이 처리해야 할 토큰 양이 급증하며 비용과 속도가 저하되는 지점에 부딪힌다. 기존의 중앙 집중식 시스템은 메인 에이전트가 모든 작업을 분배하고 각 에이전트의 결과를 다시 통합하는 과정에서 필연적으로 병목 현상을 일으킨다. 스탠퍼드(Stanford)가 개발한 DeLM(Decentralized Language Model, 중앙 분산형 언어 모델)은 모든 업데이트를 중앙 컨트롤러로 라우팅하지 않고 에이전트들이 직접 조정하는 방식을 택한다. 중앙의 통제 없이 에이전트 간 직접 협업이 가능하다는 전제로 시스템 구조를 재설계했다.

실제 작동은 공유 컨텍스트(shared context)와 작업 큐(task queue)라는 두 가지 핵심 장치를 통해 이루어진다. 공유 컨텍스트는 검증된 결과나 부분적 결과, 그리고 문서화된 실패 사례 같은 기스트(gists, 다른 에이전트가 유용하게 사용할 수 있는 정보 요약본)를 저장하는 큐레이션 저장소로 활용한다. 작업 큐에는 에이전트들이 독립적으로 가져가 처리할 수 있는 대기 중인 하위 작업들의 집합이 관리된다. 에이전트가 중앙의 명령을 기다리지 않고 필요한 요약 정보와 작업을 스스로 찾아 처리함으로써 불필요한 토큰 낭비를 줄이고 추론 효율을 높인다.

확인해야 할 핵심 지점

복잡한 워크플로우를 관리하기 위해 반드시 고비용의 중앙 제어 모델이 필요할까? Stanford의 DeLM(분산형 언어 모델) 프레임워크는 실세계 소프트웨어 엔지니어링 문제 해결 능력을 평가하는 SWE-bench Verified(소프트웨어 엔지니어링 벤치마크)에서 가장 강력한 베이스라인보다 10.5% 더 나은 성능을 기록했다. 동시에 작업당 발생하는 비용을 약 50% 절감하는 성과를 거두었다. 중앙 컨트롤러가 작업을 배분하고 제어하는 기존 방식에서 벗어나 에이전트 간 직접 협업만으로 운영 효율과 정답률을 동시에 높였다.

이러한 설계는 모델이 추론과 문제 해결 능력을 높이기 위해 충분히 생각할 시간을 갖는 테스트 시간 확장(test-time scaling) 과정에서 실질적인 효용을 제공한다. 특히 여러 오류를 동시에 분석하고 해결해야 하는 동시 디버깅 사례에서 추론 성능을 극대화한다. 또한 여러 문서에 흩어진 증거 클러스터를 동시에 조사하면서도 전체적인 맥락인 글로벌 뷰를 유지해야 하는 다중 문서 질의응답 작업에도 적합하다. 롱 컨텍스트 추론 능력을 활용해 방대한 정보 속에서 필요한 증거를 정확하게 찾아내고 연결한다.

오케스트레이터가 유발하는 병목 현상과 불필요한 토큰 낭비를 제거하면 추론 비용을 최적화하면서 고난도 엔지니어링 과제를 해결할 수 있다. 분산형 협업 구조는 모델의 사고 시간을 확보하고 자원 소모를 줄이는 구체적인 구현 기준이 된다.

멀티에이전트 시스템 구축 시 중앙 오케스트레이터가 필수라는 통념은 DeLM의 등장으로 깨진다. 중앙 컨트롤러 없이 기스트를 공유하고 필요 시에만 상세 내용을 펼쳐보는 언폴딩 구조를 통해 SWE-bench Verified 기준 작업 비용을 약 50% 절감했다.

결국 복잡한 워크플로우의 효율은 제어 모델의 지능이 아니라 공유 컨텍스트를 얼마나 정교하게 관리하느냐에 따라 결정된다. 지금 바로 기존 워크플로우에서 오케스트레이터로 인한 토큰 낭비와 병목 지점을 찾아내어 분산형 구조로 전환할 지점을 판단해야 한다.

중앙 통제 버리고 비용 50% 줄인 스탠퍼드의 DeLM

발표에서 확인된 핵심 사실

중앙 오케스트레이터 없이 에이전트들이 직접 조정하는 분산형

확인해야 할 핵심 지점

관련 기사