시행착오의 반복을 끊는 자율 최적화의 도입
AI 에이전트에게 코드 수정을 맡기면 결과가 들쭉날쭉하거나 같은 실수를 반복하기 일쑤다. 특히 청킹 전략과 시스템 프롬프트를 동시에 수정할 때, 어떤 변경 사항이 실제 성능 향상을 이끌었는지 판별하기 어렵다는 점이 개발자의 발목을 잡는다. 마이크로소프트와 인민대학교 연구진은 이러한 시행착오를 누적 학습 과정으로 바꾸기 위해 AI 최적화 프레임워크 'Arbor'를 개발했다.
Arbor는 동일한 컴퓨팅 예산 조건에서 표준 AI 코딩 에이전트 대비 2.5배 이상의 검증 가능한 성능 향상을 기록했다. 핵심은 '자율 최적화(AO, Autonomous Optimization)'의 구현이다. 이는 AI가 스스로 성능을 측정하고 설정을 변경하며 최적의 상태를 찾아가는 기술을 의미한다.
기존 범용 코딩 에이전트들은 대화 기록(Transcript)에 의존해 메모리를 관리했다. 수백 번의 턴이 이어지면 컨텍스트 창 제한을 초과해 과거의 근거를 유실하거나, 노이즈 섞인 수치에 휘둘려 정체되는 경향이 있었다. 컴퓨팅 자원을 더 투입해도 목표가 모호하면 실제 성능과는 무관한 '가짜 개선'만 빠르게 생산하는 한계가 있었다.
전략과 실행을 분리한 이원적 에이전트 구조
Arbor는 전략적 방향을 설정하는 '코디네이터(Coordinator)'와 실제 코딩을 수행하는 '이그제큐터(Executor)'로 역할을 엄격히 분리했다. 코디네이터는 전체 최적화 상태를 소유하고 누적된 증거를 관찰하며 새로운 가설과 탐색 방향을 결정한다. 타겟 코드베이스를 직접 수정하지 않고 오직 전략적 의사결정과 결과 분석에만 집중하는 책임자다.
이그제큐터는 코디네이터가 생성한 단일 가설을 구현하기 위해 투입되는 단기 에이전트다. 독립된 git worktree 환경에서 코드를 수정하고 테스트 결과를 보고한 뒤 즉시 소멸한다. 가설마다 격리된 환경을 배치함으로써 여러 가설을 병렬로 테스트해도 메인 코드베이스가 오염되지 않는다. 도구 호출을 체이닝(Chaining)해 가설 간 간섭이 발생했던 기존 아키텍처의 한계를 극복한 설계다.
이러한 분리 구조는 AI가 단순 루프를 도는 것이 아니라 실질적인 진보를 이루게 한다. 이그제큐터가 부여받은 가설을 구현하고 디버깅해 보고하면, 코디네이터는 이를 바탕으로 연구 방향을 수정하거나 새 가설을 세운다. 개발자가 수동으로 수행하던 반복 튜닝 작업을 AI가 스스로 수행하는 체계로 전환한 것이다.
가설 트리 정제를 통한 정밀한 성능 추적
실험 결과를 체계적으로 기록하고 재사용하기 위해 '가설 트리 정제(HTR, Hypothesis Tree Refinement)' 메커니즘을 도입했다. HTR은 전체 프로세스를 분기하는 트리 형태로 관리하며, 각 노드에 가설, 실행 결과물, 사실 증거, 정제된 인사이트를 결합해 저장한다. 코디네이터는 루트(Root)에 광범위한 아이디어를 배치하고 잎(Leaf) 방향으로 구체적인 개선안을 분기시켜 여러 경쟁 가설을 동시에 탐색한다.
핵심은 실패의 기록을 자산화하는 방식이다. 실험이 실패하면 HTR 트리는 그 원인을 '부정적 제약 조건'으로 기록한다. 과거에 실패한 경로를 기억해 동일한 실수를 반복하지 않으며, 성공과 실패 모두를 해석해 탐색 방향을 재설정하는 인간의 연구 방식을 모방했다. 이는 지표에만 과적합되어 성능 향상 없이 진보하는 것처럼 보이는 '보상 해킹(Reward Hacking)' 문제를 방지한다.
실제 RAG(검색 증강 생성) 파이프라인 최적화 시, Arbor는 청킹 전략과 검색 방법, 시스템 프롬프트를 각각 별도의 가설 분기로 처리한다. 각 레버를 독립된 git worktree에서 구현하고 평가하므로, 어떤 수정 사항이 실제 성능을 올렸는지 정확히 판별하는 '클린 어트리뷰션(Clean Attribution)'이 가능하다. 이제 AI 에이전트의 성능은 모델의 체급이 아니라, 수정 이력을 추적하고 검증하는 구조적 설계에 의해 결정된다.




