AI 에이전트 자율 개선 및 데이터 효율 최적화 연구 10편 공개

AI 에이전트 자율성과 효율성을 높이는 핵심 수치와 기능

이번에 공개된 10편의 연구는 모델의 단순 규모 확장보다 자율적 개선, 데이터 효율, 연산 최적화라는 세 가지 축에 집중한다. 가장 먼저 눈에 띄는 수치는 자동 프롬프트 엔지니어링 도구인 APEX(Automatic Prompt Engineering eXpert)의 성능 향상 폭이다. APEX는 5,000회의 평가 호출이라는 제한된 예산 내에서 Gemini 2.5 Flash의 성능을 평균 11.2%, Gemma 3 27B를 6.8% 향상시켰다.

에이전트의 운영 정책을 스스로 수정하는 Self-Harness 프레임워크는 Terminal-Bench-2.0 환경에서 기반 모델의 종류와 무관하게 일관된 성능 상승을 기록했다. MiniMax M2.5는 홀드아웃 통과율이 40.5%에서 61.9%로, Qwen3.5-35B-A3B는 23.8%에서 38.1%로, GLM-5는 42.9%에서 57.1%로 각각 상승했다. 이는 외부의 더 강력한 모델이나 인간의 개입 없이 에이전트 스스로 성능을 끌어올린 결과다.

인프라 및 시스템 측면에서는 FP8 is All You Need 연구가 8비트 저정밀 텐서 연산과 중국 나머지 정리를 결합해, 고비용의 배정밀도(FP64) 중심 고성능 컴퓨팅(HPC) 환경에서도 정확도 손실 없이 실행 성능을 회복할 수 있음을 입증했다. 또한 Economy of Minds는 중앙 제어 없이 경매 기반의 경제적 상호작용만으로 수학적 추론, 금융 연구, 과학 연구, 가속기 설계, 분산 시스템 최적화라는 5가지 과제에서 단일 거대 모델(Monolithic baseline)보다 우수한 성능을 보였다.

분산형 경제 구조와 자가 개선 루프의 작동 방식

에이전트들이 중앙 통제 없이 협력하는 Economy of Minds의 핵심은 '에이전트 경제'라는 유인 구조다. 각 에이전트는 경매를 통해 행동 권리를 획득하고, 환경 보상으로 부(Wealth)를 축적한다. 부유한 에이전트는 활용(Exploitation) 중심의 개선 기회를 얻고, 파산한 에이전트는 탐색(Exploration) 경로를 통해 새로운 에이전트로 대체된다. 이 과정에서 다단계 추론과 같은 고차원적 집단 지능이 자발적으로 창발한다. 관련 코드는 GitHub(zhentingqi/EoM)에서 확인할 수 있다.

Self-Harness는 '약점 발굴 $\rightarrow$ 하니스 제안 $\rightarrow$ 제안 검증'으로 이어지는 반복 루프로 작동한다. 실행 추적(Execution traces)에서 실패 패턴을 찾아내고, 이를 해결할 최소한의 하니스(시스템 프롬프트, 도구 사용 방식, 복구 정책 등을 포함한 운영 계층) 수정안을 생성한다. 이후 회귀 테스트를 통해 기존 성능 훼손 여부를 검증한 뒤에만 수정안을 채택하는 구조다.

데이터 효율을 극대화한 APEX는 데이터셋을 Easy, Hard, Mixed의 세 계층으로 동적 분류한다. 특히 모델의 정답과 오답이 엇갈리는 Mixed 계층을 가장 정보량이 많은 구간으로 정의하고, 여기서 'addressable frontier(변이 생성용)'와 'rank-sensitive frontier(품질 판별용)'라는 두 가지 고가치 부분집합을 추출해 계산 자원을 집중시킨다.

강화학습 환경을 자동 합성하는 AutoForge는 도구 설명 문서를 기반으로 상태 구조와 연산 함수를 생성하고, 그래프 기반 random walk를 통해 도구 호출과 추론이 얽힌 방향 비순환 그래프(DAG)를 구성한다. 학습 알고리즘으로는 GRPO를 확장한 ERPO를 사용하며, 합성 사용자의 오류가 보상 추정을 오염시키지 않도록 하는 MEU(Masking Erroneous User Behaviors) 전략을 적용해 학습 안정성을 높였다.

개발자와 실무자가 주목해야 할 도입 및 운영의 변화

개발자가 에이전트 성능을 높이기 위해 가장 먼저 바꿔야 할 관점은 '모델 파라미터'가 아니라 '운영 정책(Harness)'이다. Self-Harness의 결과는 기반 모델을 교체하는 것보다, 해당 모델의 실패 패턴에 맞게 시스템 프롬프트와 도구 사용 정책을 정교하게 다듬는 것이 더 빠르고 확실한 성능 향상 경로임을 보여준다. 특히 모델별로 최적의 하니스가 다르므로, 모델 통합 정책보다는 모델별 맞춤형 하니스 최적화 파이프라인을 구축하는 것이 효율적이다.

프롬프트 최적화 과정에서는 전체 데이터셋을 반복 사용하는 기존의 진화 알고리즘 방식에서 벗어나, APEX처럼 모델이 헷갈려 하는 '혼합 구간(Mixed tier)' 데이터를 선별해 집중 학습시키는 전략이 필요하다. 이는 평가 호출 비용을 획기적으로 줄이면서도 성능 향상 폭을 키울 수 있는 실무적인 방법이다.

하이퍼파라미터 최적화(HPO) 시에는 LLM의 단독 사용보다 고전적 알고리즘과의 하이브리드 구성을 고려해야 한다. autoresearch 연구에 따르면 LLM은 개별 수정 제안에는 능하지만, 전체 최적화 상태를 일관되게 추적하는 능력은 CMA-ES(공분산 행렬 적응 진화 전략) 같은 고전적 기법보다 떨어진다. 따라서 CMA-ES의 내부 상태(평균 벡터, 공분산 행렬 등)를 LLM과 공유하는 구조를 설계하는 것이 최적의 성능을 내는 방법이다.

마지막으로 HPC 인프라 운영자는 FP8과 같은 저정밀 연산 도입이 정확도 손실 없이 처리량을 극대화할 수 있다는 점을 검토해야 한다. 이는 고가의 배정밀도 하드웨어 의존도를 낮추고 연산 비용을 절감하는 실질적인 운영 최적화 포인트가 된다. 관련 상세 내용은 arXiv:2606.02859 등 각 논문 리소스를 통해 확인할 수 있다.

AI 에이전트 자율 개선 및 데이터 효율 최적화 연구 10편 공개

AI 에이전트 자율성과 효율성을 높이는 핵심 수치와 기능

분산형 경제 구조와 자가 개선 루프의 작동 방식

개발자와 실무자가 주목해야 할 도입 및 운영의 변화

관련 기사