매일 아침 개발자들은 LLM이 도구 호출 과정에서 엉뚱한 파라미터를 입력하거나 잘못된 함수를 선택해 전체 워크플로우가 멈추는 상황을 마주한다. 기존의 방식은 작업이 끝난 뒤 로그를 분석해 프롬프트를 수정하거나 모델을 재학습시키는 사후 약방문식 대응에 그쳤다. 실행 루프 외부에서 이루어지는 평가는 실시간으로 발생하는 오류를 막지 못한다. 이번에 공개된 Reinforced Agent(도구 호출 에이전트의 실시간 피드백 시스템)는 평가 단계를 실행 루프 내부로 끌어들여 이 문제를 정면으로 돌파한다.

실시간 검토자 도입과 성능 지표

연구팀은 주 실행 에이전트와 별도로 검토자 에이전트를 배치하는 이원화 구조를 제안했다. 검토자는 도구가 실행되기 직전 호출의 적절성을 판단해 오류를 사전에 차단한다. 연구팀은 이 과정의 효율성을 측정하기 위해 두 가지 지표를 도입했다. 유용성(Helpfulness)은 검토자가 실제 오류를 얼마나 수정했는지를 나타내며, 유해성(Harmfulness)은 검토자가 오히려 올바른 호출을 방해한 비율을 뜻한다. 이 지표는 BFCL(단일 턴 도구 호출 벤치마크)과 τ2-Bench(다중 턴 상태 유지 벤치마크)에서 검증되었다. 실험 결과, 불필요한 호출 탐지에서 5.5%, 다중 턴 작업에서 7.1%의 성능 향상을 기록했다.

모델 선택과 최적화의 상관관계

예전에는 모델의 성능이 곧 에이전트의 성능으로 직결되었으나, 이제는 검토자 모델을 무엇으로 설정하느냐가 전체 시스템의 성패를 가른다. 연구팀의 분석에 따르면 OpenAI의 o3-mini(추론에 특화된 경량 모델)는 3대 1의 이익 대 위험 비율을 보이며, GPT-4o의 2.1대 1보다 월등한 효율을 나타냈다. 또한 GEPA(자동 프롬프트 최적화 도구)를 활용해 검토자의 지시문을 정교화하자 추가로 1.5%에서 2.8%의 성능 개선이 확인되었다. 이는 주 에이전트를 건드리지 않고도 검토자 모델의 선택과 프롬프트 최적화만으로 시스템 전체의 안정성을 확보할 수 있음을 의미한다.

실행 루프의 분리와 비즈니스 임팩트

개발자가 바로 체감하는 변화는 에이전트 설계의 유연성이다. 기존에는 도구 호출 오류를 잡기 위해 거대 모델을 다시 학습시켜야 했으나, 이제는 검토자라는 별도의 모듈을 교체하는 것만으로 대응이 가능하다. 이는 복잡한 비즈니스 로직을 수행하는 에이전트 시스템에서 유지보수 비용을 획기적으로 낮추는 포석이 된다. 검토자 모델이 도입됨에 따라 기업들은 고비용의 모델을 전체 시스템에 적용하는 대신, 효율적인 검토자를 전면에 배치하는 하이브리드 아키텍처로 전환할 가능성이 높다. 시스템의 신뢰성을 확보하기 위해 실행과 검토를 분리하는 설계는 향후 에이전트 개발의 표준으로 자리 잡을 것이다.