개발자가 AI 에이전트의 실행 로그를 훑는다. 최종 답변은 틀렸는데 중간에 호출한 다섯 개의 도구 중 어디서 논리가 꼬였는지 알 길이 없다. 결과값만 보고 실패라고 낙인찍는 기존 방식으로는 어떤 단계가 치명적이었는지 찾아낼 수 없다. 정답 여부라는 단편적인 정보만으로는 복잡한 추론 과정을 교정하기 어렵다.
PORTool의 보상 트리와 단계별 중요도 산출
연구팀이 제안한 PORTool(중요도 인식 정책 최적화 알고리즘, AI가 최적의 행동을 선택하도록 학습시키는 과정)은 Rewarded rollout tree(보상 전개 트리, AI가 시도한 여러 경로를 나무 가지 형태로 시각화한 구조)를 생성한다. 여러 추론 경로가 공통 접두사를 공유하다가 특정 지점에서 갈라지는 구조다. 이를 통해 동일한 맥락 내에서 서로 다른 도구 선택지를 직접 비교할 수 있다.
각 단계의 중요도는 두 가지 신호로 결정한다. 하위 단계가 최종적으로 정답을 냈는지 확인하는 정답 지배 신호가 핵심이다. 여기에 도구 호출이 기술적으로 성공했는지를 나타내는 보조 항을 더한다. PORTool은 이 단계별 중요도 추정치를 바탕으로 정책을 업데이트한다. 효율적인 도구 호출 단계를 생성하도록 유도하며 로컬 비교와 전체 경로의 품질을 동시에 고려한다. 이 연구는 ACL(컴퓨터 언어학 협회) 2026 워크숍에서 발표되었다.
결과 중심 보상에서 과정 중심 최적화로의 전환
기존의 학습 방식은 최종 결과가 맞았는지 틀렸는지만으로 전체 경로를 평가했다. 이를 Credit-assignment ambiguity(신용 할당 모호성, 결과의 원인이 된 특정 단계를 찾아내지 못하는 문제)라고 한다. 정답을 맞혔더라도 중간에 불필요한 도구를 호출했다면 효율성이 떨어진다. 반대로 정답을 틀렸어도 대부분의 단계가 옳았다면 그 단계들까지 부정적인 보상을 받게 된다.
PORTool은 기준점을 결과에서 과정으로 옮겼다. 특정 단계의 결정이 정답 확률을 얼마나 높였는지 수치화하여 보상한다. 개발자가 체감하는 변화는 도구 호출 횟수의 감소다. 불필요한 단계를 걷어내면서도 최종 정답률은 오히려 상승했다. 이는 추론 비용을 줄이면서 성능을 높이는 실질적인 최적화 경로를 제시한다.
에이전트 개발자가 즉각적으로 체감하는 영향은 디버깅 효율의 상승이다. 어떤 도구 호출이 정답에 기여했는지 명확한 수치로 확인할 수 있다. 이는 프롬프트 튜닝(명령어 최적화)이나 단순 재학습에 의존하던 기존의 사후 분석 방식과 대조된다. 실행 루프 내부에서 실시간으로 피드백을 반영하는 구조로 진화했다.
최근 ToolSandbox(상태 유지형 도구 사용 능력 평가 벤치마크)의 등장은 시장의 평가 기준이 바뀌고 있음을 보여준다. 단순한 API 호출을 넘어 상태 의존적인 복잡한 작업 수행 능력을 측정하기 시작했다. 에이전트가 단순히 도구를 쓸 줄 아는 수준을 넘어 최적의 경로로 사용하는 능력이 핵심 경쟁력이 된 지형이다. 기업들은 이제 모델의 크기보다 추론 경로의 효율성을 높이는 알고리즘 확보에 집중하고 있다.
AI 에이전트의 상업적 가치는 이제 모델의 지능이 아니라 추론 경로의 경제성에서 결정된다.




