행동보다 환경 예측이 먼저, 알리바바가 제시한 에이전트 학습법

팀이 7개 도메인을 아우르는 Qwen-AgentWorld

작업을 수행하던 AI 에이전트가 한 번도 본 적 없는 팝업창을 마주하거나 예상 밖의 오류 메시지를 띄운 순간, 모든 프로세스가 멈춘다. 알리바바 Qwen 팀은 이런 예외 상황에서도 길을 잃지 않도록 환경의 반응을 예측하는 Qwen-AgentWorld를 출시했다. 이 모델은 에이전트가 환경 내에서 직접 행동하는 법을 배우는 것이 아니라, 특정 행동을 했을 때 환경이 어떤 값을 돌려줄지를 예측하도록 훈련됐다. 행동 이후에 벌어질 상황을 미리 계산해 대응하는 월드 모델(환경의 상태 변화를 시뮬레이션하는 모델)의 성격을 띤다.

단일 아키텍처 하나로 7개 도메인을 모두 커버한다. MCP(모델 컨텍스트 프로토콜, AI와 외부 도구를 연결하는 표준 규격), 검색, 터미널, 소프트웨어 엔지니어링, 안드로이드, 웹, OS가 그 대상이다. 도메인마다 별도의 모델을 만드는 대신 하나의 구조로 통합했다. 에이전트가 어떤 환경에 놓이든 환경이 반환하는 값을 예측하며 일관성 있게 작동할 수 있는 기반을 마련한 것이다.

모델의 규모에 따라 공개 범위는 나뉜다. 35B(매개변수 350억 개) 모델의 가중치와 성능 측정 도구인 AgentWorldBench는 Apache 2.0 라이선스로 공개되어 누구나 자유롭게 사용할 수 있다. 오픈 소스로 제공되는 이 도구들을 통해 개발자는 자신의 환경에서 모델을 직접 검증하고 활용할 수 있다. 다만 더 거대한 규모인 397B 모델의 가중치는 공개하지 않았다.

행동 선택이 아닌 다음 환경 상태를 예측하는 '언어 월드'

1,000만 개가 넘는 상호작용 궤적을 학습시킨 데이터 규모는 에이전트가 마주할 수많은 예외 상황을 미리 계산하겠다는 의지를 보여준다. Qwen-AgentWorld는 단순히 다음에 할 행동을 고르는 대신 다음 환경 상태를 예측하는 언어 월드 모델 방식을 쓴다. 기존 모델이 현재 상황을 보고 무엇을 할지 고민했다면, 이 모델은 특정 행동을 했을 때 환경이 어떤 반응을 보일지 역으로 예측한다. 이 원리를 통해 파일 시스템이나 API 응답 같은 7개 서로 다른 영역의 상태 변화를 하나의 통합된 목표 아래 학습한다.

구체적인 학습은 3단계 과정으로 진행된다. 1단계에서는 파일 시스템의 작동 방식이나 브라우저의 DOM(웹페이지의 문서 객체 모델) 변화, API 응답처럼 환경이 실제로 어떻게 움직이는지 기초 체력을 기른다. 2단계에서는 예측값을 바로 내놓기 전에 어떤 일이 벌어질지 논리적으로 따져보는 추론 과정을 훈련한다. 마지막 3단계에서는 강화 학습(RL, 정해진 규칙에 따라 보상을 주며 정답률을 높이는 기법)을 통해 예측의 오차를 줄이고 정교하게 다듬는다. 실제 환경에서 구현하기 까다로운 엣지 케이스를 시뮬레이션으로 주입해 성능을 끌어올리는 전략이다.

확인해야 할 핵심 지점

개발자가 공들여 만든 에이전트가 실제 서비스에 투입되자마자 예상치 못한 돌발 상황에 멈춰 서는 장면은 현장에서 흔히 벌어진다. 실제 환경에서는 좀처럼 나타나지 않는 희귀한 사례들을 가상 세계에서 미리 경험하게 하자 성능이 눈에 띄게 올라갔다. 일부러 불완전한 응답을 주어 에이전트가 스스로 해결책을 찾기 위해 추가 단계를 밟게 만드는 섭동(perturbations, 의도적인 변동)을 주입한 결과 MCPMark 점수가 24.6에서 33.8로 상승했다. 가상 세계에서 훈련한 검색 에이전트의 WideSearch F1 Item(검색 결과의 정확도를 측정하는 지표) 점수 역시 34.02에서 50.31로 향상되었다. 특히 완전히 가상으로 구축된 세계에서 훈련한 에이전트가 실제 검색 작업으로 옮겨갔을 때도 높은 성능을 유지하며, 제어된 시뮬레이션 환경의 효율성을 입증했다.

방대한 지식을 갖추면서도 연산 속도를 유지하기 위해 Qwen-AgentWorld는 필요한 부분만 골라 쓰는 MoE(Mixture-of-Experts, 전문가 혼합) 구조를 채택했다. 뇌의 모든 영역을 동시에 가동하는 대신 특정 작업에 최적화된 일부 신경망만 활성화해 처리하는 방식이다. 35B 모델은 토큰당 3B의 파라미터를 활성화하며, 397B 모델은 17B를 활성화해 자원 소모를 줄이면서도 거대 모델의 성능을 확보했다. 두 모델 모두 한 번에 읽고 처리할 수 있는 정보의 최대 길이인 컨텍스트 윈도우를 256K까지 지원해 매우 긴 문맥의 상호작용도 끊김 없이 유지한다. 이는 에이전트가 복잡한 작업 흐름 속에서도 이전의 맥락을 놓치지 않고 정확하게 반응할 수 있는 기반이 된다.

실제 운영 환경에서 AI 에이전트가 멈추는 이유는 정답을 몰라서가 아니라 처음 보는 상황에 당황했기 때문이다. Qwen-AgentWorld는 7개 분야의 데이터를 작업별 전문가를 배치한 3단계 MoE 구조로 학습해 다음 행동이 아닌 환경의 변화를 먼저 예측한다. 실제 서비스에서 구현하기 까다로운 돌발 상황을 시뮬레이션으로 미리 경험시켜 내성을 키운 전략이다. 결국 에이전트의 실전 성능은 얼마나 정교한 가상 환경에서 엣지 케이스를 버텨냈느냐에 따라 결정된다.

행동보다 환경 예측이 먼저, 알리바바가 제시한 에이전트 학습법

팀이 7개 도메인을 아우르는 Qwen-AgentWorld

행동 선택이 아닌 다음 환경 상태를 예측하는 '언어 월드'

확인해야 할 핵심 지점

관련 기사