발표에서 확인된 핵심 사실

AI 에이전트에게 복잡한 단계의 업무를 지시하면 도구를 잘못 선택하거나 수많은 옵션 사이에서 답변이 꼬이는 현상이 빈번하다. 알리바바 연구진은 이러한 도구 선택의 혼선을 해결하기 위해 SkillWeaver 프레임워크를 개발했다. 복잡한 워크플로우 내에서 도구 라우팅을 최적화하는 것이 이 프레임워크의 핵심 목적이다.

SkillWeaver는 입력된 작업에 대해 실행 그래프를 생성하는 방식으로 작동한다. 생성된 그래프의 각 노드에 가장 적합한 기술(skill)을 정밀하게 선택해 배치하는 구조를 갖췄다. 수백 개의 도구를 보유한 에이전트가 어떤 도구를 사용해야 할지 혼란을 겪는 문제를 해결하기 위해 설계되었다.

시스템의 핵심 엔진으로는 70억 개의 파라미터를 가진 경량 모델 Qwen2.5-7B-Instruct를 채택했다. 이 모델은 전체 작업을 세부 단계로 나누는 작업 분해 역할을 수행한다. 파라미터 규모를 줄인 경량 모델을 통해 효율적인 작업 분해가 가능하도록 했다.

도구를 검색하는 과정에는 FAISS(Facebook AI Similarity Search) 인덱스를 적용한 MiniLM 시맨틱 검색 리트리버를 결합했다. 시맨틱 검색 리트리버는 작업 노드에 필요한 최적의 도구를 빠르게 찾아내는 역할을 한다. FAISS 인덱스를 통해 검색 속도와 정확도를 높였다.

분해(Decompose), 검색(Retrieve)

개발자가 복잡한 명령어를 입력하자 AI가 엉뚱한 도구를 호출하며 멈췄다. SkillWeaver는 분해(Decompose), 검색(Retrieve), 구성(Compose)의 3단계 프로세스로 동작한다. LLM이 복잡한 쿼리를 하위 작업으로 먼저 분해한다. 임베딩 모델이 기술 라이브러리에서 각 하위 작업과 비교해 적합한 후보 도구를 검색한다. 플래너는 검색된 후보들의 호환성을 평가한다. 최종적으로 유향 비순환 그래프(DAG, 순환 경로가 없는 방향성 그래프) 형태의 실행 계획을 생성한다.

LLM이 계획한 작업 내용과 실제 도구가 가진 기술적 어휘가 서로 달라 실행이 실패하는 경우가 많다. Skill-Aware Decomposition(SAD, 도구 어휘를 반영해 작업을 다시 나누는 피드백 루프)이 이 불일치 문제를 해결한다. LLM이 초안 계획을 세우면 시스템이 예비 검색을 통해 느슨하게 일치하는 기술들을 찾는다. 검색된 기술들을 힌트로 다시 LLM에 입력해 분해 내용을 수정하게 한다. 작업의 세분성과 어휘를 실제 존재하는 도구의 사양과 완벽하게 일치시킨다.

모델 파라미터 크기를 무작정 키우는 방식은 비용 부담이 크다. 에이전트가 사용할 도구의 어휘(Vocabulary)에 맞게 작업을 분해하는 구조를 설계하는 것이 성능 면에서 유리하다. 도구의 기술적 특성을 계획 단계에 반영하는 설계 방식이 비용과 성능의 효율을 높인다.

전체 도구 라이브러리를 그대로 노출하는 방식 대비 토큰

복잡한 다단계 업무를 수행하는 AI 에이전트가 도구 선택 오류나 컨텍스트 제한으로 멈춰 서는 시간은 매우 짧다. 사용 가능한 도구가 늘어날수록 모델이 처리해야 할 정보량이 기하급수적으로 증가해 컨텍스트 창이 빠르게 소진되기 때문이다. SkillWeaver는 전체 도구 라이브러리를 그대로 노출하는 방식 대신 필요한 스킬만 선택적으로 연결하는 검색 및 라우팅(retrieve-and-route) 방식을 구현했다. 이 메커니즘을 통해 토큰 소비량을 기존 방식 대비 99% 이상 절감했다. 컨텍스트 제한 문제를 해결하는 동시에 도구 선택의 정확도를 높였다. 모델의 파라미터 크기를 키우는 것보다 에이전트가 사용할 도구의 어휘에 맞게 작업을 분해하는 구조 설계가 비용과 성능 면에서 더 효율적이다.

성능 검증을 위해 연구진은 300개의 다양한 난이도를 가진 다단계 쿼리로 구성된 CompSkillBench(컴스킬벤치)라는 전용 벤치마크를 구축했다. 실제 환경에서의 작동 여부를 확인하고자 MCP(Model Context Protocol, 모델 컨텍스트 프로토콜) 생태계에서 2,209개의 실제 기술 라이브러리를 추출해 적용했다. 이 라이브러리 집합은 클라우드 인프라부터 금융, 데이터베이스에 이르기까지 총 24개 기능 카테고리를 포괄한다. 방대한 실제 도구 집합을 대상으로 한 테스트 결과, 필요한 스킬만 라우팅하는 구조가 대규모 라이브러리 환경에서도 안정적으로 작동했다. 실제 산업 현장의 방대한 도구 집합을 효율적으로 제어할 수 있는 기술적 근거를 확보했다.

복잡한 업무 수행 중 AI가 멈추는 이유는 도구 선택 오류와 컨텍스트 제한 때문이다. SkillWeaver는 SAD 피드백 루프로 작업 분해 계획을 도구의 기술적 어휘에 맞췄다. 토큰 소모를 99% 이상 줄인 결과다.

이제 모델 파라미터 크기보다 도구 어휘에 맞춘 작업 분해 구조 설계가 비용과 성능을 결정한다. SAD 메커니즘을 기준으로 에이전트의 도구 호출 효율을 점검할 때다.