예전에는 클라우드 서비스가 단순히 데이터를 저장하고 연산 자원을 빌려주는 공간이었다. 지금은 에이전트가 스스로 도구를 호출하고 워크플로우를 자동화하는 '에이전틱 AI'의 실행 무대로 변모했다. 분기점은 알리바바 클라우드가 싱가포르에서 개최한 'Quen 컨퍼런스'였다. 이 자리에서 알리바바는 단순한 모델 배포를 넘어, 실리콘부터 파운데이션 모델, 에이전트 전용 게이트웨이까지 아우르는 풀스택 인프라로의 전환을 공식화했다. 이는 모델 성능 경쟁에 매몰되었던 기존 시장의 흐름이, 이제는 에이전트가 얼마나 효율적으로 비즈니스 가치를 창출할 수 있는가라는 '실행 인프라' 경쟁으로 이동했음을 보여준다.
에이전트 전용 풀스택 인프라와 Quen 3.7 Max
어제의 신기술이 오늘의 기본이 됐다. 알리바바 클라우드는 싱가포르에서 열린 키노트를 통해 에이전트 실행에 최적화된 풀스택 인프라를 공개하며, 기존의 범용 클라우드 구조를 에이전트 네이티브 방식으로 전면 재설계했다. 이번 발표의 핵심은 자체 개발한 5세대 CIPU(Cloud Infrastructure Processing Unit)와 PPU(Performance Processing Unit) 실리콘부터 파운데이션 모델까지 모든 계층을 수직으로 통합했다는 점이다. 이는 하드웨어 제어권을 확보해 에이전트의 연산 효율을 극대화하려는 전략이다.
새롭게 공개된 Quen 3.7 Max는 코딩과 도구 사용에 특화된 신형 파운데이션 모델이다. 이 모델은 MCP(Model Context Protocol)를 기본 지원하며 장기 실행 작업(long-horizon tasks)에서 성능을 입증했다. 실제 35시간 연속 실행 환경에서 1,000회 이상의 도구 호출을 수행하며 평균 10배의 속도 향상을 기록했다. 알리바바는 이 모델을 중심으로 200개 이상의 모델과 Skills/CLI 기반의 워크플로우 자동화를 제공하는 에이전트 전용 게이트웨이인 Quen Cloud(quencloud.com)를 함께 출시했다.
인프라의 핵심인 MicroVM 샌드박스는 에이전트의 빈번한 호출에 대응하기 위해 밀리초 단위의 부팅 속도를 구현했다. 테넌트당 1만 개의 동시 세션을 지원하는 이 환경은 실제 기업 사례에서 즉각적인 효율을 보였다. MiniMax는 알리바바의 인프라 위에서 컨테이너 부팅 시간을 20~40ms 수준으로 단축했으며, 결과적으로 총소유비용(TCO)을 40% 절감하는 성과를 냈다. 이는 에이전트가 단일 스레드 작업에서 직렬적 도구 호출을 반복할 때 발생하는 지연 시간을 하드웨어 수준에서 해결하려는 시도다.
알리바바는 이러한 기술 스택을 바탕으로 에이전트가 직접 API와 인프라를 호출하는 제어권을 강화하고 있다. 기존 SaaS 중심의 클라우드 구조를 벗어나 에이전트의 데이터 플레인과 보안 정책을 인프라 계층에 내재화했다. 다만, 이러한 인프라 전환은 여전히 메모리 병목과 같은 시스템적 과제를 안고 있다. Fireworks AI는 추론의 핵심 병목이 연산이 아닌 KV 캐시 메모리에 있음을 지적하며, 알리바바가 제시한 풀스택 재설계가 이러한 메모리 계층 문제를 어떻게 해결하는지가 향후 엔터프라이즈 도입의 관건이 될 전망이다.
구글과의 전략 차이와 에이전틱 AI의 기술적 과제
100명 중 90명이 놓치는 포인트는 에이전트가 작동하는 기반 인프라의 설계 방식이 구글과 알리바바 사이에서 극명하게 갈린다는 점이다. 구글은 지난 4월 Cloud Next 2025에서 Gemini 2.5 Pro를 필두로 7세대 TPU인 Ironwood와 에이전트 간 통신을 규정하는 Agent2Agent(A2A) 프로토콜을 공개하며 자사 생태계의 표준화를 앞세웠다. 반면 알리바바는 PyTorch 재단 플래티넘 멤버로 합류하며 Kimi, Zhipu, StepFun 등 경쟁사 모델을 자사 플랫폼에 입점시키는 오픈 생태계 허브 전략을 택했다. 구글이 거대한 사용자 접점과 독자적인 하드웨어 스택으로 에이전트의 표준을 선점하려 한다면, 알리바바는 모델의 다양성을 확보하고 클라우드 인프라의 비용 효율성을 극대화하는 데 집중하고 있다.
개발자가 체감하는 비용 구조의 차이는 알리바바의 Coder 도구에서 두드러진다. 이 도구는 작업의 난이도와 목적에 따라 최적의 모델을 자동으로 선택하는 기능을 제공하며, 이를 통해 기존 대비 토큰 비용을 최대 70%까지 절감할 수 있다고 밝혔다. 이는 구글이 Gemini 중심의 수직적 통합을 강화하는 것과 대조적인 행보다. 알리바바는 5세대 CIPU(Cloud Infrastructure Processing Unit)와 자체 PPU(Parallel Processing Unit)를 포함한 풀스택 인프라를 통해 하드웨어부터 모델까지의 비용을 통제하고, 이를 통해 기업 고객에게 TCO(총소유비용) 절감이라는 실질적인 가치를 제시하고 있다.
기술적 병목 현상은 두 진영 모두가 해결해야 할 공통의 과제로 남아 있다. Nous Research의 Tommy Eastman은 에이전트가 동일한 작업을 매번 동일하게 수행하는 재현성 문제가 여전히 해결되지 않은 핵심 난제라고 지적했다. 또한 Fireworks AI는 현재 에이전트 추론의 가장 큰 병목이 연산 능력 자체가 아닌 KV 캐시 메모리의 한계에 있다고 진단하며, 이를 극복하기 위한 시스템적인 재설계가 필수적임을 강조했다. 모델의 지능이 높아질수록 메모리 접근 속도와 효율성이 전체 에이전트 성능을 결정짓는 핵심 변수로 떠오른 것이다.
하드웨어 설계의 근본적인 변화도 감지된다. NVIDIA는 에이전트가 도구를 호출하는 방식이 직렬적으로 이루어지는 특성을 고려할 때, 기존의 다중 코어 중심 설계보다는 단일 스레드 성능이 극대화된 새로운 CPU 설계가 필요하다고 짚었다. 이는 에이전트가 복잡한 워크플로우를 처리하는 과정에서 발생하는 지연 시간을 줄이기 위해 클라우드 인프라의 근간인 CPU 아키텍처부터 재검토해야 한다는 의미다. 인프라의 수직 통합을 강조하는 알리바바와 생태계 표준을 선점하려는 구글 모두, 결국 이러한 물리적 한계를 어떻게 돌파하느냐에 따라 에이전틱 AI 시대의 주도권이 결정될 전망이다.
에이전트의 작업 단위와 도구 호출 빈도를 기준으로 인프라를 선택해야 한다. 35시간 동안 1,000회 이상의 도구 호출을 수행하는 장기 실행 작업이 주력이라면 알리바바의 풀스택 인프라가 유리하다. 밀리초 단위의 부팅 속도를 지원하는 MicroVM 샌드박스는 빈번한 API 호출로 인한 대기 시간을 최소화한다. 반면, 단순한 질의응답이나 단일 모델 내에서의 처리가 중심인 환경에서는 범용 클라우드의 표준화된 생태계가 운영 효율 면에서 더 나은 선택지다.
모델 다양성과 비용 최적화 전략에 따라 플랫폼을 결정해야 한다. 알리바바의 Quen Cloud는 200개 이상의 모델을 CLI 기반으로 자동화하여 작업 난이도에 따라 최적의 모델을 배정함으로써 토큰 비용을 최대 70%까지 절감한다. 특정 모델에 종속되지 않고 여러 모델을 조합해 워크플로우를 구성해야 하는 실무 환경에서는 이러한 개방형 게이트웨이가 비용 통제에 효과적이다. 반면 구글의 Gemini 중심 수직 통합 구조는 자사 생태계 내에서의 표준화된 통신과 안정적인 배포를 우선시하는 기업에 적합하다.
시스템의 물리적 병목 지점이 연산인지 메모리인지 파악하는 것이 우선이다. Fireworks AI의 지적대로 현재 에이전트 추론의 핵심 병목은 연산 속도가 아닌 KV 캐시 메모리 용량에 있다. 에이전트가 복잡한 도구 호출을 반복할 때 발생하는 메모리 병목을 해결하지 못하면 하드웨어 성능을 높여도 전체 처리량은 늘지 않는다. 인프라 도입 전 자사 에이전트의 작업이 단일 스레드 중심의 직렬적 도구 호출인지, 아니면 병렬 연산이 필요한 작업인지 확인하고 그에 맞는 하드웨어 설계를 갖춘 클라우드를 선택해야 한다. 결국 에이전틱 AI의 성패는 모델의 지능이 아니라 인프라가 메모리 병목을 얼마나 물리적으로 효율화하느냐에 달려 있다.




