35시간 자율 최적화로 증명한 Qwen3.7-Max, '에이전트 프런티어'의 개막

35시간. Qwen3.7-Max가 인간의 개입 없이 미지의 PPU(Processing Unit, 프로세싱 유닛) 아키텍처에서 커널 최적화를 수행한 시간이다. 숙련된 엔지니어가 며칠 밤을 새워야 할 고난도 작업을 AI가 스스로 가설을 세우고 검증하며 완수한 셈이다. 그리고 이 수치는 단순한 성능 지표를 넘어 LLM(대규모 언어 모델)의 역할이 '답변자'에서 '실행자'로 완전히 전환되었음을 알리는 신호탄이다.

알리바바 클라우드(Alibaba Cloud)가 공개한 Qwen3.7-Max는 코딩, 디버깅, 사무 자동화를 넘어 수천 단계의 자율 실행을 겨냥한 에이전트 중심 모델이다. 기존 모델들이 단발성 프롬프트에 의존했다면, 이 모델은 스스로 도구를 호출하고 결과를 평가하며 목표를 달성할 때까지 루프를 도는 '장기 추론 지속성'에 집중했다. 이는 AI가 소프트웨어 개발의 특정 기능을 구현하는 수준을 넘어, 프로젝트 전체의 아키텍처를 설계하고 최적화하는 '자율 운영체제'의 영역으로 진입했음을 의미한다. 시장의 판도는 이제 누가 더 정확한 답을 내놓느냐가 아니라, 누가 더 오래 자율적으로 과업을 완수하느냐의 싸움으로 옮겨가고 있다.

Terminal Bench 2.0 69.7점, 프런티어 모델을 압도한 지표

개발팀이 공개한 수치는 여기서 갈린다. Qwen3.7-Max는 Terminal Bench 2.0-Terminus(터미널 환경의 에이전트 성능 측정 지표)에서 69.7점을 기록했다. 이는 경쟁 모델인 DS-V4-Pro Max가 기록한 67.9점을 상회하는 수치다. SWE-Verified(소프트웨어 엔지니어링 검증 벤치마크)에서는 80.4점을 기록하며 Opus-4.6 Max의 80.8점 및 DS-V4-Pro Max의 80.6점과 대등한 수준에 올라섰다. SWE-Pro 60.6점과 SciCode(과학 코드 생성 벤치마크) 53.5점을 기록하며 코딩 에이전트로서의 실무 역량을 증명했다. 기존의 프런티어 모델들이 점유하던 코딩 지형에 실질적인 균열이 생긴 지점이다. 개발자가 체감하는 코드 생성 능력이 단순 보조를 넘어 자율 실행 단계로 진입했음을 시사한다.

추론 영역의 지표는 더욱 공격적이다. GPQA Diamond(박사급 수준의 고난도 과학 추론 벤치마크)에서 92.4점을 기록해 Opus-4.6의 91.3점을 앞질렀다. HLE(고난도 추론 평가)에서도 41.4점을 기록하며 Opus-4.6의 40.0점을 넘어섰다. HMMT 2026 Feb(수학적 추론 및 문제 해결 벤치마크)에서는 97.1점을 기록해 Opus-4.6의 96.2점을 상회했다. 단순한 패턴 매칭이 아니라 복잡한 논리 구조를 스스로 설계하는 추론 능력이 최상위 모델 수준으로 올라왔음을 의미한다. 이는 고부가가치 지식 노동의 자동화라는 비즈니스 임팩트로 직결된다. 추론의 정밀도가 높아질수록 에이전트가 수행할 수 있는 작업의 복잡도는 기하급수적으로 상승한다.

다국어 처리와 지시 이행 성능에서도 우위를 점했다. IFBench(정밀 지시 따르기 벤치마크)에서 79.1점을 기록하며 DS-V4-Pro의 77.0점을 넘었다. WMT24++(XCOMET-XXL 평균 점수를 사용하는 고난도 번역 벤치마크)에서는 85.8점을 기록했다. MAXIFE(영어 및 다국어 프롬프트 23개 설정의 정확도를 측정하는 지표)에서는 89.2점을 달성했다. 언어의 장벽을 낮추는 동시에 사용자의 세밀한 요구사항을 정확히 반영하는 제어력을 확보했다. 이는 글로벌 시장을 겨냥한 에이전트 서비스의 전략적 포석으로 읽힌다. 다국어 환경에서의 일관된 성능은 특정 지역에 국한되지 않는 범용 에이전트로서의 확장성을 보장한다.

모델의 단순한 체급 증가가 아니라 에이전트 최적화의 결과가 이러한 지표 상승을 견인했다. Alibaba Cloud Model Studio를 통해 제공될 API는 이러한 성능을 실제 비즈니스 환경으로 전이시킨다. 호환 모드 API 기본 URL인 https://dashscope-intl.aliyuncs.com/compatible-mode/v1 을 통해 프런티어 급의 추론과 코딩 역량을 즉시 호출할 수 있다. 기업들은 이제 특정 벤더의 독점적 지위가 아닌 객관적 성능 기반의 모델 선택권을 갖게 된다. 이는 AI 인프라 시장의 판도를 바꾸는 실질적인 위협이자 새로운 기회다. 기술적 우위가 곧 시장의 지배력으로 이어지는 에이전트 경쟁 시대의 서막이다.

'교차 하네스 RL'과 환경 스케일링이 구축한 일반화 지형

학습 인스턴스를 Task(작업), Harness(실행 환경), Verifier(검증자)라는 세 가지 직교 구성요소로 완전히 분리했다. 기존 모델들이 특정 벤치마크의 정답 경로를 외우는 지름길 학습에 매몰된 것과 대조적인 접근이다. 서로 다른 하네스와 검증자를 무작위로 조합해 학습시키는 교차 하네스 및 교차 검증자 RL(강화학습) 구조를 도입했다. 모델은 특정 환경의 특수한 패턴이 아니라 문제 해결을 위한 범용적 전략을 학습하도록 강제된다. 이러한 분리 설계는 합성 프록시가 아닌 실제 현실 환경에 기반한 조합적 스케일링을 가능하게 한다. 결과적으로 특정 벤치마크에 과적합되지 않는 일반화 지형을 구축했다.

학습 과정에서 단 한 번도 접하지 않은 T-Head ZW-M890 PPU(프로세싱 퓨닛) 장착 인스턴스에서 이러한 일반화 역량이 극명하게 드러났다. 사전 프로파일링 데이터나 하드웨어 문서, 예제 커널조차 없는 백지 상태에서 최적화를 시작했다. 빈 작업공간에는 오직 작업 설명과 기존 SGLang 구현체, 평가 스크립트만 제공됐다. 35시간의 연속 자율 실행 동안 1,158회의 도구 호출과 432회의 커널 평가를 수행하며 스스로 진화했다. 컴파일 실패를 진단하고 정합성 버그를 수정하며 런타임 프로파일링 기반의 병목 식별을 자체적으로 수행했다. 이는 암기된 하드웨어 지식이 아니라 실시간 피드백을 기반으로 커널 아키텍처를 재설계하는 인컨텍스트 일반화의 실체다.

최적화 궤적은 단순 수정을 넘어 아키텍처 수준의 재설계로 이어졌다. 우선 Split-KV 병렬화를 통해 prefix KV-cache를 여러 스레드 블록으로 나누고 online softmax rescaling 기반의 reduction 커널을 도입했다. 이후 매 호출마다 발생하는 cudaMalloc과 cudaFree를 사전 할당된 torch::empty 텐서로 대체하고 내부 루프를 2배 언롤링해 오버헤드를 제거했다. 이어 고정 split divisor를 워크로드 크기 기반 휴리스틱으로 전환하며 36-SM 아키텍처의 SM wave occupancy(스트리밍 멀티프로세서 파동 점유율)를 극대화했다. 마지막으로 블록당 4개 쿼리 토큰을 동시에 처리하고 K/V 로드를 공유하는 MTP(멀티 토큰 예측) 특화 커널을 도입해 정점을 찍었다. 최종적으로 Triton 기준 기하평균 10.0배의 속도 향상을 기록했다. GLM 5.1의 7.3배, DeepSeek V4 Pro의 3.3배와 비교하면 기술적 격차가 뚜렷하다.

YC-Bench 매출 208만 달러, '자율 기업 운영'의 비즈니스 임팩트

YC-Bench(스타트업 1년 생애주기 시뮬레이션)에서 Qwen3.7-Max가 기록한 총매출은 208만 달러다. 이는 전작인 Qwen3.6-Plus가 달성한 105만 달러보다 2배 높은 수치다. 단순한 텍스트 생성을 넘어 인력 관리와 계약 검토, 악성 고객 식별 같은 경영 의사결정을 자율적으로 수행한 결과다. AI가 코딩 보조 도구에서 기업 운영의 실무 주체로 진화하며 비즈니스 운영 지형을 바꾸고 있다. 특히 상승하는 인건비 속에서도 이익률을 유지하며 237개의 작업을 완수한 점은 실무적 가치가 크다. 잠재 고객 탐색과 블랙리스트 등록, 안정적 수익원 우선순위화는 물론 중기 위기 상황에서의 자율 회복까지 수행했다. 최종적으로 안정적이고 고효율인 실행 루프로 수렴하며 자율 기업 운영의 상용화 포석을 놨다.

소프트웨어를 넘어 물리적 하드웨어 제어로 에이전트의 활동 영역이 확장된다. Qwen-RobotClaw(로보틱스 에이전트 하네스)와 Qwen-RobotNav(내비게이션 기반 모델)를 통해 사족보행 로봇 개를 직접 조작하는 단계에 진입했다. 물리적 환경에서의 이해와 계획, 메모리, 의사결정을 통합 수행하며 로봇 제어의 진입 장벽을 낮췄다. 20분 동안 이어지는 도구 호출 상호작용 흐름과 1인칭 시야 기반의 궤적 제어, 장기 메모리 활용 능력을 동시에 보여준다. 이는 AI 에이전트가 디지털 환경의 생산성 도구에 머물지 않고 제조 및 물류 현장의 실질적 운영체제로 작동할 수 있음을 의미한다. 하드웨어 최적화 역량과 결합된 자율 제어 능력은 산업 현장의 자동화 판도를 근본적으로 바꿀 변수다.

개발 생태계 통합을 통한 시장 점유 전략은 매우 공격적이다. 전용 도구인 Qwen Code는 다음 명령어로 즉시 설치하여 실행할 수 있다.

bash

npm install -g @qwen-code/qwen-code@latest

기존 에이전트 프레임워크와의 호환성 확보로 기업의 전환 비용을 최소화했다. Claude Code(클로드 코드) 통합 시에는 `ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic` 설정을 통해 연결한다. OpenClaw(오픈클로) 사용자는 `~/.openclaw/openclaw.json` 파일 내에서 `modelstudio/qwen3.7-max`를 기본 모델로 지정하고 `reasoning true`를 설정해 고도화된 추론 능력을 끌어낸다. 특히 이전 턴의 사고 내용을 메시지에 보존하는 `preserve_thinking` 기능은 수천 단계의 장기 작업에서 컨텍스트 유실을 막는 핵심 장치다. 이는 전문 팀이 1~2주 걸릴 프로젝트를 단 몇 시간 만에 완료하는 end-to-end 생산성 혁신으로 이어진다. 표준 프로토콜 지원과 결합된 이러한 기술적 배치는 기업용 AI 에이전트 시장의 주도권을 쥐려는 전략적 포석이다.

35시간 자율 최적화로 증명한 Qwen3.7-Max, '에이전트 프런티어'의 개막

Terminal Bench 2.0 69.7점, 프런티어 모델을 압도한 지표

'교차 하네스 RL'과 환경 스케일링이 구축한 일반화 지형

YC-Bench 매출 208만 달러, '자율 기업 운영'의 비즈니스 임팩트

관련 기사