38.1%. Humanity’s Last Exam이라는 고난도 지식 벤치마크에서 Qwen3.7-Max(알리바바의 LLM 시리즈인 Qwen의 최신 모델)가 기록한 정답률이다. 전작의 28.9%를 훌쩍 뛰어넘어, AI가 인간의 최후 보루라 불리는 전문 지식 영역에서 정답률을 비약적으로 끌어올린 셈이다. 그런데 지금 개발자 커뮤니티가 진짜 뜨겁게 반응하는 지점은 단순히 벤치마크 점수 몇 점 올린 것에 있지 않다.

지금 깃허브와 X(구 트위터)에서는 알리바바의 이번 행보를 두고 '추론 모델의 체급 싸움이 이제야 제대로 시작됐다'는 분석이 쏟아지고 있다. 단순히 다음 단어를 예측하는 확률적 생성을 넘어, 스스로 계획을 세우고 검토하며 경로를 수정하는 '에이전트'로서의 정체성을 명확히 했기 때문이다. 특히 100만 토큰이라는 거대한 컨텍스트 윈도우와 '생각하는 시간'을 갖는 추론 메커니즘이 결합하면서, 수천 단계의 도구 호출이나 대규모 코드 저장소 전체를 한 번에 읽고 수정하는 작업이 가능해졌다는 점에 실무자들이 주목하고 있다. 과연 이 모델이 기존의 추론 강자들을 밀어내고 실무 워크플로우의 중심이 될 수 있을지, 그 기술적 실체와 논쟁의 핵심을 짚어본다.

2026년 5월 20일, 100만 토큰의 추론 플래그십 Qwen3.7-Max 등장

개발자가 가장 먼저 체감하는 변화는 컨텍스트 윈도우의 크기다. 2026년 5월 20일 알리바바 클라우드 서밋(Alibaba Cloud Summit)에서 공개된 Qwen3.7-Max는 전작인 Qwen3.6 Max Preview의 256K에서 무려 100만(1M) 토큰으로 창을 넓혔다. 이는 중간 규모의 코드 저장소 전체를 한 번의 요청에 밀어 넣을 수 있는 수준이다. 알리바바는 이번에 텍스트 전용 추론 플래그십인 Qwen3.7-Max와 함께 비전 및 멀티모달을 지원하는 밸런스 버전인 Qwen3.7-Plus-Preview를 동시에 선보였다.

커뮤니티에서는 이 모델이 단순한 텍스트 생성을 넘어 추론 엔진으로서 어떻게 작동하는지에 주목한다. Qwen3.7-Max는 최종 답변을 내놓기 전 내부적으로 계획을 세우고 검토하며 경로를 수정하는 생각의 사슬(Chain of Thought) 과정을 거친다. 큐웬 챗(Qwen Chat) 인터페이스의 씽킹(Thinking) 모드를 켜면 이 추론 흔적을 실시간으로 확인할 수 있다. 이러한 추론 특성 때문에 Artificial Analysis Intelligence Index 평가에서 일반 모델들이 평균 2,400만 개의 토큰을 생성할 때 Qwen3.7-Max는 약 9,700만 개의 토큰을 생성하며 깊은 사고 과정을 수행했다.

수치상의 성적표는 꽤 뜨겁다. Qwen3.7-Max는 Artificial Analysis Intelligence Index에서 56.6점을 기록하며 전체 5위에 올랐다. 전작의 51.8점에서 4.8점 상승한 수치이며 구글의 제미나이 3.5 플래시(Gemini 3.5 Flash)가 기록한 55.3점을 앞질렀다. LM Arena 순위에서는 Qwen3.7-Max-Preview가 텍스트 부문 13위, Qwen3.7-Plus-Preview가 비전 부문 16위를 기록했다. 특히 CritPt가 3.7%에서 13.4%로, Humanity’s Last Exam이 28.9%에서 38.1%로 급등하며 과학적 추론과 코딩 능력이 비약적으로 성장했다는 평가가 나온다.

다만 개발자들 사이에서는 팩트 리콜 능력에 대한 논쟁이 벌어지고 있다. AA-Omniscience 벤치마크에서 정답률은 7.6%포인트 하락했지만 환각률은 21.3%포인트 감소했다는 점이 핵심이다. 모델이 억지로 답을 지어내기보다 모르는 것을 모른다고 답하는 경향이 강해졌으며, 실제로 답변 시도율이 67.3%에서 48.0%로 떨어졌다. 이는 광범위한 사실 관계 확인이 필요한 작업에서는 제약이 될 수 있지만, 정밀한 추론이 필요한 엔지니어링 작업에서는 오히려 신뢰도를 높이는 요소로 읽힌다. 알리바바의 내부 테스트에서는 1,000회 이상의 도구 호출과 반복적인 코드 수정을 통해 커널 최적화를 수행하며 추론 속도를 10배나 끌어올렸다는 결과까지 더해져 현장의 기대감을 높이고 있다.

'Thinking' 모드와 9,700만 토큰의 사고 과정

개발자가 Qwen Chat 인터페이스에서 가장 먼저 마주하는 변화는 'Thinking' 모드 스위치다. 이 스위치를 켜면 모델이 최종 답변을 내놓기 전 내부적으로 어떤 고민을 했는지 보여주는 추론 추적(Reasoning Trace) 과정이 그대로 노출된다. 단순히 확률적으로 다음 단어를 예측하는 기존 방식에서 벗어나 체인 오브 쏘트(Chain of Thought, CoT) 메커니즘을 통해 스스로 계획을 세우고, 중간 결과물을 점검하며, 오류가 발견되면 즉시 경로를 수정하는 내부 루프를 수행한다. 이는 모델이 한 번의 추론으로 답을 내는 것이 아니라 가설을 세우고 검증하는 과정을 반복하며 정답에 수렴하는 구조다. 커뮤니티에서는 모델이 단순히 정답을 맞혔느냐보다 어떤 논리 전개 과정을 거쳐 결론에 도달했는지를 투명하게 확인할 수 있다는 점에 주목하며 뜨거운 반응을 보이고 있다.

이 사고 과정의 깊이는 토큰 생성량이라는 수치에서 극명하게 드러난다. Artificial Analysis(인공지능 성능 분석 전문 기관)의 평가에 따르면 Qwen3.7-Max는 약 9,700만 토큰을 생성하며 압도적인 수치를 기록했다. 비교 대상이 된 다른 모델들의 평균 생성량이 2,400만 토큰 수준인 것과 대조하면 거의 4배에 달하는 분량이다. 단순한 질문에도 이렇게 많은 토큰을 소모하는 것은 불필요한 지연 시간을 초래한다는 비판이 나오지만, 복잡한 코드 리팩토링이나 다단계 에이전트 체인처럼 고도의 추론이 필요한 작업에서는 이 정도의 사고 공간이 필수적이라는 분석이 팽팽하게 맞선다. 특히 짧고 단순한 작업에서는 이러한 오버헤드가 응답 속도를 늦추는 요소가 되지만, 정교한 설계가 필요한 엔지니어링 영역에서는 이 생각하는 시간이 곧 결과물의 품질로 직결된다는 점이 논쟁의 핵심이다.

실제 구동 능력은 알리바바가 공개한 내부 테스트 결과에서 구체화된다. 신규 칩 플랫폼 환경에서 진행된 테스트에서 이 모델은 1,000회 이상의 도구 호출과 반복적인 코드 수정을 자율적으로 수행하며 핵심 커널 최적화를 완수했다. 사람이 일일이 개입해 수정 방향을 지시하지 않아도 모델이 스스로 코드를 작성하고 실행하며 오류를 잡는 과정을 수천 단계까지 밀어붙인 결과다. 이를 통해 이전 버전 대비 추론 속도를 약 10배나 향상시키는 성과를 냈다고 밝혔다. 개발자들 사이에서는 단순한 챗봇의 수준을 넘어 스스로 최적화 도구를 운용하는 자율 에이전트로서의 실질적인 구현 가능성이 이번 'Thinking' 모드의 핵심이라는 평가가 지배적이다.

Gemini 3.5 Flash를 넘고 GPT-5.5를 쫓는 지능 지수

개발팀이 공개한 수치는 여기서 갈린다. Artificial Analysis(인공지능 성능 분석 플랫폼)의 지능 지수에서 Qwen3.7-Max는 56.6점을 기록하며 구글의 Gemini 3.5 Flash(55.3점)를 확실하게 제쳤다. 이제 커뮤니티의 시선은 최상위권에 포진한 Claude Opus 4.7(57.3점)과 GPT-5.5(60.2점)로 향한다. 개발자들 사이에서는 알리바바가 예상보다 빠르게 최상위 모델들의 턱밑까지 추격했다는 반응이 뜨겁다. 단순히 벤치마크 점수 몇 점의 차이가 아니라, 추론 엔진의 체급 자체가 한 단계 격상되었다는 분석이 지배적이다. 특히 오픈 소스 기반의 계보를 잇는 모델이 폐쇄형 플래그십 모델들을 이토록 바짝 쫓는 상황에 대해 놀라움과 경계심이 교차하고 있다.

세부 지표를 뜯어보면 과학적 추론과 코딩 영역의 상승폭이 특히 가파르다. 고난도 지식 평가인 Humanity’s Last Exam은 28.9%에서 38.1%로 뛰었고, 비판적 사고를 측정하는 CritPt(비판적 포인트 벤치마크)는 3.7%에서 13.4%로 수직 상승했다. 개발자들이 가장 민감하게 반응하는 Terminal-Bench Hard(터미널 환경 코딩 벤치마크) 역시 43.9%에서 50.8%로 올라서며 실무 적용 가능성을 높였다. GDPval-AA 점수 또한 1504에서 1546 Elo로 상승하며 전반적인 지능의 밀도를 촘촘하게 메꿨다. 복잡한 수식이나 꼬인 코드를 풀어내는 능력이 비약적으로 좋아졌다는 평가가 나오는 이유이며, 이는 단순한 최적화를 넘어선 아키텍처의 진화로 읽힌다.

반면 사실 관계 회상 능력에서는 묘한 기류가 흐른다. AA-Omniscience(범용 지식 측정 지표) 결과를 보면 정확도가 37.7%에서 30.1%로 오히려 하락했다. 답변 시도율 또한 67.3%에서 48.0%로 급감하며 비교 대상인 프런티어 모델들 중 가장 낮은 수치를 기록했다. 하지만 여기서 주목할 지점은 환각률의 변화다. 44.2%에 달했던 환각률이 22.9%로 크게 떨어졌다. 이는 모델이 모르는 내용을 억지로 지어내어 답변하기보다, 불확실한 정보에 대해서는 차라리 모른다고 답하는 보수적인 태도를 선택했음을 의미한다. 무조건적인 정답 제시보다 정직한 거절을 택한 셈이다.

현재 개발자 커뮤니티에서는 이를 두고 지능의 방향성이 바뀌었다는 논쟁이 뜨겁다. 과거의 모델들이 어떻게든 답을 내놓는 정답률 경쟁에 매몰되었다면, 이제는 신뢰할 수 있는 답변만을 내놓는 정교함과 안정성에 집중하고 있다는 분석이다. 사실 관계를 단순히 암기해서 뱉어내는 능력은 다소 줄었을지 몰라도, 논리적 추론의 정확도를 높여 실질적인 워크플로우에서의 신뢰도를 극대화하려는 전략으로 보인다. 결국 맹목적인 지식의 양보다는 추론의 질과 정직함을 선택한 결과가 수치로 드러난 것이며, 이는 에이전트 모델로서 가져야 할 가장 중요한 덕목인 신뢰성 확보라는 관점에서 긍정적인 신호로 해석된다.

대규모 코드 저장소 통째로 읽는 에이전트의 실무 영향

예전에는 개발자가 직접 코드를 쪼개서 프롬프트에 넣거나 RAG(검색 증강 생성) 설정을 잡느라 시간을 다 썼다. 하지만 100만 토큰의 컨텍스트 창이 열리면서 중소 규모의 코드 저장소 전체를 단 한 번의 요청으로 밀어 넣는 것이 가능해졌다. 이제는 모델에게 어느 파일을 읽어야 할지 일일이 알려주는 대신 프로젝트 전체를 읽고 문제를 해결하라고 명령하는 시대로 바뀌었다. 커뮤니티에서는 파일 단위의 질의응답이 아니라 프로젝트 전체의 구조를 파악해 리팩토링하는 수준의 작업이 실시간으로 가능해졌다는 반응이 뜨겁다. 단순한 챗봇을 넘어 코드베이스 전체를 이해하고 스스로 수정 경로를 찾는 자율적 에이전트의 실무 적용 가능성이 눈앞에 다가온 셈이다.

여기에 추론 능력이 결합되면서 작업의 결이 완전히 달라졌다. 모델이 최종 답변을 내놓기 전 스스로 계획을 세우고 검토하며 경로를 수정하는 체인 오브 소트(Chain of Thought, 사고의 사슬) 과정을 거치기 때문이다. 다단계 수학 증명이나 복잡한 코드 리팩토링처럼 호흡이 긴 태스크 체인에서 진가가 드러난다. 실제로 알리바바 내부 테스트에서는 1,000회가 넘는 도구 호출과 반복적인 코드 수정을 통해 커널 최적화를 수행했고, 이전 버전 대비 추론 속도를 약 10배 끌어올렸다는 결과가 나왔다. 개발자들은 이제 단순한 코드 생성이 아니라 아키텍처 수준의 설계 변경을 에이전트에게 맡길 수 있다는 점에 주목하고 있다.

다만 모든 작업에 이 방식이 정답은 아니라는 논쟁도 치열하다. 추론 모델 특성상 내부적으로 생성하는 토큰 양이 압도적으로 많기 때문이다. 벤치마크 결과 Qwen3.7-Max는 일반 모델들이 평균 2,400만 토큰을 생성할 때 약 9,700만 토큰을 쏟아냈다. 짧은 수정이나 단순 분류 작업에 이 모델을 쓰면 정답률은 비슷해도 응답 지연 시간(Latency)과 비용만 크게 늘어나는 비효율이 발생한다. 특히 비용 민감도가 높은 스타트업 개발팀에서는 추론 토큰으로 인한 청구 금액 폭탄을 우려하는 목소리가 높다. 실무자들 사이에서는 무조건적인 최신 모델 사용보다는 태스크의 복잡도에 따라 추론 모드를 선택적으로 켜고 끄는 전략이 필수적이라는 의견이 지배적이다.

현재 이 모델은 알리바바 클라우드 모델 스튜디오(DashScope, 대시스코프)를 통해 제공된다. API 호출 시 모델명은 text qwen3.7-max 를 사용하며, 국제 접근 엔드포인트는 dashscope-intl.aliyuncs.com이다. 가격은 아직 공식 발표 전이지만, 전작인 Qwen3.6 Max Preview 기준 100만 토큰당 입력 1.30달러, 출력 7.80달러 수준이었다. 대규모 컨텍스트와 깊은 추론 능력을 동시에 활용해야 하는 고난도 프로젝트라면 비용 상승을 감수하더라도 도입할 가치가 충분하다는 평가가 나온다.

한국 AI 실무자가 주목할 '정답보다 정직한' 모델의 가치

개발자 커뮤니티에서 모델의 성능을 논할 때 흔히 범하는 실수는 벤치마크 점수만 보고 '똑똑함'을 단정 짓는 것이다. 하지만 이번 Qwen3.7-Max의 지표를 뜯어본 실무자들 사이에서는 정답률보다 '거절의 미학'이 더 뜨거운 감자로 떠오르고 있다. AA-Omniscience 벤치마크 결과, 이 모델의 답변 시도율은 48.0%까지 떨어졌다. 이전 버전이 67.3%의 시도율을 보였던 것과 비교하면, 모르는 질문에 대해 무리하게 환각을 생성하기보다 '모른다'고 답하는 빈도가 압도적으로 높아진 셈이다. 이는 기업용 AI 도입을 고민하는 현장에서 가장 반기는 변화다. 근거 없는 자신감으로 가득 찬 모델보다, 불확실한 정보를 걸러낼 줄 아는 모델이 실무 환경에서는 훨씬 더 신뢰할 수 있는 도구이기 때문이다.

물론 100만 토큰이라는 거대한 컨텍스트 윈도우는 매력적인 수치다. 하지만 한국의 엔지니어들은 이 숫자를 그대로 믿지 않는다. 100만 토큰을 꽉 채웠을 때 실제로 얼마나 정확하게 정보를 인출(Retrieval)하는지에 대한 독립적인 검증이 선행되어야 한다는 목소리가 높다. 단순히 긴 문서를 넣을 수 있다는 사실이 곧 고품질의 추론을 보장하지는 않기 때문이다. 따라서 실무자들은 공식 문서를 맹신하기보다, 각자의 워크로드에 맞춰 직접 테스트하는 방식을 권장한다. 특히 단순한 프롬프트보다는 모호한 전문가 질문이나 복잡한 코드 리팩토링 요청을 던져 모델이 얼마나 논리적으로 사고의 흐름을 전개하는지 확인하는 것이 핵심이다.

지금 현장에서 가장 권장하는 검증 방식은 '가장 어려운 과제'를 모델에게 던져보는 것이다. 단순히 벤치마크 점수를 확인하는 수준을 넘어, 실제 사내 프로젝트의 복잡한 코드베이스를 투입해 수백 단계의 에이전트 체인을 수행하게 만들어야 한다. 특히 Qwen3.7-Max가 채택한 '생각하는 모드'는 토큰 소모량과 응답 속도 면에서 비용을 발생시키지만, 고도의 논리적 판단이 필요한 경우에는 필수적인 기능이다. 공식 정보처인 qwen.ai/blog를 통해 업데이트되는 기술적 세부 사항을 확인하되, 결국 모델의 가치는 여러분의 실제 업무 환경에서 얼마나 정직하고 일관되게 답하느냐에 달려 있다. 지금 당장 여러분의 가장 까다로운 리팩토링 과제를 이 모델에 던져보고, 그 정직함이 실무의 생산성으로 이어질지 직접 판단해 보길 바란다.