Qwen3.6-27B 27B 밀집 모델과 preserve_thinking 옵션

이번 주에 에이전트형 코딩을 돌리다 보면, “이전 턴에서 했던 판단을 다음 턴에서도 그대로 써야 하는데” 매번 다시 추론하는 느낌이 듭니다. 특히 리포지토리 단위로 파일을 여러 번 고치고 검증까지 반복할 때, 토큰이 빨리 소모되고 KV 캐시 효율도 흔들리는 문제가 같이 따라옵니다.

Alibaba Qwen 팀은 Qwen3.6-27B를 공개했는데, Qwen3.6 계열에서 처음으로 “dense(밀집)” 오픈웨이트를 내놓은 모델입니다. 라이선스는 Apache 2.0이며, 에이전트형 코딩(agentic coding) 성능 개선과 Thinking Preservation 메커니즘, 그리고 하이브리드 아키텍처를 포함합니다. Qwen3.6-27B는 Qwen3.6-35B-A3B(희소 MoE, 활성 파라미터 3B) 공개 이후 몇 주 뒤에 나왔고, Qwen3.6 계열의 두 번째 모델이면서 첫 fully dense 변형입니다.

이번 릴리스에서 먼저 확인되는 건 “27B 밀집이 더 큰 MoE를 일부에서 이긴다”는 사실입니다. Qwen 팀은 Qwen3.6-27B가 여러 핵심 벤치마크에서 Qwen3.6-35B-A3B와 더 큰 Qwen3.5-397B-A17B MoE를 능가한다고 설명합니다. 또한 이번 공개는 벤치마크 최적화만을 목표로 하기보다, 커뮤니티 피드백을 반영해 “stability and real-world utility”를 우선했다고 밝힙니다.

개발자가 바로 체감하는 변화는 두 갈래로 나뉩니다. 하나는 에이전트형 코딩에서 리포지토리 수준 추론과 프론트엔드 작업 흐름을 더 잘 처리하도록 최적화됐다는 점이고, 다른 하나는 API 옵션으로 대화 이력의 사고 흔적을 이어서 쓸 수 있다는 점입니다.

Hugging Face에 올라온 BF16/FP8 가중치와 추론 호환

Qwen 팀은 Hugging Face Hub에 가중치 2가지를 올렸습니다. 첫째는 BF16 버전인 Qwen/Qwen3.6-27B이고, 둘째는 양자화된 Qwen/Qwen3.6-27B-FP8입니다. FP8은 fine-grained FP8 quantization을 쓰며 block size는 128로 지정됩니다. 성능 지표는 원본 모델과 “거의 동일”하다고 설명합니다.

또한 Qwen3.6-27B는 SGLang(>=0.5.10), vLLM(>=0.19.0), KTransformers, Hugging Face Transformers와 호환됩니다. 즉, 기존에 이들 런타임을 쓰던 팀이라면 모델 교체가 코드 레벨에서 크게 어렵지 않을 가능성이 큽니다.

Agentic Coding: 프론트엔드/리포지토리 추론 벤치에서 수치 상승

Agentic Coding은 첫 번째 큰 업그레이드로, 프론트엔드 워크플로와 리포지토리 단위 추론을 처리하도록 최적화됐다고 명시합니다. 이때 요구되는 작업은 큰 코드베이스 이해, 파일 구조 탐색, 여러 파일에 걸친 편집, 그리고 일관된 실행 가능한 출력 생성입니다.

QwenWebBench(내부 EN/CN 이중 언어 프론트엔드 코드 생성 벤치)에서 Qwen3.6-27B 점수는 1487입니다. 같은 벤치에서 Qwen3.5-27B는 1068, Qwen3.6-35B-A3B는 1397로 제시됩니다. NL2Repo(리포지토리 수준 코드 생성)에서는 Qwen3.6-27B가 36.2, Qwen3.5-27B가 27.3을 기록합니다.

SWE-bench Verified(자율 소프트웨어 엔지니어링 에이전트의 커뮤니티 표준)에서는 77.2에 도달했으며, Qwen3.5-27B의 75.0에서 상승했습니다. 또한 Claude 4.5 Opus의 80.9와 비교해 “경쟁 구도”에 있다고 설명합니다.

Thinking Preservation: chat_template_kwargs로 대화 전 사고 유지

Thinking Preservation는 두 번째 업그레이드이며, 구조적으로도 더 눈에 띄는 추가입니다. 일반적으로 대부분의 LLM은 현재 사용자 메시지에 대해 생성된 chain-of-thought(사고 과정)만 유지하고, 이전 턴의 추론은 버립니다.

Qwen3.6에서는 “preserve_thinking” 옵션을 새로 제공합니다. API에서 다음처럼 chat_template_kwargs를 설정하면, 대화 전체에 걸친 historical messages의 thinking traces를 보존하고 활용할 수 있습니다.

{"preserve_thinking": true}

이 차이는 반복형 에이전트 워크플로에서 실무적으로 큽니다. 이전 턴에서 이미 만든 추론 맥락을 다음 턴이 다시 처음부터 재도출하지 않게 되며, 그 결과 전체 토큰 소비를 줄이고 KV cache 활용도 개선될 수 있다고 설명합니다.

하이브리드 아키텍처: Gated DeltaNet + Gated Attention, MTP, 컨텍스트 확장

Qwen3.6-27B는 Causal Language Model이며 Vision Encoder를 포함해 텍스트, 이미지, 비디오 입력을 네이티브 멀티모달로 지원합니다. 학습은 pre-training과 post-training 두 단계로 이뤄졌다고 밝힙니다.

모델 스펙은 27B 파라미터, 64개 레이어, hidden dimension 5120, 토큰 임베딩 공간 248,320(padded)입니다. 레이어 구성은 16개의 반복 패턴으로, 각 블록은 3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN) 형태를 갖습니다. 즉, 서브레이어 4개 중 3개는 Gated DeltaNet(선형 attention 계열)을 쓰고, 1개만 표준 Gated Attention을 사용합니다.

Gated DeltaNet은 전통적 self-attention이 토큰 쌍 관계를 모두 계산해 O(n²)로 커지는 비용을 갖는 반면, DeltaNet 같은 선형 attention은 O(n) 복잡도로 근사해 더 빠르고 메모리 효율이 높다는 점을 전제로 합니다. Gated DeltaNet은 여기에 gating 메커니즘을 얹어, LSTM 게이팅처럼 “업데이트할지/유지할지”를 학습한다고 설명합니다.

Qwen3.6-27B에서 Gated DeltaNet 서브레이어는 V(값)에 48개의 선형 attention 헤드, QK(쿼리/키)에 16개의 헤드를 쓰며 head dimension은 128입니다. 반면 Gated Attention 서브레이어는 Q에 24개 헤드, KV에는 4개 헤드만 사용해 추론 시 KV 캐시 메모리를 줄이는 설정입니다. 이 레이어의 head dimension은 256이고, RoPE(Rotary Position Embedding, 회전형 위치 인코딩)를 rotation dimension 64로 적용합니다. FFN 중간 차원은 17,408입니다.

또한 Multi-Token Prediction(MTP)를 사용하며, multi-steps로 학습해 추론 시 speculative decoding(여러 후보 토큰을 동시에 생성하고 병렬로 검증)을 가능하게 해 처리량을 높이되 품질을 해치지 않는다고 설명합니다.

컨텍스트 길이는 262,144 토큰을 기본으로 지원합니다. 이보다 긴 작업에는 YaRN(또 다른 RoPE 확장) 스케일링을 지원하며 최대 1,010,000 토큰까지 확장 가능하다고 안내합니다. Qwen 팀은 thinking 능력을 보존하려면 컨텍스트를 최소 128K 토큰으로 유지하라고 권고합니다.

에이전트/추론 벤치에서의 구체 수치

에이전트 코딩 벤치에서 Qwen3.5-27B 대비 개선 폭이 크게 제시됩니다. SWE-bench Pro에서 Qwen3.6-27B는 53.5로, Qwen3.5-27B의 51.2와 Qwen3.5-397B-A17B의 50.9보다 높습니다. SWE-bench Multilingual은 71.3 대 69.3으로 상승했습니다. Terminal-Bench 2.0은 3시간 타임아웃, 32 CPUs, 48 GB RAM 조건에서 59.3을 기록해 Claude 4.5 Opus와 동일하다고 하며, Qwen3.6-35B-A3B(51.5)보다 앞선다고 제시합니다.

SkillsBench Avg5에서는 48.2 대 27.2로 가장 큰 상승이 나타났다고 설명하며, 상대 개선률을 77%로 계산해 제시합니다. 또한 Qwen3.6-35B-A3B의 28.7보다도 높다고 밝힙니다.

추론 벤치에서는 GPQA Diamond가 87.8(85.5에서 상승), AIME26이 94.1(92.6에서 상승), LiveCodeBench v6가 83.9(80.7에서 상승)로 보고됩니다.

결국 Qwen3.6-27B는 “밀집 27B로도 에이전트형 코딩에서 큰 모델과 경쟁”하는 쪽에 무게를 두면서, preserve_thinking 옵션으로 반복 에이전트의 토큰/캐시 병목까지 같이 건드리려는 설계로 읽힌다.