Qwen3.6-35B-A3B, 30억 파라미터 활성화로 추론 속도 2배 높였다

늦은 밤, 집 안의 작은 작업실.

모니터 속 로컬 LLM이 코드를 한 줄씩 느릿하게 뱉어내는 장면을 멍하니 바라본다.

이 지루한 기다림의 시간이 곧 바뀐다.

Qwen3.6-35B-A3B의 설계와 MTP 기술

Qwen3.6-35B-A3B는 인과적 언어 모델(이전 단어를 바탕으로 다음 단어를 예측하는 모델)에 비전 인코더(이미지 정보를 해석하는 장치)를 결합한 구조다. 이 모델의 핵심은 Mixture of Experts(여러 전문가 모델을 섞어 필요한 부분만 활성화하는 방식)를 채택했다는 점이다. 전체 파라미터는 350억 개에 달하지만 실제 연산 시에는 30억 개의 파라미터만 활성화한다. 비유하자면 350명의 전문가가 대기하고 있지만, 질문이 들어오면 딱 맞는 전문가 30명만 불러내어 답을 내는 식이다.

내부적으로는 Gated DeltaNet(선형 주의 집중 메커니즘을 통해 연산량을 줄인 구조)과 Gated Attention(특정 정보에 집중하여 문맥을 파악하는 장치)을 혼합 배치했다. 여기에 MTP(Multi-Token Prediction, 한 번에 여러 토큰을 예측해 속도를 높이는 기술)를 도입해 텍스트 생성 속도를 기존 대비 약 1.5배에서 2배까지 끌어올렸다. 기본적으로 262,144개의 토큰(텍스트를 처리하는 최소 단위)을 처리할 수 있으며 최대 1,010,000개까지 확장 가능하다.

구동 환경은 Hugging Face Transformers뿐만 아니라 vLLM(고속 LLM 추론 엔진), SGLang(구조화된 언어 생성을 위한 프레임워크), KTransformers(대규모 모델의 효율적 실행 도구) 등 다양하게 지원한다. MTP 기능을 활용해 속도를 높이려면 llama.cpp (LLM을 로컬에서 실행하게 돕는 C++ 라이브러리)를 다음과 같이 빌드하고 실행해야 한다.

bash

apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone -b mtp-clean https://github.com/am17an/llama.cpp.git
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

bash
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF"
./llama.cpp/llama-server \
 -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \
 -ngl 99 -c 8192 -fa on -np 1 \
 --spec-type mtp --spec-draft-n-max 2

코딩 에이전트 성능과 실무 적용

SWE-bench Verified(실제 소프트웨어 공학 문제를 해결하는 능력 측정 지표) 수치를 보면 성능 향상이 뚜렷하다. Qwen3.6-35B-A3B는 73.4점을 기록하며 이전 버전인 Qwen3.5-35B-A3B의 70.0점과 Gemma4-31B의 52.0점을 모두 앞질렀다. 이는 모델이 단순히 코드를 짜는 수준을 넘어 복잡한 소프트웨어 문제를 해결하는 능력이 강화되었음을 뜻한다.

터미널 조작 능력에서도 유의미한 차이가 발생했다. Terminal-Bench 2.0(터미널 환경에서의 조작 능력을 측정하는 지표)에서 51.5점을 기록해 기존 모델들의 40점대 성적을 가볍게 뛰어넘었다. 셸 명령어 실행과 파일 시스템 조작 등 실제 개발 워크플로우를 더 정확하게 이해하고 수행할 수 있게 된 것이다.

개발자가 바로 체감하는 변화는 프론트엔드 작업 흐름과 저장소 수준의 추론 능력이 강화된 점이다. Thinking Preservation(이전 메시지의 추론 맥락을 유지하는 기능) 옵션을 통해 반복적인 개발 과정에서 발생하는 오버헤드를 줄이고 일관성 있는 결과물을 낼 수 있다. 또한 중첩된 객체를 파싱하는 능력이 개선되어 툴 콜링(모델이 외부 도구를 호출해 기능을 수행하는 것)의 성공률이 높아졌으며, Codex나 OpenCode 같은 도구에서 활용할 수 있는 개발자 역할 지원 기능이 추가되었다.

배포 방식에서는 Unsloth(LLM 학습 및 추론 최적화 라이브러리) 스튜디오를 통해 4비트 GGUF(LLM을 효율적으로 저장하고 실행하기 위한 파일 형식) 형태로 실행하거나 미세 조정할 수 있다. 양자화(모델의 정밀도를 낮춰 용량을 줄이는 기술)를 통해 하드웨어 제약을 극복하면서도 높은 성능을 유지했다. 덕분에 고가의 서버 없이 로컬 GPU 환경에서도 강력한 코딩 에이전트를 운용할 수 있는 길이 열렸다.

이제 로컬 GPU 한 장으로 클라우드급 코딩 에이전트를 운용하는 시대가 열렸다.

Qwen3.6-35B-A3B, 30억 파라미터 활성화로 추론 속도 2배 높였다

Qwen3.6-35B-A3B의 설계와 MTP 기술

코딩 에이전트 성능과 실무 적용

관련 기사