262,144개. Qwen3.6-27B 모델이 기본적으로 처리할 수 있는 토큰의 수다. 수만 줄의 소스 코드가 담긴 저장소 전체를 한 번에 읽어 들여 분석할 수 있는 분량이다. 그런데 지금 개발자 커뮤니티가 진짜로 열광하는 지점은 이 거대한 용량이 아니라 추론 속도에 있다.
Qwen3.6-27B의 MTP 기반 고속 추론 사양
Qwen3.6-27B는 270억 개의 파라미터(매개변수)를 가진 인과적 언어 모델로 시각 정보 처리 능력을 갖춘 Vision Encoder(시각 정보 처리 능력을 갖춘 인코더)가 통합된 구조다. 내부적으로는 64개의 층과 5120의 은닉 차원을 가지며 Gated DeltaNet(선형 주의 집중 메커니즘의 일종)과 Gated Attention(게이트 제어 주의 집중 기술)을 혼합해 연산 효율을 극대화했다. 기본 토큰 처리량은 앞서 언급한 수치이며 설정을 통해 최대 1,010,000개까지 확장 가능하다.
가장 뜨거운 감자는 MTP(Multi-Token Prediction, 여러 토큰을 동시에 예측하는 기술) 기반의 투기적 디코딩이다. 기존 모델이 한 번에 하나의 토큰만 생성하며 뚝뚝 끊기는 느낌을 줬다면 MTP는 여러 토큰을 미리 예측해 생성 속도를 1.5배에서 2배까지 끌어올린다. 이를 로컬 환경에서 구현하려면 llama.cpp(LLM을 로컬에서 효율적으로 실행하게 돕는 C++ 라이브러리)의 특정 브랜치를 통해 빌드해야 한다.
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone -b mtp-clean https://github.com/am17an/llama.cpp.git
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp서버 구동 시에는 아래 명령어를 통해 MTP 기능을 활성화한다.
export LLAMA_CACHE="unsloth/Qwen3.6-27B-MTP-GGUF"
./llama.cpp/llama-server \
-hf unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q4_K_XL \
-ngl 99 -c 8192 -fa on -np 1 \
--spec-type mtp --spec-draft-n-max 2해당 모델은 GGUF(LLM을 효율적으로 저장하고 실행하기 위한 파일 형식) 포맷을 지원하며 vLLM(고성능 LLM 추론 엔진)이나 SGLang(구조화된 언어 생성을 위한 프레임워크) 그리고 KTransformers(대규모 모델의 효율적 실행을 돕는 라이브러리)와 같은 최신 추론 프레임워크와 호환된다.
저장소 단위 추론과 에이전트 코딩의 변화
예전에는 AI에게 코드를 수정해달라고 할 때 관련 파일 몇 개를 복사해서 붙여넣는 방식이 일반적이었다. 이제는 Qwen3.6-27B가 전체 저장소 수준의 추론 능력을 보여주면서 작업 흐름이 완전히 달라졌다. 특히 프론트엔드 작업에서 복잡하게 얽힌 의존 관계를 파악해 특정 기능을 수정할 때 영향 범위를 정확히 짚어내는 능력이 강화되었다.
개발자가 바로 체감하는 변화는 사고 과정 보존 기능의 도입이다. 기존 모델들은 대화가 길어지면 앞서 논의한 추론 맥락을 놓쳐 같은 설명을 반복하게 만드는 고질적인 문제가 있었다. 이 모델은 과거 메시지의 추론 컨텍스트를 유지하는 옵션을 제공해 AI와 반복적으로 소통하며 코드를 다듬는 과정에서 흐름이 끊기지 않게 돕는다.
도구 호출 방식에서도 눈에 띄는 진전이 있었다. 중첩된 객체 구조를 파싱(데이터를 분석해 필요한 정보를 추출하는 과정)하는 능력이 향상되어 복잡한 API 호출이나 외부 도구 연동 성공률이 높아졌다. 이는 AI가 단순한 코드 생성기를 넘어 실제로 개발 도구를 조작하고 실행하는 에이전트로 동작할 수 있는 기반이 된다. 270억 개의 파라미터 규모는 로컬 GPU 환경에서 구동 가능하면서도 700억 개 이상의 거대 모델에 근접한 성능을 내도록 최적화되어 비용 효율성이 매우 높다.
로컬 GPU 한 장으로 거대 모델급 성능과 2배의 속도를 동시에 잡은 것은 AI 코딩 에이전트의 진입장벽을 완전히 허문 사건이다.




