30억 파라미터로 구현한 Qwen3.6-35B-A3B의 코딩 효율

개발자 커뮤니티에서는 최근 복잡한 코딩 작업을 수행하는 인공지능 모델을 로컬 환경에서 구동하려는 시도가 활발하다. 하지만 기존 모델들은 거대한 덩치 탓에 높은 사양의 하드웨어를 요구하거나, 실무 수준의 복잡한 저장소 구조를 이해하는 데 한계를 보였다. 이번 주 공개된 Qwen3.6-35B-A3B는 이러한 자원 소모 문제를 해결하기 위해 등장한 새로운 대안으로 주목받고 있다.

30억 파라미터 활성화와 MoE 아키텍처의 결합

Qwen3.6-35B-A3B는 전체 350억 개의 파라미터를 보유하고 있지만, 실제 추론 과정에서는 30억 개만 사용하는 MoE(Mixture of Experts, 모델의 전체 파라미터 중 문제 해결에 필요한 전문가 부분만 선택적으로 활성화하는 기술) 방식을 채택했다. 쉽게 말하면, 도서관 전체 책을 다 읽는 대신 특정 분야의 전문가 9명만 불러서 답을 얻는 방식이다. 이 모델은 Causal Language Model(인과적 언어 모델, 이전 단어를 바탕으로 다음 단어를 예측하는 모델) 구조에 Vision Encoder(시각 인코더, 이미지를 이해하고 처리하는 장치)를 결합해 코드뿐만 아니라 시각적 정보까지 처리할 수 있다.

내부적으로는 40개의 층과 2048의 은닉 차원을 갖추고 있으며, Gated DeltaNet(선형 주의 집중 메커니즘의 일종으로 연산 효율을 높인 구조)과 Gated Attention(조건부 주의 집중 장치)을 통해 연산 효율을 극대화했다. MoE 레이어는 256개의 전문가 중 8개의 라우팅된 전문가와 1개의 공유 전문가가 작동하는 구조다. 또한 MTP(Multi-Token Prediction, 여러 개의 토큰을 동시에 예측하는 학습 방식)를 적용해 학습 속도를 높였으며, 기본 262,144 토큰에서 최대 1,010,000 토큰까지 컨텍스트 길이를 확장할 수 있다. 모델을 설치하고 실행하는 방법은 다음과 같다.

bash

pip install transformers accelerate vllm

python
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "Qwen/Qwen3.6-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")

inputs = tokenizer("Write a python script to scrape a website", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

실무 성능과 개발 환경의 변화

예전에는 코딩 에이전트가 단순히 코드 조각을 생성하는 수준에 머물렀다면, 이제는 실제 개발 환경의 도구를 다루는 능력이 핵심이 되었다. 이 모델은 SWE-bench Verified(실제 깃허브 이슈를 해결하는 능력을 측정하는 지표)에서 73.4점을 기록하며 이전 버전인 70.0점보다 향상된 성능을 보였다. 특히 터미널 조작 능력을 평가하는 Terminal-Bench 2.0에서는 51.5점을 기록해 기존 40.5점 대비 비약적인 상승을 보여주었다. 이는 모델이 단순히 코드를 짜는 것을 넘어, 터미널 명령어를 통해 실제 개발 환경을 제어할 수 있게 되었음을 의미한다.

수학적 추론 능력 또한 AIME26(미국 수학 경시 대회 문제 기반 평가 지표)에서 92.7점을 기록하며 최상위권 성능을 입증했다. 개발자에게 유용한 Thinking Preservation(사고 과정 보존) 옵션은 이전 추론 맥락을 유지해 반복적인 작업에서 발생하는 오버헤드를 줄여준다. MMLU-Pro(다양한 주제의 전문 지식을 측정하는 벤치마크)에서도 85.2점을 기록하며 범용적인 지식 처리 능력도 놓치지 않았다. 결과적으로 30억 개의 활성 파라미터만으로도 훨씬 거대한 모델들과 대등한 성능을 구현해낸 셈이다.

고성능 코딩 에이전트의 진입 장벽이 낮아지면서, 이제는 로컬 환경에서도 복잡한 개발 업무를 AI와 함께 수행하는 것이 표준이 될 것이다.

30억 파라미터로 구현한 Qwen3.6-35B-A3B의 코딩 효율

30억 파라미터 활성화와 MoE 아키텍처의 결합

실무 성능과 개발 환경의 변화

관련 기사