평일 오후, 개인 개발자의 로컬 워크스테이션.

터미널 창에 수만 줄의 코드베이스가 띄워져 있고, GPU 메모리 점유율이 한계치에 도달해 있다.

이 장면 뒤에 숨은 하드웨어의 제약이 이제는 바뀐다.

하이브리드 MoE 설계와 30억 개의 활성 파라미터

Alibaba Cloud(중국 알리바바의 클라우드 컴퓨팅 부문)가 개발한 Qwen3.6-35B-A3B를 기반으로 Qwopus3.6-35B-A3B-v1 모델이 출시되었다. 이 모델은 하이브리드 MoE(Mixture-of-Experts, 여러 전문가 모델을 섞어 필요한 부분만 사용하는 구조) 아키텍처를 채택했다. 전체 파라미터 규모는 350억 개에 달하지만, 실제 토큰 하나를 처리할 때 연산에 참여하는 활성 파라미터는 30억 개뿐이다. 256개의 전문가 모델 중 최적의 경로를 선택하는 방식을 통해 연산량을 줄인 결과다.

기술적 구성으로는 Gated DeltaNet(선형 주의 집중 메커니즘의 일종으로 연산 효율을 높인 기술)과 표준 게이트 주의 집중 계층을 결합했다. 컨텍스트 윈도우(모델이 한 번에 처리할 수 있는 텍스트의 양)는 262k로 설정되어 수만 줄의 코드베이스를 한 번에 분석할 수 있는 환경을 제공한다. 학습 과정에서는 세 단계의 분산 SFT(Supervised Fine-Tuning, 정답 데이터를 통해 모델을 미세 조정하는 학습 방식)를 거쳤으며, 수학, 코드, 과학, 다국어 채팅 데이터를 네 가지 길이 버킷으로 나누어 학습시켰다.

주목할 점은 LoRA(Low-Rank Adaptation, 전체 파라미터를 수정하지 않고 일부만 학습시켜 효율을 높이는 기법) 적용 시 학습 가능 파라미터 비중을 9%까지 높였다는 사실이다. 이는 MoE 구조에서 가중치 병합 충돌이나 학습 불안정성을 초래할 수 있는 설정이다. 그러나 개발팀은 추론 능력의 깊이를 확보하기 위해 이러한 위험을 감수하는 전략을 선택했다.

단일 GPU 환경의 성능 지표와 실무 적용

기존의 고성능 코딩 모델들은 모든 파라미터를 연산에 동원했기에 막대한 VRAM(비디오 램, 그래픽 카드의 메모리)이 필요했다. 반면 Qwopus3.6-35B-A3B-v1은 활성 파라미터를 극소화하여 단일 GPU 환경에서도 구동이 가능하다. 성능 수치는 이를 뒷받침한다. 코딩 능력을 측정하는 HumanEval(파이썬 코딩 능력을 평가하는 벤치마크)에서 81.1%, MBPP(기초 파이썬 프로그래밍 문제 해결 능력을 측정하는 지표)에서 83.2%의 정확도를 기록했다.

수학적 추론을 측정하는 GSM8K(초등학교 수준의 수학 문장제 문제 데이터셋)에서는 87.4%, 일반 지식 지표인 MMLU(다양한 학문 분야의 지식을 측정하는 대규모 다중 작업 언어 이해 벤치마크)에서는 78.2%를 달성했다. 이는 단순한 수치 상승을 넘어, 로컬 환경에서도 에이전틱(스스로 계획을 세우고 도구를 사용하여 과업을 수행하는 능력) 코딩과 복잡한 논리 연산이 가능하다는 것을 의미한다.

개발자가 바로 체감하는 변화는 UI/UX 생성이나 복잡한 논리적 추론이 필요한 실무 시나리오에서의 활용성이다. 멀티모달(텍스트 외에 이미지 등 다양한 형태의 데이터를 처리하는 방식) 기능과 도구 호출 기능을 지원하여 확장성을 높였다. 다만 이 모델은 커뮤니티 실험 버전으로, 완전한 안전성 테스트를 거치지 않았기에 연구 및 탐색 목적으로 사용해야 한다.

모델 설치와 실행을 위한 명령어는 다음과 같다.

bash
pip install transformers accelerate
huggingface-cli download Jackrong/Qwopus3.6-35B-A3B-v1

기본적인 추론 코드는 아래와 같이 작성한다.

python
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "Jackrong/Qwopus3.6-35B-A3B-v1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")

inputs = tokenizer("Write a Python function for quicksort.", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

시각 기능을 활성화하려면 Hugging Face의 GGUF(양자화된 모델 포맷) 저장소에서 mmproj.gguf 파일을 다운로드하여 메인 모델 파일과 동일한 디렉토리에 배치해야 한다.

모델의 크기가 아닌 활성 파라미터의 효율이 로컬 AI 에이전트의 실질적 성능을 결정하는 기준이 되었다.