사용자 환경에 맞춘 MoE 35B A3B와 Dense 27B의 선택지

내 컴퓨터에 직접 AI를 설치해봤지만 기대보다 낮은 지능이나 느린 속도에 실망한 사용자가 많다. 로컬 환경의 한계를 느끼며 외부 API에 의존하던 이들을 위해 Qwen 3.6는 하드웨어 사양과 사용 목적에 따라 선택할 수 있는 두 가지 버전을 제공한다.

Qwen 3.6 35B A3B는 MoE(Mixture-of-Experts, 분야별 전문가 신경망을 나눠 배치해 질문에 맞는 부분만 사용하는 방식) 모델로 구동 속도가 빠르다. 반면 Qwen 3.6 27B는 Dense(모든 신경망을 하나로 뭉쳐 전부 사용하는 방식) 모델이다. 모든 신경망을 동원해 추론하므로 속도는 상대적으로 느리지만 더 강력한 성능을 낸다. 사용자는 속도와 지능 사이에서 직접 균형점을 선택할 수 있다.

로컬 환경에서 이 모델들을 효율적으로 구동하려면 llama.cpp(다양한 기기에서 모델 실행을 돕는 오픈 소스 도구) 사용이 권장된다. 여기에 8비트 양자화(숫자의 정밀도를 낮춰 데이터 크기를 압축하는 기술)를 적용하면 품질 손실을 최소화하며 모델 크기를 절반으로 줄일 수 있다. 이는 메모리 부담을 줄여 고성능 AI를 로컬에 올리는 실질적인 방법이다.

이러한 모델 설계의 차이는 실제 복잡한 코딩 작업에서 성능 격차로 이어진다.

단일 프롬프트로 구현한 지뢰찾기, 코딩 지시 준수 능력의 차이

pnpm(자바스크립트 패키지 관리 도구)을 사용해 육각형 지뢰찾기 게임을 만들어달라는 요청에서 모델별 역량 차이가 갈렸다. Qwen 3.6 27B는 단 한 번의 프롬프트 입력만으로 의도한 구조의 게임을 완벽하게 구현했다. 반면 Qwen 3.6 35B A3B는 패키지를 생성하라는 구체적인 지시를 무시하고 모든 코드를 단일 index.html 파일 하나에 몰아넣어 결과물을 생성했다. 모델의 체급이 크다고 해서 반드시 복잡한 코딩 지시를 더 정확하게 수행하는 것은 아니라는 점이 확인됐다.

로컬 코딩 환경을 구축하려는 많은 사용자가 Gemma 4 31B를 기본 모델로 선택하지만, 실제 사용 경험은 다르다. 대다수 사용자는 Qwen 3.6 27B가 Gemma 4 31B보다 코딩 성능이 더 우수하다고 평가한다.

성능뿐만 아니라 실제 구동 속도와 보안성 역시 로컬 LLM 도입의 핵심 고려 사항이다.

실제 구동 속도와 로컬 환경의 보안상 이점

RTX 5090 하드웨어에서 Q6_K 양자화(모델의 정밀도를 낮춰 메모리 사용량을 줄이는 기술)를 적용하자 초당 50토큰의 생성 속도가 기록됐다. 123k 컨텍스트(AI가 한 번에 기억하고 처리하는 정보의 양)의 방대한 데이터를 입력해도 속도가 일정하게 유지됐다. Macbook Max M5 128GB 모델에서도 초당 30토큰의 속도를 보이며 실시간 대화와 코딩 작업이 가능한 수준임을 증명했다. 고사양 GPU를 보유했다면 외부 API의 응답 시간을 기다릴 필요 없이 즉각적인 결과물을 얻을 수 있다.

기업의 독점 데이터나 민감한 의료 기록은 외부 서버로 전송하는 순간 보안 위험에 노출된다. 로컬 모델은 모든 연산을 내부에서 처리하므로 데이터 유출 가능성을 차단한다. 여기에 미세 조정(학습된 모델에 특정 데이터를 추가 학습시켜 전문가로 만드는 과정)을 더하면 기업 기밀 문서나 특수 분야 전문 용어에 최적화된 AI를 직접 설계할 수 있다. 이렇게 구축한 모델은 서비스 제공자의 정책 변경이나 권한 회수 위험이 없는 온전한 소유물이다. 보안이 중요한 의료나 금융 산업군에서 로컬 LLM은 효과적인 보안 대책으로 활용된다.

내 컴퓨터에 AI를 설치했지만 느린 속도와 낮은 지능에 실망해 포기한 경험이 많을 것이다. 하지만 Qwen 3.6 27B는 로컬 모델의 성능 수준을 높였다. 한 번에 여러 단어를 예측하는 멀티 토큰 예측 기술이 성능 저하 없이 속도를 끌어올린 결과다.

고사양 GPU를 갖췄다면 이제 외부 API 없이도 충분한 코딩 성능과 보안을 동시에 챙길 수 있다. 내 데이터의 주권을 지키면서 전문가 수준의 코딩 보조 도구를 소유할 수 있는 환경이 갖춰진 셈이다. 하드웨어 사양만 충족한다면 이제는 로컬 LLM이 가장 안전하고 효율적인 선택지가 된다.