클로드 오퍼스 데이터로 추론력 높인 Qwopus3.6-27B 공개

금요일 오후, 팀 내 모델 벤치마크 공유 채널. 누군가 올린 표 하나에 팀원들이 모여든다. 27B라는 가벼운 체급의 모델이 상위 체급의 추론 성능을 내고 있다는 수치가 찍혀 있다. 평소라면 무시했을 중소형 모델의 성능 지표에 개발자들이 질문을 쏟아낸다.

이 모델은 단순히 데이터를 많이 밀어 넣은 결과가 아니다. 추론 능력을 높이기 위해 학습 데이터의 순서를 설계하고, 고성능 모델의 사고 과정을 역추적해 학습시킨 결과물이다. 하드웨어 리소스의 한계로 70B 이상의 거대 모델을 쓰지 못하던 팀에게는 실질적인 대안이 된다. 특히 비전 인식과 도구 사용 기능까지 포함되어 있어, 단순 챗봇 이상의 에이전트 구현 가능성을 보여준다.

우리는 그동안 모델의 크기가 곧 성능이라는 공식에 익숙했다. 하지만 이번 공개 모델은 적절한 규모의 모델에 정교한 튜닝 기법을 입혔을 때 어떤 효율이 발생하는지 증명한다.

단순한 파라미터 경쟁을 넘어, 데이터의 '질'과 '학습 순서'로 성능을 비트는 시도가 이 장면 뒤에 숨어 있다.

Qwen3.6 기반의 27B 파라미터 모델, Qwopus3.6-27B-v2

추론 능력을 극대화하기 위해 반드시 수천억 개의 파라미터를 가진 거대 모델을 써야만 할까. Qwopus3.6-27B-v2는 이 질문에 대한 실무적인 대안을 제시한다. 이 모델은 Qwen3.6-27B를 베이스 모델로 채택한 270억 개 파라미터 규모의 Dense Language Model(밀집 언어 모델)이다. 모델 설계 단계에서 파라미터 효율성을 높이면서도 Dense 구조 특유의 강력한 표현력을 유지했다. 27B라는 규모는 단일 고성능 GPU 환경에서 운용 가능하면서도 7B나 13B 모델이 가지는 지식의 한계를 극복하는 지점이다. 개발자는 이제 하드웨어 리소스의 제약과 추론 성능 사이의 타협점을 이 모델을 통해 구체화하며 인프라 비용을 최적화한다.

학습 과정에서는 3단계 커리큘럼 SFT(3-Stage Curriculum Supervised Fine-Tuning, 지도 미세 조정) 파이프라인을 적용했다. 특히 Claude Opus(클로드 오퍼스)의 데이터를 활용한 Trace Inversion(트레이스 인버전, 추론 경로 역추적) 데이터셋을 통해 모델의 사고 과정을 정교하게 다듬었다. 단순히 최종 정답만을 학습시키는 기존 방식에서 벗어나 정답에 도달하기까지의 논리적 중간 단계를 학습 데이터에 포함했다. 이러한 커리큘럼 학습은 모델이 복잡한 수학적 문제나 논리 퍼즐을 만났을 때 성급하게 결론을 내리지 않고 단계적으로 사고하게 만든다. 데이터의 난이도를 단계적으로 높여 학습시킨 결과 모델의 내부 추론 경로가 최적화되며 정답률이 상승한다.

기능적으로는 텍스트 처리를 넘어 Vision(비전 인식)과 Tool-use(도구 사용) 기능을 동시에 지원한다. 이미지 속의 텍스트나 객체를 인식해 분석하는 비전 능력과 외부 API를 호출해 특정 작업을 수행하는 도구 사용 능력을 갖췄다. 이는 모델이 단순한 챗봇을 넘어 실제 워크플로우에서 스스로 판단하고 행동하는 에이전트로 동작할 수 있는 기반이 된다. 배포 형식은 GGUF(GPT-Generated Unified Format)로 제공하여 로컬 환경이나 제한된 VRAM(비디오 램) 상황에서도 효율적으로 구동한다. 양자화된 GGUF 형식을 통해 메모리 점유율을 낮추면서도 추론 속도를 유지함으로써 기업의 온프레미스 서버 도입 문턱을 낮췄다.

Trace Inversion과 3단계 커리큘럼 SFT의 결합

데이터셋의 양을 늘려도 모델이 논리적 비약을 일으키면 개발자는 결국 수작업으로 데이터를 정제하는 고통을 겪는다. Qwopus3.6-27B-v2는 이 문제를 해결하기 위해 Anthropic의 Claude-Opus 기반 Trace Inversion(추론 경로 역추적) 데이터셋을 도입했다. Trace Inversion은 모델이 내놓은 최종 결과물에서 거꾸로 추론 과정을 복원해 고품질의 사고 체인을 확보하는 기술이다. 여기에 Negentropy(네겐트로피, 정보의 무질서도를 낮추는 지표)를 적용해 데이터 내의 무작위성을 제거하고 정보 밀도를 극대화했다. 단순한 정답 쌍을 수집하는 대신 정답에 이르는 최적의 논리 경로를 학습 데이터로 전환해 모델이 따라야 할 사고의 지도를 제공한 셈이다. 데이터의 양보다 논리적 밀도를 우선시하는 전략이 모델의 추론 기초 체력을 결정한다.

학습 과정에서는 3-Stage Curriculum SFT(3단계 커리큘럼 지도 학습) 파이프라인을 적용해 학습 효율을 높였다. 한 번에 모든 데이터를 주입하는 기존 방식과 달리 난이도와 목적에 따라 학습 단계를 세 번으로 나누어 진행한다. 첫 단계에서는 기본 지시 사항에 대한 정확한 응답 능력을 배양하고, 두 번째 단계에서는 Trace Inversion으로 확보한 복잡한 추론 경로를 집중적으로 학습시킨다. 마지막 단계에서는 전체적인 응답의 일관성과 세부적인 정확도를 높이는 최적화 과정을 거쳐 최종 성능을 완성한다. 이 단계적 접근은 모델이 갑작스러운 데이터 분포 변화로 인해 기존 지식을 망각하는 현상을 방지하고 추론 능력을 안정적으로 쌓아 올린다. Qwen3.6-27B라는 밀집 모델(Dense Model)의 구조적 이점을 유지하면서 추론 전용 모델에 가까운 성능을 구현하는 핵심 장치다.

실무 관점에서 이 구조는 고성능 폐쇄형 모델의 추론 능력을 오픈 소스 기반 모델로 전이시키는 효율적인 경로를 제시한다. Trace Inversion으로 추출한 고순도 데이터가 3단계 커리큘럼을 통해 모델의 가중치에 정교하게 각인되는 구조다. 특히 Negentropy 기반의 필터링은 학습 데이터의 노이즈를 걷어내어 모델이 불필요한 패턴에 매몰되지 않고 핵심 논리에 집중하게 만든다. 추론 능력이 강화된 27B 파라미터 모델은 연산 비용과 성능 사이의 최적점을 찾으려는 엔지니어에게 실질적인 배포 선택지를 제공한다. 고성능 모델의 사고 방식을 작은 모델에 이식하는 이 기법은 이제 데이터 구축의 표준 공정으로 자리 잡는다. 모델의 크기가 아니라 데이터의 논리적 구조가 지능의 임계점을 결정한다는 사실을 이 파이프라인이 증명한다.

클로드 오퍼스 데이터로 추론력 높인 Qwopus3.6-27B 공개

Qwen3.6 기반의 27B 파라미터 모델, Qwopus3.6-27B-v2

Trace Inversion과 3단계 커리큘럼 SFT의 결합

관련 기사