발표에서 확인된 핵심 사실

소형 모델에 방대한 문서를 입력하면 앞 내용을 잊거나 전문적인 질문에 답변을 거부하는 현상이 빈번하다. AI 개발사 Empero는 1,048,576 토큰의 컨텍스트 창을 지원하는 고성능 추론 모델 Qwythos-9B를 HuggingFace에 공개하며 이 문제를 해결한다. Qwen3.5-9B 모델을 기반으로 구축한 이 모델은 9B 파라미터급 오픈 가중치 모델 중 최상위권의 컨텍스트 길이를 확보해 방대한 데이터를 한 번에 처리한다.

기존의 정렬된 모델들은 사이버 보안 레드팀 방법론이나 임상 의학 같은 민감한 주제에 대해 상투적인 면책 조항을 반복하며 답변을 회피한다. Qwythos-9B는 의도적으로 검열을 제거해 기술적으로 까다로운 질문에도 실질적인 내용을 제공하도록 설계했다. 보안 전문가가 최신 공격 기법을 분석하거나 의료 연구자가 복잡한 임상 사례를 검토할 때, 모델의 거부 반응 없이 필요한 정보를 즉시 확보한다.

100만 토큰 이상의 컨텍스트 창과 검열 제거 특성은 수만 줄에 달하는 전체 코드베이스를 한 번에 분석하거나 보안 취약점을 찾는 레드팀 작업의 효율을 높인다. 모델 교체만으로 복잡한 프롬프트 튜닝 비용을 줄이고 실무적인 답변을 즉시 얻는 환경을 구축한다. 이는 모델의 파라미터 규모는 유지하면서도 처리 가능한 정보량과 답변의 직접성을 극대화한 결과다.

기술을 적용해 100만 토큰 이상의 컨텍스트를 구현했다

긴 문서를 넣었을 때 앞 내용을 잊어버리거나 전문적인 질문에 답변을 거부하는 소형 모델의 한계는 실무자의 생산성을 떨어뜨린다. Qwythos-9B는 1,048,576 토큰의 컨텍스트 창을 지원해 이 문제를 해결한다. YaRN(Yet another RoPE extensioN, 회전 위치 임베딩 확장 기술)이라는 로프 스케일링 기술을 기본 적용한 결과다. 전체 코드베이스를 한 번에 분석하거나 여러 문서를 동시에 참조하는 긴 호흡의 에이전트 작업이 가능해진다.

학습 과정에는 5억 개 이상의 고품질 토큰이 투입됐다. Empero AI가 자체 개발한 rethink라는 내부 도구로 생성한 CoT(Chain-of-Thought, 생각의 사슬) 데이터가 복잡한 문제 해결 능력을 끌어올린다. 여기에 Claude Mythos와 Claude Fable의 추론 흔적을 더해 추론의 정밀도를 높였다.

베이스 모델인 Qwen3.5-9B와 비교해 벤치마크 성능이 크게 뛰어나다. MMLU(Massive Multitask Language Understanding, 대규모 다중 작업 언어 이해) 점수는 0.232에서 0.575로 34.3포인트 상승했다. 수학 능력을 측정하는 GSM8K(Grade School Math 8K, 초등학교 수준 수학 문제 데이터셋) 엄격 기준에서도 0.510에서 0.810으로 30포인트 올랐다. 이는 전체 코드베이스 분석이나 보안 레드팀 작업 시 모델 교체 및 프롬프트 튜닝 비용을 절감하는 판단 기준이 된다.

소형 모델의 고질적인 컨텍스트 유실과 전문 질문 거부 현상은 실무 생산성을 저해하는 핵심 병목이었다. Qwythos-9B는 YaRN 기술과 5억 개 이상의 CoT 데이터를 통해 100만 토큰의 창을 확보하고 전문 영역의 검열을 제거해 이 한계를 돌파한다.

전체 코드베이스 분석이나 보안 레드팀 작업 시 모델 교체와 프롬프트 튜닝 비용을 얼마나 절감할 수 있을지 검토해야 한다. 무거운 모델을 걷어내고 Qwythos-9B로 추론 파이프라인을 최적화하는 것이 실질적인 비용 효율을 결정한다.