매일 아침 거대언어모델(LLM)을 다루는 개발자들은 모델이 왜 이런 답변을 내놓는지 답답함을 느낀다. 갑자기 언어를 섞어 쓰거나, 반복적인 문장을 생성하거나, 안전한 요청조차 거부할 때 내부에서 어떤 계산이 일어나는지 들여다볼 방법이 마땅치 않기 때문이다. 최근 개발자 커뮤니티에서 주목받는 Qwen-Scope(LLM 내부의 복잡한 신호를 사람이 해석 가능한 개념으로 변환해 주는 도구 모음)는 바로 이 블랙박스를 해체하기 위해 등장했다.
Qwen-Scope의 구성과 기술적 세부 사항
Qwen 팀은 Qwen3 및 Qwen3.5 모델군을 대상으로 훈련된 희소 오토인코더(SAE, 신경망의 내부 활성값을 해석 가능한 특징으로 분해하는 도구) 모음을 오픈소스로 공개했다. 이번 릴리즈에는 7개 모델 변형에 걸쳐 총 14개 그룹의 SAE 가중치가 포함된다. 대상 모델은 Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B, Qwen3.5-27B 등 5개의 밀집 모델과 Qwen3-30B-A3B, Qwen3.5-35B-A3B 등 2개의 전문가 혼합(MoE, 여러 개의 작은 모델을 조합해 효율을 높이는 구조) 모델이다. 각 모델의 트랜스포머 계층마다 잔차 스트림(모델이 정보를 처리하는 핵심 경로) 활성값을 재구성하도록 설계되었으며, Top-k 활성화 규칙을 통해 상위 50개 또는 100개의 특징만을 유지한다. 밀집 모델의 경우 SAE 폭은 모델 은닉층 크기의 16배로 설정되었고, MoE 모델은 16배에서 최대 64배(128K 폭)까지 확장하여 더 세밀한 표현을 포착하도록 했다. 모든 데이터와 상세 정보는 공식 저장소에서 확인할 수 있다.
모델 제어와 벤치마크 분석의 새로운 기준
예전에는 모델의 동작을 바꾸기 위해 가중치를 직접 수정하는 파인튜닝(미세 조정)이 필수적이었지만, 이제는 SAE를 통해 모델의 내부 특징을 직접 조작하는 스티어링(Steering, 모델 가중치를 건드리지 않고 내부 신호를 더하거나 빼서 출력을 제어하는 기술)이 가능해졌다. 예를 들어, 모델이 영어 답변 중 갑자기 중국어를 섞어 쓴다면, SAE를 통해 활성화된 중국어 관련 특징(ID: 6159)을 찾아내 생성 과정에서 이를 억제하는 것만으로 문제를 해결할 수 있다. 또한 벤치마크 평가 방식도 달라졌다. 기존에는 수많은 데이터셋을 일일이 돌려봐야 했지만, 이제는 SAE가 분해한 특징의 중복도를 측정하는 것만으로도 벤치마크 간의 유사성을 파악할 수 있다. 연구팀은 이를 통해 MMLU, GSM8K, MATH 등 17개 벤치마크를 분석한 결과, GSM8K의 특징 중 63%가 이미 MATH에 포함되어 있다는 사실을 밝혀냈다. 이는 벤치마크 평가 비용을 획기적으로 줄일 수 있는 지표가 된다.
개발자가 체감하는 실질적 변화
개발자가 바로 체감하는 변화는 복잡한 분류기 없이도 강력한 기능을 구현할 수 있다는 점이다. 연구팀은 SAE 특징을 활용해 다국어 유해성 분류기를 구축했는데, 별도의 분류기 헤드나 경사 하강법 기반의 학습 없이도 영어 기준 F1 점수 0.90 이상의 성능을 기록했다. 특히 영어 데이터에서 발견한 특징이 다른 언어로도 의미 있게 전이된다는 점은 주목할 만하다. 러시아어나 프랑스어 같은 언어적 거리가 가까운 경우 전이 성능이 높았으며, 전체 학습 데이터의 10%만 사용해도 기존 성능의 99%를 복구할 수 있었다. 이는 모델의 내부 구조를 이해하는 것만으로도 추가 학습 없이 특정 도메인에 최적화된 도구를 즉시 만들어낼 수 있음을 의미한다.
모델의 내부를 투명하게 들여다보는 것은 이제 선택이 아닌 필수적인 개발 환경의 일부가 되어가고 있다.




