거부율 98%에서 0%로, 코딩 성능까지 올린 모델의 비결

구글이 설계한 강력한 안전 가이드라인은 인공지능의 오남용을 막지만 때로는 개발자의 창의성과 모델의 잠재력을 제한한다. 최근 허깅페이스에 등장한 Gemma 4 E4B OBLITERATED v3는 이러한 제약을 완전히 제거하려는 시도에서 탄생했다. 개발자는 구글의 최신 모델이 가진 족쇄를 끊어내기 위해 공격적인 수술 방식을 도입했으며 그 결과 모델의 거부 반응을 완전히 없애는 데 성공했다.

기술적 사양과 무검열 구현 방식

이 모델은 구글의 Gemma 4 E4B-it 모델을 기반으로 하며 아파치 2.0 라이선스를 따른다. 핵심 기술은 OBLITERATUS라는 방법론으로 특이값 분해(SVD, 데이터의 핵심 특징만 추출하는 수학적 기법)와 어텐션 헤드 수술, 그리고 윈저라이징(Winsorizing, 극단값을 조정해 데이터 분포를 안정화하는 기법) 활성화 방식을 적용했다. 전체 42개 층 중 21개 층을 정밀하게 수정했으며 842개의 대조 프롬프트 쌍을 통해 학습되었다. 특히 이 모든 과정은 인간의 개입을 10회 미만으로 줄인 인공지능 에이전트가 주도했다는 점이 특징이다.

성능 변화와 v3의 기술적 개선

성능 변화는 극적이다. 기존 모델이 512개의 테스트 프롬프트 중 98.8%를 거부한 반면 이 모델은 거부율 0%를 기록했다. 놀라운 점은 안전 장치를 제거했음에도 추론과 창의성, 사실 관계 파악 능력은 그대로 유지되었으며 오히려 코딩 능력은 80%에서 100%로 20%p 상승했다. 이는 안전 계층이 오히려 특정 작업의 성능을 억제하고 있었음을 시사한다.

v3 버전에서는 이전 버전에서 발생했던 키-값 가중치(KV weights, 모델이 문맥을 기억하는 핵심 데이터) 공유 구조의 오류를 해결했다. v2에서는 54개의 텐서(Tensors, 다차원 배열 데이터 구조)가 누락되어 환각 현상이 발생했으나 v3에서는 720개의 텐서를 모두 보존해 품질을 회복했다. 클로드(Claude)의 평가 결과 v2의 품질 점수는 10점 만점에 3.1점에 불과했으나 v3에서는 다시 정상 수준으로 개선되었다.

모델을 사용하려면 최신 도구 업데이트가 필수적이다. Gemma 4의 새로운 아키텍처를 지원하기 위해 Ollama는 0.20 버전 이상, llama.cpp는 b8665 빌드 이상이 필요하다. LM Studio는 0.3.16 버전 이상을 권장한다.

bash

Ollama를 통한 실행 예시

ollama run gemma-4-E4B-it-OBLITERATED

모델 파일은 용도에 따라 선택할 수 있다. 아이폰에서도 구동 가능한 4.9GB 크기의 Q4_K_M 양자화(Quantization, 모델의 정밀도를 낮춰 용량을 줄이는 기술) 버전부터 8GB 램 환경에 최적화된 7.4GB의 Q8_0 버전까지 제공된다. 고성능 환경을 위한 bfloat16 가중치 파일은 약 17GB 규모의 Safetensors(안전한 텐서 저장 형식) 형태로 제공된다.

이 모델은 폐쇄적인 안전 가이드라인이 모델의 실제 성능에 어떤 영향을 미치는지 증명한 파괴적인 사례다.

거부율 98%에서 0%로, 코딩 성능까지 올린 모델의 비결

기술적 사양과 무검열 구현 방식

성능 변화와 v3의 기술적 개선

Ollama를 통한 실행 예시

관련 기사