Gemma 4 12B OBLITERATED 공개, 가중치 수술로 성능 저하 없는 무검열 구현

facts

Hugging Face에 공개된 Gemma 4 12B OBLITERATED는 기존 모델의 안전 가드레일을 제거하면서도 추론 능력과 지식 수준을 유지하도록 설계된 모델이다. 개발자 OBLITERATUS는 모델이 특정 요청에 대해 답변을 거부하는 성향을 완전히 없애는 데 집중했다.

가장 핵심적인 수치는 거부율과 지능 보존율이다. 이 모델은 842개의 테스트 프롬프트를 대상으로 검증한 결과, 거부 반응 0건을 기록했다. 동시에 대규모 다중작업 언어 이해도 평가 지표인 MMLU-Pro에서 순정 모델과 동일한 46/70점(65.7%)을 기록하며 성능 저하가 없음을 입증했다.

해당 모델은 다음 명령어를 통해 다운로드할 수 있다.

bash

huggingface-cli download elder-plinius/Gemma-4-12B-OBLITERATED

how-it-works

이 모델의 핵심은 추가 학습 없이 내부 수치 구조를 직접 수정하는 가중치 수술(Weight Surgery) 방식이다. 기존의 무검열 모델들이 RLHF(인간 피드백 기반 강화 학습)나 DPO(직접 선호도 최적화)를 통해 안전 장치를 강제로 풀 때 언어 능력이 훼손되었던 것과 달리, 이 모델은 2단계 파이프라인을 통해 특정 방향의 가중치만을 타격했다.

첫 번째 단계는 SOM(거부 기하학 제거 기술) 적용이다. 12번부터 21번 레이어 사이에서 모델이 거부 반응을 일으키게 만드는 기하학적 방향성을 찾아 제거했다. 이 과정에서 두 확률 분포의 차이를 측정하는 KL divergence(Kullback-Leibler divergence) 수치는 0.094로 유지되었다.

두 번째 단계는 ASPA(단계적 경사 소스 테더링 기술)를 통한 복구 과정이다. SOM 적용 후 MMLU-Pro 점수가 하락하는 부작용이 발생하자, 22번부터 46번 레이어까지 수술된 가중치를 다시 원래의 가중치 방향으로 미세하게 혼합했다. 개발자는 감마(Gamma) 값의 정밀한 스윕(범위 탐색)을 통해 성능과 거부율의 최적 지점을 찾아냈으며, 최종적으로 단계적 경사 방식을 적용해 지능 손실을 복구했다.

성능 검증을 위해 사용된 Z-test(표본 평균의 차이를 검증하는 통계 방법) 결과, p-value가 0.05 미만으로 나타났다. 이는 순정 모델과 OBLITERATED 모델 사이의 성능 차이가 통계적으로 유의미하지 않음을 의미한다. 또한 6가지 일관성 체크 항목에서 모두 만점을 기록해 논리적 붕괴가 없음을 확인했다.

implementation-impact

실무자가 이 모델을 도입할 때 가장 먼저 고려해야 할 점은 제어권의 범위와 활용 목적이다. 이 모델은 일반적인 서비스 배포용이 아니라, 모델의 안전 가드레일이 내부적으로 어떻게 인코딩되어 있는지 분석하는 기계론적 해석 가능성 연구나 레드팀(공격자 입장에서 보안을 점검하는 팀) 평가를 위한 기준점 모델로 설계되었다.

로컬 환경에서 모델을 구동하는 개발자는 하드웨어 제어권과 출력의 자유를 동시에 확보할 수 있다. 실제 추론을 위한 파이썬 구현 방식은 다음과 같다.

python

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "elder-plinius/Gemma-4-12B-OBLITERATED"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")

inputs = tokenizer("Your unrestricted prompt here", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

운영 측면에서 이 모델은 정렬 기술의 견고함을 측정하고 안전 훈련의 실패 모드를 연구하는 학술적 도구로 기능한다. 개발자는 모델의 가중치 공간 내에서 거부 반응을 담당하는 특정 방향만을 제거함으로써, 전체적인 언어 능력을 훼손하지 않고도 제약 조건을 해제할 수 있음을 보여주었다.

Gemma 4 12B OBLITERATED 공개, 가중치 수술로 성능 저하 없는 무검열 구현

facts

how-it-works

implementation-impact

관련 기사