모델 가중치 수정 없이 거부 반응 제어하는 CNA 기법 공개

Nous Research가 대규모 언어 모델의 특정 행동을 뉴런 단위로 제어하는 CNA(Contrastive Neuron Attribution)를 공개했다. 이 기법은 모델의 가중치를 직접 수정하거나 복잡한 희소 오토인코더(SAE)를 학습시킬 필요 없이, 모델의 MLP(다층 퍼셉트론) 층 내에서 특정 행동을 유발하는 뉴런을 찾아내어 활성화를 조절하는 방식이다. 연구팀은 Llama 3.1/3.2 및 Qwen 2.5를 포함한 1B에서 72B 파라미터 규모의 모델 16종을 대상으로 실험을 진행했다. 결과적으로 전체 MLP 활성화의 0.1%에 해당하는 뉴런만 제거(Ablation)해도 대부분의 지시어 튜닝(Instruction-tuned) 모델에서 거부율이 50% 이상 감소했다. 특히 기존의 CAA(Contrastive Activation Addition) 방식이 고강도 제어 시 출력 품질 저하와 반복 문구 생성 문제를 겪었던 것과 달리, CNA는 모든 제어 강도에서 출력 품질을 0.97 이상으로 유지하며 범용 성능(MMLU) 또한 기준치 대비 1%포인트 이내의 오차를 기록했다. 이번 연구는 모델의 정렬(Alignment) 과정이 새로운 구조를 만드는 것이 아니라, 기존에 존재하던 후반부 층의 뉴런 기능을 특정 목적의 '거부 게이트'로 변환한다는 사실을 시각화했다는 점에서 주목받고 있다.

0.1% 뉴런 제어로 거부율 50% 낮춘 CNA의 핵심 수치

전체 가중치를 건드리거나 복잡한 외부 학습을 거치던 개발자들의 관행이 CNA(Contrastive Neuron Attribution, 대조적 뉴런 속성 분석)의 등장으로 변화를 맞이하고 있다. Nous Research 팀이 선보인 이 기법은 모델 전체 MLP(Multi-Layer Perceptron, 다층 퍼셉트론) 활성화 중 단 0.1%에 해당하는 뉴런만을 타겟팅하여 거부율을 획기적으로 낮추는 결과를 보여주었다. 이는 단순히 수치상의 개선을 넘어, 모델의 범용 성능을 유지하면서도 특정 행동 양식만을 정밀하게 조절할 수 있다는 점에서 커뮤니티의 비상한 관심을 끌고 있다. 실험 대상은 Llama 3.1/3.2 및 Qwen 2.5 시리즈를 포함한 1B부터 72B 파라미터까지 총 16종의 모델로, 다양한 규모에서 일관된 제어 능력을 입증했다.

CNA를 통해 발견된 핵심 회로를 비활성화(ablation)했을 때 대부분의 인스트럭트 모델에서 거부 반응이 50% 이상 감소하는 현상이 관찰되었다. 특히 주목할 지점은 출력 품질의 안정성이다. 기존의 CAA(Contrastive Activation Addition, 대조적 활성화 추가) 방식이 강한 제어 강도에서 문장 반복이나 일관성 상실 문제를 겪으며 출력 품질이 0.60 이하로 떨어지는 것과 달리, CNA는 모든 제어 강도에서 0.97 이상의 품질을 유지했다. 이는 모델이 생성하는 텍스트의 자연스러움을 해치지 않으면서도 안전성 관련 응답만을 유연하게 조정할 수 있음을 의미한다.

범용 성능 지표인 MMLU(Massive Multitask Language Understanding, 대규모 다중 작업 언어 이해) 정확도 역시 기준치 대비 1%포인트 이내의 오차 범위에 머물러, 모델 고유의 지적 능력이 훼손되지 않았음을 증명했다. StrongREJECT(대규모 언어 모델의 유해성 평가 벤치마크) 점수에서도 Llama 모델은 평균 6%, Qwen 모델은 평균 31%의 개선을 보이며 실질적인 효용성을 입증했다. 개발자들 사이에서는 별도의 경사 하강법(gradient)이나 반복적인 탐색 과정 없이 순수하게 순방향 패스(forward pass)만으로 이러한 제어 회로를 찾아낼 수 있다는 점이 가장 뜨거운 논쟁거리다. 복잡한 외부 학습 없이 모델 내부의 뉴런 활성화 차이만을 계산하여 정밀 타격이 가능하다는 점에서, 향후 모델 튜닝의 패러다임이 바뀔 것이라는 분석이 지배적이다.

순전파만으로 뉴런을 식별하는 CNA의 기술적 구현

복잡한 그래디언트 계산이나 추가적인 보조 학습 모델을 붙이던 방식은 이제 CNA(Contrastive Neuron Attribution)의 등장으로 새로운 국면을 맞이했다. 이 기법은 순전파(Forward pass)만으로 모델 내부의 행동 제어 회로를 정확히 핀셋처럼 집어낸다. 기존의 CAA(Contrastive Activation Addition)가 레이어 전체의 신호를 뭉뚱그려 수정해 모델의 일관성을 해치던 것과 달리, CNA는 MLP(Multi-Layer Perceptron) 레이어 내의 개별 뉴런 단위로 접근한다. 별도의 학습 과정 없이 오직 두 가지 프롬프트 세트를 모델에 통과시키는 것만으로도 특정 행동을 유발하거나 억제하는 핵심 뉴런을 찾아낼 수 있다는 점이 커뮤니티에서 뜨거운 반응을 얻는 이유다.

각 레이어에서 수집된 활성화 값의 차이를 계산하는 방식이 기술적 구현의 핵심이다. 연구팀은 모델의 마지막 토큰 위치에서 다운 프로젝션(down projection) 활성화 값을 기록한 뒤, 다음 식을 통해 각 뉴런의 기여도를 산출한다. δjℓ = mean(positive_activations) − mean(negative_activations). 여기서 positive는 특정 행동을 유도하는 프롬프트 세트, negative는 그 반대 상황을 의미한다. 이 계산을 통해 얻은 차이값이 클수록 해당 뉴런은 특정 행동을 결정짓는 스위치 역할을 수행할 가능성이 높다. 전체 뉴런 중 절대적인 차이값이 큰 상위 0.1%를 선별하는 것만으로도 모델의 거부 반응을 절반 이하로 줄이는 강력한 제어 회로가 완성된다.

무조건적인 필터링은 위험할 수 있다는 판단하에, 연구팀은 전체 프롬프트의 80% 이상에서 상위 0.1%에 포함되는 이른바 범용 뉴런을 제거하는 과정을 필수 단계로 포함했다. 이러한 뉴런들은 프롬프트의 내용과 무관하게 항상 활성화되는 노이즈에 가깝기 때문에, 이를 회로에서 제외해야만 모델의 일반적인 성능 저하를 막을 수 있다. 필터링을 거쳐 식별된 뉴런들이 실제로 인과 관계를 갖는지 확인하는 검증 과정도 명확하다. 추론 시점에 해당 뉴런의 활성화 값에 스칼라 m을 곱해 m=0이면 제거(ablation), m=1이면 기준 유지, m>1이면 증폭시키는 방식을 취한다. 이 간단한 연산만으로도 모델의 행동을 정밀하게 조절할 수 있음이 입증되면서, 복잡한 가중치 수정 없이도 LLM의 안전성을 확보하려는 개발자들 사이에서 빠르게 확산되고 있다. 더 자세한 구현체는 https://github.com/nousresearch/CNA 에서 확인할 수 있다.

CAA와 SAE를 넘어선 효율적인 모델 제어 방식

그동안 개발자들은 모델의 거부 반응을 제어하기 위해 층 전체의 신호를 수정하는 CAA(Contrastive Activation Addition)와 모델 내부의 특징을 해석 가능한 단위로 분해하는 SAE(Sparse Autoencoders)라는 두 가지 선택지에 의존해 왔다. 하지만 현장에서는 이 두 방식 모두 명확한 한계에 부딪혀 왔다. CAA는 층 전체를 한꺼번에 건드리는 방식이라 제어 강도를 조금만 높여도 문장이 붕괴하거나 같은 단어를 반복하는 현상이 빈번하게 발생한다. 반면 SAE는 모델 내부를 들여다보는 데는 유용하지만, 이를 위해 별도의 외부 학습이 필수적이며 노이즈에 매우 민감하다는 치명적인 단점이 있다. 개발자들 사이에서 모델 제어의 정밀도와 비용 효율성 사이의 딜레마가 끊임없이 논쟁거리였던 이유다.

CNA(Contrastive Neuron Attribution)는 이러한 기존 방식의 난제를 뉴런 단위의 정밀한 접근으로 풀어냈다. CNA는 층 전체를 뭉뚱그려 수정하는 대신, 모델의 MLP(Multi-Layer Perceptron) 층 내에서 특정 행동을 유발하는 핵심 뉴런만을 핀셋처럼 집어내 제어한다. 연구팀이 제시한 수치에 따르면, 전체 MLP 활성화의 0.1%에 불과한 뉴런만 조절해도 대부분의 인스트럭트 모델에서 거부 반응을 50% 이상 낮출 수 있다. 무엇보다 고무적인 것은 출력 품질이다. 기존 CAA 방식이 높은 제어 강도에서 0.60 이하의 품질로 급락하는 것과 달리, CNA는 모든 제어 강도에서 출력 품질을 0.97 이상으로 안정적으로 유지한다. 이는 모델이 횡설수설하거나 반복 문구를 쏟아내는 현상을 효과적으로 억제한다는 의미다.

구현의 간결함이 CNA가 현장에서 환영받는 결정적인 이유다. 별도의 그라디언트 계산이나 복잡한 반복 탐색 과정이 필요 없다. 그저 두 가지 대조적인 프롬프트 세트를 모델에 통과시켜 뉴런 단위의 평균 활성화 차이를 계산하는 것만으로 충분하다. 외부 학습 비용이 발생하는 SAE와 비교하면 그야말로 압도적인 효율성이다. 또한, 범용적으로 활성화되는 노이즈 뉴런을 필터링하는 단계가 포함되어 있어, 제어 대상이 아닌 일반적인 모델 능력까지 훼손할 위험을 최소화했다. MMLU(Massive Multitask Language Understanding)와 같은 일반 능력 평가에서 기준치 대비 1%포인트 이내의 오차만을 보인다는 점은, 모델의 본질적인 지능은 보존하면서 특정 행동 양식만 정교하게 교정할 수 있음을 입증한다. 이제 개발자들은 모델의 전체 구조를 흔드는 위험한 도박 대신, CNA라는 정밀한 메스를 통해 모델의 거부 반응을 제어하는 새로운 국면을 맞이하게 되었다.

모델 정렬의 본질: 사전 학습된 구조와 사후 튜닝의 역할

인스트럭트(Instruction-tuned) 모델이 어떻게 그토록 정교하게 거부 반응을 수행하느냐는 점은 개발자들 사이에서 가장 뜨거운 논쟁 중 하나다. 최근 Nous Research 팀이 공개한 분석은 이 정렬 과정이 완전히 새로운 회로를 만드는 것이 아니라, 기존의 층 구조를 재활용하는 방식임을 명확히 보여준다. 실험 결과, 모델이 유해한 프롬프트를 식별하고 거부하는 기능을 담당하는 뉴런들은 모델 전체 층의 마지막 10% 영역에 집중되어 있었다. 놀라운 점은 이러한 층 구조가 파인튜닝을 거치지 않은 베이스(Base) 모델에도 이미 존재한다는 사실이다. 즉, 정렬 튜닝은 하드웨어적인 구조를 새로 설계하는 작업이 아니라, 이미 존재하는 후반부 층의 뉴런들이 가진 기능을 거부 게이트(Refusal Gate)로 전환하는 일종의 소프트웨어적 재배치에 가깝다.

베이스 모델과 인스트럭트 모델 간의 뉴런 겹침 현상은 실무 현장에서 주목하는 핵심 지점이다. 연구진이 두 모델의 회로를 비교 분석한 결과, 동일한 위치의 뉴런이 공유되는 비율은 고작 8%에서 29%에 불과했다. 이는 모델의 층 구조 자체는 사전 학습 단계에서 이미 고착화되어 있지만, 그 층 내에서 실제로 활성화되는 뉴런의 역할은 파인튜닝을 통해 완전히 재편성됨을 의미한다. 개발자들은 이 지점에서 정렬의 본질을 다시 정의하고 있다. 튜닝은 모델에게 새로운 지식을 주입하는 과정이라기보다, 이미 학습된 층 구조 내에서 특정 뉴런을 거부 반응이라는 목적에 맞게 튜닝하여, 입력값에 따라 유해성을 판단하는 게이트 역할을 수행하도록 강제하는 과정이라는 점이다.

모델 제어의 패러다임은 이러한 구조적 발견으로 인해 급격히 변화하고 있다. 과거에는 모델의 행동을 바꾸기 위해 전체 가중치를 건드리거나 복잡한 외부 훈련을 동반해야 했지만, 이제는 마지막 10% 층에 집중된 특정 뉴런들만 타겟팅하여 제어할 수 있게 되었다. 베이스 모델에 동일한 기법을 적용했을 때 행동 변화가 나타나지 않는다는 점은, 인스트럭트 모델이 가진 거부 기능이 사전 학습된 구조 위에 파인튜닝이라는 덧칠을 통해 완성된 것임을 입증한다. 결국 정렬이란 모델의 밑바닥부터 다시 쌓는 것이 아니라, 이미 완성된 거대한 신경망의 후반부 뉴런들을 정교하게 조율하여 안전장치를 심는 정밀 공정인 셈이다. 이 발견은 앞으로 모델의 안전성을 확보하거나 특정 행동을 유도할 때, 모델 전체를 재학습시키지 않고도 효율적으로 제어할 수 있는 새로운 가능성을 열어주고 있다.

한국 AI 실무자를 위한 CNA 활용 전략

모델의 과도한 거부 반응을 어떻게 제어할 것인가는 지금 국내 개발자 커뮤니티에서 가장 뜨거운 화두다. 특히 특정 도메인에 특화된 서비스를 구축하는 실무자들 사이에서 오픈소스 모델이 지나치게 방어적인 태도를 보이는 현상은 고질적인 문제로 꼽힌다. CNA(Contrastive Neuron Attribution, 대조 뉴런 기여도 분석)는 바로 이 지점에서 파인튜닝 없이 모델의 행동을 교정할 수 있는 강력한 대안으로 주목받고 있다. 별도의 GPU 자원을 대규모로 소모하며 가중치를 수정하는 기존 파인튜닝 방식과 달리, CNA는 추론 시점에 특정 뉴런의 활성값을 제어하는 것만으로도 모델의 거부 반응을 50% 이상 낮출 수 있다는 점에서 비용 효율성이 압도적이다.

프롬프트 세트의 품질은 실무 현장에서 CNA를 도입할 때 가장 주의해야 할 점이다. CNA는 대조적인 두 프롬프트 세트 간의 뉴런 활성화 차이를 계산해 거부 회로를 식별하는데, 이때 입력되는 데이터셋이 정교하지 않으면 의도치 않은 뉴런이 선택될 위험이 크다. 즉, 식별되는 뉴런의 정확도는 전적으로 사용자가 구성한 프롬프트 세트의 품질에 달려 있다. 개발자는 단순히 많은 양의 데이터를 넣는 것이 아니라, 모델이 거부하는 상황과 그렇지 않은 상황을 명확히 대조할 수 있는 고품질의 프롬프트 쌍을 선별하는 데 집중해야 한다. 또한 범용적으로 활성화되는 뉴런을 필터링하는 과정이 필수적인데, 이를 생략할 경우 모델의 전반적인 추론 능력까지 훼손될 수 있음을 명심해야 한다.

한국어 특화 모델에서도 CNA가 동일한 효율을 보일지에 대한 검증 논의가 현재 국내 실무자들 사이에서 활발하다. 연구 결과에 따르면 CNA는 모델의 후반부 층(final layers)에 집중된 뉴런 구조를 활용하는데, 한국어 데이터로 학습된 모델에서도 이러한 후반부 층 집중 현상이 동일하게 나타나는지 확인하는 것이 향후 과제다. 만약 한국어 모델에서도 구조적 동일성이 입증된다면, 복잡한 재학습 과정 없이도 한국어 도메인 특성에 맞춘 정밀한 행동 제어가 가능해질 것이다. 이는 대규모 언어 모델(LLM)의 안전성을 확보하면서도 서비스의 유연성을 극대화하려는 국내 기업들에게 매우 매력적인 전략이 될 것으로 보인다.

포워드 패스(forward pass)만으로 작동한다는 점은 기술적 구현 측면에서 CNA가 가진 큰 장점이다. 기존의 CAA(Contrastive Activation Addition, 대조 활성화 추가) 방식이 레이어 전체의 신호를 조정하며 출력 품질 저하를 야기했던 것과 달리, CNA는 개별 뉴런 단위로 정밀하게 타격하므로 출력의 일관성을 0.97 이상으로 유지할 수 있다. 이는 실무자가 모델의 제어권을 온전히 확보하면서도 성능 손실을 최소화할 수 있는 실질적인 해법이다. 지금 당장 오픈소스 모델의 뻣뻣한 거부 반응 때문에 고민하고 있다면, CNA를 통해 모델 내부의 뉴런 지도를 먼저 그려보는 것이 가장 효율적인 최적화의 시작점이 될 것이다.