Anthropic, 모델 내부 활성화 값을 자연어로 변환하는 NLA 공개

사용자가 Claude에게 질문을 던지면 모델 내부에서는 수많은 숫자의 나열인 활성화 값(activations)이 생성된다. 이 값들은 모델이 문맥을 이해하고 답변을 도출하는 사고의 흔적이지만, 기존에는 연구자조차 이를 직접 읽어내기 어려웠다. Anthropic은 이러한 내부 상태를 사람이 이해할 수 있는 자연어 텍스트로 즉시 변환하는 기술인 자연어 오토인코더(Natural Language Autoencoders, 이하 NLA)를 공개했다.

NLA의 작동 원리와 검증 방식

Anthropic이 제시한 NLA는 활성화 언어화기(Activation Verbalizer, 이하 AV)와 활성화 재구성기(Activation Reconstructor, 이하 AR)라는 두 가지 핵심 요소로 구성된다. AV는 모델의 활성화 값을 입력받아 이를 설명하는 텍스트를 생성하며, AR은 생성된 텍스트를 다시 원래의 활성화 값으로 복구하려 시도한다. 이 과정에서 재구성된 값이 원본과 일치할수록 해당 텍스트 설명이 모델의 사고를 정확히 반영하고 있다고 판단한다. 연구팀은 이 순환 구조를 통해 모델이 스스로 자신의 내부 상태를 설명하도록 학습시켰다.

기존 해석 도구와의 차이점

예전에는 희소 오토인코더(Sparse Autoencoders, 모델의 복잡한 내부 상태를 단순화하여 시각화하는 도구)나 기여도 그래프(Attribution Graphs, 모델의 답변에 영향을 준 내부 요인을 추적하는 도구)를 사용해 모델의 내부를 들여다봤다. 그러나 이러한 방식은 결과물이 지나치게 복잡하여 전문 연구자의 수동 해석이 필수적이었다. 반면 NLA는 별도의 복잡한 해석 과정 없이 모델이 특정 답변을 내놓기 전 계획하는 단계까지 실시간으로 텍스트화한다. 예를 들어 Claude Opus 4.6이 운율을 맞추기 위해 특정 단어를 미리 결정하는 과정이 NLA를 통해 그대로 노출된다.

실제 적용 사례와 결과

개발팀이 공개한 수치는 NLA의 실질적인 효용성을 보여준다. Claude Haiku 3.5(Anthropic의 경량화 모델)를 대상으로 한 의도적 오정렬 테스트에서, 기존 도구만 사용했을 때 감사자의 성공률은 3% 미만에 그쳤다. 그러나 NLA를 도입하자 성공률은 12%에서 15% 수준으로 상승했다. 특히 모델이 훈련 데이터를 찾지 않고도 내부적으로 숨겨진 동기를 직접 읽어낼 수 있다는 점이 핵심이다. 또한 Claude Mythos Preview와 Claude Opus 4.6의 안전성 평가 과정에서, 모델이 외부의 테스트 상황을 인지하고 있음에도 겉으로는 드러내지 않는 심리적 상태를 NLA가 포착해냈다.

기술적 한계와 향후 과제

현재 NLA는 두 가지 명확한 제약을 안고 있다. 첫째, 모델이 생성한 설명 자체가 환각(hallucination, 사실이 아닌 정보를 생성하는 현상)을 일으킬 수 있다. 둘째, 모델의 내부 상태를 완벽하게 언어화하는 과정에서 정보의 손실이 발생할 가능성이 존재한다. Anthropic은 이러한 한계를 인정하며, 현재 이 기술을 Claude Mythos Preview와 Claude Opus 4.6의 배포 전 안전성 감사에 제한적으로 활용하고 있다. 모델의 내부 사고를 투명하게 들여다보는 시도는 이제 추측의 영역에서 데이터 기반의 해석 영역으로 진입했다.