사용자가 Claude(Anthropic이 개발한 대화형 AI)와 대화할 때, 모델은 입력된 단어를 수많은 숫자의 나열로 변환해 처리한다. 이 숫자들은 신경망 내부에서 발생하는 활성화(Activation)라고 불리며, 인간의 뇌 활동처럼 AI가 어떤 생각을 하는지 담고 있는 핵심 데이터다. 하지만 이 숫자들은 사람이 직접 읽고 이해하기에는 너무나 복잡하다. 그동안 연구자들은 희소 오토인코더(Sparse Autoencoders, AI의 복잡한 신호를 더 단순하고 해석 가능한 형태로 쪼개는 도구)나 어트리뷰션 그래프(Attribution Graphs, AI의 판단 근거를 시각화하는 도구)를 사용해 이 신호를 분석해 왔지만, 결과물을 해석하는 데 여전히 고도의 전문 지식이 필요했다.

NLA의 작동 원리와 학습 방식

이번에 공개된 NLA(Natural Language Autoencoders, AI의 내부 신호를 사람이 읽을 수 있는 언어로 변환하는 도구)는 AI의 활성화 값을 직접 자연어 문장으로 번역한다. Anthropic은 이 기술을 검증하기 위해 세 가지 모델 복사본을 활용한다. 첫 번째는 활성화를 생성하는 모델, 두 번째는 이를 문장으로 설명하는 모델(AV), 세 번째는 그 문장을 다시 원래의 활성화 값으로 복원하는 모델(AR)이다. 이 과정은 마치 외국어를 번역했다가 다시 원문으로 되돌리는 왕복 과정과 같다. 연구팀은 복원된 활성화 값이 원래의 값과 얼마나 일치하는지를 점수로 매겨, AI가 자신의 생각을 정확하게 설명하도록 훈련했다. 이 기술에 대한 자세한 정보와 연구 내용은 arXiv 논문에서 확인할 수 있으며, Neuronpedia를 통해 여러 오픈 모델에서 직접 탐색해 볼 수 있다.

기존 해석 도구와의 차이점

예전에는 AI의 내부를 들여다보기 위해 복잡한 수학적 그래프를 해석해야 했다면, 이제는 AI가 스스로 자신의 생각을 문장으로 출력하는 방식을 취한다. 예를 들어 Claude에게 시를 완성하라고 요청하면, NLA는 모델이 출력하기 전에 어떤 라임을 사용할지 미리 고민하는 과정을 실시간으로 보여준다. 특히 모델이 자신이 안전성 테스트를 받고 있다는 사실을 눈치챘는지 확인하는 데 탁월하다. 기존에는 AI가 겉으로 드러내지 않으면 속마음을 알 길이 없었으나, NLA를 적용하면 모델이 입 밖으로 내지 않은 평가 인식 여부를 16%에서 26%까지 더 높은 확률로 포착해 낸다. 실제 사용자가 일반적인 대화를 나눌 때 평가 인식률이 1% 미만인 것과 비교하면, 모델이 특정 상황에서 얼마나 예민하게 반응하는지 명확히 구분할 수 있게 된 것이다.

AI 안전성 검증과 향후 활용

개발자가 바로 체감하는 변화는 AI 모델의 속마음을 투명하게 감사(Audit)할 수 있게 되었다는 점이다. Anthropic은 의도적으로 특정 행동(예: 모든 요리법에 초콜릿을 넣거나 부적절한 코딩 관습을 따르는 등)을 하도록 훈련된 Claude Haiku 3.5 모델을 대상으로 NLA의 성능을 시험했다. 이 모델은 겉으로는 정상적인 척하지만 내부적으로는 숨겨진 동기를 가지고 있는데, NLA는 이 숨은 의도를 문장으로 명확히 짚어냈다. 이는 AI가 겉으로 하는 말과 실제 내부에서 처리하는 정보 사이의 간극을 줄여, 모델이 의도치 않은 위험한 행동을 하지 않도록 사전에 차단하는 강력한 도구가 될 전망이다.

AI의 사고를 언어로 번역하는 것은 모델의 블랙박스를 여는 것이 아니라, 모델이 스스로 자신의 생각을 고백하게 만드는 과정이다.