늦은 밤, 어느 개발자의 홈 서버실.

모니터에는 llama.cpp(LLM을 개인 컴퓨터에서 가볍게 돌려주는 도구)의 로그가 빠르게 올라가고 DeepSeek-V4-Flash 모델이 로드된다.

단순히 질문을 던지는 것을 넘어 모델의 뇌 속 스위치를 직접 건드리는 실험이 시작된다.

DwarfStar 4와 모델 활성화 조작의 실체

antirez(Redis 창시자이자 개발자)는 최근 DeepSeek-V4-Flash 모델만을 실행하도록 경량화한 DwarfStar 4 프로젝트를 공개했다. 이 프로젝트의 핵심은 스티어링(Steering, 모델의 내부 상태를 직접 조작해 출력을 유도하는 기술)을 기본 기능으로 탑재했다는 점이다. 출시된 지 8일밖에 되지 않은 초기 단계지만, 프롬프트 입력 없이도 모델의 답변 길이를 조절하는 등의 기초적인 실험이 가능하다.

스티어링의 기본 원리는 모델의 내부 뇌 상태에서 특정 개념을 추출해 추론 과정 중에 해당 수치를 증폭시키는 것이다. 쉽게 말하면 모델이 생각하는 방식에 직접 개입해 특정 방향으로 밀어붙이는 방식이다. 비유하자면 라디오의 주파수를 미세하게 조정해 원하는 채널의 소리를 더 크게 키우는 것과 비슷하다.

구현 방법은 크게 두 가지로 나뉜다. 첫 번째는 단순한 차이 측정 방식이다. 동일한 질문 100개를 준비해 한 번은 그냥 묻고, 다른 한 번은 간결하게 답하라는 요청을 붙여 묻는다. 이때 발생하는 모델 내부의 활성화 행렬(Activation Matrix, 데이터가 처리되며 생성되는 수치들의 집합) 차이를 계산하면 간결함을 담당하는 스티어링 벡터(Steering Vector, 특정 방향을 가리키는 수치 묶음)를 얻을 수 있다. 이 벡터를 다른 질문에 더해주면 모델은 자동으로 간결하게 답하게 된다.

두 번째는 더 정교한 방식인 Sparse Autoencoders(희소 오토인코더, 복잡한 데이터에서 핵심 특징만 뽑아내는 신경망)를 사용하는 것이다. Anthropic은 이 방식을 통해 모델의 활성화 값에서 행동 패턴인 특징을 추출하고 이를 개별 개념에 매핑한다. 이는 단순 벡터 합산보다 훨씬 깊은 패턴을 포착할 수 있지만, 시간과 계산 비용, 전문 지식이 훨씬 많이 들어간다.

프롬프트 입력과 뇌 직접 조작의 차이

예전에는 모델의 말투를 바꾸려면 프롬프트에 반드시 간결하게 답하라고 명시해야 했다. 이제는 프롬프트를 수정하는 대신 간결함과 장황함, 성실함과 속도 같은 조절 바(Slider)를 가진 제어판을 사용하는 시나리오가 가능해진다. 텍스트로 설득하는 과정 없이 모델의 신경망 수치를 직접 조정해 즉각적인 변화를 이끌어내는 방식이다.

개발자가 체감하는 가장 큰 변화는 접근성이다. 그동안 스티어링은 모델의 가중치(Weights, 모델이 학습한 지식의 수치값)와 활성화 값에 접근해야 했기에 API(응용 프로그램 인터페이스, 소프트웨어 간 통신 규칙)를 통해 모델을 쓰는 일반 사용자는 불가능한 영역이었다. OpenAI 같은 기업만이 GPT-5.5의 스티어링 벡터를 식별하고 노출할 수 있었다. 하지만 DeepSeek-V4-Flash처럼 성능이 뛰어난 오픈 웨이트(Open-weights, 모델의 가중치가 공개된 형태) 모델이 등장하면서 개인 개발자도 자신의 컴퓨터에서 직접 뇌 수술과 같은 조작을 할 수 있게 되었다.

다만 모든 것을 스티어링으로 해결할 수는 없다. 지능(Intelligence) 같은 복잡한 개념은 특정 벡터 하나로 정의되지 않고 모델 전체 가중치에 퍼져 있을 가능성이 크기 때문이다. 지능을 높이는 스티어링 벡터를 찾는 작업은 결국 똑똑한 모델을 처음부터 다시 학습시키는 문제로 귀결된다. 만약 특정 레이어의 활성화 값을 더 강력한 모델의 값으로 통째로 바꾼다면 결과는 좋아지겠지만, 이는 모델을 조작하는 것이 아니라 사실상 다른 모델과 대화하는 것과 다름없다.

결국 스티어링은 프롬프트라는 언어의 장벽을 넘어 모델의 신경망에 직접 명령을 내리는 인터페이스의 진화다.