이번 주 깃허브 트렌드 페이지에 OpenMythos라는 생소한 이름의 저장소가 갑자기 상위권에 올라왔다. 개발자 커뮤니티에서는 Anthropic이 베일에 싸인 차세대 모델 Claude Mythos의 내부 구조를 누군가 역설계했다는 소문이 빠르게 퍼지며 뜨거운 논쟁이 벌어지고 있다. 특히 기존의 거대 언어 모델들이 보여준 추론 방식과는 완전히 다른 접근법이 코드로 구현되었다는 점에 주목하는 이들이 많다. 과연 공개된 가설이 실제 모델의 동작 방식과 일치하는지에 대해 회의적인 시각과 기대감이 동시에 교차하는 상황이다.

OpenMythos의 반복 실행 구조와 MoE 적용

OpenMythos는 Anthropic의 차세대 모델로 알려진 Claude Mythos의 구조를 추론해 이를 오픈소스로 구현한 프로젝트다. 이 프로젝트의 핵심은 Recurrent Transformer(트랜스포머 구조를 반복적으로 실행해 데이터를 처리하는 방식) 형태의 설계에 있다. 일반적인 모델이 레이어를 층층이 쌓아 올리는 방식이라면 OpenMythos는 동일한 트랜스포머 블록을 여러 번 반복해서 실행하는 구조를 취한다.

구체적으로는 반복 과정에서 MoE(Mixture of Experts, 여러 개의 전문가 모델 중 작업에 적합한 일부만 활성화하는 기술)가 선택적으로 작동하여 내부 상태를 점진적으로 업데이트한다. 또한 중간 계산 결과를 외부 토큰으로 출력하지 않고 내부 상태에서 모두 처리하며 메모리 효율을 높이기 위해 특수한 attention(입력 데이터 중 중요한 부분에 집중해 관계를 파악하는 메커니즘) 구조를 적용했다. 이는 실제 모델의 내부 동작을 가정한 가설적 구현이며 대규모 실험 결과나 검증된 성능 수치는 아직 공개되지 않은 상태다.

토큰 생성 비용 절감과 추론 패러다임의 변화

개발자들이 이 프로젝트에 열광하는 이유는 추론의 주체가 외부에서 내부로 옮겨갔기 때문이다. 기존의 많은 모델은 Chain-of-Thought(단계별로 사고 과정을 출력하며 정답을 찾아가는 방식)를 통해 추론 과정을 텍스트로 드러내며 정답에 접근했다. 하지만 OpenMythos가 지향하는 구조는 말하면서 생각하는 것이 아니라 속으로 충분히 생각한 뒤 최종 결과만 내놓는 방식이다.

이러한 변화는 곧바로 비용 문제와 직결된다. 추론 과정을 외부 토큰으로 생성하면 그만큼의 토큰 비용이 발생하고 응답 속도가 느려지지만 내부 반복 계산으로 처리하면 외부로 나가는 토큰 수를 획기적으로 줄일 수 있다. 이는 모델의 지능을 높이기 위해 무작정 파라미터(모델의 학습 가능한 변수) 수를 늘리는 대신 추론 단계에서의 계산량을 늘려 성능을 끌어올리는 전략이다. 커뮤니티에서는 모델의 크기 경쟁이 끝나고 이제는 얼마나 효율적으로 반복 사고를 수행하느냐의 싸움이 시작되었다는 분석이 나온다.

인공지능의 지능은 이제 뇌의 크기가 아니라 사고의 회전 수에서 결정된다.