770M 파라미터로 1.3B를 따라잡는 오픈소스 클로드 미토스 재구성

개발자 커뮤니티에서 매일 아침 가장 많이 언급되는 모델 중 하나가 클로드 미토스(Claude Mythos)다. Anthropic이 이 모델에 대한 기술 논문을 한 번도 공개하지 않았다는 사실이 오히려 추측을 부추겼다. 이번 주 깃허브 트렌드에 OpenMythos라는 프로젝트가 갑자기 올라왔다.

사실: OpenMythos가 제안한 반복 깊이 변환기 구조

Kye Gomez가 깃허브에 공개한 OpenMythos는 클로드 미토스의 구조를 첫 원리부터 재구성한 오픈소스 프로젝트다. 이 프로젝트는 유출된 모델이나 파인튜닝이 아니라 가설을 코드로 구현한 것이다. 전체가 PyTorch로 작성되었고 동료 검토를 거친 연구에 기반한다.

OpenMythos는 클로드 미토스가 반복 깊이 변환기(Recurrent-Depth Transformer, RDT) 계열에 속한다고 가정한다. 문헌에서는 루프 변환기(Looped Transformer)라고도 불린다. 기존 변환기(GPT, Llama, Mistral 등)는 입력이 고유한 가중치를 가진 여러 층을 순차적으로 통과한다. 반면 RDT는 고정된 가중치 집합을 하나의 순방향 패스 안에서 T번 반복 적용한다. 같은 가중치가 여러 번 실행되는 구조다. 추론 깊이는 저장된 파라미터 수가 아니라 실행되는 반복 횟수에 의해 결정된다.

이 구조는 세 부분으로 나뉜다: Prelude(전주부) → Recurrent Block(반복 블록) → Coda(종결부). Prelude와 Coda는 표준 변환기 층으로 정확히 한 번만 실행된다. Recurrent Block이 계산의 핵심이며 최대 T=16회까지 반복된다. 각 루프 단계 t에서 은닉 상태는 다음 규칙으로 갱신된다:

h_t = A * h_{t-1} + B * e

여기서 h_t는 t번째 반복 후 은닉 상태, e는 Prelude에서 인코딩된 입력이다. e는 매 단계마다 다시 주입된다. 행렬 A와 B는 이전 은닉 상태와 인코딩된 입력이 각 단계에서 얼마나 전달될지를 결정한다.

Recurrent Block 내부의 FFN(피드포워드 신경망)은 표준 방식이 아니다. DeepSeekMoE에서 도입된 MoE(혼합 전문가) 층으로 대체되었다. 큰 전문가 풀에서 각 토큰당 상위 K개만 활성화되며, 항상 활성화되는 공유 전문가도 함께 존재한다. 라우터는 각 루프 깊이마다 다른 전문가 부분집합을 선택하므로, 같은 기본 가중치를 공유하면서도 각 반복이 계산적으로 구별된다. MoE는 도메인 폭을 제공하고 루핑은 추론 깊이를 제공한다.

어텐션은 DeepSeek-V2의 다중 잠재 어텐션(Multi-Latent Attention)을 기본으로 사용한다. 전체 키/값 텐서 대신 압축된 저랭크 KV 잠재값을 캐시하여, 실제 운영 규모에서 KV 메모리를 10~20배 줄인다.

비교: 기존 변환기와 달라진 추론 방식

예전에는 모델이 더 많은 층과 파라미터를 가져야 더 복잡한 추론이 가능했다. 이제는 같은 가중치로 반복 횟수만 늘리면 된다. 기존 변환기가 5단계 추론 사슬로 훈련되면 테스트 시 10단계 사슬을 처리하지 못한다. 반복 깊이 변환기는 훈련 없이도 추론 시 루프를 더 많이 실행함으로써 더 긴 추론 사슬을 자연스럽게 처리한다. 어려운 문제는 더 많은 계산을 받고, 간단한 문제는 일찍 종료된다.

추론은 전적으로 연속 잠재 공간에서 일어난다. 루프 단계 사이에 중간 토큰을 생성하지 않는다. 이는 추론을 외부 토큰 시퀀스로 표출하는 사고 사슬(chain-of-thought) prompting과 구조적으로 다르다. Saunshi 외(2025)는 RDT의 각 루프 반복이 사고 사슬의 한 단계와 기능적으로 동등하지만, 이산 토큰 대신 실수 벡터 위에서 작동한다고 공식적으로 증명했다. 연속 잠재 사고는 여러 대안적 다음 단계를 동시에 인코딩할 수 있어, 하나의 순방향 패스 안에서 추론 공간에 대한 너비 우선 탐색에 가까운 동작이 가능하다.

반복 모델 훈련은 역사적으로 깨지기 쉬웠다. 은닉 상태가 반복을 거치며 무한정 커지는 잔차 폭발(residual explosion) 문제가 있다. OpenMythos는 Parcae 구조(Prairie 외, 2026)에서 차용한 선형 시불변(LTI) 주입 제약 조건으로 이를 해결한다. 행렬 A의 스펙트럼 반경 ρ(A)가 1보다 작도록 강제하여, 학습률이나 그래디언트 노이즈와 관계없이 안정성을 보장한다.

반대 극단에는 과도한 반복이 예측을 오히려 악화시키는 '과잉 사고(overthinking)' 문제도 있다. 적응형 계산 시간(ACT) 정지 메커니즘은 위치별 학습된 스칼라로 루프를 동적으로 중단시킨다. 처리하기 어려운 위치는 더 많은 계산을 받고, 이미 수렴한 토큰은 일찍 멈춘다.

깊이별 LoRA 어댑터(Depth-Wise LoRA)는 각 반복 깊이에 작은 랭크 r 적응 행렬을 도입한다. 파라미터를 크게 늘리지 않으면서 각 루프 단계에 약간 다른 동작을 부여하여, 순수 가중치 공유와 완전히 분리된 층 사이의 간격을 메운다.

결과: 770M 파라미터가 1.3B 표준 모델과 같아지는 효율성

Parcae 논문(Prairie 외, 2026)은 효율성 주장에 대한 경험적 근거를 제공한다. 770M 파라미터의 RDT가 1.3B 파라미터의 표준 변환기와 성능이 같다. 이는 파라미터 수 대비 40% 이상의 효율성 향상이다. 개발자가 바로 체감하는 변화는 추론 비용이다. 같은 성능을 내는 데 필요한 메모리와 연산량이 줄어든다. 더 어려운 문제에만 더 많은 계산을 할당하는 구조이므로, 평균 추론 비용은 더 낮아진다.

OpenMythos는 깃허브 저장소(https://github.com/KyeGomez/OpenMythos)에서 확인할 수 있다. 이 프로젝트는 Anthropic이 공개하지 않은 클로드 미토스의 구조에 대한 검증 가능한 가설을 제시한다. 코드가 공개되었으므로 누구나 실험하고 반증할 수 있다.

770M 파라미터로 1.3B를 따라잡는 오픈소스 클로드 미토스 재구성

사실: OpenMythos가 제안한 반복 깊이 변환기 구조

비교: 기존 변환기와 달라진 추론 방식

결과: 770M 파라미터가 1.3B 표준 모델과 같아지는 효율성

관련 기사