최근 개발자 커뮤니티에서는 모델의 크기를 키우지 않고도 추론 능력을 극대화하는 새로운 아키텍처 설계가 화두다. 단순히 파라미터 수를 늘려 모델을 비대하게 만드는 방식은 비용과 효율성 측면에서 한계에 봉착했다. 이번에 공개된 OpenMythos(반복적인 연산으로 깊은 추론을 수행하는 이론적 아키텍처)는 고정된 파라미터 안에서 루프를 활용해 연산 깊이를 조절하는 방식을 제시한다. 이는 모델의 덩치를 키우는 대신 추론 과정의 밀도를 높여 성능을 끌어올리는 전략적 전환을 의미한다.
GQA와 MLA를 활용한 아키텍처 구현
OpenMythos는 GQA(그룹화된 쿼리 어텐션, 연산 효율을 위해 쿼리 헤드를 그룹으로 묶는 방식)와 MLA(다중 잠재 어텐션, 키와 밸류를 압축해 메모리 사용량을 줄이는 방식)를 모두 지원하며, 각 구조에 따른 파라미터 변화를 직접 비교할 수 있다. 환경 설정과 의존성 설치는 아래 명령어를 통해 수행한다.
pip install torch transformers einops모델 구성 시 GQA와 MLA를 선택적으로 적용해 모델 규모가 어떻게 달라지는지 확인하는 것이 첫 단계다. 연구팀은 두 어텐션 메커니즘을 구현하여 모델의 스케일 변화를 수치화했다. 특히 MLA는 기존 GQA 대비 KV-캐시(모델이 이전 토큰 정보를 저장하는 메모리 공간) 점유율을 획기적으로 낮춰, 제한된 자원 안에서 더 긴 문맥을 처리할 수 있는 기반을 마련했다.
반복 연산의 안정성과 메모리 효율성
예전에는 모델의 깊이를 늘리기 위해 레이어를 물리적으로 추가해야 했지만, 이제는 재귀적 업데이트를 통해 연산 깊이를 가변적으로 조정한다. 연구팀은 행렬 A의 스펙트럼 반경(행렬의 고유값 중 최댓값)을 분석하여 재귀적 구조의 안정성을 검증했다. 극단적인 훈련 조건에서도 모델이 붕괴하지 않고 안정적으로 수렴하는 것을 확인했다. KV-캐시 메모리 점유율 비교 결과는 다음과 같다.
python
KV-캐시 메모리 효율성 비교 예시
def compare_kv_cache(model_gqa, model_mla):
GQA와 MLA의 메모리 사용량 측정 로직
pass
이러한 구조적 변화는 모델이 추론 시점에 얼마나 많은 메모리를 점유할지 예측 가능하게 만든다. 개발자는 이제 하드웨어 사양에 맞춰 어텐션 방식을 선택적으로 적용할 수 있다.
추론 루프를 통한 성능 확장과 ACT 활용
추론 시점에 루프 횟수를 늘리는 것만으로 모델의 정확도가 향상되는 깊이 외삽(Depth Extrapolation) 기능이 핵심이다. 모델을 재학습할 필요 없이 추론 단계에서 연산 루프를 더 많이 돌리는 것만으로 복잡한 논리 문제를 해결한다. 또한 ACT(적응형 계산 시간, 토큰마다 필요한 연산량을 동적으로 결정하는 기법)를 도입해, 쉬운 토큰은 빠르게 처리하고 어려운 토큰은 더 많은 루프를 할당하도록 설계했다. MoE(전문가 혼합, 특정 토큰을 담당하는 전문가 네트워크만 활성화하는 기법) 라우팅을 통해 토큰이 어떤 전문가에게 전달되는지 추적하면 모델의 부하 분산 상태를 시각화할 수 있다.
전체 코드와 상세 구현은 OpenMythos 공식 저장소에서 확인할 수 있다. 이번 아키텍처는 추론 컴퓨팅 자원을 유연하게 활용하여 모델의 한계를 돌파하는 새로운 이정표를 제시한다.




