수백만 달러 학습비 깼다, 1,500달러로 구현한 Sapient의 HRM-Text

발표에서 확인된 핵심 사실

기업이 독자적인 LLM을 구축하려면 수백만 달러의 GPU 인프라 비용과 방대한 데이터 확보라는 높은 벽을 넘어야 한다. Sapient는 약 1,500달러의 비용으로 10억 개(1B) 파라미터 규모의 기초 모델인 HRM-Text를 처음부터 학습시켰다. 기존 LLM이 요구하는 자원과 토큰 수의 일부만 투입하고도 주요 산업 벤치마크에서 더 큰 규모의 오픈 모델들과 경쟁 가능한 성능을 달성했다. 이는 거대 모델의 파인튜닝이나 외부 API 의존 없이 기업 내부 데이터만으로 저비용 독자 추론 코어를 구축하는 것을 가능하게 한다.

HRM-Text는 표준 트랜스포머(Transformer) 구조 대신 계층적 순환 모델(Hierarchical Recurrent Model, HRM) 아키텍처를 사용한다. 이 모델은 계산 과정을 느리게 진화하는 전략 레이어(H-module)와 빠르게 진화하는 실행 레이어(L-module)로 분리해 처리한다. L-모듈이 로컬 영역에서 반복적인 정제 작업을 수행하는 동안, H-모듈은 전체 문맥을 유지해 추론의 일관성을 높인다. 전략과 실행 계층을 분리함으로써 학습에 필요한 샘플 효율성을 높이고 자원 소모를 줄였다.

원시 텍스트의 자기회귀 예측 대신 지시어-응답

인프라 예산을 쏟아부어 모델 성능을 올리려는 팀은 GPU 추가 투입이 곧바로 추론 능력 향상으로 이어지지 않는 한계에 부딪힌다. 모델이 제대로 작동하지 않을 때마다 크기를 키우고 더 많은 데이터와 GPU를 투입하는 방식은 단순 암기력과 응답 지연 시간만 높일 뿐, 정교한 추론 엔진을 보장하지 않는다. 오히려 인프라 규모가 커질수록 관리 부담이 늘고 외부 벤더 의존도가 심화하는 리스크를 초래한다. Sapient의 CEO Guan Wang은 이를 '반복의 경제학(economics of iteration)' 문제로 정의하며, 양적 팽창만으로는 효율을 높이는 데 한계가 있다고 분석했다.

HRM-Text는 인터넷 규모의 원시 텍스트를 무차별적으로 학습하는 기존의 자기회귀 예측 방식을 배제한다. 대신 지시어-응답 쌍(instruction-response pairs)으로만 모델을 학습시킨다. 사용자가 특정 작업에 대해 타겟팅된 답변을 기대하는 기업 환경의 워크플로우를 학습 단계부터 반영한 결과다. 방대한 데이터를 무작정 읽히는 브루트 포스(brute-force) 방식 대신 목적이 분명한 데이터셋을 통해 학습 효율을 극대화하고 컴퓨팅 자원을 줄였다.

데이터 유출 없이 구축하는 기업 전용 추론 코어

이러한 학습 효율성은 보안이 중요한 기업 환경에서 실질적인 도입 가능성을 높인다. 금융사나 보험사, 은행은 내부 연구 노트나 컴플라이언스 규칙 같은 독점 데이터를 다루기에 데이터 유출 위험이 있는 외부 프론티어 모델에 의존하기 어렵다. 이들에게 필요한 것은 인터넷 전체를 암기한 거대 모델이 아니라, 제어된 환경에서 구동되며 특정 과업 구조를 학습할 수 있는 소규모의 스마트한 추론 모델이다. HRM-Text(Hierarchical Reasoning Model-Text)는 기업이 기밀 데이터를 외부로 보내지 않고 내부의 복잡한 규칙과 숫자를 기반으로 추론하는 독립적인 모델을 저렴하게 운용하는 경로를 제공한다.

신경망 내부에 순환 루프가 형성되면 학습 과정에서 기울기가 사라지거나 폭주하는 수학적 불안정성이 발생한다. 연구진은 이러한 신호 왜곡을 막기 위해 특수 정규화 기술인 MagicNorm(매직놈)과 웜업(warm-up) 방법을 도입했다. MagicNorm은 언어 모델링 과정에서 발생하는 내부 신호를 안정적으로 유지해 기울기 소실이나 폭주 문제를 방지한다. 이 장치를 통해 모델은 학습 과정에서 붕괴하지 않고 일관된 추론 능력을 갖추게 된다.

1,500달러로 10억 개 파라미터 모델을 학습시킨 결과는 LLM 도입 비용 구조를 낮춘다. H-모듈과 L-모듈의 계층 분리와 MagicNorm을 통한 신호 안정화는 자원 투입량과 성능의 상관관계를 개선했다. 기업은 이제 외부 API 의존이나 고비용 파인튜닝 없이도 내부 데이터만으로 작동하는 독자적인 추론 코어를 소유할 수 있다. 결국 AI 경쟁력은 모델의 규모가 아니라 데이터 효율을 극대화하는 아키텍처 설계 능력에서 갈린다.

수백만 달러 학습비 깼다, 1,500달러로 구현한 Sapient의 HRM-Text

발표에서 확인된 핵심 사실

원시 텍스트의 자기회귀 예측 대신 지시어-응답

데이터 유출 없이 구축하는 기업 전용 추론 코어

관련 기사