최근 개발자 커뮤니티에서는 모델의 크기를 키우는 대신 데이터의 질을 높여 성능을 극대화하려는 시도가 이어지고 있다. 이번 주 IBM은 이러한 흐름을 반영한 새로운 언어 모델 제품군인 Granite 4.1(IBM의 오픈소스 거대언어모델 시리즈)을 발표하며, 15조 개의 토큰을 활용한 다단계 학습 전략을 상세히 공개했다.

Granite 4.1의 기술적 구성과 학습 파이프라인

IBM 연구팀은 Granite 4.1을 3B(30억 개 파라미터), 8B(80억 개 파라미터), 30B(300억 개 파라미터) 세 가지 크기로 출시했다. 이 모델들은 모두 디코더 전용(Decoder-only) 밀집(Dense) 트랜스포머 구조를 채택하고 있다. 주요 설계 요소로는 GQA(Grouped Query Attention, 쿼리 그룹화를 통해 추론 속도를 높이는 기술), RoPE(Rotary Position Embeddings, 위치 정보를 회전 행렬로 인코딩하는 방식), SwiGLU(활성화 함수), RMSNorm(정규화 기법)이 포함된다. 학습은 총 5단계로 나뉘어 진행되었으며, 초기 단계에서는 일반적인 웹 데이터를 학습하고, 후반부로 갈수록 고품질의 코드, 수학 데이터, 그리고 합성 지시 데이터(Synthetic instruction data)를 혼합하는 방식을 취했다. 특히 5단계에서는 4K 토큰이었던 문맥 길이를 512K 토큰까지 확장하는 LCE(Long-Context Extension, 긴 문맥 처리를 위한 확장 학습) 과정을 거쳤다.

기존 모델과의 차이점 및 데이터 큐레이션

예전에는 단순히 모델의 파라미터 수를 늘리는 것이 성능 향상의 정석으로 여겨졌으나, 이제는 데이터 큐레이션의 정밀도가 모델의 성패를 가르는 핵심 기준이 되었다. IBM은 이번 모델에서 LLM-as-Judge(거대언어모델을 평가자로 활용하는 프레임워크)를 도입해 약 410만 개의 고품질 샘플을 선별했다. 이는 단순히 데이터를 많이 넣는 것이 아니라, 구조적·의미적·행동적 기준에 따라 데이터를 엄격히 필터링하고 수정하는 과정이다. 특히 RAG(검색 증강 생성, 외부 데이터를 참조해 답변하는 기술) 환경에서 모델이 검색된 문맥에 근거하지 않은 답변을 내놓을 경우 이를 환각(Hallucination)으로 간주하여 즉시 제거하는 프로세스를 적용했다. 이러한 과정을 통해 8B 모델은 이전 세대인 Granite 4.0-H-Small(32B 파라미터의 혼합 전문가 모델)보다 더 적은 파라미터로도 대등하거나 우수한 성능을 기록했다.

개발자가 체감할 실제 영향

현업 개발자에게 가장 중요한 변화는 모델의 효율성과 라이선스 정책이다. Granite 4.1은 Apache 2.0 라이선스로 배포되어 기업 환경에서 제약 없이 활용할 수 있다. 또한, 512K 토큰이라는 긴 문맥 처리 능력은 방대한 기술 문서나 코드베이스를 한 번에 입력값으로 넣어야 하는 RAG 시스템 구축 시 큰 이점으로 작용한다. 학습 과정에서 수학적 추론과 코드 생성 능력을 강화했기 때문에, 복잡한 로직이 필요한 자동화 도구 개발에 즉시 투입 가능한 수준이다. IBM은 모델의 모든 학습 단계와 데이터 혼합 비율을 공개하여, 특정 도메인에 특화된 파인튜닝을 수행하려는 엔지니어들에게 투명한 가이드를 제공한다. Granite 4.1 공식 저장소를 통해 모델 가중치와 상세 문서를 확인할 수 있으며, 허깅페이스(Hugging Face, 모델과 데이터셋을 공유하는 플랫폼)에서도 관련 리소스를 이용할 수 있다.

모델의 성능은 이제 파라미터의 크기가 아니라, 학습 데이터의 정제 과정에서 발생하는 논리적 일관성에 의해 결정된다.