5.5x. 이번에 공개된 Granite Embedding Multilingual R2 모델이 이전 세대인 R1 모델과 비교해 보여주는 성능 향상 폭의 평균적인 수치다. 이는 단순히 연산 속도가 빨라진 것을 넘어, 200개 이상의 언어를 처리하는 임베딩 모델이 가져야 할 효율성과 정확성 사이의 간극을 획기적으로 좁혔음을 의미한다. 마치 낡은 번역기를 최신형 동시통역기로 교체한 것과 같은 변화다. 그런데 이 모델은 단순히 성능만 개선된 것이 아니라, 기업 환경에서의 실무 적용을 염두에 둔 설계로 시장의 주목을 받고 있다.

97M 파라미터의 효율성과 벤치마크 수치

IBM은 이번에 311M(3억 1,100만 파라미터) 모델과 97M(9,700만 파라미터) 모델 두 가지를 발표했다. 특히 97M 모델은 Multilingual MTEB(Massive Text Embedding Benchmark, 다국어 텍스트 임베딩 성능 측정 도구) 검색 부문에서 60.3점을 기록했다. 이는 100M 이하의 파라미터를 가진 오픈소스 다국어 임베딩 모델 중 가장 높은 수치다. 비교 대상인 multilingual-e5-small(50.9점)과 비교하면 9.4점 높은 결과다. 311M 모델 역시 R1 대비 13.0점 향상된 65.2점을 기록하며 성능을 입증했다. 두 모델 모두 Apache 2.0 라이선스로 배포되어 상업적 활용이 가능하다.

R1에서 R2로의 구조적 변화

예전에는 XLM-RoBERTa(다국어 처리를 위해 설계된 언어 모델 구조)를 기반으로 512 토큰의 컨텍스트 윈도우를 사용했다. 이제는 ModernBERT(최신 트랜스포머 연구를 반영해 재설계된 인코더 구조) 아키텍처를 채택하여 32,768 토큰까지 컨텍스트를 확장했다. 이는 R1 대비 64배 늘어난 수치다. 또한 Flash Attention 2.0(연산 효율을 높여주는 가속 기술)을 지원하여 최신 GPU 환경에서 인코딩 속도를 대폭 개선했다. 토크나이저 역시 Gemma 3(구글이 개발한 오픈 모델)와 GPT-OSS(오픈소스 기반 범용 토크나이저)를 활용해 다국어 및 코드 처리 효율을 최적화했다.

개발자 환경에서의 즉각적인 호환성

개발자가 바로 체감하는 변화는 기존 프레임워크와의 호환성이다. LangChain(LLM 애플리케이션 개발을 돕는 도구), LlamaIndex(데이터 연결을 위한 프레임워크), Haystack(검색 시스템 구축용 프레임워크), Milvus(벡터 데이터베이스) 등에서 모델 이름만 바꾸면 즉시 적용할 수 있다. 별도의 API 변경이나 코드 수정이 필요하지 않다. 또한 CPU 환경에서의 추론 최적화를 위해 ONNX(모델을 다양한 하드웨어에서 실행하게 해주는 표준 포맷) 및 OpenVINO(인텔 CPU에서 AI 모델을 빠르게 실행하는 도구) 가중치를 함께 제공한다. 공식 GitHub 저장소에서 모델 상세 정보와 사용법을 확인할 수 있다.

임베딩 모델의 크기와 언어 커버리지는 이제 타협의 대상이 아니라 최적화의 영역으로 진입했다.