6GB 메모리로 26B 모델 성능 낸다, Liquid AI의 LFM2.5-8B-A1B

6 GB.

Liquid AI(온디바이스 AI 모델 개발사)의 신규 모델 LFM2.5-8B-A1B가 M5 Max CPU에서 구동될 때 사용하는 최대 메모리 양이다. 고성능 추론 엔진을 거대한 GPU 서버 없이 일반 노트북 수준의 자원만으로 돌릴 수 있다는 뜻이다. 그런데 단순히 가벼운 것이 전부가 아니다.

그동안 온디바이스 AI의 최대 난제는 모델 크기를 줄이면 추론 능력이 급격히 떨어진다는 점이었다. 특히 복잡한 단계의 사고 과정이 필요한 '추론 전용 모델'은 막대한 연산량을 요구해 모바일이나 PC 로컬 환경에서 구현하기 어려웠다. Liquid AI는 이번에 공개한 LFM2.5-8B-A1B를 통해 이 트레이드오프를 정면으로 돌파했다. 전체 파라미터는 유지하되 토큰당 활성화되는 파라미터만 극소화하는 전략으로, 개인 기기에서도 프라이버시를 유지하며 고성능 에이전트를 실행할 수 있는 기술적 근거를 제시했다.

LFM2.5-8B-A1B: 8.3B 파라미터와 1.5B 활성 파라미터의 조합

개인 노트북이나 스마트폰에서 AI 모델을 돌릴 때 가장 먼저 맞닥뜨리는 문제는 메모리 부족으로 인한 속도 저하와 발열이다. 리퀴드 AI(Liquid AI)가 공개한 LFM2.5-8B-A1B는 이 지점을 MoE(Mixture-of-Experts, 전문가 혼합) 구조로 해결했다. 전체 파라미터는 8.3B지만 토큰당 실제로 사용하는 활성 파라미터는 1.5B에 불과하다. 24개의 레이어 중 18개는 더블 게이트 LIV 컨볼루션 블록으로, 6개는 GQA(Grouped-Query Attention) 레이어로 구성했다. 연산에 필요한 파라미터 수를 극도로 낮춰 소비자용 하드웨어에서도 구동이 가능하게 설계했다. 적은 활성 파라미터 덕분에 토큰 생성 비용이 낮아져 온디바이스 환경의 제약을 줄였다.

이번 모델은 추론 전용(reasoning-only) 모델로 설계되어 최종 답변 전에 명시적인 생각의 사슬(Chain of Thought)을 생성한다. MoE 모델이 계산 집약적인 환경에서 작동한다는 점에 착안해, 활성 파라미터 수를 낮게 유지함으로써 추론 토큰 하나하나의 생성 비용을 낮춘 결과다. 모델의 체급은 유지하면서 학습량과 처리 용량은 대폭 늘렸다. 사전 학습 데이터는 기존 12T 토큰에서 38T 토큰으로 확장했다. 한 번에 처리할 수 있는 컨텍스트 윈도우 역시 32,768 토큰에서 128K(131,072 토큰)로 늘어났다.

컨텍스트 확장은 두 단계의 정밀한 공정을 거쳤다. 먼저 2T 토큰의 중간 학습 단계에서 추론과 수학, 도구 사용에 집중해 32K까지 높였다. 이후 RoPE(Rotary Positional Embedding) 베이스 θ 값을 조정하고 400B 토큰 단계의 학습을 추가해 최종적으로 128K를 달성했다. 더 많은 데이터를 학습하고 더 긴 문맥을 기억하게 함으로써 온디바이스 모델의 고질적인 한계인 짧은 기억력을 보완했다.

언어 처리 효율을 높이기 위해 어휘 사전(Vocabulary) 크기도 조정했다. 기존 65,536개였던 어휘 사전을 128,000개로 두 배 확장했다. 이 변화는 라틴 문자 기반이 아닌 언어들을 더 효율적으로 토큰화하는 결과로 이어졌다. 특히 힌디어, 태국어, 베트남어, 인도네시아어, 아랍어에서 가장 강력한 압축 효율 개선이 나타났다. 토크나이저를 처음부터 다시 학습시키지 않고 기존 BPE(Byte Pair Encoding) 병합 상태에서 다국어 코퍼스로 확장했다. 새로운 임베딩 행은 하위 토큰 분해의 평균값으로 초기화하고, 짧은 2단계 적응 과정을 거쳐 품질을 회복했다. 어휘 사전의 확장은 다국어 환경에서 토큰 소모량을 줄여 추론 속도를 높이는 실질적인 이득을 준다.

24개 레이어와 RL 기반의 환각 제어 메커니즘

보통 모델의 추론 능력을 높이려면 매개변수를 대폭 늘리거나 사람이 정답을 일일이 가르치는 데이터셋 구축이 필수적이라고 믿는다. LFM2.5-8B-A1B는 아키텍처 설계와 강화학습(RL)의 조합으로 이 상식을 뒤집었다. 전체 아키텍처는 총 24개 레이어로 설계되었다. 이 중 18개는 더블 게이티드 LIV 컨볼루션 블록으로 채웠고, 나머지 6개는 GQA(Grouped Query Attention) 레이어로 구성했다. MoE(Mixture-of-Experts)와 GQA, 게이티드 숏 컨볼루션 블록을 혼합해 추론 효율을 극대화했다. 하드웨어 제약이 큰 온디바이스 환경에서 논리적 흐름을 유지하기 위한 구조적 선택이다.

긴 추론 과정에서 모델이 특정 문구를 반복하며 빠져나오지 못하는 둠 루프(doom loops) 현상은 기존 MoE 모델의 고질적인 문제였다. 개발팀은 이를 해결하기 위해 2단계 강화학습을 도입했다. 우선 선호도 최적화 단계를 통해 확률 질량을 더 타당한 대안으로 재배치함으로써 무한 루프 발생 가능성을 낮췄다. 이어지는 RL 셰이핑 보상 단계에서는 Wait...와 같이 루프를 유발하는 재시작 단어의 생성을 직접적으로 억제했다. 특정 단어가 트리거가 되어 추론 경로가 꼬이는 현상을 보상 체계로 차단해 추론의 연속성을 확보했다.

환각을 제어하는 핵심 기제는 avg@k 기반 보상 체계의 도입이다. 모델이 가진 지식의 신뢰도가 낮을 때 억지로 답을 생성하는 대신 답변을 거부하도록 학습시켰다. 그 결과 AA-Omniscience Non-Hallucination Rate 수치는 기존 7.46에서 63.47로 대폭 상승했다. 단순히 정답을 맞히는 확률을 높이는 것이 아니라, 신뢰할 수 없는 정보에 대해 기권하는 능력을 키워 환각을 물리적으로 줄였다. 이는 모델이 내뱉는 답변의 정확도보다 정직함에 무게를 둔 제어 방식이다.

토크나이저 확장 과정에서도 모델 전체를 다시 학습시키는 일반적인 방식을 택하지 않았다. 기존 BPE(Byte Pair Encoding) 병합 학습을 다국어 코퍼스로 계속 진행해 어휘 사전 크기를 65,536개에서 128,000개로 두 배 확장했다. 새로운 임베딩 행은 서브 토큰 분해의 평균값으로 초기화한 뒤, 짧은 2단계 적응 과정을 거쳐 품질을 회복했다. 힌디어, 태국어, 베트남어, 인도네시아어, 아랍어 등 비라틴 문자 스크립트에서 가장 강력한 압축 이득을 얻었다. 재학습 없이도 다국어 처리 효율을 높여 토큰 소모량을 줄인 결과다.

Gemma-4-26B 수준의 성능을 6GB 메모리 점유로 구현

개인 개발자가 로컬 환경에서 복잡한 추론 모델을 돌릴 때 가장 큰 걸림돌은 메모리 점유율이다. 리퀴드 AI(Liquid AI)가 공개한 LFM2.5-8B-A1B는 이 문제를 해결하기 위해 8.3B 파라미터 중 토큰당 1.5B만 활성화하는 희소(Sparse) MoE(Mixture-of-Experts) 설계를 채택했다. 그 결과, 소비자가 사용하는 일반적인 하드웨어에서도 6GB 이하의 메모리 점유율로 구동이 가능하다. 이는 거대 모델을 구동하기 위해 고가의 서버급 장비를 갖춰야 했던 기존의 제약을 실질적으로 낮춘 사례다.

개발팀이 공개한 벤치마크 수치는 이러한 효율성이 성능 저하로 이어지지 않았음을 증명한다. 지시 이행 능력을 측정하는 IFEval 점수는 91.84를 기록하며, 훨씬 큰 규모의 밀집 모델인 Gemma-4-26B-A4B-IT와 대등한 수준에 도달했다. 특히 환각 현상을 억제하는 AA-Omniscience Non-Hallucination Rate는 기존 7.46에서 63.47로 대폭 상승했다. 이는 모델이 단순히 응답을 생성하는 것을 넘어, 신뢰할 수 있는 지식 범위 내에서만 답변하도록 강화 학습이 이루어졌음을 의미한다.

수학적 추론과 전문 영역에서의 성능 향상도 뚜렷하다. MATH500 점수는 74.80에서 88.76으로 올랐으며, 통신 분야 특화 벤치마크인 Tau² Telecom 점수는 13.60에서 88.76으로 비약적인 개선을 보였다. 이러한 수치는 더 큰 파라미터를 가진 모델들과 비교해도 경쟁력이 있는 수준이다. 모델은 128K 컨텍스트 윈도우를 지원하며, 38T 토큰 규모의 사전 학습과 대규모 강화 학습 단계를 거쳐 논리적 추론 능력을 강화했다.

이 모델은 llama.cpp, MLX, vLLM, SGLang 등 주요 추론 프레임워크를 즉시 지원한다. M5 Max 프로세서 환경에서는 초당 253 토큰, Ryzen AI Max+ 395 환경에서는 초당 146 토큰의 속도를 낸다. 모바일 기기에서도 초당 30 토큰 수준의 성능을 유지한다. 결과적으로 연산 효율성을 극대화한 설계 덕분에, 더 큰 모델이 수행하던 복잡한 지시 이행과 도구 호출 작업을 훨씬 적은 자원으로 동일하게 처리할 수 있게 되었다.

M5 Max 253 tok/s, H100 일일 16억 토큰 처리량

동일한 모델을 구동하더라도 하드웨어의 체급에 따라 실질적인 처리 속도는 극명하게 갈린다. 리퀴드 AI(Liquid AI)가 공개한 LFM2.5-8B-A1B 모델은 소비자용 기기에서 엔터프라이즈 서버까지 폭넓은 추론 생태계를 지원하며 배포 장벽을 낮췄다. 개발팀이 공개한 벤치마크 수치는 하드웨어 환경별로 최적화된 성능을 명확히 보여준다.

개인용 컴퓨팅 환경에서 이 모델은 효율적인 추론을 수행한다. M5 Max CPU 환경에서는 초당 253 토큰(tokens/s)의 속도를 기록하며, 라이젠 AI 맥스+(Ryzen AI Max+ 395)에서는 초당 146 토큰을 처리한다. 이 과정에서 모델은 전체 메모리 점유율을 6GB 미만으로 유지한다. 스마트폰과 같은 모바일 환경에서도 초당 약 30 토큰의 속도를 확보해 온디바이스 AI로서의 실용성을 갖췄다.

엔터프라이즈급 서버 환경에서의 처리량은 더욱 공격적이다. 단일 엔비디아(NVIDIA) H100 SXM5 GPU를 사용할 경우, 출력 처리량은 초당 18.5K 토큰에 달한다. 이를 일일 처리량으로 환산하면 16억 토큰 이상의 데이터를 처리할 수 있는 수준이다. 고도의 병렬 연산이 필요한 데이터 센터 환경에서도 충분한 성능을 발휘하도록 설계된 결과다.

이러한 범용성은 폭넓은 프레임워크 지원에서 기인한다. 모델은 출시 첫날부터 llama.cpp, MLX, vLLM, SGLang 등 주요 추론 엔진과 호환된다. 또한 ONNX(Open Neural Network Exchange)와 리퀴드 AI의 자체 엣지 플랫폼인 LEAP을 통해 다양한 배포 환경을 지원한다. 특정 하드웨어에 종속되지 않는 생태계 연결성은 개발자가 인프라 구성 단계에서 겪는 기술적 제약을 최소화하는 역할을 한다.

비라틴 문자 효율화와 파이썬 기반 도구 호출의 실무 적용

기존의 언어 모델을 활용해 다국어 서비스를 구축하던 개발자들은 힌디어, 태국어, 베트남어, 인도네시아어, 아랍어 등 비라틴 문자권에서 발생하는 토큰 낭비 문제를 고질적인 병목으로 꼽아왔다. 동일한 의미를 전달하더라도 라틴 문자보다 훨씬 많은 토큰을 소모하게 되어, 결과적으로 컨텍스트 윈도우의 가용성이 떨어지고 추론 비용이 상승하는 구조였기 때문이다. 이번 LFM2.5-8B-A1B 모델은 보캐블러리(Vocabulary) 크기를 기존 65,536개에서 128,000개로 두 배 확장하며 이러한 비효율을 직접적으로 개선했다. 토크나이저를 처음부터 다시 학습시키는 대신 기존 BPE(Byte Pair Encoding) 병합 데이터를 기반으로 다국어 코퍼스에서 확장을 진행했으며, 새로운 임베딩 행은 하위 토큰 분해의 평균값으로 초기화한 뒤 2단계 적응 과정을 거쳐 품질을 확보했다. 결과적으로 비라틴 문자권 언어에서 토큰 압축 효율이 크게 향상되어, 제한된 온디바이스 환경에서도 더 긴 문맥을 처리할 수 있는 토대가 마련되었다.

개발자가 에이전트 시스템을 설계할 때 가장 빈번하게 마주하는 도구 호출(Tool Calling) 방식 역시 실무 편의성을 고려해 표준화되었다. LFM2.5-8B-A1B는 기본적으로 파이썬(Pythonic) 스타일의 함수 호출을 생성하도록 설계되었으며, 모델의 출력물 내에서 호출문이 어디서 시작되고 끝나는지 명확히 구분하기 위해 특수 토큰인 <|tool_call_start|>와 <|tool_call_end|>를 도입했다. 이러한 구조는 별도의 복잡한 파싱 로직 없이도 에이전트가 외부 API나 함수를 호출하는 과정을 정형화된 데이터 흐름으로 관리할 수 있게 돕는다. 만약 특정 시스템 환경에서 파이썬 형식이 아닌 다른 데이터 구조가 필요할 경우, 시스템 프롬프트를 통해 JSON 형식으로 출력 방식을 오버라이드할 수 있는 유연성도 함께 갖췄다.

이러한 기술적 변화는 한국어와 같이 고유한 문법 체계를 가진 언어 환경에서 로컬 에이전트를 구축하려는 실무자들에게 직접적인 이점으로 작용한다. 특히 온디바이스 환경에서 6GB 미만의 메모리 점유율을 유지하면서도 도구 호출의 정확성을 유지해야 하는 상황에서, 이번 모델의 토큰화 효율 개선과 표준화된 호출 인터페이스는 에이전트의 응답 지연 시간을 줄이고 제어권을 강화하는 핵심 요소가 된다. 개발자는 모델이 생성하는 함수 호출문을 파싱하는 과정에서 발생하는 예외 상황을 최소화할 수 있으며, 이는 결과적으로 복잡한 추론 작업이 필요한 에이전트 서비스의 안정성을 높이는 결과로 이어진다.

6GB 메모리로 26B 모델 수준의 성능을 구현한 것은 하드웨어의 물리적 한계를 아키텍처의 효율성으로 돌파한 결과다. 거대 모델의 파라미터 수를 무작정 늘리는 방식에서 벗어나, 적은 자원으로 고성능을 내는 최적화 경쟁이 가속화되는 시점이다. 특히 메모리 점유율이 온디바이스 AI의 상용화 여부를 가르는 핵심 지표가 된 지금, LFM의 접근법은 하드웨어 비용 절감과 성능 유지라는 두 가지 과제를 동시에 해결한다. 결국 AI의 경쟁력은 모델의 규모가 아니라 자원 대비 성능의 효율성으로 재편된다.