온디바이스 AI 시장의 핵심 과제는 제한된 하드웨어 자원에서 어떻게 거대 모델 수준의 추론 능력을 구현하느냐에 있었다. Liquid AI가 공개한 LFM2.5-8B-A1B는 이 난제를 해결하기 위해 하이브리드 아키텍처를 채택한 새로운 모델 패밀리다. 이 모델은 단순한 경량화를 넘어 확장된 사전 학습과 강화 학습을 통해 온디바이스 환경에서도 복잡한 지시사항을 수행하고 도구 호출을 체이닝할 수 있는 능력을 갖췄다. 특히 실시간 응답성이 중요한 개인용 비서 애플리케이션을 겨냥해 설계되었다는 점이 주목할 만하다.
하이브리드 구조와 압도적인 학습 데이터의 결합
LFM2.5-8B-A1B의 기술적 핵심은 전체 파라미터와 활성 파라미터의 분리에 있다. 이 모델은 총 83억 개의 파라미터를 보유하고 있지만, 실제 추론 시에는 15억 개의 파라미터만 활성화하는 구조를 가진다. 이는 전문가 혼합 방식인 MoE(Mixture of Experts, 여러 전문 네트워크 중 필요한 부분만 사용하는 기술)와 유사한 효율성을 제공하면서도 하이브리드 설계를 통해 성능을 극대화했다. 모델 내부적으로는 24개의 레이어로 구성되어 있으며, 이 중 18개는 LIV conv(Liquid-based Convolution, 리퀴드 기반 합성곱) 레이어이고 6개는 GQA(Grouped Query Attention, 그룹 쿼리 주의 집중) 레이어로 이루어져 있다.
학습 규모 또한 파격적이다. 총 38조 개의 토큰을 학습에 사용하여 모델의 기본 지식 체계를 탄탄하게 구축했다. 컨텍스트 길이는 131,072 토큰으로 매우 길어 방대한 양의 문서를 한 번에 처리할 수 있으며, 어휘 사전 크기는 128,000개다. 지원 언어는 영어, 한국어, 중국어, 일본어, 프랑스어, 독일어, 스페인어, 포르투갈어, 아랍어를 포함해 글로벌 서비스 대응이 가능하다. 모델의 최적 성능을 위해 권장되는 생성 파라미터는 다음과 같다.
`temperature: 0.2`, `top_p: 80`, `repetition_penalty: 1.05`
에이전트 워크플로우를 위한 실전적 성능과 배포 편의성
개발자가 이 모델에 주목해야 하는 이유는 단순한 벤치마크 점수가 아니라 실무 적용 가능성에 있다. LFM2.5-8B-A1B는 지시 이행과 에이전트 작업에서 훨씬 더 큰 규모의 밀집 모델이나 MoE 모델과 경쟁할 만한 성능을 보여준다. 특히 AA-Omniscience Index(정답에는 가점을 주고 환각 현상에는 감점을 주는 지표)에서 높은 점수를 기록하며 신뢰도를 높였다. 모델은 추론 과정에서 CoT(Chain of Thought, 사고의 사슬)라는 명시적인 생각 단계를 거쳐 최종 답변을 내놓기 때문에 논리적 오류가 적다.
또한 배포 생태계에 대한 지원이 매우 강력하다. 출시 첫날부터 llama.cpp(LLM을 로컬에서 실행하게 돕는 C++ 라이브러리), MLX(애플 실리콘 최적화 프레임워크), vLLM(고속 추론 및 서빙 엔진), SGLang(구조화된 생성 언어)를 모두 지원한다. 이를 통해 CPU와 GPU 모두에서 동급 모델 중 가장 빠른 처리량을 기록한다. 개발자는 자신의 환경에 맞춰 다양한 포맷을 선택할 수 있다.
bash
Hugging Face CLI를 통한 모델 다운로드 예시
huggingface-cli download LiquidAI/LFM2.5-8B-A1B
모델의 실제 활용을 위한 채팅 템플릿은 ChatML 형식을 따른다. 아래는 기본적인 추론 코드 예제다.
from transformers import AutoModelForCausalLM, AutoTokenizertokenizer = AutoTokenizer.from_pretrained("LiquidAI/LFM2.5-8B-A1B")
model = AutoModelForCausalLM.from_pretrained("LiquidAI/LFM2.5-8B-A1B")
messages = [
{"role": "system", "content": "You are a helpful assistant trained by Liquid AI."},
{"role": "user", "content": "What is C. elegans?"},
]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt")
outputs = model.generate(input_ids, max_new_tokens=512)
print(tokenizer.decode(outputs[0]))
이 모델은 특히 도구 활용과 구조화된 출력 생성에 강점이 있다. 시스템 프롬프트에 JSON 형태로 도구 정의를 제공하면 파이썬 스타일의 함수 호출을 수행한다. 다만, RAG(Retrieval Augmented Generation, 외부 지식을 검색해 답변에 반영하는 기술) 없이 수행하는 고도의 프로그래밍 작업이나 방대한 지식 기반의 질의응답에는 적합하지 않으므로, 용도에 맞는 전략적 배치가 필요하다.
LFM2.5-8B-A1B는 클라우드 의존도를 낮추고 기기 자체에서 지능형 에이전트를 구현하려는 개발자들에게 가장 현실적인 대안이 될 모델이다.




