AI 에이전트에게 복잡한 작업을 시키면 답변이 나오기까지 수 초의 대기 시간이 발생하고, 기업의 민감한 데이터가 외부 서버로 전송되는 보안 리스크를 감수해야 한다. Liquid AI가 이러한 제약을 해결하기 위해 소비자용 하드웨어에서 빠르게 동작하는 LFM2.5-8B-A1B 모델을 공개했다.
이 모델은 2025년 10월에 출시된 LFM2-8B-A1B를 기반으로 학습 데이터를 12조 개에서 38조 개로 대폭 늘리고, 컨텍스트 윈도우를 128K까지 확장했다. 특히 추론 전용 모델로 설계되어 최종 답변 전 명시적인 사고 과정(Chain of Thought)을 생성하며, 이를 통해 온디바이스 환경에서도 높은 신뢰도의 도구 호출(Tool Calling) 성능을 구현한다.
38T 토큰 학습과 128K 컨텍스트로 확장한 LFM2.5-8B-A1B
기존 모델이 12조 개의 토큰을 학습했던 것과 비교하면, 이번 LFM2.5-8B-A1B는 38조 개의 토큰을 학습하며 데이터 처리 규모를 3배 이상 키웠다. 개발팀은 단순히 학습량만 늘린 것이 아니라, 모델이 한 번에 처리할 수 있는 컨텍스트 윈도우를 기존 32,768토큰에서 128,000토큰으로 4배 확장했다. 이는 긴 문서를 분석하거나 복잡한 추론 과정을 유지해야 하는 에이전트 작업에서 모델의 기억력을 대폭 향상하는 결과로 이어진다. 하드웨어 제약이 있는 환경에서도 성능을 유지하기 위해, 모델은 최종 답변을 내놓기 전 명시적인 사고 과정을 생성하는 추론 전용 구조를 채택했다.
어휘 사전(Vocabulary) 역시 기존 65,536개에서 128,000개로 2배 확대했다. 이를 통해 힌디어, 태국어, 베트남어, 인도네시아어, 아랍어 등 라틴 문자가 아닌 언어의 토큰화 효율을 개선했다. 특히 기존 토큰 ID를 유지하면서 새로운 토큰을 결정론적으로 분해하는 방식을 택해, 모델을 처음부터 다시 학습하지 않고도 언어 처리 품질을 확보했다. 이러한 구조적 변화는 모델이 더 적은 파라미터로도 복잡한 언어 구조를 이해하게 만든다.
개발자는 Hugging Face와 자체 Playground를 통해 Base 모델과 Post-trained 모델을 즉시 사용할 수 있다. 또한 llama.cpp(CPU 기반 추론 엔진), vLLM(대규모 언어 모델 서빙 프레임워크), SGLang(구조화된 생성 및 추론 최적화 프레임워크) 등 주요 인프라가 출시 당일부터 모델을 지원한다. 이는 곧바로 로컬 환경에서 에이전트 워크플로우를 구축하거나, 특정 도구 호출이 필요한 애플리케이션에 모델을 통합할 수 있음을 의미한다. 실무 환경에서는 별도의 API 키나 클라우드 연결 없이도 개인용 노트북에서 초당 253토큰 이상의 속도로 추론이 가능하다.
초당 253토큰의 속도와 '둠 루프'를 잡는 추론 최적화
클라우드 API 호출마다 발생하는 토큰 비용은 서비스 규모가 커질수록 운영사의 고정 지출을 급격히 늘린다. LFM2.5-8B-A1B는 이 비용 구조를 하드웨어 일시 구매 비용으로 전환한다. MoE(Mixture of Experts, 전문가 혼합) 구조를 채택해 활성 파라미터 수를 줄였으며, 최종 답변 전 명시적인 생각의 사슬(Chain of Thought)을 생성하는 추론 전용 모델로 설계했다. M5 Max 칩셋에서 초당 253토큰을 처리하고 Ryzen AI Max+ 395에서는 초당 146토큰의 속도를 낸다. 메모리 점유율은 6GB 미만으로 억제해 엔트리급 노트북에서도 구동한다. 스마트폰에서도 초당 30토큰 수준의 속도를 유지하며 개인 기기 내에서 즉각적인 응답을 구현한다. 추론 비용을 제로로 만들면서도 사용자 경험을 훼손하지 않는 속도 지점을 확보했다.
추론 과정에서 특정 문구가 무한히 반복되는 둠 루프(Doom Loops)는 긴 추론 경로를 가진 모델의 치명적인 결함이다. 개발팀은 타겟팅된 선호도 최적화 단계를 도입해 반복을 유발하는 토큰의 확률 질량을 다른 대안으로 재분배한다. 특정 맥락에서 루프를 촉발하는 토큰을 식별하고, 나머지 다음 토큰 분포는 유지하면서 문제의 토큰 확률만 낮추는 방식이다. 특히 Wait...와 같이 루프를 재시작하는 단어에 가벼운 셰이핑 보상(shaping reward)을 부여해 사용 빈도를 강제로 억제한다. 강화학습(RL) 단계에서 토큰 분포를 직접 제어해 모델이 스스로 반복의 굴레를 벗어나게 만든다. 이는 추론의 안정성을 높여 에이전트의 작업 완수율을 직접적으로 끌어올린다.
파라미터 수가 적은 온디바이스 모델은 지식 용량의 한계로 인해 허구의 정보를 생성하는 환각 현상이 잦다. 이를 해결하기 위해 다양한 지식 데이터셋에 대해 avg@k 기반 보상을 사용하는 강화학습 단계를 적용한다. 모델이 신뢰할 수 없는 지식 범위의 질문을 받았을 때 답변을 포기하도록 학습시켜 지식 경계를 명확히 설정한다. 단순히 정답을 맞히는 것이 아니라, 자신이 모르는 영역을 정확히 인지하고 불확실성을 표현하도록 유도한다. 작은 모델이 가진 물리적 한계를 학습 전략으로 보완해 환각률을 낮추고 답변의 신뢰도를 높인 결과다.
로컬 환경의 실무 적용 가능성은 LocalCowork 데모에서 확인한다. 단일 노트북에서 클라우드 연결이나 API 키 없이 13개의 MCP(Model Context Protocol) 서버와 67개의 도구를 인터랙티브하게 호출한다. 질문, 제안, 확인, 실행, 반복으로 이어지는 도구 디스패치 루프가 1초 미만으로 작동해 사용자가 지연을 느끼지 못한다. 데이터가 기기 외부로 유출되지 않는 완전한 프라이버시 환경에서 복잡한 도구 체이닝을 수행한다. 도구 선택의 정확도와 속도를 동시에 개선해 온디바이스 모델이 실제 업무 도구를 제어하는 에이전트로 작동하는 경로를 증명한다.
초당 253토큰이라는 처리 속도는 LLM의 실행 환경을 클라우드에서 로컬 단말로 완전히 옮겨온다. 지연 시간 없는 실시간 응답이 가능해지면서 API 호출 비용과 데이터 보안 문제는 더 이상 제약 사항이 되지 않는다. 결국 모델의 파라미터 규모 경쟁은 끝났으며, 이제는 제한된 자원 내의 추론 효율이 온디바이스 AI의 실질적인 승부처가 된다.




