facts: 2억 3천만 파라미터의 초소형 풋프린트와 벤치마크 수치
이번에 공개된 LFM2.5-230M은 2억 3천만 개의 파라미터를 가진 파운데이션 모델로, 19조 개의 토큰으로 사전 학습되었다. 메모리 점유율은 400MB 미만으로 유지되며, 32K(32,768)의 컨텍스트 창을 지원한다. 이 모델은 특히 데이터 추출과 도구 호출(Tool Calling) 성능에 최적화되어, 파라미터 규모가 4배 이상 큰 모델보다 높은 수치를 기록했다.
도구 사용 능력을 측정하는 BFCLv3 벤치마크에서 LFM2.5-230M은 43.26점을 기록했다. 이는 IBM의 Granite 4.0-350M(39.58점)과 구글의 Gemma 3 1B IT(16.61점)를 상회하는 결과다. 데이터 추출 성능을 측정하는 CaseReportBench에서도 22.51점을 기록하며 Alibaba의 Qwen3.5-0.8B(Instruct) 모델의 성능을 앞섰다.
하드웨어별 추론 속도는 디바이스 제약에 따라 차이를 보였다. 퀄컴 스냅드래곤 Gen4 CPU를 탑재한 삼성 갤럭시 S25 울트라에서는 초당 213토큰(tokens per second)의 디코드 속도를 냈으며, 저사양 환경인 라즈베리 파이 5(Raspberry Pi 5)에서도 초당 42토큰의 속도를 유지했다. GPU 추론 스택의 경우 모든 동시성 수준에서 경쟁 소형 모델보다 낮은 엔드투엔드 지연시간을 보였다.
how-it-works: LFM2 아키텍처와 AI ETL 처리 방식
LFM2.5-230M은 표준 트랜스포머(Transformer) 구조에서 벗어나 LFM2 프레임워크를 기반으로 작동한다. 이 구조는 게이트형 단거리 컨볼루션(Gated short-range convolutions)과 그룹 쿼리 어텐션(Grouped-query attention)을 교차 배치한 하이브리드 시스템이다. 이를 통해 순수 어텐션 메커니즘에서 발생하는 이차 방정식 형태의 메모리 비용 증가 문제를 해결하고, 엣지 하드웨어에서 긴 컨텍스트와 순차적 데이터를 효율적으로 처리한다.
이러한 구조적 특성은 기존의 규칙 기반 ETL(Extract, Transform, Load) 프로세스를 'AI ETL'로 전환하는 데 활용된다. 기존 시스템은 문서 레이아웃이나 스키마가 변경되면 파이프라인이 중단되는 취약점이 있었으나, LFM2.5-230M은 PDF, 이메일, 웹 폼과 같은 비정형 소스에서 데이터를 추론해 JSON과 같은 구조화된 형식으로 자동 변환한다.
실제 구동 사례로 Unitree G1 휴머노이드 로봇에 탑재되어 NVIDIA 젯슨 오린(Jetson Orin) 컴퓨팅 모듈에서 온디바이스로 작동했다. 모델은 "2초간 정지 후 초속 1미터로 3미터 전진, 5초간 한 발 무릎 꿇기, 초속 0.5미터로 3미터 후진"과 같은 자연어 명령을 입력받아, NVIDIA의 SONIC 프레임워크가 제공하는 저수준 기술(low-level skills)을 호출하는 구조화된 다단계 계획으로 변환해 출력한다.
implementation-impact: 도입 비용과 운영 제약 및 생태계
개발자와 실무자가 이 모델을 도입할 때 가장 먼저 고려해야 할 지점은 작업의 성격이다. LFM2.5-230M은 고도의 수학적 추론, 코딩, 창의적 글쓰기 작업에는 적합하지 않다. 반면, 단순 송장 파싱, 주소 형식 변환, 텔레메트리 데이터 라우팅과 같은 반복적인 데이터 추출 작업에서는 클라우드 API 비용을 획기적으로 낮출 수 있다. 예를 들어 입력 100만 토큰당 5달러의 비용이 발생하는 Claude Opus 4.6 같은 거대 모델을 단순 파싱 작업에 사용하는 경제적 비효율을 로컬 하드웨어 실행으로 대체 가능하다.
배포 환경은 llama.cpp(GGUF), MLX, vLLM, SGLang, ONNX 등 주요 추론 생태계를 즉시 지원하며, 모델 가중치는 허깅페이스(Hugging Face)를 통해 제공된다. 라이선스는 LFM Open License v1.0을 따르며, 연간 매출 1,000만 달러 미만의 개인 및 기업은 무료로 사용할 수 있으나, 이를 초과하는 대기업은 유료 엔터프라이즈 계약이 필요하다.
결과적으로 실무자는 모델의 크기를 줄여 지연시간과 비용을 낮추는 대신, 복잡한 추론 능력을 포기하는 트레이드오프를 선택하게 된다. 이는 모든 작업을 하나의 거대 모델로 처리하는 방식에서 벗어나, 특정 기능(데이터 추출, 도구 호출)에 최적화된 초소형 모델을 에이전트 파이프라인의 '기술 선택 레이어(Skill-selection layer)'로 배치하는 운영 전략으로의 변화를 의미한다.




