라즈베리 파이(초소형 컴퓨터)에 LLM을 올리려던 개발자의 화면이 멈춘다. 메모리 부족 경고가 뜨고 시스템이 먹통이 된다. 클라우드 API를 쓰자니 응답 지연 시간이 길고 매달 청구되는 비용이 부담스럽다. 내 기기 안에서 모델이 직접 돌아가게 할 방법이 없을까 고민하는 순간이다.
LiteRT-LM v0.10.2의 하드웨어 가속과 기술 제원
Google이 온디바이스 LLM 추론 엔진인 LiteRT-LM을 공개했다. 이 엔진은 Android, iOS, 웹, 데스크톱, IoT(사물인터넷) 등 엣지 환경 전반에서 대규모 언어 모델을 실행한다. 최신 Gemma 4 모델 지원이 추가되었다. GPU(그래픽 처리 장치)와 NPU(신경망 처리 장치) 하드웨어 가속을 통해 엣지 디바이스에서도 최적의 추론 성능을 낸다.
호환 모델 범위가 넓다. Gemma 외에도 Llama(메타의 오픈 소스 모델), Phi-4(마이크로소프트의 소형 모델), Qwen(알리바바의 언어 모델) 등을 지원한다. 설치와 실행은 단 한 줄의 명령어로 끝난다.
uv tool install litert-lm
litert-lm runCLI(명령줄 인터페이스)에서 --attachment 옵션을 사용하면 이미지 첨부 추론이 가능하다. 멀티모달(텍스트 외 이미지, 오디오 처리 방식) 지원으로 비전과 오디오 입력을 처리한다. 릴리스 이력은 기술적 진화 과정을 보여준다. v0.10.2가 최신 버전이다. v0.10.1에서 Gemma 4와 CLI가 도입되었다. v0.8.0에서는 데스크톱 GPU와 멀티모달 기능이 추가되었다. v0.7.0에서는 NPU 가속이 처음 적용되었다.
개발 환경 지원도 구체적이다. Kotlin(안드로이드 개발 언어), Python(AI 프로토타이핑 언어), C++(고성능 네이티브 언어)를 안정적으로 지원한다. Swift(애플 기기용 개발 언어)는 현재 개발 중이다. 라이선스는 Apache-2.0(자유로운 수정과 배포가 가능한 오픈 소스 라이선스)을 따른다.
클라우드 의존성 탈피와 에이전틱 AI의 지형 변화
기존 온디바이스 AI의 한계는 하드웨어 자원의 제약이었다. LiteRT-LM은 NPU(신경망 처리 장치)와 GPU(그래픽 처리 장치) 가속을 통해 추론 속도를 높여 이 지형을 바꿨다. 모델이 클라우드를 거치지 않고 기기 내부에서 연산하면 응답 속도는 즉각적으로 변한다. 이는 사용자 경험의 질을 결정하는 결정적 요소다.
데이터 주권의 관점에서도 의미가 크다. 이미지나 오디오 같은 멀티모달(텍스트 외 이미지, 오디오 처리 방식) 데이터를 서버로 보내지 않고 로컬에서 처리하면 보안성이 극대화된다. 기업 입장에서는 매 요청마다 발생하는 서버 인프라 비용을 획기적으로 줄이는 포석이 된다. 클라우드 기반의 추론 비용, 즉 인퍼런스 택스(추론 비용 부담)에서 벗어날 수 있다.
가장 주목할 지점은 Function Calling(모델이 외부 도구를 호출해 작업을 수행하는 기능)의 내장이다. 이는 단순한 챗봇을 넘어 에이전틱 워크플로우(AI가 스스로 계획을 세워 도구를 사용하는 흐름)를 가능하게 한다. 기기 내의 설정값을 바꾸거나 특정 앱의 기능을 실행하는 온디바이스 에이전트의 기반이 마련된 셈이다. AI가 단순 답변자가 아니라 기기를 제어하는 운영체제의 일부가 된다.
실제 적용 사례는 이미 광범위하다. Chrome, Chromebook Plus, Pixel Watch 등 Google 제품에 탑재되어 GenAI(생성형 AI)를 구동하고 있다. Google AI Edge Gallery(모바일 모델 실행 앱)를 통해 일반 사용자도 모바일에서 모델을 즉시 실행할 수 있다. 이는 하드웨어와 소프트웨어 최적화를 동시에 쥐고 있는 기업의 전략적 우위를 보여준다.
AI의 연산 주도권이 거대 데이터 센터에서 개별 디바이스의 칩셋으로 완전히 이동한다.




