안드로이드 온디바이스 LLM(기기 내부에서 직접 구동되는 대규모 언어 모델)을 개발하던 한 개발자가 LiteRT-LM(구글의 경량 런타임 기반 언어 모델 실행 환경)을 유니티로 포팅하는 시도를 했다고 한다. 그는 기존 도구에서 느꼈던 속도 갈증이 해결되는 결과를 확인했다.

LiteRT-LM과 MTP 기반의 안드로이드 포팅

LiteRT-LM은 모바일 및 엣지 기기에서 효율적으로 모델을 실행하기 위해 설계된 런타임이다. 특히 MTP(Model Tensor Parallelism, 모델의 텐서를 분할하여 연산 효율을 높이는 기술)가 적용되면서 연산 속도가 비약적으로 향상된 점이 관찰된다. 이번에 공개된 LiteRT-LM-Unity는 유니티(게임 엔진) 환경에서 안드로이드 OS의 하드웨어 자원을 직접 활용할 수 있도록 돕는 래퍼(기존 소프트웨어를 다른 환경에서 쓰기 쉽게 감싸는 도구) 역할을 수행한다.

일반적으로 유니티에서 네이티브 라이브러리를 사용하려면 JNI(Java Native Interface, 자바 코드가 C/C++ 코드를 호출하게 하는 인터페이스)를 통해 복잡한 브릿지 설정을 거쳐야 한다. LiteRT-LM-Unity는 이 과정을 추상화하여 개발자가 C# 환경에서 상대적으로 쉽게 온디바이스 모델을 제어할 수 있게 설계되었다. 이는 모델 로드부터 추론 요청까지의 파이프라인을 단순화하여 구현 시간을 단축하는 효과를 가져온다.

whisper.cpp 대비 GPU 가속의 실질적 차이

예전에는 whisper.cpp(C++ 기반의 가벼운 음성 인식 모델 구현체)를 사용하여 온디바이스 환경을 구축하는 방식이 주로 쓰였다. 하지만 이 방식은 GPU(그래픽 처리 장치) 가속이 제대로 이루어지지 않아 추론 속도가 느리다는 한계가 명확했다. CPU(중앙 처리 장치)의 SIMD(단일 명령으로 여러 데이터를 처리하는 기술) 연산에 의존하는 구조로는 LLM의 방대한 행렬 연산을 실시간으로 처리하기에 역부족이었기 때문이다.

이제는 LiteRT-LM을 통해 GPU 가속을 직접 활용함으로써 연산 병목 현상을 제거하고 응답 시간을 단축하는 구조로 전환되었다. 특히 MTP 기술은 제한된 모바일 메모리 환경에서 모델 가중치를 효율적으로 분산 처리하게 하여, 단일 코어의 부하를 줄이고 전체적인 처리량(Throughput)을 높이는 결과를 낳는다. 이는 단순히 라이브러리를 교체하는 수준을 넘어, 연산의 주체를 CPU에서 GPU로 완전히 옮겼음을 뜻한다.

유니티 개발 환경의 온디바이스 LLM 통합 결과

개발자가 바로 체감하는 변화는 안드로이드 기기 내에서의 실시간 추론 가능성이다. LiteRT Community(LiteRT 사용자 커뮤니티)에서 제공하는 다양한 모델 벤치마크 결과는 하드웨어 가속이 적용된 모델이 얼마나 더 빠른 응답성을 보이는지 수치로 증명한다. 기존에 수 초가 걸리던 토큰 생성 시간이 밀리초 단위로 단축되면서, 사용자 경험 측면에서 끊김 없는 대화형 인터페이스 구현이 가능해졌다.

유니티 기반의 앱 개발자는 이제 복잡한 네이티브 안드로이드 설정 과정 없이도 래퍼를 통해 고성능 LLM을 앱에 통합할 수 있는 실무적 경로를 확보했다. 이는 게임 내 NPC의 지능형 대화 시스템이나 모바일 앱의 오프라인 AI 비서 기능을 구현할 때, 서버 비용 없이 기기 자체 자원만으로 구동할 수 있는 기반이 된다. 결과적으로 클라우드 의존도를 낮추면서도 성능은 유지하는 온디바이스 AI 전략의 실현 가능성이 높아졌다.

온디바이스 AI의 성패는 결국 모델의 크기가 아니라 기기 자원을 얼마나 극한으로 끌어쓰느냐에 달려 있다.