백엔드 개발자 T씨는 로컬 환경에서 거대언어모델(LLM)을 구동하기 위해 수많은 모델을 내려받고 삭제하는 과정을 반복하며 시간을 허비하고 있다. 하드웨어 사양에 맞춰 모델을 선택하려 해도, 단순히 파라미터 크기만 고려해서는 실제 성능을 가늠하기 어렵기 때문이다. 이런 곤란을 겪는 개발자가 늘고 있다.

하드웨어 기반 모델 추천 도구 WhichLLM

이번 주 깃허브(GitHub, 오픈소스 코드 저장소)에 공개된 WhichLLM은 사용자의 GPU, CPU, RAM 사양을 자동으로 탐지하여 가장 적합한 모델을 순위별로 제시한다. 이 도구는 허깅페이스(Hugging Face, AI 모델 공유 플랫폼)에 등록된 모델 중 시스템 사양에 맞는 최상위 모델을 선별한다. 단순히 모델이 하드웨어에 들어가는지 확인하는 수준을 넘어, 벤치마크 점수와 모델의 세대 차이까지 고려하여 실질적인 성능 순위를 매긴다. 예를 들어 32B 모델이 하드웨어에 탑재 가능하더라도, 벤치마크 점수가 더 높고 최신 세대인 27B 모델을 우선순위로 추천하는 방식이다.

벤치마크와 실제 구동 성능의 결합

예전에는 모델의 파라미터 크기만을 기준으로 구동 가능 여부를 판단했다면, 이제는 벤치마크 품질과 실제 하드웨어 적합성을 동시에 고려한다. WhichLLM은 모델별로 0점에서 100점 사이의 점수를 부여하는데, 벤치마크 품질과 모델 크기가 핵심 지표로 작용한다. 여기에 증거 신뢰도, 런타임 적합성, 속도, 소스 신뢰도, 인기도를 가중치로 적용하여 최종 순위를 결정한다. 특히 LiveBench, Artificial Analysis Index, Aider와 같은 실시간 벤치마크 데이터를 통합하며, Open LLM Leaderboard v2나 Chatbot Arena ELO와 같은 고정된 지표를 병행하여 모델의 최신성을 보장한다.

명령어 기반의 즉각적인 실행 환경

개발자가 바로 체감하는 변화는 복잡한 설치 과정의 생략이다. 이 도구는 uv(파이썬 패키지 관리 및 프로젝트 실행 도구)를 활용해 격리된 환경을 자동으로 생성하고, 필요한 의존성을 설치한 뒤 모델을 다운로드하여 즉시 대화형 인터페이스를 실행한다. 사용자는 다음과 같은 명령어를 통해 자신의 GPU 사양에 맞는 모델을 시뮬레이션하거나 직접 실행할 수 있다.

bash
whichllm --gpu "<your card>"

또한, 파이썬(Python) 환경에서 즉시 활용할 수 있도록 코드 스니펫을 제공하여 개발자가 자신의 프로젝트에 모델을 빠르게 통합할 수 있도록 돕는다. 모델의 파라미터가 기존 베이스 모델과 2배 이상 차이가 날 경우 상속 관계를 거부하는 등, 변형 모델이나 파생 모델의 성능을 정확히 판별하기 위한 필터링 로직도 포함되어 있다.

하드웨어 자원의 한계 내에서 최상의 성능을 내는 모델을 찾는 것은 더 이상 수동적인 시행착오의 영역이 아니다.