"Simple Attention Network"

개발팀은 Gemini 3.1(구글의 대규모 언어 모델)을 증류하여 26M 파라미터 규모의 초소형 모델을 구축했다. 이 시도는 극소형 AI가 소비자 기기에서 도구 호출 기능을 수행할 수 있는지 검증하는 단계로 진입했다.

26M 파라미터와 Cactus 기반의 구동 수치

Needle(제미나이의 기능을 추출해 만든 초소형 모델)은 26M 파라미터로 구성된 Simple Attention Network(단순화된 어텐션 구조의 신경망)다. 이 모델은 소비자 기기인 스마트폰, 스마트워치, 스마트글래스(안경형 웨어러블 기기)에 최적화된 타이니 AI(초소형 인공지능)를 재정의하기 위한 실험적 결과물이다.

Cactus(초고속 추론 엔진) 환경에서 구동했을 때 프리필(입력 텍스트를 처리하는 단계) 속도는 초당 6,000토큰, 디코드(결과를 생성하는 단계) 속도는 초당 1,200토큰을 기록했다. 모델 가중치와 데이터셋 생성 과정은 Cactus-Compute/needle 저장소에 완전히 공개되었다. 사용자는 로컬 PC나 Mac 환경에서 직접 파인튜닝(특정 목적에 맞게 모델을 추가 학습시키는 과정)이 가능하다. 테스트를 위한 웹 UI는 http://127.0.0.1:7860 주소에서 실행되며 가중치는 자동으로 다운로드된다.

기존 소형 모델 대비 도구 호출 효율성

예전에는 도구 호출 기능을 구현하기 위해 최소 수억 개의 파라미터가 필요했다. 반면 Needle은 단일 샷 함수 호출(한 번의 예시만으로 도구를 사용하는 능력) 작업에서 FunctionGemma-270m(구글의 함수 호출 특화 모델), Qwen-0.6B(알리바바의 소형 언어 모델), Granite-350m(IBM의 기업용 모델), LFM2.5-350m(소형 언어 모델의 일종)보다 우수한 성능을 보였다.

주목할 점은 파라미터 규모가 비교 대상 모델들보다 현저히 작음에도 특정 작업에서 효율성을 확보했다는 사실이다. 그러나 대화형 설정에서의 전반적인 문맥 파악 능력이나 범용적인 용량은 기존의 300M급 모델들이 여전히 우위에 있다. 소형 모델 특유의 불안정한 출력 경향은 여전한 제약 사항으로 남는다. 이는 Needle이 범용 챗봇이 아닌 특정 기능 수행을 위한 특화 모델로 설계되었음을 의미한다.

온디바이스 AI의 하드웨어 제약 해소

개발자가 체감하는 가장 큰 변화는 하드웨어 요구 사양의 급격한 하락이다. 초소형 소비자 기기에서도 지연 시간 없이 도구 호출 기능을 탑재할 수 있는 기반이 마련되었다. 이제는 클라우드 연결 없이 기기 내부에서 직접 API를 호출하거나 하드웨어를 제어하는 개인용 AI 구현이 가능해진다.

사용자는 제공된 UI를 통해 자신의 도구 세트에 맞게 모델을 즉시 최적화하고 적용할 수 있다. 버튼 클릭 한 번으로 파인튜닝을 진행하여 특정 도구에 최적화된 가벼운 모델을 생성하는 워크플로우가 가능해졌다. 이는 모델의 크기를 키워 성능을 높이는 방식에서 벗어나, 특정 작업에 최적화된 초소형 모델을 빠르게 배포하는 전략으로의 전환을 시사한다.

모델의 크기가 성능의 절대적 기준이 아닌, 특정 기능의 최적화 수준이 온디바이스 AI의 실용성을 결정한다.