10년 전 제온 서버, 최적화만으로 Gemma 4 '읽기 속도' 구현

2016년형 Intel Xeon 서버에서 Gemma 4

GPU 서버 한 대를 구축하려면 막대한 도입 비용과 긴 리드 타임을 감당해야 한다. 이 비용 부담을 덜어낼 구체적 사례로 2016년형 Intel Xeon E5-2620 v4 서버에서 Gemma 4 26B-A4B 모델을 읽기 속도로 실행하는 것이 가능해졌다. GPU가 전혀 없는 환경에서 DDR3 128GB 메모리와 ik_llama.cpp(최적화된 LLM 추론 엔진)만으로 구현한 결과다. 이는 적절한 최적화 조건만 갖춰진다면 8년 전 출시된 구형 하드웨어에서도 최신 대형 모델을 충분히 구동할 수 있음을 보여준다.

DDR3 메모리의 낮은 대역폭으로 발생하는 병목 현상을 해결하기 위해 ik_llama.cpp의 특수 플래그 조합을 통해 성능을 극대화했다. 우선 MTP(Multi-Token Prediction, 다중 토큰 예측) 추측 디코딩을 가능케 하는 `--spec-type mtp` 설정을 적용했다. 여기에 MoE(Mixture of Experts, 전문가 혼합) 라우팅 효율을 높이는 `--cpu-moe`와 `--merge-up-gate-experts` 플래그를 조합해 연산 경로를 최적화함으로써 CPU 환경의 한계를 보완했다.

메모리 배치와 관리 효율을 높이는 세부 설정도 함께 적용됐다. 가중치를 재구성하는 `--run-time-repack`과 RAM 영역을 고정해 성능 저하를 막는 `--mlock`을 사용했으며, 커스텀 Flash Attention 커널을 통해 데이터 처리 속도를 높였다. 하드웨어 전면 교체라는 물리적 해결책 대신 추론 엔진 튜닝이라는 소프트웨어적 접근으로 구형 장비의 LLM 활용 가능성을 판단할 수 있는 구체적 근거가 마련됐다.

LLM 추론의 디코더 패스는 연산량보다 메모리 대역폭이 주요

AI 응답이 한 글자씩 느리게 출력되는 현상은 연산 속도보다 데이터 이동 경로의 문제다. LLM(거대언어모델) 추론의 디코더 패스 과정에서는 연산량보다 메모리 대역폭이 주요 병목으로 작용한다. CPU가 다음 가중치를 RAM(주기억장치)에서 캐시로 가져오길 기다리는 시간이 길어지며 발생하는 메모리 벽(memory wall) 현상이 성능을 제한하기 때문이다. 이러한 병목은 Xeon(인텔의 서버용 CPU) 같은 구형 장비뿐 아니라 H100(엔비디아의 고성능 GPU) 같은 최신 고성능 장비에서도 동일하게 작동하는 결정적인 성능 장벽이다. 연산 장치의 절대적 속도보다 데이터를 공급하는 통로의 효율이 실제 추론 속도를 결정한다.

로컬 AI 실행의 핵심은 단순히 하드웨어 사양을 높이는 것이 아니라 추론 엔진과 메모리 구조를 어떻게 활용하느냐에 있다. 로컬 실행의 병목은 실리콘(반도체 칩) 자체의 성능만이 아니라 추론 엔진의 동작 방식을 이해하는 데서 갈린다. ollama(로컬 LLM 실행 도구)처럼 내부 설정을 변경하기 어려운 블랙박스 도구보다 세부 조정 노브가 있는 엔진을 사용해야 한다. 올바른 포크(기존 코드에서 분기해 발전시킨 버전)를 선택하고 보정된 양자화(모델 정밀도를 낮춰 메모리 사용량을 줄이는 기술)를 적용하며 메모리 아키텍처를 이해하는 과정이 필요하다. 이 조건들이 충족된다면 최신 장비가 아니더라도 오래된 서버에서 모델을 충분히 실행할 수 있다. 하드웨어 전면 교체라는 비용 부담 없이 추론 엔진 튜닝만으로 구형 장비의 LLM 활용 가능성을 판단할 수 있는 기준이 된다.

128개 전문가 중 8개가 활성화되는 MoE 구조를 가짐

변화는 천천히 오지 않았다. Gemma 4 26B-A4B는 128개의 전문가 중 토큰당 8개만 선택적으로 활성화하는 MoE(Mixture of Experts, 전문가 혼합) 구조를 채택했다. 전체 파라미터 규모는 약 25.2B에 달하지만, 실제 연산에 투입되는 활성 파라미터는 약 3.8B 수준으로 제한된다. 모델이 가진 전체 지식의 양은 유지하면서도, 매 토큰 생성 시 필요한 계산량만 획기적으로 줄여 추론 효율을 높인 결과다.

실제 구동 단계에서는 `--cpu-moe` 설정을 통해 하드웨어 최적화를 수행한다. 이 설정은 CPU 캐시 계층의 물리적 특성에 맞춰 라우팅 경로를 세밀하게 조정함으로써 캐시 스래싱(Cache Thrashing, 데이터 교체가 너무 빈번해 시스템 성능이 급격히 저하되는 현상)을 억제한다. 소프트웨어의 데이터 호출 방식을 CPU의 메모리 계층 구조와 일치시켜, 최신 GPU 없이도 구형 장비에서 발생하는 병목 현상을 제어했다.

메모리 점유 구조를 분석하면 컨텍스트 길이가 늘어날수록 모델 가중치보다 캐시의 비중이 압도적으로 커진다. 262K 컨텍스트 환경에서 로그 기준 전체 메모리 요구량은 82,355MiB로 측정됐다. 모델 가중치가 차지하는 메모리는 약 25GB인 반면, KV 캐시(Key-Value cache, 문맥 유지를 위해 이전 토큰 정보를 저장하는 공간)는 약 56GB를 점유한다. 긴 문맥을 처리하는 환경에서는 모델 자체의 크기보다 캐시 메모리를 얼마나 효율적으로 확보하느냐가 실질적인 구동 가능 여부를 결정하는 기준이 된다.

GPU 부족으로 인한 고사양 서버 도입 비용이 기업의 실질적인 진입 장벽이 된 상황이다. 2016년형 Intel Xeon E5-2620 v4 서버에서 MTP 추측 디코딩과 MoE 라우팅 최적화 플래그를 조합해 Gemma 4 26B-A4B를 읽기 속도로 실행한 사례는 하드웨어의 한계를 소프트웨어가 메울 수 있음을 증명한다. 결국 구형 장비의 LLM 활용 가능성은 물리적 교체 여부가 아니라 추론 엔진의 튜닝 정밀도가 결정한다.

10년 전 제온 서버, 최적화만으로 Gemma 4 '읽기 속도' 구현

2016년형 Intel Xeon 서버에서 Gemma 4

LLM 추론의 디코더 패스는 연산량보다 메모리 대역폭이 주요

128개 전문가 중 8개가 활성화되는 MoE 구조를 가짐

관련 기사