85개. LG AI연구원이 3개월 동안 유휴 GPU 자원을 활용해 처리한 연구 작업의 총수다. 추가 장비 구매 없이 기존 인프라의 '빈틈'만으로 수십 대의 서버를 새로 들인 것과 같은 효과를 낸 셈이다. 그런데 LLM(대규모 언어 모델) 서비스 환경에서 이처럼 정밀하게 유휴 자원을 찾아내어 재활용하는 것은 생각보다 까다로운 과제다. 일반적인 CPU나 메모리 점유율만으로는 실제 모델의 부하를 정확히 측정할 수 없기 때문이다. 특히 LLM은 입력과 출력 토큰의 길이에 따라 요청당 GPU 소모량이 극심하게 변하므로, 전통적인 오토 스케일링 지표로는 실제 유휴 상태를 판별하기 어렵다. 실제로 레플리카(서비스 인스턴스 복제본) 한 개가 GPU 4장을 사용하는 환경에서 야간 비혼잡 시간대인 20시부터 익일 8시까지는 하루 평균 52장의 GPU가 메모리만 점유한 채 방치되는 상황이 관찰되었다. LG AI연구원은 이 지점에 주목하여 서비스 안정성을 해치지 않으면서도 놀고 있는 GPU를 연구용으로 즉시 전환하는 정교한 스케줄링 체계를 구현했다.
LG AI연구원이 유휴 Inference GPU Pool을 활용해
LG AI연구원이 유휴 Inference GPU Pool(추론용 GPU 자원 집합)을 활용해 약 1억 8천5백만 원의 비용 절감 효과를 거뒀다. 2025년 11월부터 2026년 1월까지 약 3개월의 기간 동안 총 85개의 작업을 실행하며 누적 95,000 GPU 시간을 확보한 결과다. 해당 비용 절감액은 동일한 연산량을 퍼블릭 클라우드 3년 약정 기준으로 환산하여 산출되었으며, 특히 1월 한 달에만 약 7천5백만 원 규모의 절감 효과가 발생한 것으로 확인된다.
이번 성과는 추가적인 하드웨어 구매를 진행하지 않고 운영 구조를 개선하는 것만으로 자원 활용 효율을 극대화했다는 점에서 실무적 가치가 관찰된다. 실제로 2026년 1월의 GPU 사용량은 2025년 11월과 비교했을 때 약 70% 증가한 수치를 기록했다. 이는 물리적인 인프라 확장 없이도 시스템 운영 방식의 최적화를 통해 실질적인 연산 처리 능력을 끌어올린 결과로 분석된다.
자원 효율화의 결과물을 24시간 가동 기준으로 환산하면 약 55장의 GPU를 신규로 확보한 것과 동일한 수준의 효과를 낸 것으로 분석된다. 유휴 상태로 방치되던 추론 자원을 체계적으로 재배치함으로써, 비용 지출을 억제하는 동시에 연산 가능 용량을 확대하는 운영 모델의 유효성이 입증된 사례로 제안된다.
LLM 특성에 맞는 자원 조정을 위해 vLLM의 내부 지표를 오토
전통적인 인프라 관리에서 활용하던 CPU 사용률이나 메모리 점유율 같은 시스템 지표만으로는 LLM의 실제 연산 부하를 정확히 측정하기 어렵다는 한계가 관찰된다. LLM 추론의 특성상 단순한 자원 점유율보다는 요청이 얼마나 빠르게 처리되고 있는지, 혹은 대기열에 얼마나 쌓여 있는지가 실질적인 성능의 척도가 되기 때문이다. 이를 해결하기 위해 vLLM(LLM 추론 엔진)이 제공하는 실시간 처리량과 큐 대기 상태라는 내부 지표를 오토 스케일링의 핵심 기준으로 도입했다. 추론 엔진의 상태를 직접적으로 반영하는 지표를 활용함으로써 LLM의 특성에 최적화된 정밀한 자원 조정을 구현한 것으로 분석된다.
인프라의 유연한 운용을 위해 Argo Workflows(쿠버네티스 기반 워크플로 엔진)와 Docker(컨테이너 가상화 플랫폼)를 기반으로 하는 범용 AI 작업 파이프라인을 구축했다. 전체 공정은 데이터 전처리를 시작으로 사전학습, 지도학습 미세조정, 강화학습, 그리고 최종 평가 단계까지 세분화하여 설계되었다. 각 스텝은 작업의 성격과 의존 관계에 따라 순차적으로 진행하거나, 동시에 병렬로 실행함으로써 전체 파이프라인의 처리 속도를 최적화할 수 있는 구조를 갖췄다. 특히 모든 작업 단위를 Docker 이미지 형태로 정의하여 캡슐화함으로써, 내부에서 사용하는 프레임워크의 종류에 구애받지 않고 일관되게 실행할 수 있는 높은 수준의 범용성을 확보한 점이 특징이다.
서비스 안정성을 보장하기 위해 연구 작업을
실제 인프라 운영에서는 야간의 유휴 GPU 자원을 연구 작업에 우선 배정하는 구조가 적용되었다. 서비스 트래픽이 다시 증가하는 시점이 포착되면 실행 중인 연구 작업을 즉시 중단하고 해당 자원을 서비스 영역으로 즉각 회수하는 방식이다. 이러한 'Best-effort'(최선 노력, 가능한 범위 내에서 최선을 다해 처리하는 방식) 설계는 서비스 안정성을 침해하지 않으면서도 버려지는 자원 활용도를 높이는 실무적 대안으로 관찰된다. 연구 작업이 서비스의 가용성을 해치지 않도록 자원 우선순위를 엄격히 분리하여 설계한 점이 특징이다.
운영 체계의 지향점은 야간이라는 특정 시간대를 넘어 자원이 비는 즉시 작업을 할당하는 상시 실행 체계로의 확장이다. 이를 위해 Kubernetes(쿠버네티스, 컨테이너 기반 애플리케이션 배포 및 관리 도구)와 자체 모델인 EXAONE(엑사원)을 결합한 스케줄링 시스템 구축이 계획되어 있다. 이는 단순히 정해진 시간에 작업을 띄우는 방식에서 벗어나, 인프라의 실시간 상태에 반응하여 자원을 효율적으로 분배하는 동적 스케줄링 체계로의 전환을 의미한다.
더불어 서비스별 사용 패턴을 더욱 세분화하여 배정 로직을 고도화하는 작업이 병행될 예정이다. 각 서비스의 트래픽 변동 특성을 분석해 자원 회수와 배정의 임계치를 정교하게 설정함으로써 운영 효율을 극대화하려는 설계 방향이 관찰된다. 이와 함께 연구자가 시스템을 더 편리하게 사용할 수 있도록 사용자 경험(UX)을 개선하는 작업이 제안되며, 이는 연구 인프라의 접근성을 높여 실제 코드 구현과 실험 주기를 단축하는 실질적인 조치가 될 것으로 보인다.
LG AI연구원를 현장에서 판단할 기준
인프라 효율화의 핵심은 하드웨어 증설이 아닌 워크로드의 가시성 확보에 있다. 기존의 CPU나 메모리 점유율 지표는 LLM 추론 엔진의 실제 부하를 반영하지 못하므로, vLLM이 제공하는 큐 대기 시간과 처리량 같은 엔진 내부 지표를 오토 스케일링의 트리거로 전환하는 작업이 선행되어야 한다. 이러한 지표 전환은 클라우드 비용을 절감하는 동시에, 하드웨어 구매 없이도 수십 장의 GPU를 추가 확보한 것과 같은 자원 밀도 개선 효과를 기대할 수 있게 한다.
서비스 가용성과 연구 생산성 사이의 충돌을 방지하기 위해서는 Best-effort 기반의 자원 회수 정책을 코드 수준에서 강제해야 한다. 서비스 트래픽 증가 시 연구 작업을 즉시 중단하고 자원을 회수하는 자동화 파이프라인은 운영 안정성을 담보하는 필수 안전장치다. Argo Workflows와 Docker를 활용해 연구 작업을 컨테이너화하면 특정 프레임워크에 종속되지 않는 범용성을 확보할 수 있으며, 이는 향후 상시 스케줄링 체계로 전환할 때 인프라 유연성을 높이는 기반이 된다. 6개월 뒤 실무 도입을 고려한다면, 현재 운영 중인 추론 엔진의 지표가 오토 스케일링 로직과 실시간으로 연동 가능한지, 그리고 서비스 우선순위가 명확히 정의된 정책 엔진을 구축할 수 있는지부터 검토해야 한다.




