비싼 전용 가속기(NPU)를 도입하지 않고도 추론 속도를 높이면 기업의 인프라 비용을 효율화할 수 있다. 지금까지 많은 기업이 초고속 추론을 위해 특정 칩 제조사의 폐쇄적인 생태계나 고가의 전용 하드웨어에 의존해 왔으나, 표준 데이터센터 GPU의 소프트웨어 스택을 재설계해 병목을 제거함으로써 전용 하드웨어 수준의 속도를 낼 수 있는 길이 열렸다.
AI 에이전트는 '검토-계획-수정-테스트-재수정'이라는 순차적인 루프를 반복한다. 각 단계는 이전 단계의 결과에 의존하므로, 한 번에 많은 양을 처리하는 처리량(Throughput)보다 단일 요청의 생성 속도(Decode speed)가 전체 작업 시간을 결정한다. 5만 토큰을 생성해야 하는 워크플로우에서 초당 100토큰의 속도는 8분이 걸리지만, 초당 3,000토큰의 속도는 20초면 충분하다. 이 속도 차이는 실시간 자율 에이전트 제품을 설계할 수 있는 물리적 기반이 된다.
8x MI300X 기반 초당 3,000토큰 구현과 에이전트 생산성 향상
AI 에이전트 서비스에서 기업이 지불하는 실질적 비용은 작업 완료까지의 대기 시간에서 발생한다. 추론 비용 자체보다 에이전트가 답을 내놓을 때까지 개발자가 대기하며 발생하는 시간 손실이 더 크기 때문이다. Kog는 8x AMD MI300X 노드에서 단일 요청당 3,000 tokens/s의 추론 속도를 구현했으며, 8x NVIDIA H200 노드에서는 2,100 tokens/s를 기록했다. 이는 소프트웨어 스택의 최적화 수준이 에이전트의 실질적 생산성을 결정한다는 것을 수치로 증명한다.
테스트에 투입된 모델은 Laneformer 2B다. 6T 토큰을 사전 학습했으며 HumanEval 벤치마크에서 50%의 성능을 달성해 코딩 작업에 충분한 능력을 갖췄다. 특히 양자화, 투기적 디코딩, 프루닝 같은 정밀도 희생 기법을 전혀 사용하지 않고 이 속도를 냈다는 점이 핵심이다. 모델 아키텍처와 런타임, 저수준 GPU 코드를 하나의 지연 시간 최적화 파이프라인으로 설계한 결과다. 개발자는 playground.kog.ai에서 기존 추론 엔진의 병목이 제거된 속도를 직접 확인할 수 있다.
추론 속도가 빨라질수록 에이전트는 동일한 시간 내에 더 많은 도구를 호출하고 테스트와 수정을 반복할 수 있어 결과물의 정교함이 높아진다. 즉, 추론 속도의 극대화는 사용자 인터페이스의 반응성을 높이는 것을 넘어 에이전트가 자율적으로 오류를 잡는 횟수를 실질적으로 늘리는 장치가 된다. 이는 전용 가속기 없이 기존 데이터센터 GPU의 소프트웨어 최적화만으로도 에이전트의 생산성 한계를 확장할 수 있음을 보여준다.
저수준 코디자인을 통한 프레임워크 제거와 메모리 대역폭 최적화
AMD MI300X에서 커널 런칭과 정리 비용을 측정하면 4.5µs가 소요된다. 25개 레이어로 구성된 모델에서 레이어당 10개의 커널을 실행하면 토큰 하나를 생성할 때마다 총 1,125µs의 오버헤드가 발생한다. 초당 3,000토큰 생성을 위한 토큰당 시간 예산이 333µs라는 점을 고려하면, 커널 런칭 비용만으로 이미 예산의 3배를 초과해 속도가 초당 890토큰 수준으로 제한된다.
Kog는 최적화 지표를 모델 연산 활용도(MFU)가 아닌 메모리 대역폭 활용도(MBU)로 설정했다. 배치 사이즈가 1인 자기회귀 디코딩 작업은 행렬-벡터 곱 연산이 주를 이루며, 이때 연산 능력보다 HBM(고대역폭 메모리)에서 연산 프로세서로 가중치를 이동시키는 속도가 전체 성능을 결정한다. FP16 정밀도에서 가중치 2바이트당 약 1 FLOP의 연산이 수행되는데, 이는 최신 GPU의 연산 능력에 비해 매우 낮은 수준이다. 결과적으로 메모리에서 데이터를 읽어오는 대역폭을 얼마나 효율적으로 사용하는지가 속도의 상한선을 결정한다.
이를 위해 PyTorch나 Triton 같은 고수준 추상화 계층을 제거하고 하드웨어를 직접 제어한다. CUTLASS, NCCL, ROCm CK 등 범용 라이브러리를 배제하고 CUDA의 PTX 인라인 어셈블리와 HIP의 CDNA ISA 인라인 어셈블리를 사용하여 GPU 코드를 수동으로 구현했다. 또한 자체 개발한 KCCL 통신 함수를 적용해 프레임워크 수준의 통신 라이브러리가 유발하는 지연 시간을 제거함으로써 런타임 스케줄링과 커널 경계에서 발생하는 마이크로초 단위의 손실을 차단했다.
소프트웨어 설계 단계부터 AMD MI300X의 칩렛 토폴로지(Chiplet-topology)라는 물리적 구조를 반영했다. GPU 패키지를 구체적인 물리 시스템으로 취급하여 데이터 이동 경로를 최적화하고, 메모리 스트리밍의 연속성을 확보해 기존 프레임워크로는 접근할 수 없던 유휴 시간을 연산에 투입했다. 하드웨어의 물리적 배치와 소프트웨어의 실행 순서를 일치시켜 메모리 대역폭의 실제 활용률을 끌어올린 것이다.
표준 GPU 환경에서 초당 3,000토큰을 구현한 결과는 AI 에이전트의 실시간 상호작용 가능성을 현실로 만든다. 고가의 특수 하드웨어 없이도 소프트웨어 최적화만으로 추론 병목을 해결하며 서비스 운영 비용과 사용자 대기 시간을 동시에 낮춘다.
이러한 속도 혁신은 에이전트가 더 많은 생각의 단계를 거치면서도 즉각적인 응답을 내놓는 구조를 가능하게 한다. 결국 하드웨어의 성능 경쟁을 넘어 추론 효율성이 AI 에이전트의 실무 적용 가능성을 결정한다.




