MI355X는 NVIDIA B300 대비 GPU당 평균 약 2.75배 저렴하다

AMD MI355X가 NVIDIA B300보다 GPU당 평균 2.75배 저렴한 대안으로 등장했다. NVIDIA GPU의 공급 부족으로 토큰 비용이 치솟는 상황에서 인프라 확보의 실질적인 돌파구가 될 수 있는 수치다.

성능은 NVIDIA B200의 약 80% 수준까지 따라잡았다. 절대적인 성능 우위보다는 비용 효율성을 앞세워 NVIDIA의 독점 구조 속 틈새를 공략하는 전략이다.

AI 최적화 기업 Wafer가 GLM-5.2 모델을 통해 MI355X의 성능을 측정했다. 20k 입력과 1k 출력, 60% 캐시 히트율 환경에서 2626 tok/s/node의 처리량과 2.4 rps의 속도를 기록했다. 단일 스트림(10k 입력, 1.5k 출력) 기준으로는 213 tok/s를 달성했다.

이제 서비스 운영의 핵심은 최고 사양의 하드웨어를 고집하는 것이 아니라, 토큰당 비용을 얼마나 낮추느냐로 옮겨갔다. MI355X는 성능의 일부를 양보하더라도 비용 효율을 극대화하려는 서비스에 명확한 선택지를 제공한다.

day-0 지원과 소프트웨어 생태계를 통해 AMD보다 최신

NVIDIA의 진짜 무기는 모델 출시 당일 최적화를 지원하는 'day-0 지원'과 강력한 소프트웨어 생태계다. AMD Instinct MI350 계열이 실리콘 성능으로 Blackwell과 경쟁하더라도, 이 지원 체계가 없으면 최신 모델을 서빙하기 위해 수주의 엔지니어링 시간과 컴퓨트 자원을 쏟아부어야 한다. 최적화를 마칠 때쯤 더 새로운 모델이 나오는 추격전이 반복되는 이유다.

이 격차를 줄이기 위해 고성능 LLM 서빙 프레임워크인 sglang의 ROCm(AMD GPU 컴퓨팅 플랫폼) 이미지를 수정해 처리량을 개선했다. MTP head의 prefix 불일치와 ROCm guard 누락을 해결해 추론 속도를 높이는 예측 디코딩(speculative decode)을 활성화했다. 여기에 GLM의 fp4 shape에 맞춰 MoE(전문가 혼합 모델) 커널 선택을 직접 튜닝해 집계 처리량을 2626 tok/s/node까지 끌어올렸다.

확인해야 할 핵심 지점

하드웨어 도입비보다 무서운 것은 소프트웨어 최적화에 들어가는 엔지니어링 공수다. 이번 결과에서 주목할 점은 AMD가 커스텀 커널을 직접 짜는 고난도 작업 없이, 프레임워크 버그 수정과 양자화, 튜닝만으로 실전 성능을 확보했다는 것이다. NVIDIA의 독점적 환경인 'CUDA moat(쿠다 모트)'가 실시간으로 얇아지고 있다. 이제 쟁점은 소프트웨어의 존재 여부가 아니라 지원 속도의 문제로 바뀌었다.

정밀도를 낮추면서 성능을 보존하는 기술적 검증도 마쳤다. Wafer는 AMD Quark(모델 최적화 툴킷)를 이용해 GLM-5.2 모델에 MXFP4 양자화(데이터 표현 비트를 줄여 메모리 사용량을 낮추는 기술)를 적용했다. 이를 z-ai의 FP8 양자화 방식과 대조한 결과, GPQA-Diamond, tau2, GSM8K 등 주요 벤치마크에서 성능 손실이 거의 없는 수준으로 나타났다.

결국 GPU 공급 부족이 토큰 비용 상승으로 이어지는 구조에서, MI355X는 B300 대비 2.75배 저렴한 가격으로 B200 성능의 80%를 구현하는 효율적인 대안이 된다.

MXFP4 양자화와 sglang 최적화는 하드웨어의 절대 성능 격차를 처리량으로 상쇄한다. 이제 인프라 선택의 기준은 피크 성능이 아니라 '토큰당 비용'이다. 이 비용 효율의 임계점을 찾는 것이 서비스의 실질적인 수익성을 결정하는 판단 기준이 될 것이다.