이번 주 개발자 커뮤니티에서 Amazon SageMaker AI의 G7e 인스턴스 출시 소식이 뜨겁게 회자되고 있다. NVIDIA RTX PRO 6000 Blackwell Server Edition GPU를 탑재한 G7e 인스턴스는 특히 비용 효율성과 성능을 동시에 잡을 수 있는 기회를 제공한다. 많은 개발자들이 이 새로운 인스턴스의 성능과 가격에 대한 논의로 활발히 의견을 나누고 있다.
G7e 인스턴스의 주요 사양과 성능
G7e 인스턴스는 1, 2, 4, 8 RTX PRO 6000 GPU 인스턴스를 제공하며, 각 GPU는 96 GB의 GDDR7 메모리를 갖춘다. 이 인스턴스는 GPT-OSS-120B, Nemotron-3-Super-120B-A12B, Qwen3.5-35B-A3B와 같은 강력한 오픈 소스 모델을 호스팅할 수 있는 능력을 지닌다. G7e 인스턴스는 이전 세대인 G6e 인스턴스에 비해 최대 2.3배 향상된 추론 성능을 제공하며, 각 GPU는 1,597 GB/s의 대역폭을 지원한다. 네트워킹 속도는 최대 1,600 Gbps에 달해, G6e에 비해 4배, G5에 비해 16배 향상된 성능을 자랑한다.
G7e 인스턴스는 768 GB의 집합 GPU 메모리를 제공하여, 이전에는 다중 노드 설정이 필요했던 모델을 단일 인스턴스에서 호스팅할 수 있다. 이는 운영 복잡성을 줄이고 노드 간 지연 시간을 최소화하는 데 기여한다. 또한, G7e는 FP4 정밀도를 지원하며, NVIDIA GPUDirect RDMA를 통해 고속 데이터 전송을 가능하게 한다.
G7e 인스턴스의 비용 효율성
G7e 인스턴스의 성능을 더 잘 이해하기 위해, Qwen3-32B 모델을 G6e와 G7e 인스턴스에서 벤치마킹한 결과가 주목받고 있다. G6e는 ml.g6e.12xlarge 인스턴스에서 4x L40S GPU를 사용하여 시간당 $13.12의 비용으로 37.1 tok/s의 성능을 보였다. 반면, G7e는 ml.g7e.2xlarge 인스턴스에서 1x RTX PRO 6000 GPU를 사용해 시간당 $4.20로 운영된다. G7e는 생산성에서 C=32의 동시 요청 시 $0.79의 비용으로 1백만 개의 출력 토큰을 처리할 수 있어, G6e의 $2.06에 비해 2.6배의 비용 절감을 이룬다.
G7e의 단일 GPU 아키텍처는 부하가 증가할수록 더 안정적인 성능을 유지하며, 지연 시간 증가율이 G6e보다 낮다. G6e는 C=1에서 C=32로 증가할 때 지연 시간이 62% 증가한 반면, G7e는 22% 증가에 그쳤다. 이는 비용을 최적화하려는 생산 배치에서 G7e가 더 나은 선택임을 시사한다.
G7e 인스턴스는 EAGLE(Extrapolation Algorithm for Greater Language-model Efficiency)와 결합하여 더 큰 성능 향상을 이룰 수 있다. EAGLE는 모델의 숨겨진 표현을 기반으로 여러 미래 토큰을 예측하고, 이를 단일 전방 패스에서 검증하여 동일한 출력 품질을 유지하면서도 여러 토큰을 생성할 수 있도록 한다. G7e와 EAGLE3의 조합은 이전 세대에 비해 2.4배의 처리량 향상과 75%의 비용 절감을 제공한다.
G7e 인스턴스는 Amazon SageMaker AI에서 표준 인퍼런스 가격으로 청구되며, 이는 개발자들에게 새로운 기회를 제공할 것으로 기대된다. G7e 인스턴스의 출시로 인해 많은 기업들이 더 효율적인 AI 모델을 구축할 수 있는 가능성이 열렸다.




