H100 절반 가격의 MI300X, DeepSeek-V4-Flash 구동 장벽 뚫었다

발표에서 확인된 핵심 사실

고성능 GPU 인프라를 구축할 때 가장 큰 장벽은 하드웨어 수급과 비용이다. AMD MI300X는 카드당 192GB의 HBM3(고대역폭 메모리)를 탑재해 NVIDIA H100의 80GB보다 2배 이상 많은 용량을 제공한다. 리스트 가격은 H100의 절반 수준이며, Hotaisle 같은 서비스의 온디맨드 렌탈 비용 역시 동등 용량의 NVIDIA 제품보다 저렴하다. 인프라 비용을 낮추면서 메모리 용량을 확보한 구성이다.

에이전트의 동작은 도구를 호출하는 루프 내에서 LLM(대규모 언어 모델)이 작동하는 구조다. LangChain(LLM 애플리케이션 프레임워크)의 초기 실행기 방식처럼, 사용자 요청이 들어오면 LLM이 도구 호출 여부를 결정하고 실행하며 작업 완료 시까지 이 과정을 반복한다. 단순한 응답 생성을 넘어 도구 활용 능력을 루프 형태로 구현한 방식이다.

루프 기능의 강화는 샌드박스 기반의 실행 환경을 제공하는 Deep Agents(에이전트 실행 환경)를 통해 이루어진다. 파일 시스템 접근과 코드 읽기, 쓰기 및 실행이 가능한 샌드박스를 통해 에이전트의 실행 능력을 확장하는 하네스 역할을 수행한다. 실행 환경의 격리를 통해 도구 활용의 안정성과 범위를 넓혔다.

Python의 실행 오버헤드를 줄이기 위해 CUDA 그래프의 대응물인 HIP 그래프(AMD 가속기용 그래프 API)를 활용한다. 웜업 단계에서 연산 스트림을 한 번 기록한 뒤 매 단계에서 이를 재생하는 방식이다. 토큰당 수백 개의 작은 커널을 실행해야 하는 DeepSeek-V4 같은 모델에서 디코드 루프의 오버헤드를 제거하는 필수 장치다.

기존 방식과 달라진 지점

하드웨어 사양은 충분하지만 소프트웨어 최적화 수준은 제각각이다. 2026년 5월 초 기준, AMD MI300X 가속기에서 vLLM(대규모 언어 모델 추론 엔진)을 통해 DeepSeek-V4-Flash를 실행하는 과정에서 기술적 결함이 발견되었다. MI300X는 하드웨어적으로 우수한 가속기임에도 불구하고, 소프트웨어 지원 체계의 미비로 인해 vLLM 환경에서 DeepSeek-V4-Flash가 제대로 작동하지 않는 상태였다.

데이터 타입을 처리하는 방식에서도 표준과 괴리가 있었다. MI300X는 OCP(Open Compute Project) 표준이 아닌 fnuz(finite, nans, unsigned zero)라는 독자적인 FP8(8비트 부동 소수점) 다이얼렉트를 사용한다. MI325, MI350, MI355X 등 최신 AMD 칩셋은 OCP 표준 FP8로 전환했으나, MI300X는 지수 바이어스(exponent bias)가 1만큼 차이 난다. 두 방식은 비트 레이아웃을 공유하지만 이 바이어스 차이로 인해 데이터를 잘못 읽을 경우 수치 값이 정확히 2배의 오차를 낸다.

커널 라이브러리의 지원 범위 또한 불균일하다. AMD의 튜닝 커널 라이브러리인 AITER는 NVIDIA의 cuBLAS나 cuDNN에 대응하는 라이브러리다. 하지만 DeepSeek-V4에 대한 지원은 최신 CDNA4 아키텍처에 집중되어 있으며, MI300X의 gfx942 코어에서는 지원이 부족하다. AITER가 아예 없거나 gfx942에서 작동하지 않는 일부 경로는 제네릭 Triton(GPU 프로그래밍 언어) 구현체로 대체하는 폴백(fallback) 과정이 필수적이다. 결과적으로 MI300X에서 최신 모델을 구동하기 위해서는 데이터 타입의 불일치와 라이브러리 공백을 메우는 정밀한 튜닝이 요구된다.

기술이 실제로 작동하는 방식

인재 한 명의 이동이 기술적 상징성을 결정한다. OpenAI 공동 창립자 Andre Karpathy가 Anthropic에 합류했다. AI 업계의 많은 관찰자들은 이 인사이동 소식을 Google I/O 무대에서 발표된 그 어떤 내용보다 더 큰 비중을 가진 발표로 평가했다. 핵심 설계자의 이동은 모델의 아키텍처와 학습 전략에 직접적인 영향을 미치는 결정적 변수다. 이는 인적 자원이 모델의 경쟁력을 결정하는 핵심 요소임을 보여준다.

학습 효율은 정보의 소비 형태에 따라 갈린다. NotebookLM의 오디오 오버뷰(입력 리소스를 합성 AI 팟캐스트로 변환하는 기능)가 시장에서 genuine breakout product hit로 평가받으며 성공했다. 사용자가 NotebookLM에 입력한 리소스를 바탕으로 합성 AI 팟캐스트가 서로 토론하는 기능을 제공하여 정보 습득의 경로를 확장했다. 실제 사용자들은 이를 시험 공부나 뉴스 파악 등의 구체적인 용도로 널리 활용하며 도구의 실용성을 입증했다.

이미지 편집의 완성도는 픽셀 단위의 제어권에서 결정된다. 8월 말에 출시된 Nano Banana(Gemini 2.5 Flash image)는 정밀한 이미지 편집 제어 기능을 제공한다. 기존의 다른 이미지 생성 모델에서는 구현이 불가능했던 세밀한 편집 컨트롤 기능을 통해 차별화된 가치를 제공했다. 사용자가 이미지의 특정 부분을 정밀하게 수정할 수 있는 제어권을 확보함으로써 기존 모델들이 해결하지 못한 편집의 한계를 극복하고 새로운 활용 가치를 창출했다.

네이티브 오디오를 지원하는 비디오 생성 모델 V3를 공개했다

영상 생성 모델의 고질적 한계는 소리가 없거나 별도의 오디오 모델을 붙여야 한다는 점이었다. Google은 IO 2025에서 V3를 프리미어했다. 네이티브 오디오를 탑재한 Google의 첫 번째 비디오 생성 모델이다. 영상과 소리를 동시에 생성하는 네이티브 방식을 통해 오디오와 비디오 간의 정렬 문제를 해결하고 제작 공정을 단순화했다.

11월에 출시된 Nano Banana Pro(나노 바나나 프로)는 프롬프트 추론 능력을 강화했다. 텍스트 렌더링 기능을 구현해 인포그래픽 제작이 가능한 수준까지 성능을 올렸다. 단순한 이미지 생성을 넘어 프롬프트에 담긴 의도를 추론하고 이를 텍스트로 정확히 구현하는 능력을 갖췄다. 이는 인포그래픽과 같은 시각적 정보 전달 도구를 실질적인 방식으로 구현해낸 결과다.

에이전트 시스템을 실제 서비스에 도입한 팀들은 조기 출시 후 빠른 반복(iterate quickly) 패턴을 택했다. 에이전트 시스템이 가진 예측 불가능성을 극복하기 위해 제품을 빠르게 출시하고 사용자 경험을 바탕으로 신속하게 개선하는 방식이다. 실제 프로덕션 환경에서 에이전트를 안정적으로 운영한 기업들 사이에서 반복적으로 발견된 패턴이다. 실전 배포를 통한 피드백 루프가 시스템의 신뢰도를 높이는 핵심 기제로 작동했다.

에이전트 개발은 입력과 출력의 특성으로 인해 일반 소프트웨어

코드를 한 줄도 바꾸지 않았는데 프롬프트의 단어 하나로 결과값이 완전히 달라지는 상황이 반복된다. 입력값인 자연어는 차원이 무한하며 이미지, 비디오, 오디오 등으로 확장 가능한 특성을 갖는다. LLM(대규모 언어 모델)은 기본적으로 비결정론적 특성을 가지며 프롬프트의 미세한 변화에도 민감하게 반응한다. 이로 인해 제품 출시 전 단계에서 최종 성능을 정확히 예측하는 것이 사실상 불가능하다.

기존의 소프트웨어 개발 생명주기(SDLC, Software Development Life Cycle)만으로는 이러한 비결정론적 변동성을 제어할 수 없다. 이에 따라 SDLC와 병행하여 운용되는 새로운 에이전트 개발 생명주기가 필요해졌다. 에이전트는 일반 소프트웨어보다 훨씬 더 많은 반복(iteration) 과정이 필요하며 각 단계의 세부 절차 또한 기존 방식과 다르다. 개발 공정 전반에 최적화된 새로운 도구와 기술적 접근이 요구되는 이유다.

ChatGPT 출시 한 달 전, 단순 패키지 형태로 시장에 진입한 도구가 LangChain(랭체인, LLM 애플리케이션 구축 프레임워크)이다. 이후 복잡한 그래프 구조를 지원하는 LangGraph(랭그래프)를 출시했고 LangChain 1.0을 거쳐 약 9개월 전에는 에이전트 하네스인 Deep Agents(딥 에이전트)를 선보였다. 초기 구축 패키지에서 시작해 복잡한 구조 지원과 전용 하네스까지 제품군을 단계적으로 진화시켰다.

H100의 극심한 수급난과 치솟는 렌탈 비용은 인프라 구축의 상수로 자리 잡았다. MI300X는 fnuz와 OCP 표준 사이의 지수 바이어스 1 차이로 인한 2배의 수치 오류를 해결하며 DeepSeek-V4-Flash 구동의 기술적 장벽을 제거했다.

결과적으로 H100 대비 절반 가격의 인프라로 유사한 추론 성능을 낼 수 있는 실질적 TCO 절감 기준이 확보됐다. 하드웨어의 절대 성능보다 데이터 타입의 정밀한 튜닝이 추론 경제성을 결정한다.