라스베이거스 F1 플라자의 비공개 행사장에서 구글의 임원들이 8세대 TPU(Tensor Processing Unit, AI 연산 전용 칩)의 청사진을 꺼내 들었다. 전 세계 AI 연구소들이 전력과 컴퓨팅 자원을 확보하기 위해 치열한 배분 전쟁을 벌이는 상황이다. 대부분의 기업이 엔비디아의 칩을 구매하며 막대한 마진을 지불하지만 구글은 다른 길을 선택했다.
TPU v8t와 v8i의 하드웨어 제원
구글은 올해 말 출시될 두 가지 맞춤형 실리콘 설계를 공개했다. TPU v8t는 프런티어 모델의 학습에 최적화되었다. 2025년 출시된 7세대 모델인 Ironwood 대비 팟(Pod, 칩들의 집합 단위)당 FP4(부동소수점 연산 정밀도) EFlops(초당 100경 번의 연산 횟수) 성능이 42.5에서 121로 2.8배 증가했다. 칩당 양방향 스케일업 대역폭은 19.2Tb/s로 두 배 늘었으며 스케일아웃 네트워킹은 400Gb/s로 네 배 확장되었다. 팟 크기는 9,216개에서 9,600개로 소폭 증가했으며 3D Torus(칩들을 입체적으로 연결해 데이터 전송 경로를 최적화하는 구조) 토폴로지로 연결된다.
학습 규모의 한계를 깨는 Virgo networking(백만 개 이상의 칩을 하나의 작업으로 묶는 구글의 새로운 연결 기술)을 통해 단일 학습 작업에서 100만 개 이상의 TPU 칩을 확장할 수 있다. TPU Direct Storage(데이터를 CPU를 거치지 않고 저장소에서 HBM으로 직접 이동시키는 기술)를 도입해 데이터 경로를 단축했다. 이는 학습 시간의 핵심 변수인 벽시계 시간(Wall-clock time)을 줄여 에포크(Epoch, 전체 데이터 학습 횟수)당 필요한 팟 시간을 감소시킨다.
추론 전용인 TPU v8i는 아키텍처의 변화가 더 크다. 팟당 FP8(부동소수점 연산 정밀도) EFlops 성능이 1.2에서 11.6으로 9.8배 상승했다. 팟당 HBM(High Bandwidth Memory, 고대역폭 메모리) 용량은 49.2TB에서 331.8TB로 6.8배 늘었다. 팟 크기 역시 256개에서 1,152개로 4.5배 확장되었다.
이러한 성능 향상은 Boardfly topology(칩 사이의 통신 단계를 줄여 지연시간을 낮추는 네트워크 구조) 도입의 결과다. 기존의 대역폭 중심 연결 방식에서 벗어나 응답 시간을 최소화하는 구조로 재설계했다. 여기에 Collective Acceleration Engine과 대용량 SRAM(Static Random Access Memory, 정적 랜덤 액세스 메모리)을 결합해 실시간 LLM(Large Language Model, 거대 언어 모델) 샘플링과 RL(Reinforcement Learning, 강화 학습) 지연시간을 5배 개선했다.
엔비디아 세금과 수직 계열화의 경제학
구글은 에너지, 데이터 센터 부지, AI 인프라 하드웨어, AI 인프라 소프트웨어, 모델(Gemini 3), 서비스로 이어지는 6층 구조의 AI 스택을 설계했다. 각 계층을 개별적으로 설계하면 최저 공통분모에 맞춰 성능이 제한되지만 구글은 이를 통합 설계하는 수직 계열화를 택했다.
이 전략의 핵심은 엔비디아 세금(Nvidia tax)의 제거다. OpenAI, Anthropic, xAI, Meta는 모델 학습을 위해 엔비디아의 H200이나 Blackwell GPU를 구매해야 한다. 이 과정에서 엔비디아가 가져가는 막대한 데이터 센터 총마진을 고스란히 부담한다. 반면 구글은 TPU를 직접 설계하며 팹(Fab, 반도체 제조 공장) 비용과 패키징, 엔지니어링 비용만 지불한다. 유통 마진을 걷어낸 비용 구조는 토큰당 비용 경제성에서 경쟁사가 따라올 수 없는 우위를 만든다.
비즈니스 임팩트는 2026년과 2027년 클라우드 평가 지형을 바꿀 것이다. 대규모 독자 모델을 학습시키는 팀은 단순한 연산 성능이 아니라 Virgo networking 접근 권한과 굿풋(Goodput, 실제 유효 처리량) SLA(Service Level Agreement, 서비스 수준 협약)를 따져야 한다. 에이전트나 추론 워크로드를 운영하는 팀은 Vertex AI(구글의 기업용 AI 플랫폼)에서 v8i의 가용성과 HBM 용량이 자신의 컨텍스트 윈도우에 적합한지 평가해야 한다.
물론 제약 사항은 존재한다. 정식 출시 시점은 2026년 후반으로 예정되어 있어 당장의 구매 결정 요소는 아니다. 구글이 발표한 벤치마크 수치는 자체 보고된 결과이며 향후 외부 평가자의 검증이 필요하다. 또한 JAX/XLA(구글의 머신러닝 프레임워크 및 컴파일러) 생태계와 CUDA/PyTorch(엔비디아 전용 가속 라이브러리와 딥러닝 프레임워크) 생태계 사이의 이식성 문제는 여전한 마찰 지점이다.
AI 인프라의 패권은 이제 개별 칩의 성능이 아니라 에너지부터 서비스까지 이어지는 수직 계열화의 밀도에서 결정된다.




