구글이 22일(현지시간) 미국 라스베이거스에서 개막한 구글 클라우드 넥스트 2026(Google Cloud Next 2026)에서 8세대 자체 개발 AI 가속기인 'TPU 8t'와 'TPU 8i' 두 종을 공개했다. 구글은 이번 세대부터 대규모 사전학습 중심의 훈련용 칩(TPU 8t)과 저지연 추론 및 에이전트 워크로드 중심의 추론용 칩(TPU 8i)으로 제품군을 분리했다.
구글에 따르면 TPU 8t는 9,600개 칩을 3D 토러스(torus) 네트워크로 묶어 단일 슈퍼포드(superpod)에서 121엑사플롭스(exaFLOPS)의 연산 성능과 2페타바이트 규모의 공유 메모리를 제공한다. 반면 TPU 8i는 288GB의 고대역폭 메모리(HBM)와 384MB의 온칩 SRAM을 탑재해 에이전트 워크플로에서 요구되는 밀리초 단위의 저지연 응답을 겨냥했다. 구글은 TPU 8i가 이전 세대인 아이언우드(Ironwood) 대비 달러당 성능이 약 80% 향상됐고, 두 칩 모두 와트당 성능이 전 세대의 두 배 수준이라고 설명했다.
이번 세대의 또 다른 변화는 호스트 서버의 CPU다. 구글은 두 칩 모두를 자체 개발한 ARM 기반 서버 프로세서인 액시온(Axion) 위에서 구동하도록 설계를 통일했다. 구글 클라우드 측은 서버당 물리 CPU 호스트 수를 두 배로 늘리고 비균일 메모리 접근(NUMA) 구조로 격리 수준을 높여 시스템 전체 효율을 끌어올렸다고 밝혔다. TPU 8t 훈련 칩은 브로드컴(Broadcom), TPU 8i 추론 칩은 미디어텍(MediaTek)이 각각 구글과 함께 설계에 참여한 것으로 알려졌다.
구글은 이와 함께 TPU 8 시리즈와 엔비디아의 차세대 루빈(Rubin) GPU, 액시온 CPU를 하나의 구조로 묶은 'AI 하이퍼컴퓨터(AI Hypercomputer)'와 대규모 데이터센터 간 네트워크 패브릭인 'Virgo Network'도 공개했다. 더 레지스터(The Register)에 따르면 이는 거대언어모델(LLM) 학습과 에이전트 AI 추론이라는 서로 다른 성격의 워크로드를 동일 인프라에서 처리하려는 구글의 전략을 반영한다.
업계에서는 이번 발표가 엔비디아 GPU에 대한 의존도를 낮추고, 빅테크가 자체 실리콘으로 AI 인프라를 수직 계열화하는 흐름을 가속할 신호로 평가한다. 테크크런치(TechCrunch)에 따르면 맞춤형 AI 칩 매출은 올해 약 45% 성장할 것으로 예상되는 반면, 범용 GPU 출하량 증가율은 16% 수준에 머무를 전망이다. 훈련과 추론 간 워크로드 특성이 갈수록 벌어지는 상황에서, 구글처럼 실리콘을 둘로 분리해 각각 최적화하는 접근이 AI 클라우드 경쟁의 새 표준이 될 수 있다는 관측도 나온다.
한편 구글은 이번 행사에서 TPU 8 시리즈 외에도 '에이전틱 데이터 클라우드(Agentic Data Cloud)'와 '에이전틱 디펜스(Agentic Defense)' 등 에이전트 시대를 전제로 한 신규 인프라 서비스를 함께 공개했다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.