CUDA 때문에 절대 안된다? 구글 TPU 사태의 본질, 엔비디아가 급해진 이유 | NVIDIA가 루빈 CPX, DGX Spark 내놓은 이유
- 엔비디아는 70% 이상의 매출 총이익률과 60%대의 영업이익률을 기록하며 GPU 시장에서 압도적인 고마진을 유지하고 있습니다. 💰
- 구글의 제미나이 3.0 프로는 자체 설계한 TPU V7(트릴리엄/아이언우드)로 학습되어 뛰어난 성능을 보여주며, TPU의 잠재력을 부각시켰습니다. 🚀
- 구글은 이제 TPU를 AWS 등 외부 기업에도 공급하며 엔비디아의 GPU 독점 시장에 직접적인 도전장을 내밀고 있습니다. 🌍
- TPU는 초기부터 GPU 대비 15~30배 높은 전성비와 3D 토러스 인터커넥트 구조를 통해 비용 효율성에서 강점을 보여왔습니다. ⚡
- 엔비디아의 CUDA 생태계는 여전히 강력한 해자로, 특히 하드웨어 최적화에 능숙한 상위 1%의 'CUDA 커널 엔지니어'들이 새로운 연산기를 개발하고 대다수 개발자들이 이를 활용하는 구조를 형성합니다. 🛡️
- GPU(엔비디아/파이토치)와 TPU(구글/JAX)는 근본적으로 다른 하드웨어 아키텍처와 소프트웨어 스택을 가지며, 이는 프로그래밍 방식의 차이(예: 파이토치의 한 줄씩 실행 vs. JAX의 그래프 컴파일)로 이어집니다. 💻
- 양 진영은 효율성 향상을 위해 서로의 장점을 도입하며 발전하고 있습니다 (예: 파이토치 2.0의 그래프 컴파일 도입, JAX의 유연한 컴파일). 🔄
- 구글을 비롯한 빅테크 기업들은 높은 엔비디아 GPU 비용과 전력 효율성 문제 해결을 위해 자체 AI 칩 개발에 적극적으로 나서고 있습니다. 💡
- 엔비디아는 추론 시장 대응을 위해 GDDR7을 사용하는 루빈 CPX를 도입하여 비용 효율적인 솔루션을 제공하고 있습니다. 📉
- 또한, 엔비디아는 DGX 스파크(AI PC)를 통해 AI 엔지니어들이 로컬에서 CUDA 기반 개발을 하고 데이터센터로 쉽게 포팅할 수 있도록 지원하며 CUDA 생태계를 강화하고 있습니다. 🛠️
- TPU는 시스톨릭 어레이와 3D 토러스 구조를 통해 스위치 장비 없이 직접 칩 간 연결이 가능하여 특정 예측 가능한 워크로드에 비용 효율적입니다. 🌐
- 엔비디아 GPU는 MVLink 및 인피니밴드를 통해 유연하고 빠른 GPU 간 통신을 제공하지만, 전용 스위칭 장비로 인해 비용이 높습니다. 🛣️
- 구글은 하드웨어(TPU)부터 파운데이션 모델, 클라우드, 애플리케이션까지 AI 스택 전반을 통합 제어하는 유일한 기업으로, 애플과 유사한 수직 통합 전략을 구사합니다. 🍎
- AI 칩 시장은 엔비디아의 독점에서 벗어나, 각자의 특화된 영역으로 분화될 것이며, TPU는 특정 서비스의 대규모 추론 시장에서 비용 효율적인 대안으로 부상할 것입니다. ⚖️
데브허브 | DEVHUB | CUDA 때문에 절대 안된다? 구글 TPU 사태의 본질, 엔비디아가 급해진 이유 | NVIDIA가 루빈 CPX, DGX Spark 내놓은 이유