무
무신사
December 15, 20251회
우리는 달에 가기로 했습니다. - Hybrid인프라부터 네트워크 최적화까지, 무신사 AI Infra구축기

간단 소개
무신사가 지속 가능한 AI 서비스를 위해 온프레미스 GPU와 AWS EKS HybridNode를 결합한 하이브리드 AI 인프라를 구축하고, 네트워크 최적화를 통해 비용 절감 및 성능 향상을 달성한 여정.
AI Summary
AI 인프라 구축 배경 및 목표
- 클라우드 AI 비용 급증으로 지속 가능성 문제 직면, 온프레미스 GPU 운영의 필요성 대두.
- GPU 수급, 전력 등 난관에도 불구하고, 미래 혁신을 위한 하이브리드 AI 인프라 구축 결정.
- 목표는 비용 절감과 안정적인 AI 서비스 제공. 하이브리드 인프라 구현 과정
- AWS EKS HybridNode를 통해 온프레미스 GPU와 AWS 클라우드를 통합 클러스터로 구성.
- 레퍼런스 없는 '0 to 1' 도전으로, AWS CNI 대체, 애드온 직접 구성 등 광범위한 커스터마이징 수행.
- Karpenter를 활용한 seamless failover 및 AI 제품화를 위한 안정적 구조 구현. 성능 최적화 및 운영 전략
- 최대 95% 비용 절감 달성, 초저지연, 고안정성 AI 서비스를 위한 네트워크 최적화.
- eBPF Cilium 도입, ALB를 NLB로 전환, Sidecar 제거로 오버헤드 감소 및 성능 극대화.
- OpenTelemetry 기반 플랫폼 중립적 모니터링 및 Gateway API Inference Extension으로 우선순위 트래픽 라우팅 실험, 안정성 향상.
Next Feeds
Kafka Streams 기반 EDA 구축 사례: 올리브영 품절 시스템 현대화 프로젝트
올리브영이 Kafka Streams 기반 EDA로 품절 시스템을 현대화하여 실시간 재고 처리 및 DB 부하를 86% 감소시킨 사례.
Kafka StreamsEDA품절 시스템실시간 데이터 처리올리브영
2025. 12. 15.
올리브영

당근 검색 엔진, 쿠버네티스로 쉽게 운영하기 2편 — 데이터 노드 웜업 적용
something wrong
2025. 12. 15.
당근

달리는 기차 바퀴 칠하기: 7년만의 컬러 시스템 업데이트
토스 디자인 시스템(TDS)이 7년간 누적된 컬러 시스템 문제를 해결하고 비즈니스 확장을 위해 토큰 시스템을 전면 개편한 과정.
디자인 시스템컬러 시스템토큰 시스템OKLCH테마 시스템
2025. 12. 15.
토스
올영세일 선착순 쿠폰, 미발급 0%를 향한 여정
올리브영 선착순 쿠폰 시스템의 비동기 처리 문제로 인한 미발급률을 Redis 이중 카운터 전략으로 0%까지 개선한 과정.
올영세일선착순 쿠폰Redis비동기 시스템정합성
2025. 12. 15.
올리브영

프론트엔드 도구의 전략적 선택: 경량 프레임워크 Vue.js 탐구와 Vue3 적용기
한컴테크가 Vue.js를 경량 프레임워크로 채택한 이유, Vue3 전환 시 Composition API 및 Vite 도입 경험을 공유합니다.
Vue.jsVue3Composition APIVite프론트엔드
2025. 12. 15.
한글과컴퓨터

우리가 테스트를 하는 이유. 근데 이제 Golang을 곁들인
Golang 기반의 테스트가 비즈니스 리스크를 줄이고 소프트웨어 품질을 높이는 목적과 'stretchr/testify', 'google/go-cmp' 등 효율적인 테스트 도구 활용법을 설명합니다.
테스트Golang비즈니스 리스크테스트 자동화stretchr/testify
2025. 12. 15.
뱅크샐러드