카
카카오페이
November 12, 20252회
AI 플랫폼 GPU 도입부터 Kubeflow까지 도입기
간단 소개
카카오페이가 AI 시스템의 비효율을 해결하기 위해 Kubeflow 기반 AI 플랫폼을 구축하고 GPU 자원을 최적화한 과정.
AI Summary
AI 플랫폼 도입 배경 및 문제점
- 카카오페이는 기존 AI 시스템의 반복적인 수작업과 비효율성으로 개발 속도 저해 및 서비스 안정성 위협 문제를 겪었습니다.
- 레거시 시스템은 수동 컨테이너 이미지 빌드 및 GPU 서버 배포 구조로, 표준화, 확장성, 통합을 위한 새로운 AI 플랫폼 구축이 필요했습니다.
Kubeflow 기반 AI 플랫폼 구축
- 온프레미스 환경에 적합한 쿠버네티스 기반 Kubeflow를 선택하여 기존 시스템과의 일관성 및 확장성, 통합성을 확보했습니다.
- Kubeflow는 파이프라인과 컨테이너 기술로 표준화된 개발 환경을 제공하고, 쿠버네티스를 통해 GPU 자원 동적 할당 및 오토스케일링으로 효율성을 증대했습니다.
- 하이브리드 클러스터 아키텍처로 H200 GPU와 RDMA, Infiniband 네트워크를 통합하여 대규모 분산 학습 성능을 극대화했습니다.
- MIG(Multi-Instance GPU) 기술을 도입하여 하나의 물리 GPU를 여러 인스턴스로 분할, GPU 활용률 및 투자 효율을 극대화했습니다.
플랫폼 최적화 및 운영 전략
- Knative의 Scale to Zero 기능은 콜드 스타트 문제로 인해 최소 복제본(minReplicas) 1개 유지 정책으로 변경하여 서비스 응답 속도를 보장했습니다.
- GPU 자원 최적화를 위해 '사용처', '사용 모델', '모델 크기' 기준을 마련하여 MIG 인스턴스를 워크로드에 맞게 할당했습니다.
- 그라파나 대시보드를 통해 GPU 자원 할당량, 유휴 자원, 사용량 등을 모니터링하며 지속적인 플랫폼 개선 및 효율을 극대화하고 있습니다.
Next Feeds

여기어때 고객 상담 시스템 구축 — SendBird와 metaData 기반 상태 관리
여기어때가 SendBird SDK와 메타데이터를 활용하여 고객 상담 시스템의 복잡한 상태 관리 및 커스텀 UI를 구현한 과정을 설명합니다.
SendBird메타데이터고객상담상태관리커스텀UI
2025. 11. 12.
여기어때

SK바이오팜의 Agentic AI 기반 신약 개발 워크플로 자동화 도전기
SK바이오팜이 Agentic AI 기반 Multi-Agent 시스템을 구축하여 신약 개발 워크플로를 자동화하고 효율성을 97.5% 개선한 사례.
신약 개발Agentic AI워크플로 자동화Multi-AgentSK바이오팜
2025. 11. 12.
AWS

AWS와 함께하는 웅진AI Runner Challenge 4부: Amazon Q Developer CLI 활용한 보안 취약점 진단 및 조치
AWS 웹사이트의 쿠키 정책과 광범위한 클라우드 서비스 및 지원 리소스 목록을 다룹니다.
AWS클라우드 서비스쿠키AI보안
2025. 11. 12.
AWS

Claude Code Subagent: Context Engineering
Claude Code의 컨텍스트 부족 문제를 Subagent를 활용한 컨텍스트 엔지니어링으로 해결하여 AI 코딩 생산성을 높이는 새로운 개발 패러다임을 제시합니다.
Claude CodeSubagent컨텍스트 관리AI 코딩생산성
2025. 11. 12.
딜라이트룸

2025. 11월(중순)-12월 테크세미나 추가 일정(+2026. 1Q 확정 일정)
2025년 11월부터 2026년 1분기까지 국내외 주요 기술 컨퍼런스 및 세미나 일정을 요약한 정보입니다.
AI기술 컨퍼런스개발자클라우드모바일
2025. 11. 12.
skplanet

Grafana Alloy로 로그·메트릭 통합 수집하기 : Promtail 대체·Docker 실전 가이드
Grafana Alloy로 Promtail의 한계를 극복하고 로그·메트릭을 통합 수집하는 방법과 Docker 환경 실전 가이드.
Grafana AlloyPromtailObservability로그 수집메트릭 수집
2025. 11. 12.
인포그랩