토
토스
July 10, 20251회
GPU를 밀도 있게 쓰는 방법 - 토스증권의 GPU 가상화(MIG) 도입기

간단 소개
토스증권의 GPU 가상화(MIG) 도입 사례를 통해 GPU 자원 효율성을 높이는 방법과 설정, 모니터링에 대해 설명합니다.
AI Summary
- GPU 가상화 도입 배경
- ML 태스크의 다양성: 모든 ML 작업이 고성능 GPU를 필요로 하지 않음. 간단한 실험이나 PoC, 서비스 운영 시 작은 모델로 충분한 경우가 많음.
- 자원 낭비 문제: 고성능 GPU가 작은 모델에 할당될 경우 자원 낭비 발생. 토스증권의 경우 워크로드의 약 1/3이 GPU 자원의 1/4도 활용하지 못함.
- 비용 문제: GPU 자원 낭비는 비용 손실로 이어짐. GPU 가상화 도입을 통해 자원 효율성을 높이고 비용을 절감하고자 함.
- GPU 가상화 방법 및 토스증권의 선택
- 클라우드 활용: 빠른 확장성, 초기 투자 불필요 등의 장점. 하지만 비용 누적 위험, 보안 문제, 인스턴스 제어 한계 등의 단점 존재.
- 혼합 GPU 운영: 작업 특성에 따라 GPU를 할당하여 비용 효율성을 높일 수 있음. 하지만 관리 복잡성, 자원 낭비 가능성 등의 단점 존재.
- GPU 가상화(MIG): 고성능 GPU를 논리적으로 분할하여 활용. 자원 효율성 극대화, 균일한 환경 유지, 유연한 자원 할당 등의 장점. 최신 GPU만 지원, 성능 저하 가능성, 관리 오버헤드 존재.
- 토스증권은 단일 아키텍처 운용, 추론 속도 일관성, 유연한 자원 전환 및 세분화된 리소스 할당, 관리 안정성 등의 이유로 MIG 기반 GPU 가상화를 선택함.
- GPU 가상화 설정 및 모니터링
- MIG 활성화: GPU 확인, MIG 모드 활성화, GPU 인스턴스(GI) 생성, 컴퓨트 인스턴스(CI) 생성 단계를 거침.
- Kubernetes 컴포넌트 재배포: nvidia-device-plugin 재배포를 통해 Kubernetes가 MIG를 인식하도록 함. MIG 구성 변경 시 파드 재시작 필요.
- 모니터링 셋업: dcgm-exporter를 활용하여 MIG 인스턴스 단위로 GPU 사용률 및 메모리 사용량을 모니터링. DCGM_FI_PROF_SM_ACTIVE, DCGM_FI_DEV_FB_USED 등의 지표 활용.
Next Feeds

빗썸의 AWS Security Hub 및 AWS Step Functions을 통한 멀티 어카운트 보안 모니터링 및 자동화 시스템 구축
빗썸은 AWS Security Hub와 Step Functions를 활용하여 멀티 어카운트 보안 모니터링 및 자동화 시스템을 구축, 컴플라이언스 위반 사항에 대한 자동 조치를 구현했습니다.
AWS Security HubAWS Step Functions자동 조치컴플라이언스보안 모니터링
2025. 7. 10.
AWS

알라딘의 Amazon Cognito를 활용한 백오피스 인증 체계 구축
알라딘은 Amazon Cognito를 활용하여 백오피스 인증 체계를 구축, 중앙 집중화된 인증 시스템을 통해 보안 강화 및 운영 효율성을 향상시켰습니다.
Amazon Cognito인증API GatewayMSAJWT
2025. 7. 10.
AWS

알라딘의 Amazon Cognito를 활용한 백오피스 인증 체계 구축
알라딘은 Amazon Cognito를 활용하여 백오피스 인증 체계를 구축, 중앙 집중화된 인증 시스템을 통해 보안 강화 및 운영 효율성을 향상시켰습니다.
Amazon Cognito인증API GatewayMSAJWT
2025. 7. 10.
AWS

Spring Cloud Config HA 적용을 위한 커스터마이징
Spring Cloud Config을 커스터마이징하여 HA를 적용하고 서비스 안정성을 높인 사례를 소개합니다.
Spring Cloud ConfigHA커스터마이징안정성Kafka
2025. 7. 9.
Naver d2

Amazon Q Developer와 MCP로 Aurora PostgreSQL 성능 최적화하기: 바이브 코딩부터 비용 절감까지
Amazon Q Developer와 MCP를 활용하여 Aurora PostgreSQL 성능을 최적화하고 개발 생산성을 향상시키는 방법과 비용 절감 방안을 제시합니다.
Amazon Q DeveloperMCPAurora PostgreSQL바이브 코딩비용 최적화
2025. 7. 9.
AWS

AWS IoT 서비스를 활용한 닥터애그의 통합 스마트팜 플랫폼 구축 사례
닥터애그는 AWS IoT 서비스를 활용하여 통합 스마트팜 플랫폼을 구축, 데이터 관리 효율성을 높이고 스마트 농업 생태계를 선도하고 있습니다.
스마트팜AWS IoT데이터 통합농업 자동화클라우드
2025. 7. 9.
AWS