ML Infrastructure with GCP | 2025 당근 GCP 밋업
- 당근은 2024년 영업이익이 4배 증가하고, 학습 파이프라인도 크게 증가하며 성장세를 보임 🎉
- 인력 부족 속에서 쿠베플로우 기반 학습 파이프라인을 TFX로 전환하여 안정성을 확보하고 코드 일관성을 높임 🛠️
- 프로토버프를 사용하여 컨피그레이션 관리, 타입 관련 오류 감소, 코드 가독성 및 유지보수성을 향상시킴 📚
- 비슷한 파이프라인 설정을 한 곳에서 관리하여 지식 공유 및 온보딩 효율성을 높임 🤝
- 버텍스 AI 파이프라인 도입으로 인프라 관리 부담을 줄이고, 유저 코드와 인프라 에러를 자동 구분하여 온콜 부담을 경감시킴 💡
- 내부 SDK를 개발하여 리소스 할당, 환경 변수 설정, 시크릿 관리를 용이하게 하고, 파이프라인 잡 클래스를 확장하여 사용자 편의성을 높임 ⚙️
- GCP 모니터링과 연동하여 파이프라인 상태, 리소스 쿼터 초과 등을 탐지하는 알람 시스템을 구축하고 슬랙으로 알람을 발송하여 빠른 대응을 지원 🚨
- TFX 기반 커스텀 컴포넌트, 유틸리티 등을 SDK 형태로 만들어 여러 팀이 함께 기여하고 재사용할 수 있도록 함 ♻️
- GCP 프로젝트를 서비스별로 분리하여 비용 가시성을 확보하고 운영 편의성을 개선함 📊
- TPU V5e를 예약하여 안정적으로 학습에 활용하고, LLM 라우터 및 프롬프트 스튜디오를 구축하여 LLM 활용을 효율화함 🤖
- 텐서플로우에 없는 S3 구현체 추가, 최적화 런타임 적용 등 사내 필요 커스텀 빌드를 유지보수함 🛠️