ML Infrastructure with GCP | 2025 당근 GCP 밋업
- 당근마켓은 홈피드, 광고, 검색 개인화 등 추천 시스템에 머신러닝 알고리즘을 적극 활용하며, 데이터 처리에 GCP Dataflow를 사용합니다. 🥕
- Dataflow는 클러스터 관리 없이 코드만으로 대규모 데이터 처리가 가능한 완전 관리형 서비스입니다. ☁️
- 스트리밍 및 배치 처리를 하나의 코드베이스(Apache Beam SDK)로 지원하며, 자동 확장, 오류 복구, 리소스 최적화 기능을 제공합니다. 🔄
- 당근마켓은 Dataflow를 활용하여 실시간/배치 임베딩 생성(GPU 추론 포함), 게시물 카테고리 분류, 머신러닝 훈련 데이터 가공 파이프라인을 구축했습니다. 🧠
- 복잡한 DAG 형태의 파이프라인으로 다양한 서비스의 멀티 소스/멀티 싱크 데이터 처리를 효율적으로 수행합니다. 🕸️
- 당근마켓의 Dataflow는 주간 피크 시 약 13,000 VCPU와 4페타바이트의 데이터를 처리하며, 급격한 스케일 업/다운을 통해 리소스를 최적화합니다. ⚡
- Dataflow 외에도 Gemini, BigQuery, Vertex AI, 벡터 검색 등 다양한 GCP 서비스를 ML 인프라에 활용하고 있습니다. 💎
- Dataflow는 운영 부담을 최소화하고 개발자가 데이터 처리 로직에 집중할 수 있게 하여 생산성을 높입니다. 🛠️