- 쇼피의 데이터 파이프라인 구축 과정에서, 카프카와 애파치 플링을 사용하여 작은 그룹의 사업자 데이터를 처리했습니다. 📄📈
- 데이터 홉보니 소싱 데이터 부하가 너무 큽니다.
🚀
쇼피는 BigQuery와 같은 외부 데이터 저장소로 데이터 수집을 분산하여 대용량 데이터 처리에 대한 성능을 향상시켰습니다. ☁️
- 초기 쿼리 분석 결과, 검색할 데이터 양이 엄청나게 커 약 $94만 달러의 비용이 발생했습니다. 😮💵
- 쿼리 실행을 최적화하기 위해 BigQuery 테이블을 클러스터링하여 데이터 스캔을 크게 줄였습니다. 🗄️🎯
- 자녀 파이프라인를 최적화하려면 복잡한 쿼리를 피하고, 필요한 컬럼만 선택하고, 데이터를 분할하고 프리뷰 기능을 사용하여 비용을 줄이는 것이 좋습니다. 🌱💡