Data Mesh: The Speedrun by Nick Bozovits
- 데이터 메시 아키텍처 구현의 실용적인 "스피드런"으로, 실제 기술 선택과 교훈을 공유합니다. 🚀
- 팀 자율성은 파편화된 생태계를 초래, 조직 간 데이터 제품 통합을 어렵게 합니다. 🧩
- 비실시간 데이터 오케스트레이션은 Airflow 데이터셋 기반 하이브리드 접근으로, 상태 기반 메시지 전달 및 가시성을 확보했습니다. 🎶
- 대용량 데이터 처리는 Databricks를 활용, Unity Catalog로 접근 제어 및 데이터 lineage를 관리하여 거버넌스를 지원합니다. 🏗️
- 데이터 품질은 Great Expectations로 구현, Databricks 호환성과 비즈니스 친화적인 보고서가 강점입니다. ✅
- 스토리지 솔루션은 Azure Data Lake(골드 레이어까지)와 Azure SQL/Elastic 등 전용 리소스를 활용하는 2단계 방식입니다. 💾
- 데이터 제품은 데이터 외적인 요소를 포괄하는 광범위한 개념으로, 초기 데이터 중심 접근은 한계가 있었습니다. 💡
- 인프라는 데이터 제품 요구사항에 맞춰야 하며, 데이터 카탈로그 도입 지연은 "데이터 혼란"을 야기하는 잘못된 결정이었습니다. 📚
- 초기부터 도메인, 스튜어드, 거버넌스를 명확히 정의하고, 유연한 기술 전환이 가능한 일관된 생태계를 구축했습니다. 🎯
- 단일 Airflow 인스턴스로 오케스트레이션을 통합하여 시스템 모니터링 및 데이터 제품 간 조화로운 통신을 가능하게 했습니다. 🤝
- 최종 아키텍처는 DataHub(거버넌스), Airflow(오케스트레이션), Great Expectations(유효성 검사), Databricks(변환), 외부 서비스(Azure SQL/Elastic)로 구성됩니다. 🛠️
- 데이터 제품 블루프린트를 개발하여 팀 간 공유 가능한 템플릿을 제공, 개발 가속화 및 전문성 활용을 지원합니다. 📝
- Great Expectations는 유효성 검사 규칙 정의, 이해관계자 소통, 개발/운영 단계 문제 식별 및 데이터 제품 유효성 결정에 활용됩니다. 📊
데브허브 | DEVHUB | Data Mesh: The Speedrun by Nick Bozovits