뱅
뱅크샐러드
June 5, 20231회
데이터 분석가가 직접 정의, 배포, 관리하는 뱅크샐러드 데이터 파이프라인

간단 소개
뱅크샐러드는 데이터 분석가가 직접 정의, 배포, 관리하는 데이터 파이프라인 datapipe를 구축하여 데이터 활용도를 높였습니다.
AI Summary
- 뱅크샐러드 데이터 인프라
- 십수 개의 마이크로서비스와 각 서비스의 저장소, 모바일/서버 이벤트, 3rd-party 광고 데이터, 공공 데이터 등을 수집.
- 수집된 데이터는 S3, Glue 기반 데이터 레이크에 적재, Athena, Spark를 통해 분석. Metabase, Jupyter Notebook 활용.
- Airflow로 관리되는 데이터 파이프라인은 매 시간, 매일 Spark 작업을 실행.
- 데이터 파이프라인 개발의 어려움과 해결
- 초기 파이프라인은 데이터 엔지니어만 개발/관리 가능, 데이터 사용자는 ETL 요청.
- 데이터 엔지니어링 팀의 병목 현상 발생, 데이터 사용자가 직접 파이프라인 개발 필요.
- datapipe 프로젝트를 통해 데이터 사용자가 데이터 처리 로직에만 집중하도록 추상화.
- datapipe의 주요 기능 및 효과
- 테이블 메타 데이터 객체 선언, DAG 디펜던시 설정 간소화.
- Slack ChatOps 배포 워크플로우를 통해 사용자 직접 배포 및 Airflow 조작 가능.
- 테스트 서버 및 유닛 테스트를 통해 개발 단계에서 파이프라인 테스트 및 검증.
- 데이터 퀄리티 속성 설정을 통해 데이터 문제 예방 및 관리.
- 데이터 엔지니어가 아닌 직군의 파이프라인 개발, 수정, 배포 사례 증가.
Next Feeds
Spring Bean Injection 이야기(feat. 모두가 다 알고 있는 스프링빈, 정말 다 알고 있는가?)
Spring Bean Injection 시 @Qualifier와 @Primary 어노테이션의 동작 방식과 우선순위를 분석하고, 테스트를 통해 검증합니다.
SpringBean InjectionAutowiredQualifierPrimary
2023. 5. 31.
카카오페이

API 문서화, TS 타입만 있으면 해결! – Tspec
Tspec은 TypeScript 기반 API 문서 자동화 라이브러리로, 쉬운 사용법, 높은 관리 효율성, 간편한 도입이 특징입니다.
TspecAPI 문서화TypeScriptOpenAPISwagger
2023. 5. 31.
리디

Self Serving Data Platform 구축하기 (feat. Airflow)
버즈빌은 Airflow 기반 셀프 서빙 데이터 플랫폼을 구축하여 데이터 접근성을 높이고, 엔지니어 효율성을 개선했습니다.
Airflow셀프 서빙 데이터 플랫폼데이터 파이프라인AthenaRedshift
2023. 5. 31.
버즈빌

컬리 개발자들의 내돈내산 제품 찐추천 - 사실 컬리 개발자들은 회사에 월급을 반납하고 있습니다.
컬리 개발자들이 직접 구매하고 추천하는 제품들을 소개합니다. 다양한 상황과 취향에 맞는 꿀템들을 만나보세요!
컬리개발자추천제품내돈내산
2023. 5. 31.
컬리

잠깐 20초만 한눈을 팔면, 멈춰 서는 WSL
WSL 업데이트 후 도커 설정 변경 및 WSL 멈춤 현상 해결 과정을 공유하고, 파워셸을 이용한 백그라운드 실행 방법을 제시합니다.
WSL도커systemd파워셸백그라운드 실행
2023. 5. 30.
넷마블

조직문화 담당자가 개발조직에 뛰어든 이야기
조직문화 담당자가 개발 조직에서 테크 컬처 매니저로 일하며 겪은 경험과 역할, 그리고 주요 활동을 소개합니다.
조직문화테크 컬처 매니저개발 문화심리적 안전감행동강령
2023. 5. 26.
데브시스터즈