- 데이터 파이프라인이란 다양한 소스의 데이터를 수집, 변환, 전달하여 유용한 정보로 만드는 자동화된 프로세스입니다. ⚙️
- 데이터 수집(Collect), 흡수(Ingest), 저장(Store), 계산(Compute), 소비(Consume)의 다섯 단계로 구성됩니다. 🔄
- 배치 처리(Batch Processing)와 스트림 처리(Stream Processing) 두 가지 주요 처리 방식이 있습니다. ⏱️
- ETL 또는 ELT 프로세스를 통해 데이터 정제, 정규화, 보강 등의 변환 작업이 수행됩니다. 🧹
- 데이터 저장소로는 데이터 레이크, 데이터 웨어하우스, 데이터 레이크하우스 등이 있습니다. 🗄️
- 데이터 과학자, 비즈니스 인텔리전스 도구, 머신러닝 모델 등 다양한 사용자가 처리된 데이터를 활용합니다. 📊