Data Engineering with Python and AI/LLMs – Data Loading Tutorial
- 이 과정은 데이터 엔지니어링을 위한 데이터 수집의 기본을 다룹니다. 🧑🏫
- 데이터 파이프라인 구축 시 스키마 변경 및 API 제한과 같은 일반적인 문제 해결 방법을 배웁니다. 🛠️
- 데이터를 A에서 B로 옮기는 스크립트 작성 능력에서 나아가, 안정성, 확장성, 자동화를 고려한 설계를 배웁니다. ⚙️
- 이 과정은 분석 엔지니어, 데이터 엔지니어, 분석 관리자 및 아키텍트를 대상으로 합니다. 🎯
- API에서 데이터를 추출하고 API 관련 문제(인증, 속도 제한, 페이지네이션)를 처리하는 방법을 배웁니다. 🔑
- 자동 스키마 관리 및 정규화 기술을 습득합니다. 📚
- 점진적 데이터 수집 및 상태 추적 방법을 학습하여 불필요한 데이터 재처리를 방지합니다. ♻️
- 다양한 데이터 저장소(DuckDB, BigQuery, Snowflake, Data Lake)에 데이터를 로드하는 방법을 배웁니다. 💾
- Dexter, GitHub Actions, Cron Jobs와 같은 도구를 사용하여 파이프라인을 자동화하고 오케스트레이션합니다. 🤖
- 대규모 데이터 수집을 효율적으로 처리하고 성능, 재시도, 병렬 실행을 최적화하는 방법을 배웁니다. 🚀
- 비정형 데이터를 구조화된 데이터로 변환하는 데이터 수집 과정을 이해합니다. 🪄
- 데이터 엔지니어는 신뢰할 수 있고 효율적이며 확장 가능한 파이프라인을 구축하는 아키텍트입니다. 🏗️
- 데이터 엔지니어는 데이터 품질, 무결성, 보안 및 규정 준수를 보장합니다. 🛡️
- 배치 처리와 스트리밍 처리의 차이점을 이해하고, 각 접근 방식의 장단점을 파악합니다. 🆚
- 이 과정은 주로 배치 처리에 중점을 두지만, 스트리밍에 대해서도 간략하게 다룹니다. 🌊
- Python의
requests
라이브러리를 사용하여 API에서 데이터를 추출하는 방법을 실습합니다. 🐍