- 파이썬으로 배우는 빅데이터 스파크 파일 포맷 분석 강의 내용 요약 🧑💻
- JSON: 웹 API 및 디버깅에 유용하지만, 키 중복으로 인한 저장 공간 낭비 및 파싱 속도 저하 문제 발생 ⚠️
- Parquet: 컬럼 기반 저장 방식으로 효율적인 쿼리 및 압축 가능, 하지만 바이너리 포맷이라 읽기 어렵고 작은 파일에는 비효율적 🗄️
- Avro: 스키마 변경에 유연하며, 로우 기반 저장 방식으로 쿼리 속도는 느리지만 스키마 진화에 용이 🔄
- ORC: Parquet과 유사하게 컬럼 기반 저장 방식으로 압축 및 쿼리 성능 우수, 인덱싱 기능 지원으로 빠른 데이터 접근 가능 🎯
- 다양한 파일 포맷의 장단점 비교를 통해 스파크에서 효율적인 데이터 처리 방법 학습 💡