유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

파이썬으로 배우는 빅데이터 EP 51: 스파크에서 지원되는 파일 포맷들

미쿡엔지니어

2025. 1. 11.

0

#db
#etc
  • 파이썬으로 배우는 빅데이터 스파크 파일 포맷 분석 강의 내용 요약 🧑‍💻
  • JSON: 웹 API 및 디버깅에 유용하지만, 키 중복으로 인한 저장 공간 낭비 및 파싱 속도 저하 문제 발생 ⚠️
  • Parquet: 컬럼 기반 저장 방식으로 효율적인 쿼리 및 압축 가능, 하지만 바이너리 포맷이라 읽기 어렵고 작은 파일에는 비효율적 🗄️
  • Avro: 스키마 변경에 유연하며, 로우 기반 저장 방식으로 쿼리 속도는 느리지만 스키마 진화에 용이 🔄
  • ORC: Parquet과 유사하게 컬럼 기반 저장 방식으로 압축 및 쿼리 성능 우수, 인덱싱 기능 지원으로 빠른 데이터 접근 가능 🎯
  • 다양한 파일 포맷의 장단점 비교를 통해 스파크에서 효율적인 데이터 처리 방법 학습 💡

Recommanded Videos