V
VCNC
May 24, 20181회
Apache Spark에서 컬럼 기반 저장 포맷 Parquet(파케이) 제대로 활용하기
간단 소개
Apache Spark에서 Parquet 포맷을 활용하여 저장 용량과 처리 성능을 극적으로 개선한 경험 공유 및 최적화 과정 분석.
AI Summary
- Parquet 포맷 도입 배경 및 효과
- JSON 형식 로그 파일 처리의 비효율성 개선을 위해 Parquet 포맷 도입
- 저장 용량 74% 감소, 처리 성능 10~30배 향상
- Parquet 심층 분석 및 최적화
- Spark의 parquet-mr 버전이 구버전임을 확인, 필요에 따라 옵션 조정 및 직접 수정 필요
- Dictionary encoding, Column pruning, Predicate pushdown 등의 기능 활용 시도
- 성능 향상을 위한 노력
- parquet.block.size 및 parquet.dictionary.page.size 조정으로 Dictionary encoding 효율 증대
- Top level field에 대한 Column pruning 및 Predicate pushdown 활용
- parquet.string.min-max-statistics 옵션 조정으로 쿼리 성능 향상
Next Feeds

버즈빌의 AWS Summit 2018 발표 참관기
버즈빌, AWS Summit 2018에서 Kubernetes 활용 경험을 공유. Kubernetes 도입 배경, 기능 소개, AWS 환경에서의 활용 데모를 통해 서비스 운영의 안정성을 강조.
AWS SummitKubernetesContainer OrchestrationkopsDevops
2018. 5. 4.
버즈빌

Go 서버 개발하기
Django 기반 서버의 성능 개선을 위해 Go 언어를 도입하고, Docker, Nginx를 활용하여 효율적인 인프라를 구축한 경험 공유.
GoDjangoDockerNginxAPI
2018. 2. 12.
버즈빌
비트윈 데이터팀의 Spark Summit EU 2017 참가기
비트윈 데이터팀의 Spark Summit EU 2017 참가 후기: Spark의 발전 방향, 딥러닝 지원, 컨퍼런스 경험 공유.
Spark빅데이터딥러닝컨퍼런스데이터 분석
2017. 12. 18.
VCNC

아마존 에코를 활용한 음성 인식 에어컨 제어
아마존 에코와 라즈베리파이를 이용, 음성으로 에어컨을 제어하는 시스템 개발 과정과 회로 설계, LIRC 설정, 프로토콜 분석을 설명합니다.
아마존 에코라즈베리파이음성 인식에어컨 제어LIRC
2017. 9. 27.
버즈빌

안드로이드 파편화(Fragmentation)에 대하여
안드로이드 파편화의 원인과 문제점을 분석하고, 스타트업의 효율적인 대응 전략 및 구글의 해결 노력을 제시합니다.
안드로이드파편화OS하드웨어커스터마이징
2017. 8. 8.
버즈빌

Typescript로 Local Storage 안전하게 사용하기
Typescript 환경에서 LocalStorage를 안전하게 사용하기 위해 BrowserStorage를 도입, 데이터 레이어에서 관리하고 Model 기반으로 저장/로드하는 방법을 제시.
TypescriptLocalStorageBrowserStorageClean ArchitectureDataSource
2017. 8. 3.
뱅크샐러드