버
버즈빌
July 31, 20181회
How We Pipe Data

간단 소개
Buzzvil은 Redshift를 중심으로 Athena, Firehose, MySQL 비동기 로드를 활용하여 효율적인 데이터 파이프라인을 구축하고 데이터 분석을 수행합니다.
AI Summary
- Redshift 데이터 웨어하우스
- Buzzvil은 1700만 명 이상의 사용자 활동 데이터를 분석하기 위해 Redshift를 사용.
- Redshift는 AWS에서 관리하는 SQL 기반의 컬럼 방식 데이터 웨어하우스로, 대규모 분석에 적합.
- 성능, 분산 스토리지, 빠른 데이터 수집, 수평 확장성, AWS 서비스와의 통합 용이성 등의 장점.
- 데이터 파이프라인 구축 방법
- Athena를 통한 전처리: 대용량 데이터의 전처리 및 집계에 사용, S3 데이터 읽기 비용만 발생.
- Firehose를 통한 실시간 데이터 수집: Fluentd와 통합하여 안정적인 데이터 스트림을 Redshift로 전송.
- MySQL 비동기 로드: MySQL 데이터베이스의 데이터를 Redshift로 동기화하기 위해 FULL_COPY, INCREMENTAL_COPY, UPDATE_LATEST_COPY 방식 사용.
- 데이터 파이프라인 전략
- 트랜잭션 및 로그 데이터는 Firehose를 통해, MySQL의 팩트 테이블은 CDC 방식으로 동기화.
- 다양한 데이터 소스를 통합하여 교차 서비스 및 플랫폼 데이터 분석을 용이하게 함.
Next Feeds

How we pipe data
버즈빌은 Athena, Firehose, MySQL Asynchronous Loads를 활용하여 데이터 파이프라인을 구축하고 Redshift에 데이터를 통합합니다.
데이터 파이프라인RedshiftAthenaFirehoseFluentd
2018. 7. 31.
버즈빌

A/B Testing - Sampling부터 Interpretation까지
A/B 테스팅의 샘플링 방법과 결과 해석에 대한 실질적인 가이드라인을 제시하고, 흔히 발생하는 문제점과 해결 방안을 공유합니다.
A/B testing샘플링t-test랜덤 샘플링결과 해석
2018. 6. 14.
버즈빌
Apache Spark에서 컬럼 기반 저장 포맷 Parquet(파케이) 제대로 활용하기
Apache Spark에서 Parquet 포맷을 활용하여 저장 용량과 처리 성능을 극적으로 개선한 경험 공유 및 최적화 과정 분석.
Apache SparkParquet컬럼 기반 저장데이터 최적화성능 향상
2018. 5. 24.
VCNC

버즈빌의 AWS Summit 2018 발표 참관기
버즈빌, AWS Summit 2018에서 Kubernetes 활용 경험을 공유. Kubernetes 도입 배경, 기능 소개, AWS 환경에서의 활용 데모를 통해 서비스 운영의 안정성을 강조.
AWS SummitKubernetesContainer OrchestrationkopsDevops
2018. 5. 4.
버즈빌

Go 서버 개발하기
Django 기반 서버의 성능 개선을 위해 Go 언어를 도입하고, Docker, Nginx를 활용하여 효율적인 인프라를 구축한 경험 공유.
GoDjangoDockerNginxAPI
2018. 2. 12.
버즈빌
비트윈 데이터팀의 Spark Summit EU 2017 참가기
비트윈 데이터팀의 Spark Summit EU 2017 참가 후기: Spark의 발전 방향, 딥러닝 지원, 컨퍼런스 경험 공유.
Spark빅데이터딥러닝컨퍼런스데이터 분석
2017. 12. 18.
VCNC