카
카카오
July 28, 20251회
CDC 파이프라인 정합성 검사 Spark 잡 개발 - Part 2. Spark 최적화편

간단 소개
CDC 파이프라인 정합성 검사 Spark 잡 개발 시 Spark 최적화 전략 및 데이터 소스별 접근 방식, 성능 문제 해결 노하우를 공유합니다.
AI Summary
- Spark 선택 이유 및 MySQL 최적화
- 대용량 데이터 처리, 다양한 데이터 소스 지원, 테이블 단위 모니터링 및 복구 용이성 때문에 Spark를 선택.
- Fullscan 모드는
numPartitions
,partitionColumn
,lowerBound
,upperBound
옵션을 활용하여 병렬 처리 최적화. 워커 수와 파티션 수의 균형이 중요. - Keybased 모드는
predicates
옵션을 사용하여 특정 PK만 조회.coalesce
를 통해 파티션 수를 조정하여 과도한 작업 방지. - Limit 모드는 서브쿼리를 사용하여 일부 레코드만 추출, 병렬 처리 최적화는 적용하지 않음.
- Iceberg 최적화 및 기타 고려 사항
- Iceberg는 PK 기반 인덱스가 없어 풀스캔 후 필터링. Compaction, 스냅샷 만료 등 유지 관리 작업 중요.
- 캐싱을 통해 중복 쿼리 방지, full outer 조인을 통해 데이터 정합성 비교, 로컬 모드에서는 브로드캐스트 조인 제한.
- 변화분 PK가 연속된 경우 범위 기반 쿼리(BETWEEN)를 고려, Iceberg 테이블의 File-level Pruning 활용 및 Sort Order 도입 검토.
Next Feeds

무신사 쿠폰 시스템, DB 성능 64% 개선으로 기술 부채를 갚다
무신사 쿠폰 시스템의 DB 성능을 64% 개선한 과정과 기술 부채 해소 전략, 그리고 개발 문화에 대한 인사이트를 공유합니다.
쿠폰 시스템DB 성능 개선기술 부채API 최적화쿼리 분리
2025. 7. 27.
무신사

라이브 스트리밍에서 광고 마커 삽입을 위한 AWS Elemental Media Services 사용하기
AWS Elemental Media Services를 활용하여 라이브 스트리밍에 광고를 삽입하는 아키텍처와 SSAI 기술, 광고 마커 설정 및 고려사항을 설명합니다.
라이브 스트리밍SSAI광고 마커AWS Elemental Media ServicesMediaTailor
2025. 7. 27.
AWS

금전적 보상없이, 이벤트 바이럴이 가능할까?
금전적 보상 없는 이벤트 바이럴 가능성과 기술적 오류 발생에 대한 내용입니다.
이벤트바이럴금전적 보상오류Maximum call stack size exceeded
2025. 7. 25.
토스

엔터프라이즈 Multi-EKS 마스터하기: GitOps 기반 Blue-Green 무중단 운영 전략
Multi-EKS 환경에서 Hub-and-Spoke 아키텍처와 GitOps를 통해 효율적이고 안정적인 운영 전략을 제시합니다.
Multi-EKSGitOpsBlue-GreenHub-and-SpokeArgoCD
2025. 7. 25.
AWS

금전적 보상없이, 이벤트 바이럴이 가능할까?
금전적 보상 없이 스토리텔링, 다양한 결과, 공감대 형성으로 이벤트 바이럴 성공을 이끈 사례 분석.
바이럴이벤트스토리텔링공감얼굴인식
2025. 7. 24.
토스

카카오(Kakao Corp.)의 AWS Control Tower 환경에서 권한 최소화 및 계정 연동 자동화 구현하기
카카오는 AWS Control Tower 환경에서 권한 최소화, 계정 연동 자동화, 규정 준수 자동화를 구현하여 보안과 효율성을 높였습니다.
AWS Control TowerIAM Access AnalyzerEventBridgeLambda보안 거버넌스
2025. 7. 24.
AWS