A
AWS
October 29, 20251회
리멤버앤컴퍼니의 Amazon S3 Tables를 활용한 실시간 분석 워크로드 구축하기 1부: S3 Tables에 CDC 데이터 레이크 구축하기

간단 소개
리멤버앤컴퍼니가 Amazon S3 Tables와 CDC를 활용해 기존 데이터 처리 비효율성을 해결하고 실시간 분석 워크로드를 구축한 과정.
AI Summary
도입 배경 및 문제점
- 리멤버앤컴퍼니는 기존 Amazon S3에 Parquet 파일 적재 및 Presto를 활용한 대용량 데이터 분석 방식에서 비효율성을 겪었습니다.
- 매일 새벽 Full Refresh 방식의 데이터 적재는 Aurora MySQL과 S3에 높은 부하를 주어 비용이 증가했습니다.
- 운영 DB를 통한 실시간 분석은 Aurora MySQL의 HLL 지표 증가 및 롱 쿼리로 인한 운영 트랜잭션 지연 문제를 야기했습니다.
기술 목표 및 아키텍처 전환
- Incremental Update 기반의 CDC(변경 데이터 캡처) 데이터 적재로 효율적인 동기화를 목표로 했습니다.
- Aurora Reader 인스턴스에 직접 쿼리 없이 Iceberg 기반 분석 레이크하우스로 전환하여 실시간 분석을 지원합니다.
- 새로운 아키텍처는 Aurora MySQL -> Debezium -> Amazon MSK -> Apache Iceberg 기반 Amazon S3 Tables -> StarRocks -> PyIceberg/Grafana로 구성됩니다.
CDC 데이터 레이크 구축 상세
- 기존 데이터 마이그레이션은 Full Load (AWS Glue/PySpark)와 CDC 동기화로 진행되었습니다.
- **AWS Glue(PySpark)**를 활용해 Aurora MySQL 데이터를 S3 Tables로 병렬 이관하며, Spark 설정 및 동적 파티션 조절을 적용했습니다.
- Amazon MSK를 허브로 Debezium MySQL Connector와 Databricks Iceberg Kafka Connector를 Amazon ECS에 배포하여 CDC 파이프라인을 구축했습니다.
- Debezium Connector는
snapshot.mode=no_data,snapshot.locking.mode=none으로 설정하고, Iceberg Kafka Connector는DebeziumTransform을 통해 CDC 이벤트를 Upsert 모드로 반영합니다. - S3 Tables는 Amazon Athena의
s3tablescatalog를 통해 조회 가능하며, 기존 Glue Catalog와 독립적으로 운영됩니다.
Next Feeds

리멤버앤컴퍼니의 Amazon S3 Tables를 활용한 실시간 분석 워크로드 구축하기 2부: S3 Tables를 프로덕션 환경에서 운영하기
리멤버앤컴퍼니가 Amazon S3 Tables를 프로덕션 환경에서 운영하며 Compaction, Snapshot 관리, PyIceberg 모니터링, StarRocks on EKS 도입으로 실시간 분석 워크로드를 최적화한 사례.
S3 TablesIcebergStarRocks실시간 분석Compaction
2025. 10. 29.
AWS

미리 봅시다!@SK AI SUMMIT 2025 (+ 현장등록 방법, '숨은맛집' 세션소개 포함)
SK AI SUMMIT 2025의 행사 정보, SK플래닛의 발표 주제, 그리고 놓치지 말아야 할 '숨은 맛집' 세션들을 소개한다.
SK AI SUMMITAISK플래닛현장등록로보틱스 AI
2025. 10. 29.
skplanet

MCP 보안 위협과 실무 대응 전략 알아보기
MCP 환경의 주요 보안 위협(프롬프트 인젝션, 자격증명 탈취, 공급망 변조 등)과 이에 대한 실무적 대응 전략(최소 권한, 검증된 서버, 시크릿 관리, 환경 격리, 모니터링)을 설명합니다.
MCP 보안프롬프트 인젝션자격증명 탈취최소 권한 원칙시크릿 관리
2025. 10. 29.
인포그랩

RabbitMQ Classic Queue 메모리 장애와 Quorum Queue 전환기
올리브영이 대량 쿠폰 발급 중 발생한 RabbitMQ 메모리 장애를 Quorum Queue로 전환하여 해결한 과정과 성과를 공유합니다.
RabbitMQQuorum QueueClassic Mirrored Queue메모리 장애대량 쿠폰 발급
2025. 10. 28.
올리브영

AI로 E2E 테스트를 찍어내다: MAFT
MAFT는 LLM 기반 멀티 에이전트 파이프라인으로, API 문서로부터 E2E 테스트 코드를 자동 생성하여 개발 효율성을 높입니다.
MAFTE2E 테스트LLM멀티 에이전트AutoGen
2025. 10. 28.
Naver d2

AWS Control Tower 리전 제약 조건에서 Amazon Bedrock 크로스 리전 추론 기능 활용 지침
AWS Control Tower 리전 제약 조건 하에서 Amazon Bedrock 크로스 리전 추론 기능을 안전하게 활성화하는 방법을 설명합니다.
Amazon BedrockAWS Control Tower크로스 리전 추론SCP파운데이션 모델
2025. 10. 28.
AWS