카
카카오페이
February 2, 20241회
Oracle에서 MongoDB로의 CDC Pipeline 구축
간단 소개
카카오페이증권의 Oracle to MongoDB CDC 파이프라인 구축 경험 공유: Kafka, Debezium, Talend를 활용한 데이터 실시간 분석 및 초기 적재 전략.
AI Summary
-
Oracle to MongoDB CDC 파이프라인 구축 배경
- 카카오페이증권은 MSA 확장에 따라 분산된 데이터 활용을 위해 CDC의 중요성이 부각됨.
- 사용자 데이터의 실시간 분석을 위해 Oracle에서 MongoDB로의 CDC 파이프라인 구축 필요.
-
Kafka 기반 CDC 파이프라인 아키텍처
- Debezium을 Source Connector로, MongoDB 제공 Connector를 Sink Connector로 사용.
- Kafka Connect는 Kubernetes에 구성하여 확장성을 확보.
- Debezium CDC Handler가 Oracle을 지원하지 않아 커스터마이징 필요.
-
데이터 초기 적재 전략
- 초기 데이터와 실시간 변경분을 분리하여 MongoDB에 적재.
- 대용량 데이터 처리를 위해 Talend Open Studio와 mongoimport를 활용.
- 페이징 처리 기법을 적용하여 OOM 문제를 해결하고 성능을 개선.
Next Feeds

금융기술연구소 3주년 기념행사, Seedning 전격해부
카카오뱅크 금융기술연구소 3주년 기념 Seedning 행사, 생성형 AI를 활용한 연구 성과 전시와 향후 비전을 공유.
금융기술연구소Seedning생성형 AI카카오뱅크기술 전시
2024. 2. 1.
카카오뱅크

인공지능, 너 이 문제 내 가설로 푼 거 맞니? : XAI 활용기
XAI를 활용하여 인공지능 모델의 예측 이유를 설명하고, 성능 개선 및 전문가 지식과의 연계 가능성을 제시합니다.
XAI인공지능SHAP설명가능성머신러닝
2024. 1. 30.
카카오뱅크
AWS re:Invent 2023, 관심 세션을 중심으로 (2편): Cost Optimization, Observability
AWS re:Invent 2023 참관 후기: Cost Optimization과 Observability 세션 중심으로 비용 효율화 전략 및 시스템 안정성 확보 방안을 제시.
AWS re:InventCost OptimizationObservabilityGenerative AIAmazon Q
2024. 1. 26.
카카오페이
AWS re:Invent 2023, 관심 세션을 중심으로 (1편): Aurora DB, Amplify
AWS re:Invent 2023 참관 후기: Aurora DB, Amplify를 중심으로 카카오페이 개발자들의 경험과 인사이트를 공유합니다.
AWS re:InventAurora DBAmplifyGenerative AI서버리스
2024. 1. 26.
카카오페이

머신러닝을 활용한 검색 품질 지표 개발 (SIGIR’23 Paper Recap)
네이버 Data&Analytics 팀이 개발한 머신러닝 기반 검색 품질 지표(SQM) 개발 과정과 활용 사례, 성과를 소개합니다.
검색 품질머신러닝품질 지표EBM네이버 검색
2024. 1. 25.
네이버DnA팀

버즈빌의 ML 플랫폼 Buzzflow (1) - 모델을 개발하고 관리하기
버즈빌의 ML 플랫폼 Buzzflow는 머신러닝 모델 개발, 관리, 배포를 위한 통합 환경을 제공하여 생산성을 향상시킨다.
MLOps머신러닝 파이프라인SagemakerMLFlowYAML
2024. 1. 25.
버즈빌