올
올리브영
October 28, 20252회
RabbitMQ Classic Queue 메모리 장애와 Quorum Queue 전환기

간단 소개
올리브영이 대량 쿠폰 발급 중 발생한 RabbitMQ 메모리 장애를 Quorum Queue로 전환하여 해결한 과정과 성과를 공유합니다.
AI Summary
장애 발생 및 초기 대응
- 1,500만 건 쿠폰 발급 중 RabbitMQ 클러스터의 메모리 과다 점유로 서비스 중단.
- Classic Mirrored Queue의 unsynchronized 상태 발생, 약 4시간 동안 메시지 처리 중단.
- 긴급 복구를 위해 신규 브로커 생성 및 트래픽 전환으로 약 30분 만에 서비스 정상화.
원인 분석 및 해결
- 대량 발급과 동시 트래픽으로 인한 메시지 적체 및 메모리 부족이 근본 원인.
- Classic Mirrored Queue의 구조적 한계(동기화 실패 시 메시지 소비 중단) 확인.
- AWS TAM 협업으로 RabbitMQ 버전 업그레이드 및 Quorum Queue 전환 권고.
Quorum Queue 전환 및 성과
- Raft Consensus 알고리즘 기반의 Quorum Queue로 전환하여 안정성 확보.
- 전환 후 장애 발생 빈도 0회, 메시지 처리 지연 20% 단축, 운영 부담 감소 등 긍정적 성과.
- 향후 단일 브로커 장애 대비 이중화 구성, 자동화된 장애 대응 시스템 구축 계획.
Next Feeds

AI로 E2E 테스트를 찍어내다: MAFT
MAFT는 LLM 기반 멀티 에이전트 파이프라인으로, API 문서로부터 E2E 테스트 코드를 자동 생성하여 개발 효율성을 높입니다.
MAFTE2E 테스트LLM멀티 에이전트AutoGen
2025. 10. 28.
Naver d2

AWS Control Tower 리전 제약 조건에서 Amazon Bedrock 크로스 리전 추론 기능 활용 지침
AWS Control Tower 리전 제약 조건 하에서 Amazon Bedrock 크로스 리전 추론 기능을 안전하게 활성화하는 방법을 설명합니다.
Amazon BedrockAWS Control Tower크로스 리전 추론SCP파운데이션 모델
2025. 10. 28.
AWS

2025년 버전, 개발조직 주도 교육 및 성장 회고(Tech-driven Education Retrospect)
SK플래닛의 2025년 개발자 경쟁력 강화를 위한 AI 및 Tech 중심의 Upskilling, Reskilling 교육 프로그램 운영 및 성과 회고.
AI개발자 성장UpskillingReskillingTech Writing
2025. 10. 28.
skplanet
API 연동 자동화를 위한 여정: 토스는 왜 사내 MCP 서버를 개발하였는가? with Spring-AI
토스는 개발 생산성 향상을 위해 Spring-AI 기반의 사내 Swagger MCP 서버를 개발하여 API 연동을 자동화했습니다.
API 자동화MCPSpring-AILLMSwagger
2025. 10. 27.
토스

Amazon EKS에서vLLM Deep Learning Container를 사용하여LLM 배포하기
Amazon EKS에서 vLLM 딥 러닝 컨테이너를 사용하여 GPU, EFA, FSx for Lustre 기반의 확장 가능하고 고성능 LLM 추론 시스템을 배포하는 방법을 설명합니다.
vLLMAmazon EKSDeep Learning ContainerLLM 추론Elastic Fabric Adapter
2025. 10. 27.
AWS

대규모 EC2 환경에서의 운영 전략 : EBS Initialization 자동화 MCP 서버 구현 및 연동
대규모 EC2 환경에서 EBS 볼륨 초기화의 비효율성을 해결하기 위해 AI 에이전트와 연동되는 MCP 서버를 구현하여 자동화 및 운영 효율성을 극대화하는 솔루션.
EBS 초기화MCP 서버AI 에이전트EC2 환경자동화
2025. 10. 27.
AWS