하
하이퍼커넥트
December 24, 20241회
장애 모의 훈련 그리고 배운 점

간단 소개
Hyperconnect SRE팀의 장애 모의 훈련 경험 공유: 시나리오 설계, 훈련 과정, 결과 분석 및 개선 사항.
AI Summary
- 장애 모의 훈련 도입 배경
- Hyperconnect는 대규모 서비스 장애 발생 시 복잡한 시스템과 다양한 부서 간의 컨텍스트 차이로 인해 복구에 어려움을 겪음
- SRE팀은 장애 대응 능력 향상을 위해 실제 장애와 유사한 상황을 가정한 모의 훈련을 기획
- 훈련 시나리오 및 준비 과정
- API 서버, 매치 서버, 매치 추천 AI 컴포넌트를 대상으로 Elasticache 네트워크 장애, 매칭 알고리즘 설정 오류, Availability Zone 장애 등 다양한 시나리오 설계
- Stage 환경을 Production과 유사하게 구축하고, 가상 트래픽 생성 및 모니터링 환경 준비
- 훈련 결과 및 개선점
- 일부 시나리오에서 시간 초과로 대응에 실패했지만, 다른 시나리오에서는 성공적으로 장애 완화
- 근본 원인 파악보다 빠른 완화에 집중, 팀 간 지표 공유 강화, SRE팀의 디렉션 능력 강화 등 개선점 도출
Next Feeds
시니어 사용자가 어려워하는 UX 5가지
토스 유저 리서치팀에서 시니어 사용자의 UX 사용성 문제를 분석하고, 개선 방향과 유니버셜 디자인 적용을 제안합니다.
UXUI시니어사용성유니버셜 디자인
2024. 12. 23.
토스
[디지털 트윈 기술 #5] Go Fiber Framework 를 활용한 동시성, 고성능 실시간 데이터 처리 back-end 서비스 개발 사례
Go Fiber Framework를 활용한 디지털 트윈 백엔드 서비스 개발 사례 및 기술 스택, 고가용성 확보 방안을 소개합니다.
GoFiber Framework디지털 트윈Redis고가용성
2024. 12. 22.
현대자동차

스마트 승급 시스템, 회원 승급 자동화의 혁신 스토리
올리브영은 AWS Batch와 Kafka를 활용하여 멤버십 승급 시스템을 자동화하고 데이터 처리 효율성을 극대화하여 서비스 안정성을 높였습니다.
멤버십자동화AWS BatchApache Kafka데이터 동기화
2024. 12. 22.
올리브영
Document AI로 문서 검토 한방에 끝내기
카카오페이손해보험에서 Document AI를 활용하여 문서 검토를 자동화하고, 구현 과정과 고려 사항을 소개합니다.
Document AIOCRLayout AnalysisYOLOTrOCR
2024. 12. 19.
카카오페이

Java 가상 스레드, 깊이 있는 소스 코드 분석과 작동 원리 2편 - 컨텍스트 스위칭
Java 가상 스레드의 컨텍스트 스위칭 작동 방식과 NioSocketImpl 예시를 통해 park, unpark 메서드의 역할 및 스택 프레임 관리를 설명한다.
가상 스레드컨텍스트 스위칭parkunparkNioSocketImpl
2024. 12. 19.
LY Corp

CloudFront의 숨은 힘: 캐싱 없이도 극대화 되는 성능과 비용 효율성
CloudFront는 캐싱 없이도 PoP 활용, 네트워크 최적화, HTTP/3 프로토콜 등을 통해 동적 콘텐츠의 성능과 비용 효율성을 극대화할 수 있다.
CloudFrontCDNHTTP/3AWS네트워크 최적화
2024. 12. 19.
원티드