유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

AWS outage incident report

Gaurav Sen

2025. 10. 26.

0

#infra
#db
  • 2025년 10월 20일, AWS US-East 리전에서 DynamoDB DNS 관리 시스템의 버그로 인해 대규모 장애가 발생했습니다. 🗓️
  • 장애의 근본 원인은 DNS 플래너와 인액터 간의 경쟁 조건(race condition)으로, US-East 리전의 DynamoDB DNS 레코드가 비어버린 것이었습니다. 🏎️
  • 문제는 DNS 변경 사항 적용 전 버전 확인 로직에 있었는데, 오래된 계획이 최신 계획을 덮어쓰고 삭제되는 치명적인 오류를 발생시켰습니다. 🔄
  • DynamoDB 장애는 EC2의 구성 관리 실패로 이어졌고, 이는 새로운 인스턴스 추가 불가, 네트워크 관리자 과부하 등 연쇄적인 문제를 야기했습니다. 💥
  • 네트워크 로드 밸런서의 헬스 체크 실패로 인해 노드가 DNS에서 제거되고 재할당되는 '스래싱(thrashing)' 현상이 발생하여 복구를 더욱 지연시켰습니다. ♻️
  • 최종 복구는 자동 헬스 체크 기능을 비활성화함으로써 이루어졌으며, 총 15시간이 소요되었습니다. ⏱️
  • 이번 사고는 분산 시스템에서 단일 실패 지점(SPOF)이 전체 시스템을 마비시킬 수 있음을 보여주는 중요한 교훈이 되었습니다. 💡

Recommanded Videos