데브허브 | DEVHUB | Cloudflare Outage Incident ReportCloudflare Outage Incident Report
- 2025년 11월 18일, Cloudflare의 핵심 프록시 시스템에서 전역적인 장애가 발생했습니다. 🗓️
- 장애의 근본 원인은 데이터베이스 관리자가 시스템 보안 강화를 위해 세분화된 사용자 접근 제어를 적용한 것이었습니다. 🔒
- 이 보안 강화 작업의 부작용으로, 'Bot Management' 기능에 사용되는 설정 파일의 항목 수가 예상치 못하게 60개에서 200개 이상으로 급증했습니다. 📈
- 비정상적으로 커진 설정 파일이 네트워크에 전파되면서 핵심 프록시 시스템의 보안 및 건전성 검사가 실패하기 시작했습니다. 💥
- 프록시 시스템이 실패할 때마다 과도한 로깅이 발생하여 CDN의 지연 시간을 더욱 악화시켰습니다. 🪵
- 초기에는 간헐적인 서비스 복구와 Cloudflare 상태 페이지의 동시 장애로 인해 대규모 DDoS 공격으로 오인되었습니다. 🕵️
- 하지만 Cloudflare 상태 페이지의 장애는 본 장애와 무관한 별개의 문제였습니다. 🔗
- 엔지니어들은 근본 원인을 파악하고 설정 파일을 이전의 안정적인 상태로 되돌려 6시간 만에 문제를 해결했습니다. 🛠️
- 6시간 만에 전역 장애를 해결한 것은 Cloudflare 엔지니어링 팀의 뛰어난 역량을 보여주는 사례입니다. ✨