Google Cloud Platform의 잘못된 코드 배포로 인해 스냅챗, 스포티파이, 디스코드 등 주요 서비스와 구글 자체 서비스(Gmail, Drive 등)가 마비되는 대규모 인터넷 장애가 발생했습니다. 💥
이번 사태는 우리가 당연하게 여기는 인터넷 인프라에 대해 빅 클라우드(Google Cloud)가 얼마나 막대한 영향력을 가지고 있는지 보여주었습니다. 🌐
수백만 달러의 기업 손실과 함께, 구글은 서비스 수준 협약(SLA) 위반으로 인한 크레딧 환불은 물론, 클라우드 제공자로서의 평판에 심각한 타격을 입었습니다. 💸
2025년 5월 29일 추가된 새로운 할당량 정책 확인 기능의 코드 경로에 적절한 오류 처리가 없어 널 포인터 오류를 유발했습니다. 이 코드는 스테이징 단계에서 특정 정책 변경 트리거가 당겨지지 않아 실행되지 않았고, 6월 12일 정책 변경이 전 세계적으로 복제되면서 버그가 활성화되어 API 관리 바이너리가 반복적으로 충돌했습니다. 🐛
구글 개발자들이 롤백 버튼을 가지고 있었음에도 불구하고, 롤백 시작에 40분, 완전히 안정화되는 데 약 4시간이 소요되어 복구 과정이 지연되었습니다. ⏳
일부에서는 구글의 AI(Gemini)가 작성한 코드 때문이라고 추측했으나, 영상에서는 이를 확인하거나 부인할 수 없다고 언급하며, 핵심 시스템의 코드이므로 인간이 작성했을 가능성이 더 높다고 보았습니다. 🤖