데브허브 | DEVHUB | Scale out은 항상 답이 아니다(+Google SRE book)Scale out은 항상 답이 아니다(+Google SRE book)
- 스케일 아웃(리소스 개수 증가)이 항상 트래픽 증가의 해결책은 아니며, 오히려 상황을 악화시킬 수 있습니다. 🚫
- 파드가 의존하는 데이터베이스나 다른 서비스 같은 하위 리소스의 용량을 함께 고려하지 않으면 스케일 아웃은 무의미합니다. 🔗
- 하위 리소스의 과부하는 응답 지연을 유발하고, 이는 파드의 쓰레드 및 자체 리소스 고갈로 이어져 비정상 상태를 초래합니다. 💥
- 파드가 의존 리소스의 응답을 기다리며 리소스가 포화 상태에 이르면, 결국 서비스 전체가 불능 상태에 빠지게 됩니다. ⏳
- 서비스 복구를 위해서는 과부하된 의존 리소스가 정상화될 때까지 파드에서 429/403 응답 등으로 트래픽을 강제로 제한(드롭 트래픽)해야 합니다. 🚦
- Google SRE 북에서도 리소스 회복을 위해 트래픽을 1%만 허용하는 '드롭 트래픽' 개념을 중요하게 다룹니다. 📖