데
데브시스터즈
February 13, 20251회
데브시스터즈의 장애 대응 원칙과 방법

간단 소개
데브시스터즈의 장애 대응 원칙, 알람 티어링 체계, 효과적인 장애 대응 방법 및 포스트모템 절차를 상세히 설명합니다.
AI Summary
- 장애 대응 원칙
- 서비스 정상화가 최우선 목표이며, 모든 구성원이 응급 조치 역량을 갖춰야 함
- 필요시 적극적으로 도움을 요청하고, 장애 대응을 위한 환경(랩탑, 테더링)을 준비해야 함
- 알람 시스템 구축 및 건전성 유지, 액션 기록 및 공유가 중요
- 알람 티어링 체계
- FRT(First Response Time) 기준으로 Tier 0(15분 이내), Tier 1(평일 15분/밤 12시간 이내), Tier 2(평일 2-3시간/밤, 주말 다음 업무일)로 분류
- 각 티어별 정의, 장애 인지 방법, 장애 유형을 상세히 정의
- 효과적인 장애 대응 방법
- 장애 인지 즉시 팀 채널에 공유 후 대응 팀 구성 (지휘자, 기록가 역할 분담)
- 원인 파악, 해결 방안 탐색 및 시행, 해결 여부 확인 과정을 거침
- Datadog Incident 기능을 활용하여 장애 선언 및 전용 채널 구성
- 장애 종료 후 공유, 포스트모템 준비 및 미팅 진행 (원인 분석, 재발 방지 대책 수립)
Next Feeds
[#5 LLM Tutorial With RAG] LLM은 학습할 데이터도 스스로 만들 수 있습니다!
LLM을 활용해 학습 데이터를 자동 생성하는 튜토리얼. RAG 시스템 구축 핵심 단계 설명.
LLMRAGLangChain프롬프트 엔지니어링데이터 자동 생성
2025. 2. 12.
현대자동차
AWS re:Invent 2024 Recap: Database, Storage
AWS re:Invent 2024에서 공개된 Amazon Aurora DSQL과 Amazon S3 Tables의 주요 특징과 활용 방안을 소개한다.
AWS re:InventAmazon Aurora DSQLAmazon S3 Tables데이터베이스클라우드 스토리지
2025. 2. 12.
카카오페이

SPA 환경에서의 버전 업데이트를 위한 모두싸인의 최신 버전 업데이트 기능 구현기
SPA 환경에서 버전 업데이트 문제를 해결하고, 사용자에게 최신 버전을 제공하기 위한 모두싸인의 기술적 해결 방안 및 개발 과정 소개.
SPA버전 업데이트ReactViteAWS S3
2025. 2. 12.
모두싸인

개발 생산성 높이는 10가지 Git 필수 명령어
Git의 효율적인 활용을 위한 필수 명령어 10가지와 활용법을 소개하여 개발 생산성 향상을 돕는다.
Gitrebasereflogworktreebisect
2025. 2. 12.
인포그랩
(후원 후기) 전국 장애/비장애 대학생 창업경진대회
카카오는 전국 장애/비장애 대학생 창업경진대회를 후원하며 기술을 통한 사회 변화와 미래 인재 양성에 기여하고 있습니다.
카카오창업경진대회ESG해커톤장애/비장애
2025. 2. 12.
카카오

Data Product (3) 데이터로 실제 운영 효율화가 가능할까?
쏘카는 날씨 데이터를 활용하여 세차 운영을 최적화하고 비용을 절감했습니다. 데이터 기반 의사결정의 중요성을 강조합니다.
데이터세차날씨운영 효율화데이터 분석
2025. 2. 11.
쏘카