무
무신사
August 18, 20251회
서비스의 건강을 수치화 할 수 있을까? — SLI/SLO

간단 소개
SLI/SLO를 통해 서비스 품질을 수치화하고 지속적으로 개선하는 29CM의 사례를 소개합니다.
AI Summary
- SLI/SLO의 중요성
- 서비스 운영 시 **SLI(Service Level Indicator)**와 **SLO(Service Level Objective)**를 통해 서비스의 건강 상태를 객관적으로 진단하고, 문제 발생 시 신속하게 대응할 수 있다.
- 기존의 오류율이나 로그 분석만으로는 파악하기 어려웠던 사용자 경험 저하 문제를 해결하고, 서비스 품질을 정량적으로 관리할 수 있다.
- 29CM의 SLI/SLO 활용 사례
- 29CM은 서비스의 특성, 팀의 역할, 비즈니스 영향도 등을 고려하여 SLI와 SLO를 설정하고, Datadog과 Prometheus + Grafana를 활용하여 모니터링한다.
- 주문/결제 시스템, 전시 시스템 등 중요 서비스는 API 단위로 세분화된 SLI를 설정하고, 유저 트래픽이 많은 서비스는 타이트한 SLO 기준을 적용한다.
- 지속적인 개선 문화
- SLI/SLO 달성률과 장애 발생 기록을 정기적으로 리뷰하고, 반복되는 문제는 티켓으로 관리하여 원인 파악부터 해결까지 추적한다.
- 장애 발생 시 MTTD(Mean Time To Detect), MTTA(Mean Time To Acknowledge) 등의 지표를 기반으로 대응 속도를 개선하는 피드백 루프를 구축한다.
Next Feeds

카사코리아 AI 챗봇 구축기 Amazon Bedrock 기반 대고객 에이전트형 챗봇 구현 사례
카사코리아는 Amazon Bedrock 기반 AI 챗봇을 구축하여 고객 응대 효율성을 높이고 개인정보 보호를 강화했습니다.
AI 챗봇Amazon BedrockRAGLangGraph개인정보 보호
2025. 8. 18.
AWS

“왜 아무도 에러 메시지를 읽지 않을까?” | 언더커버 사일로 비하인드 3화: 페이스페이 사일로
토스 페이스페이 도입 과정에서 겪었던 어려움과 이를 극복하기 위한 노력, 그리고 앞으로의 과제에 대한 비하인드 스토리.
페이스페이얼굴인식UX개인정보사용자 경험
2025. 8. 18.
토스

Claude Code 따라잡기
딜라이트룸에서 Claude Code 분석 사례를 공유하고, AI 리터러시 문화와 채용 정보를 제공합니다.
Claude CodeAI 리터러시딜라이트룸알라미채용
2025. 8. 18.
딜라이트룸

LINE 통화의 영상 재생 품질 개선 사례
LINE 통화 품질 개선을 위해 혼잡 제어 기술을 개선하고, 실제 서비스에 적용하여 품질 향상을 이룬 사례입니다.
LINE 통화네트워크 적응 기술혼잡 제어CCFS패킷 손실
2025. 8. 14.
LY Corp

토스가 다양한 ML 모델을 만드는 법: Feature Store & Trainkit
토스의 Feature Store와 Trainkit은 ML 모델 개발 효율성을 높이고, Training-Serving skew를 해소하며, 데이터 관리 및 학습 파이프라인을 자동화합니다.
Feature StoreTrainkitMLOpsTraining-Serving SkewPIT 조인
2025. 8. 14.
토스

생성형 AI를 활용하여 자동차 소프트웨어 요구사항을 위한 테스트 케이스 생성하기
AWS 기반 생성형 AI를 활용하여 자동차 소프트웨어 테스트 케이스 생성 자동화 및 효율성을 향상시키는 솔루션 소개.
생성형 AI자동차 소프트웨어테스트 케이스Amazon BedrockVirtual Engineering Workbench
2025. 8. 14.
AWS