인
인포그랩
August 13, 20251회
SRE 3.0 - AI가 바꾸는 장애 대응·신뢰성·운영 패러다임

간단 소개
AI 시대에 SRE는 AI와 협력하여 시스템 신뢰성을 높이고, 장애 대응 패러다임을 전환하며, 운영 효율성을 극대화하고 있습니다.
AI Summary
- AI 시대 SRE의 진화
- SRE는 가용성 중심에서 자동화를 거쳐 AI 신뢰성 시대로 진화하고 있으며, AI의 예측 불가능성으로 인해 신뢰성 기준이 더욱 엄격해지고 있음.
- 전통적인 신뢰성은 속도와 안정성이 중요했지만, AI 시대에는 AI 판단의 정확성과 일관성이 핵심 척도가 됨.
- AI 신뢰성 확보 사례: 메르카리
- 메르카리는 AI 기반 상품 정보 요약 시스템에서 정보 누락 및 환각 현상 문제를 겪었으나, DeepEval을 활용한 AI 자동 평가 시스템을 구축하여 해결함.
- 요약 AI를 평가하는 AI를 통해 관련성, 정확성, 환각 여부를 평가하고, 기준 미달 시 경고 또는 롤백하여 서비스 품질을 향상시킴.
- AI 기반 SRE의 발전 및 한계
- AIOps는 장애 예측, 알람 통합, 자연어 인터페이스를 통해 MTTR 단축 및 SLO 준수에 기여하며, 메르카리의 IBIS는 과거 사고 데이터를 활용하여 장애 대응 시간을 단축함.
- AI는 실수를 할 수 있고, 비즈니스 판단은 인간의 몫이므로, 인간과 AI의 협업 모델을 통해 AI의 속도와 인간의 통찰력을 결합하는 것이 중요함.
Next Feeds

당신의 대출을 코치해줄 AI, 나만의 대출 코치 서비스 개발기
카카오페이 CreditClan 팀의 AI 대출 코치 서비스 개발 경험 공유: 정보 불균형 해소 및 사용자 맞춤형 대출 정보 제공.
AI대출카카오페이AWS BedrockKnowledge Base
2025. 8. 12.
카카오페이

AWS Network Firewall 모범 사례 – 다중 VPC Endpoint/TGW 통합
AWS Network Firewall의 다중 VPC Endpoint 지원 및 Transit Gateway 통합을 통해 네트워크 보안 관리 효율성을 높이는 방법과 고려사항을 설명합니다.
AWS Network FirewallVPC EndpointTransit Gateway네트워크 보안다중 계정
2025. 8. 12.
AWS

데이터 실험으로 성과를 만드는 방법
데이터 실험을 통해 비즈니스 성과를 창출하는 방법, 좋은 가설 설정, p-hacking 방지, 신뢰성 있는 실험 문화 구축의 중요성을 강조합니다.
데이터 분석가설 검정P-hacking실험 문화비즈니스 성과
2025. 8. 12.
여기어때

실제 사례로 알아보는 Cloudwatch Database Insights
CloudWatch Database Insights를 활용하여 RDS, Aurora DB의 성능 문제 해결 및 운영 효율성을 향상시키는 방법을 실제 사례를 통해 제시합니다.
CloudWatchDatabase InsightsRDSAurora데이터베이스 모니터링
2025. 8. 12.
AWS

게임 회사에서 클라이언트 프로그래머가 하는 일
게임 회사 클라이언트 프로그래머의 역할, 업무 루틴, 필요한 기술 및 태도를 실제 개발 사례를 통해 상세히 설명합니다.
클라이언트 프로그래머게임 개발AssetBundle리팩토링협업
2025. 8. 12.
데브시스터즈

카카오 AI가 법인카드 영수증을 처리하는 방법: AI 간편 정산 개발기
카카오 AI가 법인카드 영수증 처리 자동화를 위해 OCR, LLM 기술을 활용한 'AI 간편 정산' 개발기와 미래 AI 비서 '춘봉이' 비전을 제시합니다.
AIOCRLLM카나나자동화
2025. 8. 12.
카카오