Nike의 관측 가능성(Observability) 플랫폼 엔지니어링 디렉터인 Panos Tsilopoulos는 회사의 디지털 전환과 엄청난 규모의 트래픽 처리에서 관측 가능성의 중요성을 강조합니다. 👟
Nike는 2019년 1,800만 명에서 현재 6억 명 이상의 등록 사용자를 보유하고 있으며, 블랙 프라이데이, 중국 광군제와 같은 피크 이벤트 시 수억 명의 동시 사용자를 처리합니다. 📈
디지털 경험 저하 1초당 수백 달러의 손실이 발생하며, 2022년 5시간의 서비스 중단으로 약 3천만 달러의 손실이 발생한 사례를 통해 관측 가능성의 비즈니스 가치를 설명합니다. 💸
관측 가능성은 시스템 문제 해결(가용성, 성능, 사용자 경험)을 넘어 마케팅 캠페인 효과 측정 등 비즈니스 데이터 수집을 통한 가치 창출에 기여합니다. 📊
주요 텔레메트리 신호는 메트릭(정량적 데이터), 로그(가장 방대한 텍스트 데이터), 트레이스(시스템 경계를 넘는 정보 흐름 추적)이며, OpenTelemetry는 이러한 신호들을 표준화하려는 업계의 노력입니다. 📡
관측 가능성 시스템의 가장 큰 과제는 데이터의 방대한 양, 카디널리티, 차원성으로, 이로 인해 비용이 많이 들고 유용한 통찰력을 추출하기 어렵습니다. 🤯
벤더들은 데이터 수집을 장려하고 수집/쿼리/저장량에 따라 비용을 청구하며, 이는 데이터 상관관계 부족과 느린 인시던트 대응으로 이어져 비즈니스 손실을 초래합니다. 💰
이 데이터 과부하의 악순환을 끊기 위해 머신러닝(ML)을 활용해야 한다고 강조하며, 'AI'보다는 '머신러닝'이라는 용어를 의도적으로 사용합니다. 🤖
ML의 첫 번째 활용 사례는 지능형 이상 감지(Intelligent Anomaly Detection)로, 실시간 데이터 스트림을 지속적으로 분석하여 이상 징후를 식별하고, 조직의 성숙도에 따라 AI 에이전트가 런북을 활용하여 인시던트 해결을 자동화할 수 있습니다. 🚨
ML의 두 번째 활용 사례는 이벤트-인시던트 퍼널(Event to Incident Funnel)을 통한 알림 상관관계 및 노이즈 감소입니다. Nike는 하루 200만 건의 알림 중 대부분이 노이즈이며, ML을 통해 신뢰할 수 없는 이벤트를 필터링하고 관련 신호에 컨텍스트를 추가하여 실행 가능한 알림으로 전환합니다. 🧹
목표는 15:1(이벤트 대 인시던트) 비율을 두 배로 늘리는 것이며, 궁극적으로는 사람이나 시스템에 의해 '실행 가능한' 알림만 생성되어야 한다고 강조합니다. ✅