- OpenAI는 LLM 훈련 및 고객 쿼리 처리로 인해 페타바이트 규모의 로그를 생성합니다. 🤯
- 로그는 중앙 저장소로 라우팅되어 90개의 샤드에 분산됩니다. ➗
- 최근 로그는 빠른 액세스를 위해 디스크에 보관되고, 나머지는 Blob 스토리지로 이동합니다. 💾
- 각 샤드는 복제본을 가지며, 필요에 따라 수평적으로 확장 가능합니다. ⬆️
- 3월 25일 이미지 생성 급증 시 로그 시스템 과부하 발생. 💥
- 로그 샘플링 및 복제본 추가에도 불구하고 Bloom 필터의 곱셈 연산이 병목 지점임을 발견. 🔎
- 비트 시프트 연산으로 대체하여 CPU 사용량을 40% 줄여 시스템 안정화. ✅