데브허브 | DEVHUB | How OpenAI ingests petabytes of logs every day.How OpenAI ingests petabytes of logs every day.
- OpenAI는 LLM 훈련 및 고객 쿼리 처리에서 발생하는 페타바이트 규모의 방대한 로그를 매일 처리합니다. 💾
- 로그는 중앙 저장소로 라우팅된 후 로드 밸런서를 통해 90개의 샤드에 균등하게 분배됩니다. ⚖️
- 최근 2일간의 로그는 빠른 접근을 위해 디스크에 보관되며, 모든 로그는 블롭 스토리지에 저장됩니다. 🚀
- 각 샤드는 2개의 복제본을 가지며, 필요에 따라 수평 확장이 가능하여 시스템 안정성을 확보합니다. ↔️
- 3월 25일, DALL-E 이미지 생성 급증으로 로그량이 50% 증가하여 시스템 과부하가 발생했습니다. 📈
- 초기 대응으로 로그 샘플링을 강화하고 샤드당 복제본을 3개로 늘렸으나, 이는 충분하지 않았습니다. 🛠️
- 로그 시스템 코드 분석 결과, 블룸 필터 내 곱셈 연산이 가장 느린 지점임을 발견했습니다. 🔍
- 곱셈 연산을 비트 시프트 연산으로 교체하여 CPU 사용량을 40% 절감하고 시스템을 안정화했습니다. ⚡
- 이 최적화를 통해 OpenAI는 급증하는 트래픽 속에서도 로그 시스템을 성공적으로 유지했습니다. ✅