- LLM 서빙은 기존 웹 서비스와 달리 요청 및 응답 크기가 매우 가변적이며, 토큰 스트리밍 방식과 긴 지연 시간을 특징으로 합니다. 🔄
- LLM의 비용은 요청 수가 아닌 입력 및 출력 토큰 길이에 따라 GPU 연산량과 메모리 사용량이 크게 달라지므로, 기존 웹의 비용 모델이 통용되지 않습니다. 💸
- LLM 인퍼런스 서빙의 핵심 과제는 새로운 SLO 지표(처리량, TTFT, TPOT 등), 토큰 기반 미터링 및 쿼터 관리, 그리고 이기종 멀티 백엔드 환경 대응입니다. 📊
- AI 게이트웨이는 여러 모델 프로바이더를 단일 플랫폼으로 통합하고, 인증 및 보안 기능을 제공하며, 효율적인 라우팅으로 비용을 절감하는 L7 게이트웨이입니다. 🤝
- AI 게이트웨이는 토큰 기반 레이트 리미팅 및 사용량 통계 기능을 통해 사용자별, 프로젝트별 자원 공평 배분을 가능하게 하여 관리 효율성을 높입니다. ⚖️
- GPU 효율적인 라우팅은 AI 게이트웨이의 핵심 기능으로, 프리픽스 인식 라우팅이나 KV 캐시 활용도 기반 라우팅 등을 통해 비싼 GPU 사용 효율을 극대화합니다. 🧠
- 카카오는 급변하는 AI 트렌드에 빠르게 대응하고 개발 및 유지보수 비용을 절감하기 위해 자체 구축 대신 오픈소스(BoiGate) 기반 AI 게이트웨이를 채택했습니다. 🚀
- BoiGate는 C++ 및 Go로 작성되어 LLM 스트리밍 요청에 적합한 고성능을 제공하며, 클라우드 네이티브 환경과 기존 쿠버네티스 생태계에 쉽게 통합됩니다. ⚡
- 카카오 AI 플랫폼(CAP)은 AI 게이트웨이 기술을 적용하여 외부 벤더 API를 대체하는 'CAP Inference API'를 제공하며, 단일 인터페이스, 보안, 사용량 관리 기능을 통합합니다. 🏗️
- CAP Inference API는 OpenAI 호환 API를 제공하고, 프로젝트별 API 키 발급, 사용량 대시보드, SLO 지표 확인 등 사용자 편의 기능을 제공하여 GenAI 서비스 접근성을 높입니다. 📈