- vLLM 프레임워크는 새로운 KV 캐시 관리 메커니즘인 "Page Tension"을 활용하여 효율성을 높입니다. 📃
- Page Tension은 기존 방법보다 GPU 메모리 사용률을 90%까지 끌어올려 응답 속도를 향상시킵니다. ⚡
- 기존 방식은 최대 토큰 길이에 대한 메모리를 미리 할당하여 많은 공간을 낭비했지만, Page Attention은 페이지 단위로 메모리를 할당하여 공간 활용도를 높입니다. 🧱
- VLM은 Page Tension을 통해 기존보다 빠른 속도와 높은 메모리 효율성을 달성했습니다. 🚀