유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

vLLM : 7. Paged Attention

개발자 유미

2024. 12. 7.

0

#ai
  • vLLM 프레임워크는 새로운 KV 캐시 관리 메커니즘인 "Page Tension"을 활용하여 효율성을 높입니다. 📃
  • Page Tension은 기존 방법보다 GPU 메모리 사용률을 90%까지 끌어올려 응답 속도를 향상시킵니다. ⚡
  • 기존 방식은 최대 토큰 길이에 대한 메모리를 미리 할당하여 많은 공간을 낭비했지만, Page Attention은 페이지 단위로 메모리를 할당하여 공간 활용도를 높입니다. 🧱
  • VLM은 Page Tension을 통해 기존보다 빠른 속도와 높은 메모리 효율성을 달성했습니다. 🚀

Recommanded Videos