vLLM : 8. speculative decoding 설정
데브허브 | DEVHUB | vLLM : 8. speculative decoding 설정vLLM 프레임워크에서 speculative decoding 설정으로 draft 모델을 추가하는 방법입니다.
내용 정리 Docs : https://cafe.naver.com/xxxjjhhh/380
00:00 - 개요
00:50 - 설정 적용
02:30 - vLLM 설정 주의점
03:58 - draft acceptance rate
#vllm #llm