- vLLM 프레임워크는 언어 모델(LLM) 실행에 최적화되어 있으며, Multi-user 환경과 스트림 응답을 지원하는 두 가지 클래스,
LM Async
와LM Engine
을 제공합니다. 🤖 LM Async
클래스는 여러 사용자를 위한 비동기 처리를 위해 설계되었으며, 입력/출력 처리 속도를 향상시킵니다. ⚡️- 현재 vLLM 프레임워크는 초기 단계이며,
Async LM Engine
클래스 사용 시 오류가 발생할 수 있습니다. ⚠️ - 잠시 후 오류가 해결되면
Async LM Engine
사용 방법을 보여줄 예정입니다. 🤓 - 스트림 응답 기능은 사용자가 텍스트를 생성하는 동안 실시간으로 응답을 받을 수 있도록 합니다. 🌬️