- 쿠버네티스에서 라마 버전2(llama-2-13b) 모델을 직접 테스트하고, 결과를 공유하기 위해 13B 모델을 구비로 배포하여 load balancer 로 접근 🧐
- 변수 처리를 통해 컨텍스트 정보를 관리하고 외부에서 입력받을 수 있도록 수정했음 📝
- 라마 버전2 모델은 16 vcpu와 10GB pv를 사용하며, 테스트 결과 모델이 16 CPU를 사용하는 것과 같은 차이점을 발견 🤨
- 개인적인 비교로, alpaca 7b, 13b 모델보다 응답 속도가 느린 경향을 보임 🐢