- 새로운 오픈 소스 모델 "Kevin"이 OpenAI의 O3 모델을 능가함. 🚀
- Kevin은 320억 파라미터 모델을 미세 조정하여 만들어짐. 🧮
- GPU 커널 프로그래밍에 특화된 모델임. 💻
- 멀티턴 강화 학습을 사용하여 미세 조정함. 🔄
- 체인 오브 소트(Chain of Thought) 미세 조정 시 발생하는 컨텍스트 윈도우 폭발 문제를 해결함. 💥
- Kernel Bench 데이터 세트를 사용하여 훈련 및 평가함. 🧪
- 추론 시 체인 오브 소트 제거 및 요약 추가로 컨텍스트 유지. 📝
- 할인된 점수 합계(Discounted Sum of Scores)라는 새로운 보상 함수 사용. 💰
- Kevin은 Quen의 320억 파라미터 모델을 기반으로 함. 🇨🇳
- 체인 오브 소트가 "okay"로 시작하지 않으면 엉뚱한 결과가 나올 가능성이 높음. ⚠️