- DeepSeek-R1: 오픈소스 추론 모델 출시 🎉
- RL 기반 학습 전략: 체인 오브 스토리(Chain of Thought) 활용 🧠
- 다단계 학습 과정: 미세 조정, 강화 학습, 추가 미세 조정의 3단계 ⚙️
- 144,000개의 수학 및 코딩 문제를 활용한 강화 학습 🔢
- 고품질 추론 결과 필터링 및 재학습: 일반적인 능력 향상 ⬆️
- 다양한 보상 함수 활용: 추론 능력과 유용성, 무해성 모두 고려 💯
잠시만 기다려 주세요.
Recommanded Videos