DeepSeek R1 Theory Tutorial – Architecture, GRPO, KL Divergence
- DeepSeek R1은 강화학습(Reinforcement Learning)을 통해 뛰어난 추론 능력을 달성 🤯
- GRPO(Group Relative Policy Optimization) 알고리즘이 기존 방식보다 성능 향상에 기여 👍
- KL Divergence는 모델 안정성 유지에 중요한 역할을 수행 ⚖️
- DeepSeek R1은 OpenAI의 o1 모델을 오픈소스로 재현한 획기적인 성과 🎉
- DeepSeek V3 기반 모델에 강화학습을 적용하여 추론 능력 향상을 도모 💪
- 규칙 기반 보상 시스템(Rule-based Reward System)을 통해 효율적인 학습 환경 구축 🤖
- GRPO는 정책의 급격한 변화를 방지하고 모델 안정성을 확보하는 데 기여 🛡️
- KL Divergence는 기준 모델(DeepSeek V3)과의 차이를 제한하여 과도한 변화를 방지 🚧
- 강화학습 과정에서 모델이 자체적으로 더욱 상세한 추론 과정을 생성하는 현상 발견 💡
- 지도 학습(Supervised Fine-tuning)을 통해 추론 과정의 가독성 및 성능 개선 ✍️