Deepseek Decoded in 14 Mins!!!
- DeepSeek R1은 사전 훈련 없이 사후 훈련만으로 만들어진 획기적인 모델입니다. 🚀
- DeepSeek V3(MoE 모델)을 기반으로 강화 학습(GRPO)을 통해 DeepSeek R1 및 R1 Zero 모델이 생성되었습니다. 🤖
- GRPO는 기존 강화 학습의 비판 모델을 제거하여 계산 비용을 절감하고 성능을 향상시켰습니다. 💡
- DeepSeek R10은 우수한 추론 능력을 보였으나 언어 일관성 문제로 인해 DeepSeek R1이 개발되었습니다. 🗣️
- DeepSeek R1은 소량의 콜드 스타트 데이터와 지도 학습 미세 조정을 거쳐 강화 학습으로 훈련되었습니다. 📚
- DeepSeek R1은 경쟁 모델보다 우수한 성능을 보이며, 특히 AIM 2024 벤치마크에서 79.8%의 점수를 기록했습니다. 🏆
- 지식 증류를 통해 DeepSeek R1의 성능을 유지하면서 모델 크기를 줄인 소형 모델을 생성했습니다. distillation 🔬
- DeepSeek V3 기반 모델 자체가 뛰어난 성능을 보이며, 향후 연구의 중요한 기반이 될 것입니다. 🌟