DeepSeek-R1:강화 학습을 활용한 추론 최적화

간단 소개

DeepSeek-R1은 강화 학습만으로 LLM의 추론 능력을 최적화하는 새로운 접근 방식을 제시하고, 기존 지도 학습 방식의 한계를 극복합니다.

AI Summary

기존 LLM 학습 방식의 한계
- SFT 의존성으로 인한 고비용 문제 발생
- 보상 모델의 부정확성 및 테스트 시점 최적화 부족
DeepSeek-R1의 핵심 방법론
- 순수 강화 학습 기반의 DeepSeek-R1-Zero 모델 학습 (GRPO 알고리즘 활용)
- Cold Start 데이터셋 활용 후 RL 적용을 통해 추론 능력 강화 (CoT 데이터셋 구축)
소형 모델 증류 및 결론
- 대형 모델(32B, 70B)에서 소형 모델(7B, 14B)로 지식 압축
- RL 기반 학습이 LLM 추론 능력 극대화 가능성을 제시하며, LLM 학습 패러다임의 전환점 마련