Unsloth에서의 추론! DeepSeek의 R1 연구는 R1-Zero가 그룹 상대 정책 최적화(GRPO)를 사용하여 인간의 피드백 없이 더 많은 사고 시간을 할당하는 방법을 자율적으로 학습한 "아하 모먼트"를 발견했습니다.
전체 GRPO 프로세스를 개선하여 Hugging Face + FA2보다 VRAM을 80% 절감했습니다. 이를 통해 Qwen2.5(1.5B)를 사용하여 단 7GB의 VRAM만으로 R1-Zero의 "아하 모먼트"를 재현할 수 있습니다.
🔗 링크 🔗
https://colab.research.google.com/dri...https://unsloth.ai/blog/r1-reasoning
❤️ 채널을 후원하고 싶으시다면 ❤️
후원:
Patreon - / 1littlecoder
Ko-Fi - https://ko-fi.com/1littlecoder
🧭 팔로우하기 🧭
Twitter - / 1littlecoder