- GRPO는 AI가 여러 답변을 생성하고 상대적으로 비교하여 학습하는 방식입니다. 🤖
- PPO는 하나의 답변에 절대적 점수를 부여하는 반면, GRPO는 답변 그룹 내에서 순위를 매깁니다. 🥇
- GRPO는 창의적인 답변과 추론 능력 향상에 도움이 되며, 실무 문제 해결에 적합합니다. 💡
- 파인튜닝은 1단계 형식 학습과 2단계 추론 능력 집중 학습으로 진행됩니다. 📚
- 보상 함수를 통해 AI는 좋은 답변에 보상을 받고 나쁜 답변에 페널티를 받으며 학습합니다. 💰
- 훈련 과정에서 보상 점수, 편차, 답변 길이, 학습 변화량 등을 통해 AI의 학습 상태를 파악할 수 있습니다. 📈
- 로라(LoRA)는 언어 모델을 효율적으로 훈련하는 방법으로, GRPO 파인튜닝에 활용됩니다. ⚙️