데브허브 | DEVHUB | 파인튜닝 GRPO 실습 (AI가 제시하는 여러 답변에 보상을 제공하며 학습시키기)파인튜닝 GRPO 실습 (AI가 제시하는 여러 답변에 보상을 제공하며 학습시키기)
- GRPO(Grouped Policy Optimization)는 기존 PPO 방식과 달리 AI가 여러 답변을 동시에 생성하고, 인간 평가자가 이 답변들에 대해 절대 점수가 아닌 상대적 순위를 매겨 학습시키는 강화 학습 기법입니다. 🆚
- PPO가 단일 답변에 절대 점수를 부여하여 평가자마다 일관성이 부족했던 반면, GRPO는 여러 답변을 그룹으로 묶어 상대적 위치를 학습함으로써 평가의 일관성과 효율성을 높입니다. ⚖️
- GRPO는 생성된 여러 답변 중 더 나은 답변에 보상을 주고 나쁜 답변에 페널티를 부여하여 모델이 점진적으로 더 좋은 답변을 생성하도록 개선합니다. 💰
- 이 방식은 정답 암기식 학습이 아닌 창의적 추론 능력을 길러주며, 답변 품질을 개선하고, 정해진 정답이 없는 실무 문제 해결에 특히 적합합니다. 💡
- GN3 4B 모델의 GRPO 파인튜닝은 두 단계로 진행됩니다: 1단계에서는 모델에게 답변 형식을 가르치고(사전 파인튜닝), 2단계에서는 학습된 형식을 바탕으로 추론 능력 향상에 집중합니다. ✌️
- 1단계 형식 학습은 NVIDIA 수학 데이터셋의 고품질 예시 59개를 사용하여 모델이 'Start Working Out...', 'Solution: [답]'과 같은 특정 채팅 템플릿을 따르도록 훈련시킵니다. 📝
- 2단계 추론 능력 학습은 Hugging Face의 Open-R1 수학 데이터셋(17,000개 문제)을 활용하여, 모델이 여러 답변을 생성하고 비교하며 보상 기반으로 사고 능력을 강화합니다. 🤔
- GRPO의 보상 함수는 네 가지 기준(완벽한 형식 일치, 근사한 형식 일치, 답변 존재 여부, 정답 숫자 일치 여부)에 따라 점수를 부여하는 '네 명의 선생님' 개념으로 작동합니다. 🧑🏫
- 훈련 과정에서 'Reward'는 보상 합계로 가장 중요한 지표이며, 'Reward STD'는 답변 간 점수 편차, 'KL'은 AI 사고 방식의 변화량을 나타냅니다. 📈
- GRPO 학습은 정답 암기가 아닌 추론 능력 개발에 중점을 두므로, 100스텝 이상의 충분한 시간(150~200스텝 이상)과 인내심이 필요하며, 초기에는 보상 점수가 불규칙할 수 있습니다. ⏳
- LoRA(Low-Rank Adaptation) 기술을 사용하여 대규모 모델 전체를 변경하지 않고 효율적으로 파인튜닝하며, 학습된 모델은 Hugging Face에 저장하여 공유 및 배포할 수 있습니다. 🧩