데브허브 | DEVHUB | AI 엔지니어링 - 7. 모델튜닝 SFT, RLHF, DPOAI 엔지니어링 - 7. 모델튜닝 SFT, RLHF, DPO
- SFT(지도 미세 조정)는 사전 학습된 모델의 답변 방향을 미세 조정하며, 인스트럭션이 포함된 데이터를 사용하여 시스템 프롬프트의 작동 방식을 결정합니다. 🎯
- SFT 학습 시 인스트럭션의 복잡성(역할, 지시, 맥락, 기대)은 모델의 지시 이행 능력을 좌우하며, 상용 모델은 사용자 편의를 위해 단순한 인스트럭션을 선호하는 경향이 있습니다. 📝
- SFT는 질문 부분은 기존 모델을 사용하고 답변 부분만 학습시켜, 동일한 질문에 대한 답변 방향만 변경되도록 합니다. 🔄
- RLHF(인간 피드백 기반 강화 학습)는 인간의 선호도 데이터를 활용하여 특정 답변 문장 전체의 생성 확률을 높이도록 모델을 학습시킵니다. 🧑⚖️
- RLHF는 선호되는 답변의 로그 확률에 보상값을 더하여 개별 토큰의 확률을 조정하며, 주로 마지막 어텐션 레이어의 FFN에 반영되어 LoRA와 같은 경량 학습으로도 효과를 낼 수 있습니다. 📈
- DPO(직접 선호도 최적화)는 RLHF의 개선된 방식으로, 선택된 답변과 거부된 답변 간의 로그 확률 차이를 직접 최대화하여 보상 모델 없이도 선호도를 학습합니다. 🚀
- DPO는 RLHF와 달리 명시적인 보상값이나 보상 모델이 필요 없어 학습 효율성과 비용 측면에서 유리합니다. 💰
- 모델 튜닝의 핵심은 질문의 해석이 아닌, 주어진 질문에 대한 답변의 '방향'을 조종하는 데 있습니다. 🧭