RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?

간단 소개

RLHF는 LLM의 성능을 향상시키기 위해 사람의 피드백을 활용하는 강화 학습 방법이며, DPO 등의 대안도 존재한다.

AI Summary

LLM 성능 향상 방법: RLHF
- **RLHF(Reinforcement Learning from Human Feedback)**는 LLM을 사람의 의도에 맞게 통제하고 성능을 고도화하는 방법이다.
- SFT(Supervised Fine-tuning)와 RLHF를 통해 LLM의 성능을 개선한다.
RLHF의 작동 방식 및 구성 요소
- SFT 모델에 사람의 피드백을 보상으로 제공하여 강화 학습을 수행, 사람의 선호도를 학습한다.
- Reward Model은 모델이 생성한 문장에 대한 자동 평가 모델로, 사람이 직접 리워드를 평가할 수 없는 경우에 사용된다.
- KL Divergence는 리워드 해킹(Reward Hacking) 또는 Mode Collapse를 방지하기 위한 규제항이다.
RLHF의 대안 및 한계
- DPO(Direct Preference Optimization)는 RLHF의 복잡성과 불안정성을 보완하는 방법으로, 더 적은 모델과 자원을 사용한다.
- Rejection Sampling Fine-tuning은 리워드 스코어를 기반으로 답변을 선택하고 SFT 방식으로 학습하는 방법이다.
- RLHF는 학습 불안정성, 하이퍼 파라미터 민감성, Reward Model의 Robust성 부족 등의 한계를 가진다.