데브허브 | DEVHUB | [KO] Pretraining에 RL을 적용한다? | 꼬리의 꼬리를 무는 페이퍼[KO] Pretraining에 RL을 적용한다? | 꼬리의 꼬리를 무는 페이퍼
- 기존 강화 학습 기반 프리트레이닝(RLPT)의 한계는 사람 피드백이나 도메인 특화 검증기에 의존하여 일반 추론으로 확장하기 어렵다는 점입니다. 🚧
- Pretrain Zero는 프리트레이닝 단계에 강화 학습을 통합하여, 방대한 저비용 코퍼스를 추론 학습의 놀이터로 활용합니다. 🧠
- 기존 RLPT는 실제 데이터(위키피디아)에서 노이즈나 쉬운 스팬에 노력 낭비, 학습 불안정성으로 인해 추론 능력이 붕괴하는 문제가 있었습니다. 📉
- Pretrain Zero는 다음에 나올 토큰을 수동적으로 예측하는 대신, 정보량이 많고 문맥으로 검증 가능하며 아직 숙달되지 않은 스팬에 집중하는 능동적인 학습 정책을 학습합니다. 🎯
- 이 프레임워크는 외부 레이블, 미리 학습된 보상 모델, 지도 학습 워밍업 없이 완전히 자기 지도 학습 방식으로 작동합니다. 🧑🏫
- 보상은 모델 예측이 원본 텍스트와 얼마나 잘 맞는지에서 파생되므로 외부 검증기가 필요 없습니다. ✅
- Pretrain Zero는 모델이 성장함에 따라 점진적으로 더 어려운 마스크 스팬을 다루도록 암묵적인 커리큘럼을 구성합니다. 📈
- 두 가지 주요 강화 학습 목표(마스크 예측 및 마스크 생성)를 통해 '사고의 연쇄(Chain-of-Thought)' 스타일의 추론 패턴 발달을 유도합니다. 🔗
- 능동적인 마스크 선택 정책은 무작위 마스킹 대신 정보량이 많고 주변 문맥으로 검증 가능한 스팬을 선택하여 학습 효율성과 안정성을 높입니다. 💡
- 실험 결과, Pretrain Zero는 일반 추론 및 수학 추론 벤치마크에서 베이스 모델, 연속 프리트레이닝, 지도 파인튜닝, 무작위 RLPT보다 일관되게 우수한 성능을 보였습니다. 🏆
- 일반 도메인 위키피디아로만 학습했음에도 수학 추론 성능을 개선하여, 특수 도메인 코퍼스 없이도 일반 추론 능력이 전이될 수 있음을 시사합니다. ➕
- Pretrain Zero로 초기화된 모델은 이후 RLHF(강화 학습 기반 인간 피드백) 파인튜닝 시 더 높은 최종 성능을 달성하며, 추론 기반을 강화합니다. 💪
- 정성적 분석 결과, Pretrain Zero 모델은 프리트레이닝 중 명시적인 CoT 생성 목표 없이도 '사고의 연쇄' 행동을 자발적으로 보였습니다. 💬
- 일반 도메인 코퍼스(위키피디아)가 큐레이션된 수학 데이터셋보다 일반 추론 목표의 강화 학습 프리트레이닝에 더 저렴하고 효과적일 수 있음을 발견했습니다. 📚
- 이 연구는 언어 모델을 위한 강화 학습이 검증 가능한 보상이나 사람 레이블에 묶일 필요 없이, 능동적인 RL 과정을 통해 거대 텍스트 코퍼스 내 잠재된 정보를 활용할 수 있음을 보여줍니다. 🔓