데브허브 | DEVHUB | [EN] Applying RL to Pretraining? (PretrainZero: Reinforcement Active Pretraining)[EN] Applying RL to Pretraining? (PretrainZero: Reinforcement Active Pretraining)
- 기존 대규모 언어 모델(LLM)의 RL 기반 성능 향상 방식은 인간 피드백이나 도메인별 검증자에 의존하여 일반 추론으로 확장하기 어려웠습니다. 🚧
- PretrainZero는 RL을 사전 학습 단계로 가져와 방대한 저비용 사전 학습 코퍼스를 추론 학습의 장으로 활용하는 새로운 접근 방식을 제안합니다. 🚀
- 순수 RLPT(Reinforcement Pre-training)는 비정보성 스팬이나 노이즈로 인해 실제 데이터에서 불안정하거나 실패하는 경향이 있었습니다. 📉
- PretrainZero는 모델이 사전 학습 코퍼스에서 정보성 있고, 검증 가능하며, 아직 숙달되지 않은 부분을 능동적으로 선택하여 학습하는 강화 능동 사전 학습 프레임워크입니다. 🧠
- 이 프레임워크는 외부 레이블, 사전 학습된 보상 모델, 지도 미세 조정 없이 완전히 자기 지도 방식으로 작동합니다. 💡
- PretrainZero는 능동 학습, 자기 지도 보상, 점진적 커리큘럼 구축을 통해 기존 RLPT와 차별화되며, 노이즈가 많은 데이터에서도 RL을 견고하고 효율적으로 만듭니다. 🎯
- 마스크 예측 및 마스크 생성이라는 두 가지 강화 학습 목표를 통해 모델이 사전 학습 중 '사고의 사슬(Chain-of-Thought)' 스타일 추론 패턴을 개발하도록 장려합니다. 🔗
- 능동 마스크 선택 정책은 무작위 또는 엔트로피 기반 마스킹 대신 정보성 있고 문맥에서 검증 가능한 스팬을 선택하여 샘플 효율성과 안정성을 향상시킵니다. 🔍
- Wikipedia와 같은 일반 도메인 코퍼스에서 순수 강화 학습 사전 학습을 수행하며, 질문-답변 형식이나 합성 CoT 데이터셋에 의존하지 않습니다. 📚
- 기존 RLPT 방식의 불안정성을 확인한 후, PretrainZero는 더 건강한 엔트로피 프로필, 길고 안정적인 응답, 높은 보상 곡선을 보여주며 안정적인 학습 동역학을 입증했습니다. 📈
- 일반 도메인(MMLU Pro, Super GPQA) 및 수학 추론 벤치마크에서 기존 모델, 지속 사전 학습, 지도 미세 조정, 무작위 RLPT보다 일관되게 우수한 성능을 달성합니다. ✅
- 일반 도메인 Wikipedia로만 학습했음에도 불구하고 수학 추론 성능을 향상시켜, 광범위한 텍스트에서 학습된 일반 추론 능력이 전문 도메인으로 전이될 수 있음을 시사합니다. ➕
- PretrainZero로 사전 학습된 모델은 후속 RLVR(Reinforcement Learning with Verifiable Rewards) 미세 조정을 위한 더 강력한 기반을 제공하여, 동일한 예산으로 더 높은 최종 성능을 달성합니다. 💪
- RLVR 후에도 PretrainZero는 무작위 RLPT가 수학 성능을 저하시키는 것과 달리, 일반 및 수학 벤치마크 모두에서 성능을 크게 향상시킵니다. 🏆
- 사전 학습 중 명시적인 CoT 주석 없이도 후보 열거, 단계별 분석, 최종 답변 수렴과 같은 '사고의 사슬' 행동이 자발적으로 나타나는 것을 질적 분석을 통해 확인했습니다. ✨
- MMLU Pro 벤치마크에서 Wikipedia를 사용한 RLPT가 MathPile보다 우수한 성능을 보여, 일반 도메인 코퍼스가 일반 추론을 위한 RLPT에 더 저렴하고 효과적일 수 있음을 시사합니다. 🌐
- 신중한 마스크 정규화가 중요하지만, 핵심적인 능동 정책이 성능 향상의 주요 동인임을 확인했습니다. ⚙️
- 결론적으로, PretrainZero는 사전 학습을 능동적인 RL 프로세스로 재구성하여 대규모 텍스트 코퍼스에 내재된 잠재 정보를 활용하는 새로운 패러다임을 제시하며, 학습할 내용을 능동적으로 선택하는 것이 안정성과 효율성에 결정적입니다. 💡