Kanana 언어모델에 추론 기능 붙여보기 (feat. Kanana-1.5)

간단 소개

카카오 Kanana 언어모델에 추론 기능을 강화하기 위한 SFT, RL, Staged RL 실험 과정 및 결과를 분석하고, 성능 향상 전략을 제시합니다.

AI Summary

Supervised Fine-Tune (SFT)
- Reasoning Demonstration Data 활용을 고도화하여 Two-staged SFT를 설계: verify_score와 CV를 활용, 데이터 난이도에 따라 두 단계로 학습.
- Learning Rate (LR) 최적화: 큰 LR을 사용하는 것이 효과적이며, LR은 모델 성능 상한을 결정짓는 핵심 요인.
Reinforcement Learning (RL)
- DeepMath-103K 데이터셋을 필터링하여 강화학습에 사용, SFT 데이터셋과의 중복 제거 및 난이도 조절.
- PPO와 GRPO 알고리즘 비교 실험: GRPO에서 ϵlow\epsilon_{low}ϵlow를 완화하는 것이 성능 향상에 효과적, PPO가 후반 학습에서 더 안정적.
Staged RL 및 평가
- 코드 데이터셋만으로 강화학습 시 수학 문제 성능 향상 확인, 이종 도메인 학습이 추론 능력 일반화에 효과적.
- AIME 2024, AIME 2025 평가 결과, Two-staged SFT와 강화학습을 통해 모델 성능 향상.