데브허브 | DEVHUB | [KO] 스스로 진화하며 학습하는 LLM? | 꼬리의 꼬리를 무는 페이퍼[KO] 스스로 진화하며 학습하는 LLM? | 꼬리의 꼬리를 무는 페이퍼
- 기존 LLM 자가 진화 시스템은 개념 드리프트, 데이터 붕괴, 오진화 등으로 성능이 정체되거나 저하되는 한계가 있었습니다. 📉
- Rfu는 챌린저-솔버 자가 플레이 구조를 기반으로, 최소한의 인간 감독으로 LLM의 안정적인 자가 진화를 가능하게 하는 프레임워크입니다. 🧠
- 챌린저는 소량의 인간 레이블 예시를 앵커로 사용하여 현실적인 질문을 생성하고, 솔버는 인간 및 합성 데이터 혼합 학습과 온라인 커리큘럼을 통해 점진적으로 실력을 향상시킵니다. 🛠️
- 인간 데이터는 챌린저의 질문 생성을 현실에 고정하고 솔버가 실제 과제에 맞춰 조정되도록 돕는 핵심적인 역할을 하며, 기존 시스템 대비 1~5% 수준의 극히 적은 양만 사용합니다. 💡
- Rfu는 기존 자가 진화 방식(R0 등)보다 더 오랜 기간 성능 향상을 유지하고, 수학 및 일반 추론 벤치마크에서 더 높은 정확도와 안정적인 학습 곡선을 보여줍니다. 📈
- 특히, Rfu는 20배 많은 인간 레이블 데이터를 사용하는 시스템과 유사한 성능을 달성하며, 효율성과 효과성을 입증했습니다. ✨
- 챌린저가 생성하는 질문의 다양성과 난이도를 안정적으로 제어하여 개념 드리프트와 오진화를 방지함으로써 학습의 안정성을 확보합니다. ⚖️
- 어블레이션 연구를 통해 챌린저의 인간 예시 기반 그라운딩, 웜업 단계, 솔버의 커리큘럼 학습이 모두 상호 보완적으로 작용하여 최적의 성능과 안정성을 제공함을 확인했습니다. 🧩
- Rfu의 학습 과정은 꾸준히 우상향하는 정확도 곡선을 보여주며, 통제된 방식으로 개선되는 안정적인 공동 진화를 성공적으로 달성합니다. ✅
- 이 연구는 가벼운 앵커링만으로도 드리프트를 막을 수 있는 가능성을 제시하며, 자가 진화 LLM의 적용 범위를 확장할 유망한 방향을 제시합니다. 🚀