데브허브 | DEVHUB | [EN] An LLM That Evolves and Learns on Its Own?(Guided Self-Evolving LLMs with Minimal Human )[EN] An LLM That Evolves and Learns on Its Own?(Guided Self-Evolving LLMs with Minimal Human )
- RFW는 대규모 인간 레이블 데이터 없이 AI 시스템이 스스로 발전하는 것을 목표로 합니다. 🚀
- 기존 자가 진화 시스템의 한계(개념 표류, 다양성 붕괴, 오진화)를 극복합니다. 📉
- RFW는 챌린저-솔버 자가 플레이 설정을 통해 최소한의 인간 감독으로 LLM을 진화시킵니다. 🤝
- 챌린저는 소수의 인간 레이블 예시(인컨텍스트 앵커)를 사용하여 실제 분포에 기반한 합성 질문을 생성하고 표류를 방지합니다. ⚓
- 솔버는 인간 데이터와 합성 데이터를 혼합하여 훈련되며, 온라인 커리큘럼을 통해 적절한 난이도의 작업을 우선시하여 안정적인 발전을 이룹니다. 📚
- RFW는 이전 시스템의 1~5%에 불과한 극히 적은 양의 인간 데이터를 사용하여 효과적인 자가 진화를 유도합니다. 💡
- 수학 및 일반 추론 벤치마크에서 R0와 같은 기존 자가 진화 방법보다 더 높은 정확도와 안정적인 개선을 보입니다. 📈
- 20배 더 많은 인간 레이블 데이터를 사용한 시스템과 유사한 성능을 달성하며, 데이터 효율성을 입증합니다. 💰
- 챌린저가 다양성을 유지하고 질문 길이를 안정적으로 관리하며, 점진적으로 난이도를 높여 개념 표류와 오진화를 방지합니다. 🧠
- 인간 예시로 챌린저를 접지하는 것, 챌린저 웜업, 솔버의 커리큘럼 학습이 모두 안정적인 자가 진화에 필수적입니다. ✅
- 챌린저와 솔버가 함께 안정적으로 발전하는 '공동 진화'를 통해 급격한 성능 저하나 혼란스러운 진동 없이 꾸준히 향상됩니다. 🔄
- RFW는 제한된 인간 감독으로 LLM의 자율적 개선을 가능하게 하는 강력한 프레임워크입니다. ✨