- 320억 파라미터의 QWQ 모델이 6710억 파라미터의 DeepSeek R1을 능가하는 성능을 보임 🚀
- 강화학습을 통해 수학 및 코딩 벤치마크에서 경쟁력 있는 결과 도출 🧮
- 수학 및 코딩 문제 정확도 검증을 기반으로 한 강화학습 전략 채택 🤖
- 일반적인 능력 향상을 위한 추가 강화학습 단계 적용 💡
- 수학 및 코딩 성능 저하 없이 일반적인 지시사항 따르기 능력 향상 📈
- 벤치마크 조작 가능성에 대한 의문 제기 🤔
- 강화학습의 AGI 접근 가능성에 대한 논의 🤖