데브허브 | DEVHUB | EP 75. (수학 공식 없는) 강화 학습 이야기EP 75. (수학 공식 없는) 강화 학습 이야기
- Kimi K2 모델은 GPT-5, Sonnet 4.5 Thinking과 같은 최상위 모델과 비교하여 벤치마크에서 우수한 성능을 보이며, 특히 창의적 글쓰기 및 일반 능력에 중점을 둡니다. 🚀
- 새로운 모델의 출시 주기가 급격히 빨라지고 있으며, 이는 사전 학습(pre-training)보다 사후 학습(post-training) 레시피 개선 속도에 기인합니다. ⏱️
- 추론 효율성(서비스 효율성)을 위해 MoE(Mixture of Experts) 부분에 INT4 양자화와 같은 양자화 인식 학습(quantization-aware training)이 적용되어 모델 크기를 크게 줄입니다 (예: 1조 파라미터 모델이 약 500GB로). 💾
- MoE 모델은 각 모듈이 부분적으로 학습되어 일반적인 Dense 모델보다 양자화에 유리하며, 이는 미래 모델의 기본 기술이 될 것입니다. 💡
- 사후 학습 레시피 개선은 프론티어 기업들의 핵심 경쟁력이자 노하우가 될 것이며, 각 기업의 철학에 따라 강조하는 부분이 다릅니다 (예: Anthropic은 B2B/코딩, OpenAI/Kimi는 일반화). 🗺️
- 강화 학습(RL)은 에이전트가 환경에서 행동하며 보상을 최대화하도록 학습하는 방식으로, 인간의 개입 없이 스스로 방법을 찾아 초인적인 성능을 달성할 수 있습니다 (예: 알파고). 🧠
- 지도 학습과 달리 강화 학습은 문제 해결 방법을 직접 가르치지 않고 목표만 제시하여, 인간 수준을 뛰어넘는 가능성을 제공합니다. 📈
- 강화 학습의 주요 난제 중 하나는 'Credit Assignment Problem'으로, 보상에 기여한 특정 행동을 식별하기 어렵다는 점이며, 특히 보상이 희소할 때 더욱 어렵습니다. 🧩
- '몬테주마의 복수'와 같이 보상이 드물게 주어지는 환경에서는 강화 학습이 여전히 인간 수준을 넘어서기 어려운 난제로 남아있습니다. 🎮
- LLM 시대에 강화 학습은 주로 인간 피드백 기반 강화 학습(RLHF) 형태로 도입되어, 모델이 더 나은 응답을 생성하도록 돕습니다. 🤝