LLM은 있지만 다시 학습하고 싶어 - Kanana-2 개발기 (~ing)
- 카나 1.x는 비용 효율적으로 오픈소스 모델 성능을 추격하여, QN 2.5 32B급 성능을 1/8 컴퓨팅 비용으로 달성했으며, 1.5 버전에서 컨텍스트 윈도우를 128K로 확장했습니다. 💰
- 카나 2는 카카오 서비스의 자체 모델 의존도 증가에 따라 일반화 능력, 사용감, 추론 효율성 극대화를 목표로 처음부터 재개발되었습니다. 🚀
- 일반화 능력 향상을 위해 프리트레이닝 데이터 양을 대폭 늘리고, 사용감 개선을 위해 복잡한 지시 따르기 및 그라운딩 능력 강화에 집중합니다. 📚
- 추론 효율성을 위해 Mixture of Experts(MoE) 구조와 Multi-Head Latent Attention(MHLA)을 채택하여 컴퓨팅 및 KV 캐시 효율을 크게 개선했습니다. 💡
- MoE 학습 시 Auxiliary Loss-Free Balancing 기법과 Muon 옵티마이저를 활용하여 학습 안정성과 효율성을 높였습니다. ✨
- Flash Attention 커널(13% 속도 개선) 및 MoE 관련 Permute/Unpermute 커널(40% 속도 개선)을 최적화하여 학습 속도를 향상시켰습니다. ⚡
- 프리트레이닝 단계에서 Dual Pipe-V, Context Parallelism, Expert Parallelism 등 다양한 병렬화 기법을 활용하여 대규모 학습을 효율적으로 수행합니다. ⚙️
- Muon 옵티마이저의 우수성, MoE 모델의 하이퍼파라미터 스케일링(액티브 파라미터 기준) 등 핵심 개발 방향을 모의 실험을 통해 검증했습니다. 🧪
- 카나 2 30B Active 3B 프리뷰 모델은 카나 플래그 1.5 대비 1/4의 학습량으로 유사한 성능을 보이며, Gemma 3 12B보다 우수한 성능을 확보했습니다. 📈
- 향후 데이터 및 모델 스케일업, FP8 학습 탐색, 그리고 툴 유즈 및 검색 기능 확장을 통한 하이브리드 모델 개발을 계획하고 있습니다. 🗺️