- Alibaba Cloud의 Qwen 팀에서 개발한 최첨단 LLM인 Qwen 3 소개 ☁️.
- Qwen 3 모델을 처음부터 코딩하고 훈련하여 아키텍처와 코드 로직을 이해하는 과정 🧑💻.
- GPU를 사용하여 모델을 훈련하며, 하이퍼파라미터 설정 및 조정의 중요성 강조 ⚙️.
- 그룹화된 쿼리 어텐션과 SwiGLU 활성화 함수와 같은 Qwen의 특정 기능에 초점 💡.
- Muon 옵티마이저를 사용하여 더 빠르고 나은 훈련을 가능하게 함 🚀.
- KV 캐시 메모리를 줄이기 위해 키-값 헤드를 공유하는 방법 설명 🧠.
- 슬라이딩 윈도우 어텐션을 사용하여 긴 시퀀스를 처리하는 방법 제시 🪟.
- 가중치 감쇠, 드롭아웃, 기울기 클리핑을 사용하여 과적합을 방지하고 일반화 성능을 향상시킴 🛡️.
- 키-값 헤드를 반복하는 기능과 그 중요성 설명 🔁.
- Muon 옵티마이저에 대한 수학적 이해 필요성 강조 ➗.