- 지식 증류(Knowledge Distillation) 개념 소개 ✨
- 큰 모델(Teacher)의 지식을 작은 모델(Student)에 전수하는 기법 👨🏫
- Teacher 모델의 확률 분포를 이용, Student 모델 학습 📈
- 원-핫 인코딩보다 Teacher의 확률 분포 학습이 더 효과적 🤔
- 템퍼러처(Temperature) 파라미터를 활용, 확률 분포 차이 조절 🌡️
- KL Divergence를 이용한 Loss Function 정의 📊
- Teacher와 Student 모델의 성능 비교 및 놀라운 결과 도출 🎯
- 다양한 지식 증류 기법 존재, 심화 학습 필요성 제시 📚