- PyTorch를 사용하여 처음부터 Vision Transformer 모델을 구축하는 방법을 배웁니다. 🛠️
- 패치 임베딩부터 트랜스포머 인코더까지 각 구성 요소를 안내합니다. 🧩
- CIFAR-10에서 사용자 정의 VIT 모델을 훈련하고 이미지 분류에 대한 실무 경험을 얻습니다. 🖼️
- CNN에서 트랜스포머로 효율적으로 전환합니다. ➡️
- 트랜스포머 아키텍처는 텍스트 시퀀스를 토큰화하여 처리합니다. 텍스트를 토큰으로 분할하는 과정을 토큰화라고 합니다. 📝
- Vision Transformer는 이미지를 패치로 분할하여 토큰화와 유사하게 처리합니다. ✂️
- CLS 토큰은 이미지 전체를 나타내는 특별한 학습 가능한 토큰입니다. 🔤
- 데이터 증강 기술을 적용하여 모델을 재훈련하고 훈련 결과를 개선합니다. 📈