Vision Transformer from Scratch
- 비전 트랜스포머 기초부터 배우기: 이미지 처리에 자기 주의 메커니즘을 적용하는 비전 트랜스포머 학습 🤖
- 이미지 패치를 토큰으로 처리: 이미지를 여러 패치로 나누고 각 패치를 벡터로 임베딩하여 의미를 포착 🧩
- 위치 정보 추가 및 자기 주의 메커니즘 적용: 각 패치의 위치 정보를 추가하고 자기 주의 메커니즘을 통해 패치 간 상호 작용 및 관계 이해 📍
- CLS 토큰을 활용한 이미지 전체 표현: CLS 토큰을 통해 모든 패치 정보를 종합하고 이미지 전체를 단일 벡터로 표현 🖼️
- CLIP과의 비교 및 Sigmoid Loss의 효율성: CLIP의 softmax loss 대신 Sigmoid loss를 사용하여 계산 효율성 및 유연성 향상 🚀
- Sigmoid Loss를 통한 효율적인 학습: 개별 이미지-텍스트 쌍에 집중하여 전체 배치 비교 없이 효율적인 학습 가능 🎯
- CLIP 모델의 구조와 동작 원리 이해: 이미지 인코더와 텍스트 인코더를 통해 이미지와 텍스트 임베딩 생성 및 비교 🐶
- SigP 모델 구현 및 Hugging Face 활용: Hugging Face에서 사전 훈련된 SigP 모델과 프로세서를 활용하여 이미지 처리 및 임베딩 생성 💻
- 이미지 전처리 과정: 이미지 크기 조정, 텐서 변환, 정규화를 통해 모델 입력에 적합한 형태로 변환 📸
- 배치 차원 추가 및 모델 구조 분석: 단일 이미지도 배치 차원을 추가하고, SigP 모델의 구조(패치 임베딩, 위치 임베딩, 자기 주의 메커니즘, MLP 등)를 분석 🔢