- CLIP은 이미지와 텍스트를 연결하는 딥러닝 모델입니다. 🔗
- 제로샷 러닝에 강점을 가지며, 다양한 응용 분야가 존재합니다. 💡
- 이미지와 텍스트를 각각 임베딩 벡터로 변환하여 유사도를 비교합니다. 🐱
- 기존 이미지 분류 방식과 달리, 미리 정의된 클래스에 제한되지 않습니다. 🖼️
- 이미지 인코더(예: ResNet, 비전 트랜스포머)와 텍스트 인코더(트랜스포머)를 사용합니다. 🤖
- 콘트라스티브 러닝 기법을 통해 이미지와 텍스트의 임베딩 벡터를 가깝게 학습시킵니다. 🤝