- CLIP은 이미지와 텍스트 정보를 동일한 임베딩 공간에 매핑하는 방법입니다. 🖼️
- 컨트라스티브 러닝을 통해 이미지 인코더와 텍스트 인코더를 학습시켜 이미지와 텍스트의 유사도를 최대화합니다. 🤝
- 이미지와 텍스트 벡터 간의 유사도를 계산하여 로스 함수를 만들고, 백프로퍼게이션을 통해 모델을 학습시킵니다. 📈
- CLIP은 4억 개의 이미지-텍스트 쌍으로 학습되어 복잡한 개념까지 이해할 수 있습니다. 📚
- CLIP을 이용하면 "눈 위에 있는 호랑이"와 같이 고차원적인 질의어로 이미지 검색이 가능합니다. 🐅