- VLM의 그라운딩 피처는 이미지 내 특정 객체를 언어 기반으로 찾을 수 있게 해준다. 🔎
- 딥 VL2는 기존 객체 탐지 모델의 한계를 넘어 언어적 맥락을 이해하고 객체를 찾는다. 🗣️
- 그라운딩 디노는 문장을 사용하여 이미지 내 객체를 검출하는 대표적인 예시이다. 🖼️
- 딥 VL2는 벤치마크 성능이 뛰어나지만 모델 사이즈가 매우 크다는 단점이 있다. 🐘
- 딥 VL2는 이미지와 텍스트를 GPT 스타일로 처리하여 객체 위치 좌표를 제공한다. 📍
- 이러한 기술은 RAG와 결합하여 다양한 분야의 어플리케이션에 활용될 수 있다. 💡