- VLM은 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 모델이며, 이미지 캡셔닝, VQA 등 다양한 task를 수행할 수 있음. 🖼️
- 과거 이미지 캡셔닝은 CNN과 RNN을 사용했지만, 현재는 트랜스포머 기반 아키텍처가 주로 사용됨. 🤖
- VLM 구조는 LLM에 비전 인코더와 어댑터를 추가한 형태로, 이미지 정보를 LLM이 처리할 수 있도록 변환함. 🌉
- 딥식 VLM은 세 단계 학습 방식 사용: 어댑터 학습, LLM과 어댑터 조인트 학습, 전체 모델 파인튜닝. ⚙️
- 카카오 카나 비전 모델은 한국어 이해 능력을 갖춘 VLM이며, 이미지와 텍스트 토큰을 LLM에 입력하여 다음 토큰을 예측함. 🇰🇷