vision language model 간단히 알아보기 VLM
- VLM은 메타의 라마 비전, 마이크로소프트의 파이 비전 등 최신 멀티모달 모델의 핵심으로, 비전과 언어를 통합하여 다양한 작업을 수행합니다. 🚀
- 초기 비전-언어 연결 태스크인 이미지 캡셔닝은 과거 CNN-RNN 조합에서 현재는 트랜스포머 기반의 이미지 인코더와 LLM을 활용하여 훨씬 간단하게 구현됩니다. 🖼️
- 이미지 캡셔닝 문제 해결 이후, VQA(Visual Question Answering)는 이미지에 대한 질문에 텍스트로 답변하는 더 복잡한 문제로 발전했으며, OCR, 수식, 차트 이해 등 다양한 추론 능력을 포함합니다. 🧠
- VLM은 이제 LLM처럼 무료 및 유료 서비스로 쉽게 접근 가능하며, 라마, 마이크로소프트 파이 비전, 딥식 VL 등 다양한 오픈 소스 모델들이 존재합니다. 🌐
- 딥식 VL 모델은 LLM 구조에 비전 인코더와 어댑터를 추가한 형태로, 비전 인코더가 이미지 피처를 추출하고 어댑터가 이를 LLM이 이해할 수 있는 토큰으로 변환하여 텍스트 생성에 활용합니다. 🏗️
- 딥식 VL 모델의 학습은 비전-언어 어댑터 훈련, LLM과 어댑터의 공동 사전 훈련(비전 인코더 고정), 그리고 전체 모델의 지도 미세 조정의 세 단계로 이루어집니다. 📈
- VLM 모델 개발에는 위키피디아 페이지, 이미지 캡셔닝, 테이블, 차트, OCR 데이터 등 다양한 유형의 데이터셋을 혼합하여 활용하는 것이 중요합니다. 📚
- 딥식 VL과 같은 모델은 주로 영어 및 중국어 데이터로 학습되어 한국어 이해 능력이 부족하며, 카카오의 카나 비전과 같은 한국어 특화 VLM의 필요성이 강조됩니다. 🇰🇷
데브허브 | DEVHUB | vision language model 간단히 알아보기 VLM