- 한국어 영수증 OCR을 위한 오픈소스 모델 Qwen2-VL 및 Google Gemini를 Google Colab을 이용하여 실습하는 방법을 제시한다. 🧾
- Transformer, q1-vl 자율 학습 라이브러리, LangChain 등 필요한 패키지를 설치하고 사용하는 방법을 보여준다. ⚙️
- 20억 파라미터를 가진 Qwen2-VL 모델을 사용하여 영수증 이미지에서 텍스트 추출을 실시하고, Markdown 형식으로 결과를 출력한다. 📄
- 구글 Gemini 1.5를 활용하여 추출된 텍스트 데이터를 구조화된 JSON 형태로 변환하는 방법을 설명한다. 🪙
- Google AI 플랫폼에서 제공하는 무료 API 키를 사용하여 Google Gemini 기능을 활용한다. 🔐