SmolDocling - The SmolOCR Solution?
- SmolDocling: 경량 OCR 모델, Hugging Face와 IBM 협업 💡
- 2억 5600만 파라미터의 소형 모델로 VRAM 제약 없는 GPU 사용 가능 💻
- 기존 모델 대비 최대 27배 빠른 속도를 자랑하지만, 비교 대상 모델 한계 존재 🤔
- 단순 OCR 뿐 아니라 문서 변환 및 이해 기능 제공 📄
- 다양한 문서 형식(PDF, Word, HTML, 이미지 등) 지원 🗂️
- SigLIP 비전 인코더와 Smol LM 모델 기반의 VLM 아키텍처 채용 ⚙️
- 문서 요소(텍스트, 이미지, 표 등) 위치 정보와 함께 OCR 결과 제공 📍
- HTML 구조 유사한 출력 형식으로 후처리 용이 ➡️
- Hugging Face 및 vLLM 라이브러리를 통해 실행 가능 🚀
- 코드, 수식, 표, 차트 등 다양한 문서 요소 인식 기능 보유 📊
- 특정 작업에 대한 미세 조정을 통해 성능 향상 가능 💪
- 일반적인 OCR 모델 대체보다는 특정 작업 위한 파이프라인 구축에 유용 🛠️