-
한글 문서 처리를 위한 LangChain, Ollama, HuggingFace 도구들을 사용하여 테이블 정보를 추출하고 텍스트 컨텍스트로 전환하는 방법을 소개하고 있습니다. 🧾
-
오픈 소스 모델인 Gema 2를 활용하여 HWP 문서를 읽고, LangChain의 hwp loader를 통해 데이터를 로드합니다. 📑
-
Windows 환경에서는 Win32 hwp loader를 사용해야 하며, 이를 실행하려면 필요한 패키지를 설치해야 합니다. 💻
-
문서를 불러온 후에 테이블 정보를 HTML 형태로 추출하여 LangChain의 컨텍스트로 활용할 수 있습니다. 🌐
HTML 태그를 그대로 유지하거나, Markdown 형태로 변환하여 문자 구조를 유지할 수 있는 방법들이 제안됩니다. 📊