【오픈소스 100% 활용】 RAG 파이프라인 구축 가이드 | LangChain + Milvus + HuggingFace + Ollama + Langfuse
- 오픈소스 기반 RAG 파이프라인 구축 가이드: LangChain, Milvus, HuggingFace, Ollama, Langfuse 활용 🛠️
- 다양한 문서 형식(PDF, Word, HTML 등) 처리를 위한 Doctr 사용 및 Markdown 변환 📄
- Alibaba의 GT 모델을 활용한 다국어 임베딩 및 재순위 지정(reranking) 🌐
- 고성능 오픈소스 벡터 데이터베이스 Milvus를 이용한 벡터 저장 및 검색 🗄️
- LangChain의 LLM(Ollama의 Llama 2)과 Langfuse를 이용한 RAG 파이프라인 구현 및 모니터링 ⛓️
- Doctr의 하이브리드 청킹 기능을 사용한 문서 분할 및 Baai의 bge-m3 모델 활용 Chunking ✂️
- 추출된 표 데이터를 CSV 및 HTML로 변환 저장 📊
- 한국어 질의어를 사용하여 영어 문서 검색 가능 🇰🇷➡️🇺🇸
- Langfuse를 이용한 RAG 파이프라인 실행 과정 모니터링 및 디버깅 🔎