데브허브 | DEVHUB | Turn ANY Website into LLM Knowledge in Seconds - EVOLVEDTurn ANY Website into LLM Knowledge in Seconds - EVOLVED
- Crawl for AI는 웹사이트 콘텐츠를 LLM 지식(RAG AI 에이전트)에 최적화된 형식으로 변환하는 강력한 오픈소스 도구입니다. 🤖
- 이 도구는 42,000개 이상의 GitHub 스타를 기록하며 엄청난 인기를 얻고 있으며, 매우 빠르고 AI가 이해하기 쉬운 마크다운 형식으로 데이터를 출력합니다. 🚀
- 웹사이트 크롤링을 위한 세 가지 주요 전략을 지원합니다: sitemap.xml 활용, 홈페이지부터 탐색하여 재귀적으로 링크를 찾아 크롤링, LLM 전용으로 포맷된 단일 페이지(LLM.ext) 처리. 🗺️
- 설치는 간단하며(pip install), 비동기 웹 크롤러 인스턴스를 통해 URL을 지정하여 사용할 수 있습니다. 🛠️
- 여러 URL을 병렬로 처리하여 크롤링 속도를 극대화하며, 대규모 웹사이트의 모든 페이지를 효율적으로 수집할 수 있습니다. ⚡
- 수집된 데이터는 AI 에이전트의 RAG(검색 증강 생성) 시스템에 통합되어 벡터 데이터베이스(예: Chroma DB)에 저장됩니다. 🧠
- LLM.ext와 같이 방대한 문서는 LLM 프롬프트에 적합하도록 자동으로 청크(chunk)로 분할됩니다. ✂️
- 제공된 AI 에이전트 스크립트는 URL 유형(sitemap, LLM.ext, 일반 웹페이지)을 지능적으로 감지하여 최적의 크롤링 전략을 자동으로 적용합니다. 💡
- (스폰서) Aqua Voice는 Mac/Windows용으로 빠르고 정확하며 딥 컨텍스트 기능을 갖춘 AI 음성 시스템입니다. 🗣️
- 실제 데모를 통해 Crawl for AI 문서의 sitemap과 Pydantic AI 문서의 일반 웹페이지를 크롤링하는 과정을 시연하며, 그 속도와 효율성을 입증했습니다. 📊