데브허브 | DEVHUB | Build a web crawling automation / toolBuild a web crawling automation / tool
- 웹 크롤링 자동화 도구 구축 및 AI 활용 방안 모색이 주요 목표입니다. 🤖
- 이전 스트림 영상은 YouTube 채널 "youtube.com/million-extended"에서 시청 가능합니다. 📺
- 웹 크롤링 및 AI 통합을 위한
crawl-for-ai 패키지가 강력히 추천됩니다. 🚀
- 웹 스크래핑은 데이터 추출 자동화, 웹 크롤링은 웹사이트 방문 자동화를 의미합니다. 🕸️
- 웹 크롤링/스크래핑은 법적 회색 영역이며, 자신의 웹사이트를 크롤링하는 것이 가장 안전합니다. ⚖️
- 효율적인 Python 프로젝트 관리를 위해
uv 패키지 관리자 사용이 권장됩니다. 🛠️
requests 라이브러리를 사용하여 웹사이트의 HTML 콘텐츠를 가져오는 기본 방법이 시연되었습니다. 📄
requests만으로는 웹사이트 구조 변경, 클라이언트 측 렌더링(SPA), 봇 감지 등의 문제에 직면할 수 있습니다. 🚧
- 대규모 언어 모델(LLM)에 HTML 코드를 전달하여 의미 있는 콘텐츠를 추출할 수 있지만, 토큰 비용이 발생합니다. 🧠
- 특정 단어 수 이상을 포함하는 HTML 요소를 찾아 관련 콘텐츠를 식별하는 휴리스틱 코드를 작성하여 AI 없이 비용을 절감할 수 있습니다. 💡
- 클라이언트 측 렌더링 문제를 해결하기 위해
playwright를 사용하여 실제 브라우저를 자동화하고 렌더링된 콘텐츠에 접근할 수 있습니다. 🌐
playwright로 스크린샷을 찍고 이를 AI에 전달하여 시각적 콘텐츠에서 정보를 추출하는 방법도 가능합니다. 📸
- 사용자 에이전트 감지, 특정 사이트의 명시적 크롤링 금지 등 고급 크롤링 시 추가적인 문제에 직면할 수 있습니다. 🚫
crawl-for-ai는 위에서 언급된 다양한 기술적 및 윤리적 문제들을 해결하는 포괄적인 솔루션을 제공합니다. ✨