Web Scraping With GPT-4 Vision AI & Playwright Is Ridiculously EASY - I Can't Believe This Works
- 웹 스크래핑은 GPT-4 비전 AI와 Playwright를 사용하면 너무나 쉽게 할 수 있습니다! 🤯
- 클라이언트 측 렌더링된 웹사이트에서는 사용자 페이지가 로딩되는 동안 수행되는 네트워크 요청 URL을 확인하고 직접 사용하여 데이터를 얻을 수 있습니다. 🕸️
- 서버 측 렌더링된 웹사이트에서는 HTML에서 데이터가 이미 삽입되어 있기 때문에 네트워크 요청 URL을 사용할 수 없으며, HTML의 마지막 스크립트를 검사해야 합니다. 💻
- 텍스트 기반 접근 방식이 어렵게 되는 경우, 이미지를 캡처하고 오픈AI 모델을 이용하여 데이터를 추출하는 시각 기반 접근 방식을 사용할 수 있습니다. 📸
- 웹 스크래핑 시, 웹사이트가 사용자 행동을 감지하고 차단하기 위해 프로キシ 서버를 사용하여 요청을 중간 조절하는 것이 중요합니다. 🥷