Web Scraping in Python — Reddit Scraper with BeautifulSoup [No API]
- 이 비디오는 Beautiful Soup을 사용하여 Reddit에서 데이터를 스크래핑하는 방법을 단계별로 보여줍니다. 🧑💻
- 필요한 라이브러리(requests, BeautifulSoup4, json, csv, time)를 설치하고 가져오는 방법을 설명합니다. 📦
- 스크래핑할 subreddit URL 목록을 정의하고 각 URL을 반복합니다. 🔗
- 각 subreddit에서 제목, URL, 스크랩 시간과 같은 데이터를 추출합니다. ⏱️
- HTML 헤더(H1, H2, H3, H4)에서 텍스트를 추출하고 특정 키워드가 포함된 텍스트만 유지합니다. 🔑
- 댓글이 있는 게시물과 같은 subreddit 토론을 스크래핑하고 중복을 방지합니다. 💬
- 스크랩된 데이터를 JSON 및 CSV 파일로 저장하는 방법을 보여줍니다. 💾
- 예외 처리를 구현하여 스크래핑 프로세스 중 오류를 처리합니다. ⚠️
- 스크래핑 속도를 조절하기 위해 시간 지연을 추가하여 서버 과부하를 방지합니다. 🐌
- 스크랩된 데이터를 구성하고 저장하는 데 사용되는 데이터 구조(목록, 사전)를 설명합니다. 🗂️