Loading...
잠시만 기다려 주세요.
scrapy startproject 명령을 통해 초기화되며, items.py, settings.py, pipelines.py, spiders/ 폴더가 핵심 구성 요소입니다. 🛠️items.py 파일은 스크랩할 데이터의 구조(예: 제목, 링크, 날짜, 출처, 요약)를 정의하는 데이터 클래스 역할을 합니다. 🏷️settings.py는 크롤러의 동작 방식(예: ROBOTSTXT_OBEY, DOWNLOAD_DELAY, USER_AGENT, AUTOTHROTTLE, ITEM_PIPELINES)을 세밀하게 제어하여 웹사이트 차단을 피하고 인간적인 스크래핑을 가능하게 합니다. ⚙️pipelines.py는 스크랩된 데이터를 처리하고 정제하는 역할을 하며, 제목 및 요약의 공백 제거, 상대 URL을 절대 URL로 변환하는 등의 데이터 클리닝 로직을 포함합니다. 🧼spiders/ 폴더 내의 스파이더 파일은 실제 크롤링 로직을 구현하며, name, allowed_domains, start_urls를 정의하고 parse 및 parse_article과 같은 콜백 메서드를 통해 페이지를 탐색하고 데이터를 추출합니다. 🕸️parse 메서드는 초기 URL에서 데이터를 추출하고, scrapy.Request를 사용하여 새로운 링크를 따라가며 callback을 통해 다음 처리 메서드를 지정하고 를 통해 데이터를 전달합니다. ➡️metaseen_links와 같은 Set 자료구조를 활용하고, 상대 경로 링크를 urljoin을 사용하여 절대 경로로 변환하는 것이 중요합니다. 🔗Recommanded Videos
![[배휘동,임동준 X 테디노트] "바이브 코딩을 하는 것과 잘 하는 것, 점점 더 잘 하는 것은 다릅니다" #바이브코딩 🔥](https://i4.ytimg.com/vi/WIqo3Fmxjqk/hqdefault.jpg)
2025. 7. 22.

2025. 6. 11.

2025. 9. 30.

2026. 1. 10.

2025. 4. 29.

2026. 1. 6.