- 수동으로 청약 공고를 확인하고 엑셀에 저장하는 번거로움을 AI(ChatGPT)와 파이썬을 활용하여 자동화하는 방법을 제시합니다. 🤖
- 웹 크롤링의 법적 문제(서버 부하)를 방지하기 위해
robots.txt 파일을 확인하여 허용된 범위 내에서 크롤링하는 중요성을 강조합니다. 📜
- AI와 정확하게 소통하기 위해 웹 페이지의 HTML 요소(예:
<tr>, <td>)나 ID를 명시하여 원하는 데이터를 명확하게 얻는 팁을 제공합니다. 💬
- 튜토리얼은 파이썬 환경 설정, 필요한 라이브러리 설치, ChatGPT 프롬프트 작성, 크롤링 실행, 디버깅, 그리고 스케줄러 자동화(CronTab) 과정을 단계별로 안내합니다. 🛠️
- 크롤링 중 발생하는 오류(예: LXML 라이브러리 누락)는 ChatGPT에 트레이스백을 제공하여 효과적으로 해결하는 방법을 보여줍니다. 🐛
- 수집된 테이블 형식의 데이터는 Pandas 라이브러리를 사용하여 쉽게 처리하고, 엑셀 파일로 저장하여 체계적으로 관리할 수 있습니다. 📊
- 매일 특정 시간에 작업을 자동 실행하기 위해 Mac의 CronTab과 크론식을 활용하는 방법을 설명하며, 로그 파일 생성을 통해 백그라운드 작업 모니터링의 중요성을 강조합니다. ⏰
- CronTab에서 스크립트 실행 시, 스크립트 내 파일 경로를 반드시 절대 경로로 지정해야 정상 작동한다는 중요한 디버깅 팁을 제공합니다. 🛤️
- 이 자동화 기술은 청약 공고 외에도 다양한 웹 데이터 수집 및 업무 자동화에 응용될 수 있어 개인 생산성 향상에 기여합니다. ✨
데브허브 | DEVHUB | 크롤링하는법 떠먹여드림. AI가 다 해줌