데브허브 | DEVHUB | [파이썬 프로젝트] Ch 07. 시가총액 분석 | ⑥전체 페이지 개수 구하기[파이썬 프로젝트] Ch 07. 시가총액 분석 | ⑥전체 페이지 개수 구하기
- 페이지 이동 자동화 및 시가총액 데이터 수집을 위해 전체 페이지 개수를 추출하는 방법을 다룹니다. 🚀
- Playwright Inspector의 픽 로케이터는 간단한 태그 추출에 유용하지만, 복잡한 테이블이나 마지막 페이지 번호 추출에는 한계가 있습니다. 🕵️♀️
- 웹 브라우저 개발자 도구(F12)를 활용하여 HTML 구조를 정밀하게 분석하고, 페이지 이동 버튼의
<a> 태그 href 속성에서 실제 페이지 번호를 확인합니다. 🛠️
- 특히 '맨뒤' 버튼의
href 속성(?page=숫자)을 통해 마지막 페이지 번호를 정확히 식별할 수 있습니다. 🔗
- Playwright의
locator() 함수와 has_text 매개변수를 조합하여 '페이지 내비게이션 리스트' summary 속성을 가진 <table> 태그를 정확하게 추출합니다. 🎯
- 추출된 테이블 내에서
tbody > tr > td > a와 같은 CSS 선택자를 사용하여 페이지 이동 링크들을 찾고, .last 속성을 활용해 마지막 페이지 버튼의 <a> 태그를 선택합니다. ➡️
- 선택된 마지막
<a> 태그의 get_attribute("href") 함수를 사용하여 href 속성 값을 가져옵니다. 📝
- 가져온
href 문자열에서 split("=") 함수와 [-1] 인덱싱을 통해 숫자 부분만 추출하고, int() 함수로 정수형으로 변환하여 최종 전체 페이지 개수를 얻습니다. 🔢
- 이 과정은 Playwright Inspector와 개발자 도구를 적절히 활용하여 웹 페이지의 동적인 요소를 분석하고 자동화하는 실용적인 방법을 제시합니다. 💡