데브허브 | DEVHUB | [파이썬 프로젝트] Ch 07. 시가총액 분석 | ⑧시가총액 상위 50% 종목 추출하기[파이썬 프로젝트] Ch 07. 시가총액 분석 | ⑧시가총액 상위 50% 종목 추출하기
- 시가총액 상위 50% 종목 추출을 목표로, 판다스 패키지를 활용한 데이터 처리 과정을 상세히 설명합니다. 🎯
- 문자열 형태의 시가총액 데이터를 정수로 변환하기 위해
str.replace(',', '')로 콤마를 제거한 후 astype(int)를 사용합니다. 🔢
sort_values(ascending=False) 함수를 사용하여 시가총액 데이터를 내림차순으로 정렬하여 상위 종목을 정확히 식별할 수 있도록 준비합니다. ⬇️
cumsum() 함수로 종목별 시가총액 누적 합계를 계산하고, 이를 전체 시가총액 합계로 나누어 누적 비율을 산출합니다. 📈
- 계산된 누적 비율이 0.5 이하인 종목들을
df.loc[df['누적 비율'] <= 0.5] 조건을 사용하여 필터링함으로써 시가총액 상위 50% 종목을 추출합니다. 📊
- 데이터 로딩(
pd.read_csv), 데이터 확인(df.head()), 특정 열 선택, 데이터 타입 변환, 정렬, 누적 계산, 필터링, 결과 저장(to_csv) 등 전체 데이터 처리 워크플로우를 다룹니다. ⚙️
- 데이터 정제 과정에서 발생할 수 있는
ValueError (콤마로 인한 문자열-정수 변환 오류)를 해결하는 실용적인 방법을 제시합니다. ⚠️
- 최종적으로 추출된 상위 50% 종목 데이터는
top.csv 파일로 저장되며, 이때 불필요한 인덱스는 제외됩니다. 💾