데브허브 | DEVHUB | [파이썬 프로젝트] Ch 07. 시가총액 분석 | ⑤추출한 데이터 정제하기[파이썬 프로젝트] Ch 07. 시가총액 분석 | ⑤추출한 데이터 정제하기
- 데이터 전처리를 위해
cleansing.py 파일을 생성하고, pandas와 json 패키지를 불러와 준비합니다. 🛠️
json.load() 함수와 open()을 사용하여 JSON 형식의 시가총액 데이터를 불러오며, 데이터는 딕셔너리 형태로 header와 body 키를 포함합니다. 📂
- 불러온 딕셔너리 데이터(
body 부분)를 pd.DataFrame()으로 변환하고, columns 매개변수에 header 키의 값을 전달하여 올바른 테이블 헤더를 설정합니다. 📊
df.dropna() 함수를 사용하여 데이터 프레임 내의 비어있는 행을 삭제하며, axis와 how 매개변수를 통해 삭제 기준을 세밀하게 제어할 수 있습니다. 🗑️
iloc 연산자를 활용하여 인덱스 기반으로 특정 열(예: 마지막 '토론실' 열)을 손쉽게 삭제하거나 필요한 행/열만 추출할 수 있습니다. ✂️
split()과 join() 함수를 활용한 clean_whitespace 사용자 정의 함수를 만들어 데이터 내의 불필요한 공백 문자(예: 개행 문자)를 효과적으로 제거합니다. ✨
df.apply() 함수를 사용하여 데이터 프레임의 모든 열에 clean_whitespace 함수를 일괄 적용하여 데이터를 정제합니다. 🔄
- 정제된 데이터를
df.to_csv() 함수를 사용하여 CSV 파일로 저장하며, index=False 옵션을 통해 불필요한 인덱스 열이 저장되지 않도록 합니다. 💾
- 학습 효과를 높이기 위해 실습 코드를 단계별로 모듈화하여 체계적으로 관리하는 것이 중요함을 강조합니다. 📚