Fixing Dirty Data Step-by-Step with SQL
- 데이터 세트를 다운로드했더니 누락된 값, 오류 값, 일관성 없는 데이터로 엉망이었습니다. 😫
- 몇 가지 SQL 쿼리를 사용하여 분석 준비가 완료된 깨끗한 데이터 세트로 바꿨습니다. ✨
- 데이터 세트에는 가상 카페의 판매 데이터가 포함되어 있습니다. ☕
- 데이터베이스에 로드하고 데이터를 분석하여 어떻게 작업할 수 있는지 확인합니다. 💻
- 데이터 이해를 위해 기본적인 SELECT COUNT 쿼리를 실행하여 행 수를 확인합니다. 🔢
- SELECT * 쿼리를 사용하여 테이블의 모든 행과 열을 확인합니다. 📊
- 컬럼 헤딩에 공백이 있거나 따옴표로 묶여 있어 쿼리하기 어렵습니다. ✍️
- 데이터에 중복된 행이 있는지 확인합니다. 🔎
- 각 컬럼의 값 종류를 확인합니다. 👓
- 트랜잭션 ID 컬럼은 각 행마다 고유한 ID를 가지고 있습니다. 🆔
- 아이템 컬럼에는 null, unknown, error 값이 있습니다. ⚠️
- 수량, 가격, 총 지출 컬럼에도 null, unknown, error 값이 있습니다. 🔢
- 결제 방법, 위치, 거래 날짜 컬럼에도 다양한 값과 함께 오류 및 unknown 값이 있습니다. 📅
- 컬럼 이름을 변경하여 데이터 작업을 더 쉽게 만듭니다. ✏️
- ALTER TABLE 문을 사용하여 컬럼 이름을 소문자와 밑줄로 변경합니다. 🔤
- 아이템 컬럼의 null 값은 그대로 유지하고, unknown 및 error 값은 null로 업데이트합니다. 🗑️
- UPDATE 문을 사용하여 unknown 및 error 값을 null로 설정합니다. 🔄
- 다른 컬럼(결제 방법, 위치, 거래 날짜)에서도 유사한 변경을 수행합니다. 🧹
- 데이터 타입을 확인하고 텍스트에서 숫자 또는 날짜로 변경합니다. ➡️
- 데이터 딕셔너리를 사용하여 컬럼의 데이터 타입을 확인합니다. 📚
- 트랜잭션 날짜 컬럼의 데이터 타입을 텍스트에서 날짜로 변경합니다. 📅
- 새 컬럼을 추가하고 기존 데이터를 변환하여 새 컬럼에 저장한 다음, 기존 컬럼을 삭제하고 새 컬럼의 이름을 변경합니다. ➕
- 수량, 가격, 총 지출 컬럼을 조사합니다. 💰
- 총 지출은 수량과 가격의 곱으로 계산될 수 있습니다. ✖️
- 수량과 가격이 존재하지만 총 지출이 없는 경우, 총 지출을 계산하여 업데이트합니다. ➕
- 데이터 타입을 변경하기 전에 오류 및 unknown 값을 null로 업데이트합니다. 🗑️
- ALTER TABLE 문을 사용하여 데이터 타입을 텍스트에서 숫자(정수 또는 소수)로 변경합니다. 🔢
- 데이터 타입 변환 오류가 발생하면 USING 키워드를 사용하여 명시적으로 변환합니다. 🛠️
- 소수점 자릿수가 많은 값을 정수로 변환하기 전에 반올림합니다. ➗
- 데이터 정제 및 변환 과정을 통해 데이터 분석 준비를 완료합니다. ✅