- 훈련 세트와 테스트 세트를 나누는 이유: 동일 데이터로 평가 시 100% 정확도가 나올 수밖에 없음. 📝
- 머신러닝 종류: 지도 학습(타겟값 존재), 비지도 학습(타겟값 없음), 강화 학습. 🤖
- K-최근접 이웃 알고리즘은 지도 학습에 속함. 🧑🏫
- 훈련 세트와 테스트 세트를 나눌 때, 데이터가 한쪽으로 쏠리지 않게 골고루 섞어야 함 (샘플링 편향 방지). ⚖️
- 넘파이(NumPy)는 다차원 배열을 효율적으로 다루는 파이썬 라이브러리. 🔢
- 넘파이의
shuffle
함수는 배열 자체를 변경함. 🔄 - 인덱스 배열을 섞어 훈련/테스트 세트를 나누면 메모리 효율성을 높일 수 있음. 💡