All Machine Learning Beginner Mistakes explained in 17 Min
- 데이터 전처리 과정에서 오류는 모델의 기초를 약하게 만들기 때문에 꼼꼼하게 해결해야 합니다. 🧼
- 피쳐의 차원이 다를 때 데이터를 표준화 또는 정규화하면 알고리즘이 학습 속도를 높여주고 더 나은 결과를 얻을 수 있습니다. ⚖️
- 데이터 유출은 모델을 훈련 시키는 데 잘못된 정보를 제공하여 실제 성능을 왜곡한다. 🚷
- 클래스 불균형은 데이터의 샘플 비율이 심하게 차이가 있는 경우에 발생하여 모델의 성능을 저해합니다. ⚖️
- 결측치는 의미 있는 정보를 담고 있을 수 있으므로, 결측값 자체를 고려하거나 적절한 방법으로 메딩해야 합니다. 🔎
- 지표의 선택이 모델의 성능 평가에 큰 영향을 미치므로, 문제의 특성과 실제 세계의 영향력을 고려하여 적절한 지표를 선택해야 합니다. 🔬
- 오버피팅은 모델이 학습 데이터에 너무 적응하여 새로운 데이터에 대한 성능이 저하되는 현상입니다. 🫠
- 언더피팅은 모델이 데이터 패턴을 충분히 배우지 못하여 학습 데이터에도 성능이 낮은 현상입니다. 📉