데브허브 | DEVHUB | [머신러닝+딥러닝 기초 강의] 11강. 결정 트리[머신러닝+딥러닝 기초 강의] 11강. 결정 트리
- 결정 트리는 딥러닝을 제외한 전통 머신러닝 알고리즘 중 앙상블 모델의 기초가 되는 매우 중요한 알고리즘입니다. 🌳
- 로지스틱 회귀와 같은 선형 모델은 계수 해석이 어려워 '블랙박스' 문제에 직면하지만, 결정 트리는 플로우차트처럼 직관적으로 이해하기 쉬운 모델을 제공합니다. 📊
- 와인 데이터셋(레드/화이트 와인 분류)을 활용하여 모델을 구축하며, 데이터 전처리(결측치 확인, 통계 요약)의 중요성을 강조합니다. 🍷
- 결정 트리는 루트 노드에서 시작하여 리프 노드까지 가지를 뻗어나가며, 각 노드에서 특정 특성의 임계값을 기준으로 데이터를 이진 분할합니다. 🌿
- 노드 분할의 기준은 '지니 불순도'를 최소화하는 방향으로 이루어지며, 이는 샘플의 순도를 높이는 것을 목표로 합니다. 📉
- 결정 트리는 훈련 세트에 과대적합되기 쉬우므로,
max_depth와 같은 매개변수를 이용한 '가지치기(pruning)'를 통해 모델의 복잡도를 제어해야 합니다. ✂️
- 다른 많은 머신러닝 모델과 달리, 결정 트리는 특성 스케일링(표준화)이 필요 없어 원본 데이터를 그대로 사용하여 모델을 구축할 수 있습니다. ✨
- 각 특성이 모델의 결정에 얼마나 중요한 역할을 하는지 수치화된 '특성 중요도(feature importance)'를 제공하여 모델 해석에 도움을 줍니다. 💡
- 시각화를 통해 의사 결정 과정을 명확하게 파악할 수 있어, 비전문가도 모델의 작동 방식을 쉽게 이해할 수 있는 강력한 장점이 있습니다. 🖼️