데브허브 | DEVHUB | [머신러닝+딥러닝 기초 강의] 13강. 트리의 앙상블[머신러닝+딥러닝 기초 강의] 13강. 트리의 앙상블
- 앙상블 알고리즘은 대부분 트리 모델을 기반으로 하며, 특히 정형 데이터 처리에서 최고의 성능을 발휘합니다. 🌳
- 정형 데이터(CSV, 엑셀 등)는 전통적인 머신러닝 모델이, 비정형 데이터(이미지, 텍스트 등)는 딥러닝(신경망)이 주로 다룹니다. 📊↔️🖼️
- 랜덤 포레스트는 부트스트랩 샘플링(중복 허용 샘플링)과 노드 분할 시 무작위 특성 선택을 통해 다양하고 독립적인 트리를 생성합니다. 🌲🔄
- 랜덤 포레스트의 개별 트리는 성능이 낮을 수 있지만, 이들의 예측을 결합(앙상블)하여 높은 일반화 성능을 달성합니다. 🤝
- OOB(Out-of-Bag) 샘플은 부트스트랩에 사용되지 않은 데이터로, 별도의 검증 세트 없이 모델 성능을 효율적으로 평가하는 데 활용됩니다. 🎒
- 엑스트라 트리(Extra Trees)는 랜덤 포레스트와 유사하나, 전체 훈련 세트를 사용하고 노드 분할 시 무작위성을 더 주입하여 더 빠르게 트리를 생성합니다. ⚡
- 그래디언트 부스팅(Gradient Boosting)은 이전 트리의 오차를 점진적으로 개선하는 방식으로 트리를 순차적으로 추가하여 강력한 모델을 만듭니다. 📈
- 히스토그램 기반 그래디언트 부스팅(HistGradientBoosting)은 특성값을 히스토그램 구간으로 나누어 훈련 속도와 성능을 향상시키지만, 내장된 특성 중요도 계산 기능은 없습니다. 📉📊
- 퍼뮤테이션 중요도(Permutation Importance)는 특정 특성을 무작위로 섞었을 때 모델 성능 저하를 측정하여 특성 중요도를 파악하는 모델-불가지론적 방법입니다. 🔀
- XGBoost와 LightGBM은 그래디언트 부스팅의 전문적이고 고성능 구현체로, 사이킷런과 유사한 인터페이스를 제공하며 실제 문제 해결에 널리 사용됩니다. 🚀