[머신러닝+딥러닝 기초 강의] 13강. 트리의 앙상블
- 앙상블 알고리즘은 정형 데이터 처리에서 뛰어난 성능을 보이며, 캐글 등 데이터 과학 문제 해결에 널리 사용됩니다. 🏆
- 랜덤 포레스트는 훈련 세트의 랜덤 샘플링과 특성 랜덤 선택을 통해 다양한 트리를 생성하고 앙상블하여 일반화 성능을 높입니다. 🌳
- 엑스트라 트리는 부트스트랩 샘플링 대신 전체 샘플을 사용하고 노드 분할 시 무작위성을 더 주입하여 모델의 안정성을 높입니다. ➕
- 그레디언트 부스팅은 손실 함수를 줄이는 방향으로 트리를 순차적으로 추가하며, 러닝 레이트 조절을 통해 과대적합을 방지합니다. 📉
- 히스토그램 기반 그레디언트 부스팅은 특성값을 구간으로 나누어 모델 훈련 속도를 높이고 일반화 성능을 개선합니다. 📊
- 퍼뮤테이션 중요도는 특정 특성을 무작위로 섞었을 때 모델 성능 저하 정도를 측정하여 특성 중요도를 평가하는 방법입니다. 🔀
- XGBoost와 LightGBM은 히스토그램 기반 부스팅을 사용하는 대표적인 패키지로, 사이킷런과 유사한 인터페이스를 제공합니다. 🚀