다음은 이 과정에서 배운 내용을 요약한 내용입니다.
- 결정 트리는 계층적으로 트리 모양으로 구성된 조건 모음으로 구성된 모델입니다. 조건은 여러 카테고리로 나뉩니다.
- 결정 트리를 학습시키려면 각 노드에서 최상의 조건을 검색하는 작업이 포함됩니다. splitter 루틴은 정보 획득 또는 Gini와 같은 측정항목을 사용하여 최상의 조건을 결정합니다.
- 결정 포레스트는 여러 결정 트리로 구성된 모드입니다. 결정 포레스트에 대한 예측은 결정 트리의 예측을 집계한 것입니다.
- 랜덤 포레스트는 결정 트리의 앙상블로, 각 결정 트리가 특정 랜덤 노이즈로 학습됩니다.
- 배깅은 랜덤 포레스트의 각 결정 트리가 다양한 예시 하위 집합을 학습하는 기법입니다.
- 랜덤 포레스트에는 검증 데이터 세트가 필요하지 않습니다. 대신 대부분의 임의 포레스트는 out-of-bag-evaluation이라는 기법을 사용하여 모델의 품질을 평가합니다.
- 경사 부스티드 (결정) 트리는 입력 결정 트리의 반복 조정을 통해 학습된 결정 포레스트 유형입니다. 축소라는 값은 경사 부스팅 (결정) 트리가 학습하는 속도와 과적합할 수 있는 정도를 제어합니다.
참조
- 그리디 함수 근사치: 경사 부스팅 머신, J. Friedman입니다.
- 통계적 학습의 요소, 트레버 헤이스티 10장.
- 일반 부스팅 모델: gbm 패키지 가이드, G. Ridgeway