다음은 과정에서 배운 내용을 요약한 내용입니다.
- 결정 트리는 트리 모양으로 계층적으로 구성된 조건 모음으로 구성된 모델입니다. 조건은 다음과 같은 다양한 카테고리로 분류됩니다.
- 결정 트리를 학습하려면 각 노드에서 최적의 조건을 검색해야 합니다. 분할자 루틴은 정보 이득 또는 지니와 같은 측정항목을 사용하여 최적의 조건을 결정합니다.
- 결정 포레스트는 여러 결정 트리로 구성된 모드입니다. 결정 포레스트의 예측은 결정 트리의 예측을 집계한 것입니다.
- 랜덤 포레스트는 각 결정 트리가 특정 랜덤 노이즈로 학습된 결정 트리의 집합입니다.
- Bagging은 랜덤 포레스트의 각 결정 트리를 서로 다른 예시 하위 집합으로 학습하는 기술입니다.
- 랜덤 포리스트에는 검증 데이터 세트가 필요하지 않습니다. 대신 대부분의 무작위 포레스트는 out-of-bag-evaluation라는 기법을 사용하여 모델의 품질을 평가합니다.
- 경사 강화 (결정) 트리는 입력 결정 트리의 반복적인 조정을 통해 학습된 결정 포레스트의 한 유형입니다. 축소라는 값은 경사 강화 (결정) 트리의 학습 속도와 오버핏될 수 있는 정도를 제어합니다.
참조
- 탐욕스러운 함수 근사: 경사 부스팅 머신, J. Friedman.
- The Elements of Statistical Learning, Trevor Hastie. 10장
- 일반화된 부스트 모델: gbm 패키지 가이드, G. Ridgeway