이 페이지에는 결정 포레스트 용어집 용어가 포함되어 있습니다. 모든 용어집 용어는 여기를 클릭하세요.
A
속성 샘플링
각 결정 트리가 조건을 학습할 때 가능한 특성의 무작위 하위 집합만 고려하는 결정 포레스트를 학습하기 위한 전략입니다. 일반적으로 각 노드에 대해 서로 다른 특성 하위 집합이 샘플링됩니다. 반면 속성 샘플링 없이 결정 트리를 학습할 때는 각 노드에 가능한 모든 특성이 고려됩니다.
축 정렬 조건
결정 트리에서 단일 지형지물만 포함된 조건 예를 들어 area
가 지형지물인 경우 다음은 축에 정렬된 조건입니다.
area > 200
경사 조건과 대비되는 개념입니다.
B
bagging
각 구성 모델이 대체 샘플링된 학습 예시의 무작위 하위 집합에서 학습하는 앙상블을 학습하는 방법입니다. 예를 들어 랜덤 포레스트는 bagging으로 학습된 결정 트리 모음입니다.
bagging은 bootstrap aggregating의 줄임말입니다.
자세한 내용은 의사결정 트리 과정의 무작위 포리를 참고하세요.
바이너리 조건
결정 트리에서 가능한 결과가 두 가지(일반적으로 예 또는 아니요)인 조건입니다. 예를 들어 다음은 이진 조건입니다.
temperature >= 100
비바이너리 조건과 대비되는 개념입니다.
자세한 내용은 결정 트리 과정의 조건 유형을 참고하세요.
C
조건
결정 트리에서 표현식을 평가하는 노드입니다. 예를 들어 다음과 같은 의사결정 트리에는 두 가지 조건이 포함되어 있습니다.
조건은 분할 또는 테스트라고도 합니다.
잎과 대비되는 조건입니다.
관련 주제에 대한 추가 정보
자세한 내용은 결정 트리 과정의 조건 유형을 참고하세요.
D
결정 포레스트
여러 개의 결정 트리에서 생성된 모델입니다. 결정 포레스트는 결정 트리의 예측을 집계하여 예측합니다. 인기 있는 의사결정 포레스트 유형에는 랜덤 포레스트와 경사 부스팅 트리가 있습니다.
자세한 내용은 결정 트리 과정의 결정 트리 섹션을 참고하세요.
결정 트리
계층적으로 구성된 조건 및 리프의 집합으로 구성된 지도 학습 모델입니다. 다음은 의사 결정 트리의 예입니다.
E
엔트로피
정보 이론에서 확률 분포가 얼마나 예측할 수 없는지에 관한 설명입니다. 또는 엔트로피는 각 예시에 포함된 정보의 양으로 정의할 수도 있습니다. 확률 분포는 랜덤 변수의 모든 값이 동일한 확률을 보일 때 최대 엔트로피를 갖습니다.
가능한 두 값인 '0'과 '1'이 있는 집합의 엔트로피(예: 이진 분류 문제의 라벨)는 다음과 같은 수식을 갖습니다.
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
각 항목의 의미는 다음과 같습니다.
- H는 엔트로피입니다.
- p는 '1' 예시의 비율입니다.
- q는 '0' 예시의 비율입니다. q = (1 - p)입니다.
- log는 일반적으로 log2입니다. 이 경우 엔트로피 단위는 비트입니다.
예를 들어 다음을 가정합니다.
- 100개의 예시가 '1' 값을 포함합니다.
- 300개의 예시가 '0' 값을 포함합니다.
따라서 엔트로피 값은 다음과 같습니다.
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81비트/예시
완벽하게 균형 잡힌 세트 (예: 200개의 '0'과 200개의 '1')의 경우 예당 엔트로피가 1.0비트입니다. 집합이 불균형해질수록 엔트로피는 0.0으로 이동합니다.
결정 트리에서 엔트로피는 정보 이득을 공식화하는 데 도움이 되며, 이를 통해 분할자가 분류 결정 트리가 성장하는 동안 조건을 선택할 수 있습니다.
엔트로피를 다음과 비교하세요.
- gini impurity
- 교차 엔트로피 손실 함수
엔트로피는 흔히 섀넌의 엔트로피라고 합니다.
자세한 내용은 결정 트리 과정의 숫자 특성이 있는 이진 분류를 위한 정확한 분할자를 참고하세요.
F
특성 중요도
변수 중요도의 동의어입니다.
G
gini impurity
엔트로피와 유사한 측정항목입니다. 분할자는 지니 불순도 또는 엔트로피에서 파생된 값을 사용하여 분류 의사결정 트리의 조건을 구성합니다. 정보 이득은 엔트로피에서 파생됩니다. 지니 불순도에서 파생된 측정항목에 대해 보편적으로 인정되는 등가 용어는 없습니다. 그러나 이 이름 없는 측정항목은 정보 이득만큼이나 중요합니다.
지니 불순도는 지니 계수 또는 간단히 지니라고도 합니다.
그래디언트 부스팅 (의사 결정) 트리 (GBT)
다음과 같은 결정 포레스트 유형입니다.
자세한 내용은 결정 트리 과정의 경사 부스트 결정 트리를 참고하세요.
경사 부스팅
약한 모델을 학습하여 강한 모델의 품질을 반복적으로 개선 (손실 감소)하는 학습 알고리즘입니다. 예를 들어 선형 모델이나 소규모 결정 트리 모델은 약한 모델일 수 있습니다. 강력한 모델은 이전에 학습된 모든 약한 모델의 합계가 됩니다.
가장 단순한 형태의 경사 부스팅에서는 각 반복마다 약한 모델이 강한 모델의 손실 경사를 예측하도록 학습됩니다. 그런 다음 경사 하강과 마찬가지로 예측된 경사를 빼서 강력한 모델의 출력이 업데이트됩니다.
각 항목의 의미는 다음과 같습니다.
- $F_{0}$ 은 시작 강력한 모델입니다.
- $F_{i+1}$ 은 다음 강력한 모델입니다.
- $F_{i}$ 는 현재 강력한 모델입니다.
- $\xi$ 는 0.0과 1.0 사이의 값으로 축소라고 하며, 이는 경사 하강의 학습률과 유사합니다.
- $f_{i}$ 는 $F_{i}$의 손실 기울기를 예측하도록 학습된 약한 모델입니다.
최신 변형의 경사 부스팅은 계산에 손실의 2차 미분(헤시안)도 포함합니다.
결정 트리는 일반적으로 경사 부스팅에서 약한 모델로 사용됩니다. 경사 강화 (의사 결정) 트리를 참고하세요.
I
추론 경로
결정 트리에서 추론 중에 특정 예시가 루트에서 다른 조건으로 이동하는 경로로, 잎으로 끝납니다. 예를 들어 다음 결정 트리에서 더 두꺼운 화살표는 다음과 같은 특성 값이 있는 예시의 추론 경로를 보여줍니다.
- x = 7
- y = 12
- z = -3
다음 그림의 추론 경로는 리프 (Zeta
)에 도달하기 전에 세 조건을 거칩니다.
굵은 화살표 세 개는 추론 경로를 나타냅니다.
자세한 내용은 결정 트리 과정의 결정 트리를 참고하세요.
정보 획득
의사결정 트리에서 노드의 엔트로피와 하위 노드의 엔트로피의 가중치 (예수에 따라) 합계 간의 차이입니다. 노드의 엔트로피는 해당 노드의 예시의 엔트로피입니다.
예를 들어 다음 엔트로피 값을 고려해 보겠습니다.
- 상위 노드의 엔트로피 = 0.6
- 관련 예시가 16개인 하위 노드의 엔트로피 = 0.2
- 관련 예시가 24개인 다른 하위 노드의 엔트로피 = 0.1
따라서 예시의 40% 는 한 하위 노드에 있고 60% 는 다른 하위 노드에 있습니다. 따라서 날짜는 다음과 같이 계산합니다.
- 하위 노드의 가중치 엔트로피 합계 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
따라서 정보 이득은 다음과 같습니다.
- 정보 이득 = 상위 노드의 엔트로피 - 하위 노드의 가중치 엔트로피 합계
- 정보 이득 = 0.6 - 0.14 = 0.46
대부분의 분할자는 정보 이득을 극대화하는 조건을 만들려고 합니다.
in-set 조건
결정 트리에서 항목 집합에 항목 하나가 있는지 테스트하는 조건입니다. 예를 들어 다음은 인셋 조건입니다.
house-style in [tudor, colonial, cape]
추론 중에 주택 스타일 지형지물의 값이 tudor
, colonial
또는 cape
이면 이 조건은 '예'로 평가됩니다. 주택 스타일 지형지물의 값이 다른 값 (예: ranch
)인 경우 이 조건은 '아니요'로 평가됩니다.
인셋 조건은 일반적으로 원-핫 인코딩된 특성을 테스트하는 조건보다 더 효율적인 결정 트리를 생성합니다.
L
잎
결정 트리의 모든 엔드포인트 잎은 조건과 달리 테스트를 실행하지 않습니다. 리프는 가능한 예측입니다. 리프는 추론 경로의 터미널 노드이기도 합니다.
예를 들어 다음 결정 트리에는 세 개의 리프가 포함되어 있습니다.
N
노드 (결정 트리)
논바이너리 조건
가능한 결과가 2개 이상인 조건입니다. 예를 들어 다음과 같은 비바이너리 조건에는 세 가지 가능한 결과가 포함됩니다.
O
경사 조건
결정 트리에서 두 개 이상의 기능이 포함된 조건입니다. 예를 들어 높이와 너비가 모두 지형지물인 경우 다음은 경사 조건입니다.
height > width
축에 정렬된 조건과 대비되는 개념입니다.
오프백 평가 (OOB 평가)
각 결정 트리를 해당 결정 트리의 학습 중에 사용되지 않은 예시를 기준으로 테스트하여 학습 포레스트의 품질을 평가하는 메커니즘입니다. 예를 들어 다음 다이어그램에서 시스템은 약 3분의 2의 예시에서 각 결정 트리를 학습한 후 나머지 3분의 1의 예시를 기준으로 평가합니다.
오프백 평가는 교차 검증 메커니즘의 계산상 효율적이고 보수적인 근사치입니다. 교차 검증에서는 교차 검증 라운드마다 하나의 모델이 학습됩니다(예: 10배 교차 검증에서는 10개의 모델이 학습됨). OOB 평가에서는 단일 모델이 학습됩니다. 배깅은 학습 중에 각 트리의 일부 데이터를 보류하므로 OOB 평가에서 이 데이터를 사용하여 교차 검증을 추정할 수 있습니다.
P
순열 변수 중요도
특성 값을 순열한 후 모델의 예측 오류 증가를 평가하는 변수 중요도의 한 유형입니다. 순열 변수 중요도는 모델과 무관한 측정항목입니다.
R
랜덤 포레스트
각 결정 트리가 백깅과 같은 특정 무작위 노이즈로 학습되는 결정 트리의 앙상블입니다.
랜덤 포레스트는 결정 포레스트의 한 유형입니다.
root
의사결정 트리의 시작 노드 (첫 번째 조건)입니다. 일반적으로 다이어그램은 루트를 결정 트리의 맨 위에 배치합니다. 예를 들면 다음과 같습니다.
S
교체 샘플링
동일한 항목을 여러 번 선택할 수 있는 후보 항목 집합에서 항목을 선택하는 메서드입니다. '대체 포함'이라는 문구는 선택할 때마다 선택한 항목이 후보 항목 풀로 반환된다는 의미입니다. 반대 방법인 대체 없이 샘플링은 후보 항목을 한 번만 선택할 수 있음을 의미합니다.
예를 들어 다음과 같은 과일 세트를 생각해 보겠습니다.
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
시스템이 fig
를 첫 번째 항목으로 무작위로 선택한다고 가정해 보겠습니다.
대체 샘플링을 사용하는 경우 시스템은 다음 세트에서 두 번째 항목을 선택합니다.
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
예, 이전과 동일한 세트이므로 시스템에서 fig
를 다시 선택할 수 있습니다.
대체 없이 샘플링을 사용하는 경우 한 번 선택한 샘플은 다시 선택할 수 없습니다. 예를 들어 시스템이 fig
를 첫 번째 샘플로 무작위로 선택하면 fig
는 다시 선택할 수 없습니다. 따라서 시스템은 다음과 같은 (축소된) 집합에서 두 번째 샘플을 선택합니다.
fruit = {kiwi, apple, pear, cherry, lime, mango}
축소
경사 부스팅의 초매개변수로, 오버피팅을 제어합니다. 경사 부스팅의 수축은 경사하강법의 학습률과 유사합니다. 수축은 0.0과 1.0 사이의 십진수 값입니다. 값이 작을수록 과적합이 줄어듭니다.
분할
분할기
결정 트리를 학습하는 동안 각 노드에서 최적의 조건을 찾는 루틴(및 알고리즘)입니다.
T
테스트
임곗값 (결정 트리용)
축 정렬 조건에서 지형지물이 비교되는 값입니다. 예를 들어 다음 조건에서 75는 임곗값입니다.
grade >= 75
V
변수 중요도
모델에 대한 각 특성의 상대적 중요도를 나타내는 점수 집합입니다.
예를 들어 주택 가격을 추정하는 의사 결정 트리를 생각해 보겠습니다. 이 결정 트리에서 크기, 연령, 스타일이라는 세 가지 특징을 사용한다고 가정해 보겠습니다. 세 가지 특성에 대한 변수 중요성 집합이 {size=5.8, age=2.5, style=4.7}으로 계산되면 크기가 연령이나 스타일보다 결정 트리에 더 중요합니다.
ML 전문가에게 모델의 다양한 측면을 알릴 수 있는 다양한 변수 중요도 측정항목이 있습니다.
W
군중의 지혜
많은 수의 사용자 ('군중')의 의견이나 추정치를 평균하면 놀라울 정도로 좋은 결과를 얻을 수 있다는 개념입니다. 예를 들어 사람들이 큰 병에 담긴 젤리 빈의 수를 추측하는 게임을 생각해 보세요. 대부분의 개별 추측은 부정확하지만 모든 추측의 평균은 실험적으로 항아리에 있는 실제 젤리 빈 수에 놀라울 정도로 근접한 것으로 나타났습니다.
앙상블은 군중의 지혜에 상응하는 소프트웨어입니다. 개별 모델이 매우 부정확한 예측을 하더라도 여러 모델의 예측을 평균하면 놀라울 정도로 정확한 예측이 나오는 경우가 많습니다. 예를 들어 개별 결정 트리는 예측이 좋지 않을 수 있지만 결정 포레스트는 종종 매우 정확한 예측을 합니다.