과적합, 정규화, 조기 중단

랜덤 포레스트와 달리 경사 강화 트리는 과적합 가능성이 있습니다. 따라서 신경망에 적용할 수 있는 전압을 사용하여 정규화와 조기 중단을 학습 데이터 세트입니다.

예를 들어 다음 그림은 학습의 손실 및 정확도 곡선을 보여줍니다. GBT 모델을 학습시킬 때 검증세트와 간략하게 활용할 수 있습니다 곡선의 방향이 얼마나 다른지 확인 이는 과적합이 높음을 나타냅니다.

학습 손실과 검증 손실이 손실된 횟수와 비교하여
  결정 트리를 살펴보겠습니다. 학습 손실은 학습 손실이
  결정 트리가 증가하는 비율 하지만 검증 손실은 감소하기만 합니다.
  결정 트리가 약 40개나 됩니다. 40개 이상의 결정 트리가 있는
  검증 손실은 실제로 증가합니다. 400개의 결정 트리를 사용하면
  학습 손실과 검증 손실 사이의 격차는
  거대합니다.

<ph type="x-smartling-placeholder"></ph> 그림 29. 손실 대 결정 트리 수 를 통해 개인정보처리방침을 정의할 수 있습니다.

 

학습 정확성과 검증의 정확성과 검증의 정확성을
  결정 트리를 살펴보겠습니다. 학습의 정확성은
  결정 트리가 증가하여 400개에 달하는
  결정 트리를 살펴보겠습니다. 검증 정확도가 40%에서 약 0.86으로
  점차 약 0.83까지 떨어집니다
  수 있습니다.

<ph type="x-smartling-placeholder"></ph> 그림 30. 정확성과 결정 트리의 수 비교 를 통해 개인정보처리방침을 정의할 수 있습니다.

 

경사 강화 트리의 일반적인 정규화 매개변수는 다음과 같습니다.

  • 트리의 최대 깊이입니다.
  • 축소율입니다.
  • 각 노드에서 테스트된 속성의 비율입니다.
  • L1 및 L2 계수를 곱합니다.

결정 트리는 일반적으로 랜덤 포레스트보다 훨씬 얕게 성장합니다. 모델을 학습시키는 작업도 반복해야 합니다 기본적으로 TF-DF의 경사 강화 트리 트리는 깊이 6까지 커집니다. 트리가 얕기 때문에 리프당 최소 예시 수는 일반적으로 미세 조정되지 않습니다

검증 데이터 세트가 필요한 것은 학습 횟수가 예시가 적기 때문입니다. 따라서 경사 강화 트리를 학습시키고 교차 검증 루프 내에서 수행하거나 모델이 실패할 때 조기 중단을 과적합이 아닌 것으로 알려져 있습니다

사용 예

이전 장에서는 작은 데이터 세트에서 랜덤 포레스트를 학습시켰습니다. 이 예를 들어 랜덤 포레스트 모델을 수목 모델:

model = tfdf.keras.GradientBoostedTreesModel()

# Part of the training dataset will be used as validation (and removed
# from training).
model.fit(tf_train_dataset)

# The user provides the validation dataset.
model.fit(tf_train_dataset, validation_data=tf_valid_dataset)

# Disable early stopping and the validation dataset. All the examples are
# used for training.
model.fit(
   tf_train_dataset,
   validation_ratio=0.0,
   early_stopping="NONE")
# Note: When "validation_ratio=0", early stopping is automatically disabled,
# so early_stopping="NONE" is redundant here.

사용 및 제한사항

경사 강화 트리에는 몇 가지 장단점이 있습니다.

장점

  • 결정 트리와 마찬가지로 숫자 및 범주형 변수를 기본적으로 지원합니다. 특성 전처리가 필요 없는 경우가 많습니다
  • 경사 강화 트리에는 대개 우수한 성능을 제공하는 있습니다. 그럼에도 불구하고 이러한 초매개변수를 조정하면 모델을 개선할 수 있습니다
  • 경사 강화 트리 모델은 일반적으로 크기가 작아서 (노드 수 및 빠른 실행 속도 (종종 단 1마이크로 또는 몇 μs / 예시)에 이릅니다.

단점

  • 결정 트리는 순차적으로 학습되어야 하므로 학습 속도가 느려질 수 있음 크게 향상되었습니다. 그러나 학습 속도 저하는 모델 아키텍처의 결정 트리가 작아집니다.
  • 랜덤 포레스트와 마찬가지로 경사 강화 트리는 내부에서 학습하고 재사용할 수 없습니다. 나타냅니다. 각 결정 트리 (및 각 결정 트리의 각 브랜치) 데이터 세트 패턴을 다시 학습해야 합니다 일부 데이터 세트에서는 특히 비정형 데이터 (예: 이미지, 텍스트)로 인해 경사 강화가 발생하고 다른 방법에 비해 낮은 결과를 표시할 수 있습니다.