Tình trạng quá mức, điều chỉnh quá mức và dừng sớm

Không giống như các khu rừng ngẫu nhiên, cây được tăng cường độ dốc có thể phù hợp hơn. Do đó, đối với mạng nơron, bạn có thể điều chỉnh và dừng sớm bằng cách sử dụng tập dữ liệu xác thực.

Ví dụ: những hình sau đây thể hiện các đường cong về mức độ mất mát và độ chính xác cho quá trình huấn luyện và bộ xác thực khi huấn luyện mô hình GBT. Chú ý cách các đường cong phân kỳ điều này cho thấy mức độ phù hợp cao.

Biểu đồ về số lượng dữ liệu bị mất trong quá trình huấn luyện và số lượng dữ liệu xác thực bị mất so với số lượng
  cây quyết định. Số lần mất tập luyện giảm dần theo số lượng
  của cây quyết định tăng lên. Tuy nhiên, số lần mất kết quả xác thực chỉ làm giảm
  cho đến khoảng 40 cây quyết định. Với hơn 40 cây quyết định,
  thực sự tăng lên. Với 400 cây quyết định,
  khoảng cách giữa mất huấn luyện và mất xác thực là
  rất lớn.

Hình 29. Tỷ lệ tổn thất so với số lượng cây quyết định.

 

Biểu đồ về độ chính xác của huấn luyện và độ chính xác xác thực so với số lượng
  cây quyết định. Độ chính xác của huấn luyện tăng dần theo số lượng
  cây quyết định tăng, đạt đến đỉnh điểm gần 1.0 ở 400
  cây quyết định. Độ chính xác xác thực tăng lên khoảng 0,86 ở 40
  cây quyết định, sau đó giảm dần xuống khoảng 0,83 lúc 400
  cây xanh.

Hình 30. Độ chính xác so với số lượng cây quyết định.

 

Sau đây là các tham số điều chỉnh phổ biến cho cây được tăng cường độ dốc:

  • Chiều sâu tối đa của cây.
  • Mức độ co rút.
  • Tỷ lệ thuộc tính được kiểm thử ở mỗi nút.
  • hệ số L1 và L2 trên tổn thất.

Lưu ý rằng cây quyết định thường phát triển nông hơn nhiều so với rừng ngẫu nhiên người mẫu. Theo mặc định, cây tăng độ dốc trong TF-DF được phát triển đến độ sâu 6. Vì cây nông nên số lượng ví dụ tối thiểu trên mỗi lá chỉ có ít tác động và thường không được điều chỉnh.

Nhu cầu có một tập dữ liệu xác thực là một vấn đề khi số lượng khoá đào tạo ví dụ nhỏ. Do đó, người ta thường huấn luyện cây được tăng cường độ dốc bên trong vòng lặp xác thực chéo hoặc để vô hiệu hoá việc dừng sớm khi mô hình thường không được tập luyện quá mức.

Ví dụ về cách sử dụng

Trong chương trước, chúng ta đã huấn luyện một khu rừng ngẫu nhiên trên một tập dữ liệu nhỏ. Trong phần này ví dụ: chúng ta sẽ chỉ thay thế mô hình rừng ngẫu nhiên bằng hiệu ứng tăng độ dốc mô hình cây:

model = tfdf.keras.GradientBoostedTreesModel()

# Part of the training dataset will be used as validation (and removed
# from training).
model.fit(tf_train_dataset)

# The user provides the validation dataset.
model.fit(tf_train_dataset, validation_data=tf_valid_dataset)

# Disable early stopping and the validation dataset. All the examples are
# used for training.
model.fit(
   tf_train_dataset,
   validation_ratio=0.0,
   early_stopping="NONE")
# Note: When "validation_ratio=0", early stopping is automatically disabled,
# so early_stopping="NONE" is redundant here.

Mức sử dụng và giới hạn

Cây được tăng dần độ dốc có một số ưu và nhược điểm.

Ưu điểm

  • Giống như cây quyết định, các mô hình này vốn hỗ trợ dữ liệu số và phân loại và thường không cần xử lý trước tính năng.
  • Cây được tăng cường độ dốc có siêu tham số mặc định thường mang lại kết quả. Tuy nhiên, việc điều chỉnh các siêu tham số đó có thể đáng kể để cải thiện mô hình này.
  • Các mô hình cây được tăng cường chuyển màu thường nhỏ (về số nút và số lượng nút bộ nhớ) và chạy nhanh (thường chỉ là một hoặc vài μs / ví dụ).

Nhược điểm

  • Cây quyết định phải được huấn luyện tuần tự, do đó có thể làm chậm quá trình huấn luyện một cách đáng kể. Tuy nhiên, việc giảm tốc độ huấn luyện phần nào được bù đắp bởi cây quyết định sẽ nhỏ hơn.
  • Giống như những khu rừng ngẫu nhiên, cây được tăng cường độ dốc không thể học và sử dụng lại nội bộ đại diện. Mỗi cây quyết định (và mỗi nhánh của mỗi cây quyết định) phải tìm hiểu lại mẫu tập dữ liệu. Trong một số tập dữ liệu, đáng chú ý là tập dữ liệu có dữ liệu không có cấu trúc (ví dụ: hình ảnh, văn bản), điều này làm tăng độ dốc để cho thấy kết quả kém hơn các phương pháp khác.