Không giống như các khu rừng ngẫu nhiên, cây được tăng cường độ dốc có thể phù hợp hơn. Do đó, đối với mạng nơron, bạn có thể điều chỉnh và dừng sớm bằng cách sử dụng tập dữ liệu xác thực.
Ví dụ: những hình sau đây thể hiện các đường cong về mức độ mất mát và độ chính xác cho quá trình huấn luyện và bộ xác thực khi huấn luyện mô hình GBT. Chú ý cách các đường cong phân kỳ điều này cho thấy mức độ phù hợp cao.
Hình 29. Tỷ lệ tổn thất so với số lượng cây quyết định.
Hình 30. Độ chính xác so với số lượng cây quyết định.
Sau đây là các tham số điều chỉnh phổ biến cho cây được tăng cường độ dốc:
- Chiều sâu tối đa của cây.
- Mức độ co rút.
- Tỷ lệ thuộc tính được kiểm thử ở mỗi nút.
- hệ số L1 và L2 trên tổn thất.
Lưu ý rằng cây quyết định thường phát triển nông hơn nhiều so với rừng ngẫu nhiên người mẫu. Theo mặc định, cây tăng độ dốc trong TF-DF được phát triển đến độ sâu 6. Vì cây nông nên số lượng ví dụ tối thiểu trên mỗi lá chỉ có ít tác động và thường không được điều chỉnh.
Nhu cầu có một tập dữ liệu xác thực là một vấn đề khi số lượng khoá đào tạo ví dụ nhỏ. Do đó, người ta thường huấn luyện cây được tăng cường độ dốc bên trong vòng lặp xác thực chéo hoặc để vô hiệu hoá việc dừng sớm khi mô hình thường không được tập luyện quá mức.
Ví dụ về cách sử dụng
Trong chương trước, chúng ta đã huấn luyện một khu rừng ngẫu nhiên trên một tập dữ liệu nhỏ. Trong phần này ví dụ: chúng ta sẽ chỉ thay thế mô hình rừng ngẫu nhiên bằng hiệu ứng tăng độ dốc mô hình cây:
model = tfdf.keras.GradientBoostedTreesModel()
# Part of the training dataset will be used as validation (and removed
# from training).
model.fit(tf_train_dataset)
# The user provides the validation dataset.
model.fit(tf_train_dataset, validation_data=tf_valid_dataset)
# Disable early stopping and the validation dataset. All the examples are
# used for training.
model.fit(
tf_train_dataset,
validation_ratio=0.0,
early_stopping="NONE")
# Note: When "validation_ratio=0", early stopping is automatically disabled,
# so early_stopping="NONE" is redundant here.
Mức sử dụng và giới hạn
Cây được tăng dần độ dốc có một số ưu và nhược điểm.
Ưu điểm
- Giống như cây quyết định, các mô hình này vốn hỗ trợ dữ liệu số và phân loại và thường không cần xử lý trước tính năng.
- Cây được tăng cường độ dốc có siêu tham số mặc định thường mang lại kết quả. Tuy nhiên, việc điều chỉnh các siêu tham số đó có thể đáng kể để cải thiện mô hình này.
- Các mô hình cây được tăng cường chuyển màu thường nhỏ (về số nút và số lượng nút bộ nhớ) và chạy nhanh (thường chỉ là một hoặc vài μs / ví dụ).
Nhược điểm
- Cây quyết định phải được huấn luyện tuần tự, do đó có thể làm chậm quá trình huấn luyện một cách đáng kể. Tuy nhiên, việc giảm tốc độ huấn luyện phần nào được bù đắp bởi cây quyết định sẽ nhỏ hơn.
- Giống như những khu rừng ngẫu nhiên, cây được tăng cường độ dốc không thể học và sử dụng lại nội bộ đại diện. Mỗi cây quyết định (và mỗi nhánh của mỗi cây quyết định) phải tìm hiểu lại mẫu tập dữ liệu. Trong một số tập dữ liệu, đáng chú ý là tập dữ liệu có dữ liệu không có cấu trúc (ví dụ: hình ảnh, văn bản), điều này làm tăng độ dốc để cho thấy kết quả kém hơn các phương pháp khác.