Bài này tìm hiểu các chủ đề sau:
- diễn giải các khu rừng ngẫu nhiên
- huấn luyện những khu rừng ngẫu nhiên
- ưu và nhược điểm của những khu rừng ngẫu nhiên
Diễn giải các khu rừng ngẫu nhiên
Các khu rừng ngẫu nhiên phức tạp hơn việc diễn giải cây quyết định. Khu rừng ngẫu nhiên chứa cây quyết định được huấn luyện bằng nhiễu ngẫu nhiên. Do đó, khó khăn hơn đưa ra đánh giá về cấu trúc cây quyết định. Tuy nhiên, chúng ta có thể hiểu ngẫu nhiên mô hình rừng theo một số cách.
Một cách tiếp cận để diễn giải khu rừng ngẫu nhiên là huấn luyện và diễn giải cây quyết định bằng thuật toán CART. Vì cả rừng ngẫu nhiên và GIỎI đều được huấn luyện bằng cùng một thuật toán cốt lõi, chúng "có cùng góc nhìn toàn cầu" của tập dữ liệu. Tùy chọn này phù hợp với các tập dữ liệu đơn giản và để hiểu diễn giải tổng thể của mô hình.
Mức độ quan trọng thay đổi là một cách diễn giải hay khác phương pháp tiếp cận. Ví dụ: bảng sau đây xếp hạng mức độ quan trọng có thể thay đổi của các tính năng khác nhau cho mô hình rừng ngẫu nhiên được huấn luyện dựa trên Tập dữ liệu điều tra dân số (cũng là có tên là Người lớn).
Bảng 8. Tầm quan trọng khác nhau của 14 tính năng khác nhau.
Tính năng | Tổng điểm | Mức giảm độ chính xác trung bình | Mức giảm trung bình về diện tích dưới đường cong ROC | Độ sâu trung bình tối thiểu | Số nút | Mức giảm trung bình về PR-AUC | Số là gốc |
---|---|---|---|---|---|---|---|
mối quan hệ | 4203592,6 |
0,0045 |
0,0172 |
4,970 |
57040 |
0,0093 |
1095 |
capital_gain | 3363045,1 |
0,0199 |
0,0194 |
2,852 |
56468 |
0,0655 |
457 |
marital_status | 3128996,3 |
0,0018 |
0,0230 |
6,633 |
52391 |
0,0107 |
750 |
tuổi | 2520658,8 |
0,0065 |
0,0074 |
4,969 |
356784 |
0,0033 |
200 |
giáo-dục | 2015905,4 |
0,0018 |
-0,0080 |
5,266 |
115751 |
-0,0129 |
205 |
nghề nghiệp | 1939409,3 |
0,0063 |
-0,0040 |
5,017 |
221935 |
-0,0060 |
62 |
education_num | 1673648,4 |
0,0023 |
-0,0066 |
6,009 |
58303 |
-0,0080 |
197 |
fnlwgt | 1564189,0 |
-0,0002 |
-0,0038 |
9,969 |
431987 |
-0,0049 |
0 |
hours_per_week | 1333976,3 |
0,0030 |
0,0007 |
6,393 |
206526 |
-0,0031 |
20 |
capital_loss | 866863,8 |
0,0060 |
0,0020 |
8,076 |
58531 |
0,0118 |
1 |
lớp học | 644208,4 |
0,0025 |
-0,0019 |
9,898 |
132196 |
-0,0023 |
0 |
native_country | 538841,2 |
0,0001 |
-0,0016 |
9,434 |
67211 |
-0,0058 |
0 |
tình dục | 226049,3 |
0,0002 |
0,0002 |
10,911 |
37754 |
-0,0011 |
13 |
chủng tộc | 168180,9 |
-0,0006 |
-0,0004 |
11,571 |
42262 |
-0,0031 |
0 |
Như bạn đã thấy, các định nghĩa khác nhau về tầm quan trọng thay đổi có các thang đo khác nhau và có thể dẫn đến sự khác biệt trong thứ hạng của các tính năng.
Tầm quan trọng của biến trong cấu trúc mô hình (ví dụ: tổng điểm, độ sâu trung bình tối thiểu, số nút và số làm căn bậc trong bảng trên) là được tính toán tương tự cho cây quyết định (xem phần "Giỏ hàng | Mức độ quan trọng biến") và những khu rừng ngẫu nhiên.
Tầm quan trọng của biến hoán vị (ví dụ: mức giảm trung bình về {độ chính xác, auc, pr-auc} trong bảng trên) là các số đo không phụ thuộc mô hình có thể được tính toán bất kỳ mô hình học máy nào có tập dữ liệu xác thực. Với khu rừng ngẫu nhiên, tuy nhiên, thay vì sử dụng tập dữ liệu xác thực, bạn có thể tính toán hoán vị thay đổi theo mức độ quan trọng bằng việc đánh giá ngay lập tức.
SHAP (SHapley Additive exPlanations) là một phương pháp không phụ thuộc vào mô hình giải thích từng dự đoán hoặc diễn giải theo mô hình. (Xem Công nghệ học máy có thể diễn giải của Molnar để giới thiệu cách diễn giải bất khả tri của mô hình). SHAP là thường rất đắt đỏ cho việc tính toán nhưng có thể tăng tốc đáng kể quyết định rừng quyết định, vì vậy đây là một cách tốt để diễn giải rừng quyết định.
Ví dụ về cách sử dụng
Trong bài học trước, chúng ta đã huấn luyện cây quyết định theo giá trị GIỎP trên một tập dữ liệu nhỏ
bằng cách gọi tfdf.keras.CartModel
. Để huấn luyện một mô hình rừng ngẫu nhiên,
chỉ cần thay thế tfdf.keras.CartModel
bằng tfdf.keras.RandomForestModel
:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
Ưu và nhược điểm
Phần này chứa tóm tắt nhanh về các ưu và nhược điểm của các khu rừng ngẫu nhiên.
Ưu điểm:
- Giống như cây quyết định, khu rừng ngẫu nhiên hỗ trợ nguồn dữ liệu và số các tính năng phân loại và thường không cần xử lý trước tính năng.
- Vì cây quyết định là cây độc lập, nên các khu rừng ngẫu nhiên có thể được huấn luyện theo song song. Do đó, bạn có thể nhanh chóng huấn luyện những khu rừng ngẫu nhiên.
- Rừng ngẫu nhiên có các tham số mặc định thường cho kết quả tuyệt vời. Chỉnh những tham số đó thường có ít ảnh hưởng đến mô hình.
Nhược điểm:
- Vì cây quyết định không bị cắt tỉa nên chúng có thể có kích thước lớn. Mô hình với nhiều hơn thường có hơn 1 triệu nút. Kích thước (và do đó tốc độ suy luận) của khu rừng ngẫu nhiên đôi khi có thể là vấn đề.
- Các khu rừng ngẫu nhiên không thể học và sử dụng lại các cách biểu diễn nội bộ. Một cây quyết định (và mỗi nhánh của mỗi cây quyết định) phải tìm hiểu lại mẫu tập dữ liệu. Trong một số tập dữ liệu, đáng chú ý là tập dữ liệu không phải dạng bảng (ví dụ: hình ảnh, văn bản), điều này sẽ dẫn đến các khu rừng ngẫu nhiên dẫn đến kết quả kém hơn các phương pháp khác.