Trang này được dịch bởi Cloud Translation API.

Chủ đề khác

Bài này tìm hiểu các chủ đề sau:

diễn giải các khu rừng ngẫu nhiên
huấn luyện những khu rừng ngẫu nhiên
ưu và nhược điểm của những khu rừng ngẫu nhiên

Diễn giải các khu rừng ngẫu nhiên

Các khu rừng ngẫu nhiên phức tạp hơn việc diễn giải cây quyết định. Khu rừng ngẫu nhiên chứa cây quyết định được huấn luyện bằng nhiễu ngẫu nhiên. Do đó, khó khăn hơn đưa ra đánh giá về cấu trúc cây quyết định. Tuy nhiên, chúng ta có thể hiểu ngẫu nhiên mô hình rừng theo một số cách.

Một cách tiếp cận để diễn giải khu rừng ngẫu nhiên là huấn luyện và diễn giải cây quyết định bằng thuật toán CART. Vì cả rừng ngẫu nhiên và GIỎI đều được huấn luyện bằng cùng một thuật toán cốt lõi, chúng "có cùng góc nhìn toàn cầu" của tập dữ liệu. Tùy chọn này phù hợp với các tập dữ liệu đơn giản và để hiểu diễn giải tổng thể của mô hình.

Mức độ quan trọng thay đổi là một cách diễn giải hay khác phương pháp tiếp cận. Ví dụ: bảng sau đây xếp hạng mức độ quan trọng có thể thay đổi của các tính năng khác nhau cho mô hình rừng ngẫu nhiên được huấn luyện dựa trên Tập dữ liệu điều tra dân số (cũng là có tên là Người lớn).

Bảng 8. Tầm quan trọng khác nhau của 14 tính năng khác nhau.

Tính năng	Tổng điểm	Mức giảm độ chính xác trung bình	Mức giảm trung bình về diện tích dưới đường cong ROC	Độ sâu trung bình tối thiểu	Số nút	Mức giảm trung bình về PR-AUC	Số là gốc
mối quan hệ	4203592,6	0,0045	0,0172	4,970	57040	0,0093	1095
capital_gain	3363045,1	0,0199	0,0194	2,852	56468	0,0655	457
marital_status	3128996,3	0,0018	0,0230	6,633	52391	0,0107	750
tuổi	2520658,8	0,0065	0,0074	4,969	356784	0,0033	200
giáo-dục	2015905,4	0,0018	-0,0080	5,266	115751	-0,0129	205
nghề nghiệp	1939409,3	0,0063	-0,0040	5,017	221935	-0,0060	62
education_num	1673648,4	0,0023	-0,0066	6,009	58303	-0,0080	197
fnlwgt	1564189,0	-0,0002	-0,0038	9,969	431987	-0,0049	0
hours_per_week	1333976,3	0,0030	0,0007	6,393	206526	-0,0031	20
capital_loss	866863,8	0,0060	0,0020	8,076	58531	0,0118	1
lớp học	644208,4	0,0025	-0,0019	9,898	132196	-0,0023	0
native_country	538841,2	0,0001	-0,0016	9,434	67211	-0,0058	0
tình dục	226049,3	0,0002	0,0002	10,911	37754	-0,0011	13
chủng tộc	168180,9	-0,0006	-0,0004	11,571	42262	-0,0031	0

Như bạn đã thấy, các định nghĩa khác nhau về tầm quan trọng thay đổi có các thang đo khác nhau và có thể dẫn đến sự khác biệt trong thứ hạng của các tính năng.

Tầm quan trọng của biến trong cấu trúc mô hình (ví dụ: tổng điểm, độ sâu trung bình tối thiểu, số nút và số làm căn bậc trong bảng trên) là được tính toán tương tự cho cây quyết định (xem phần "Giỏ hàng | Mức độ quan trọng biến") và những khu rừng ngẫu nhiên.

Tầm quan trọng của biến hoán vị (ví dụ: mức giảm trung bình về {độ chính xác, auc, pr-auc} trong bảng trên) là các số đo không phụ thuộc mô hình có thể được tính toán bất kỳ mô hình học máy nào có tập dữ liệu xác thực. Với khu rừng ngẫu nhiên, tuy nhiên, thay vì sử dụng tập dữ liệu xác thực, bạn có thể tính toán hoán vị thay đổi theo mức độ quan trọng bằng việc đánh giá ngay lập tức.

SHAP (SHapley Additive exPlanations) là một phương pháp không phụ thuộc vào mô hình giải thích từng dự đoán hoặc diễn giải theo mô hình. (Xem Công nghệ học máy có thể diễn giải của Molnar để giới thiệu cách diễn giải bất khả tri của mô hình). SHAP là thường rất đắt đỏ cho việc tính toán nhưng có thể tăng tốc đáng kể quyết định rừng quyết định, vì vậy đây là một cách tốt để diễn giải rừng quyết định.

Ví dụ về cách sử dụng

Trong bài học trước, chúng ta đã huấn luyện cây quyết định theo giá trị GIỎP trên một tập dữ liệu nhỏ bằng cách gọi tfdf.keras.CartModel. Để huấn luyện một mô hình rừng ngẫu nhiên, chỉ cần thay thế tfdf.keras.CartModel bằng tfdf.keras.RandomForestModel:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

Ưu và nhược điểm

Phần này chứa tóm tắt nhanh về các ưu và nhược điểm của các khu rừng ngẫu nhiên.

Ưu điểm:

Giống như cây quyết định, khu rừng ngẫu nhiên hỗ trợ nguồn dữ liệu và số các tính năng phân loại và thường không cần xử lý trước tính năng.
Vì cây quyết định là cây độc lập, nên các khu rừng ngẫu nhiên có thể được huấn luyện theo song song. Do đó, bạn có thể nhanh chóng huấn luyện những khu rừng ngẫu nhiên.
Rừng ngẫu nhiên có các tham số mặc định thường cho kết quả tuyệt vời. Chỉnh những tham số đó thường có ít ảnh hưởng đến mô hình.

Nhược điểm:

Vì cây quyết định không bị cắt tỉa nên chúng có thể có kích thước lớn. Mô hình với nhiều hơn thường có hơn 1 triệu nút. Kích thước (và do đó tốc độ suy luận) của khu rừng ngẫu nhiên đôi khi có thể là vấn đề.
Các khu rừng ngẫu nhiên không thể học và sử dụng lại các cách biểu diễn nội bộ. Một cây quyết định (và mỗi nhánh của mỗi cây quyết định) phải tìm hiểu lại mẫu tập dữ liệu. Trong một số tập dữ liệu, đáng chú ý là tập dữ liệu không phải dạng bảng (ví dụ: hình ảnh, văn bản), điều này sẽ dẫn đến các khu rừng ngẫu nhiên dẫn đến kết quả kém hơn các phương pháp khác.

Đánh giá ngoài túi

Tiếp

Giới thiệu