Chủ đề khác

Bài này tìm hiểu các chủ đề sau:

  • diễn giải các khu rừng ngẫu nhiên
  • huấn luyện những khu rừng ngẫu nhiên
  • ưu và nhược điểm của những khu rừng ngẫu nhiên

Diễn giải các khu rừng ngẫu nhiên

Các khu rừng ngẫu nhiên phức tạp hơn việc diễn giải cây quyết định. Khu rừng ngẫu nhiên chứa cây quyết định được huấn luyện bằng nhiễu ngẫu nhiên. Do đó, khó khăn hơn đưa ra đánh giá về cấu trúc cây quyết định. Tuy nhiên, chúng ta có thể hiểu ngẫu nhiên mô hình rừng theo một số cách.

Một cách tiếp cận để diễn giải khu rừng ngẫu nhiên là huấn luyện và diễn giải cây quyết định bằng thuật toán CART. Vì cả rừng ngẫu nhiên và GIỎI đều được huấn luyện bằng cùng một thuật toán cốt lõi, chúng "có cùng góc nhìn toàn cầu" của tập dữ liệu. Tùy chọn này phù hợp với các tập dữ liệu đơn giản và để hiểu diễn giải tổng thể của mô hình.

Mức độ quan trọng thay đổi là một cách diễn giải hay khác phương pháp tiếp cận. Ví dụ: bảng sau đây xếp hạng mức độ quan trọng có thể thay đổi của các tính năng khác nhau cho mô hình rừng ngẫu nhiên được huấn luyện dựa trên Tập dữ liệu điều tra dân số (cũng là có tên là Người lớn).

Bảng 8. Tầm quan trọng khác nhau của 14 tính năng khác nhau.

Tính năng Tổng điểm Mức giảm độ chính xác trung bình Mức giảm trung bình về diện tích dưới đường cong ROC Độ sâu trung bình tối thiểu Số nút Mức giảm trung bình về PR-AUC Số là gốc
mối quan hệ

4203592,6

0,0045

0,0172

4,970

57040

0,0093

1095

capital_gain

3363045,1

0,0199

0,0194

2,852

56468

0,0655

457

marital_status

3128996,3

0,0018

0,0230

6,633

52391

0,0107

750

tuổi

2520658,8

0,0065

0,0074

4,969

356784

0,0033

200

giáo-dục

2015905,4

0,0018

-0,0080

5,266

115751

-0,0129

205

nghề nghiệp

1939409,3

0,0063

-0,0040

5,017

221935

-0,0060

62

education_num

1673648,4

0,0023

-0,0066

6,009

58303

-0,0080

197

fnlwgt

1564189,0

-0,0002

-0,0038

9,969

431987

-0,0049

0

hours_per_week

1333976,3

0,0030

0,0007

6,393

206526

-0,0031

20

capital_loss

866863,8

0,0060

0,0020

8,076

58531

0,0118

1

lớp học

644208,4

0,0025

-0,0019

9,898

132196

-0,0023

0

native_country

538841,2

0,0001

-0,0016

9,434

67211

-0,0058

0

tình dục

226049,3

0,0002

0,0002

10,911

37754

-0,0011

13

chủng tộc

168180,9

-0,0006

-0,0004

11,571

42262

-0,0031

0

Như bạn đã thấy, các định nghĩa khác nhau về tầm quan trọng thay đổi có các thang đo khác nhau và có thể dẫn đến sự khác biệt trong thứ hạng của các tính năng.

Tầm quan trọng của biến trong cấu trúc mô hình (ví dụ: tổng điểm, độ sâu trung bình tối thiểu, số nút và số làm căn bậc trong bảng trên) là được tính toán tương tự cho cây quyết định (xem phần "Giỏ hàng | Mức độ quan trọng biến") và những khu rừng ngẫu nhiên.

Tầm quan trọng của biến hoán vị (ví dụ: mức giảm trung bình về {độ chính xác, auc, pr-auc} trong bảng trên) là các số đo không phụ thuộc mô hình có thể được tính toán bất kỳ mô hình học máy nào có tập dữ liệu xác thực. Với khu rừng ngẫu nhiên, tuy nhiên, thay vì sử dụng tập dữ liệu xác thực, bạn có thể tính toán hoán vị thay đổi theo mức độ quan trọng bằng việc đánh giá ngay lập tức.

SHAP (SHapley Additive exPlanations) là một phương pháp không phụ thuộc vào mô hình giải thích từng dự đoán hoặc diễn giải theo mô hình. (Xem Công nghệ học máy có thể diễn giải của Molnar để giới thiệu cách diễn giải bất khả tri của mô hình). SHAP là thường rất đắt đỏ cho việc tính toán nhưng có thể tăng tốc đáng kể quyết định rừng quyết định, vì vậy đây là một cách tốt để diễn giải rừng quyết định.

Ví dụ về cách sử dụng

Trong bài học trước, chúng ta đã huấn luyện cây quyết định theo giá trị GIỎP trên một tập dữ liệu nhỏ bằng cách gọi tfdf.keras.CartModel. Để huấn luyện một mô hình rừng ngẫu nhiên, chỉ cần thay thế tfdf.keras.CartModel bằng tfdf.keras.RandomForestModel:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

Ưu và nhược điểm

Phần này chứa tóm tắt nhanh về các ưu và nhược điểm của các khu rừng ngẫu nhiên.

Ưu điểm:

  • Giống như cây quyết định, khu rừng ngẫu nhiên hỗ trợ nguồn dữ liệu và số các tính năng phân loại và thường không cần xử lý trước tính năng.
  • Vì cây quyết định là cây độc lập, nên các khu rừng ngẫu nhiên có thể được huấn luyện theo song song. Do đó, bạn có thể nhanh chóng huấn luyện những khu rừng ngẫu nhiên.
  • Rừng ngẫu nhiên có các tham số mặc định thường cho kết quả tuyệt vời. Chỉnh những tham số đó thường có ít ảnh hưởng đến mô hình.

Nhược điểm:

  • Vì cây quyết định không bị cắt tỉa nên chúng có thể có kích thước lớn. Mô hình với nhiều hơn thường có hơn 1 triệu nút. Kích thước (và do đó tốc độ suy luận) của khu rừng ngẫu nhiên đôi khi có thể là vấn đề.
  • Các khu rừng ngẫu nhiên không thể học và sử dụng lại các cách biểu diễn nội bộ. Một cây quyết định (và mỗi nhánh của mỗi cây quyết định) phải tìm hiểu lại mẫu tập dữ liệu. Trong một số tập dữ liệu, đáng chú ý là tập dữ liệu không phải dạng bảng (ví dụ: hình ảnh, văn bản), điều này sẽ dẫn đến các khu rừng ngẫu nhiên dẫn đến kết quả kém hơn các phương pháp khác.