Chủ đề khác

Chương này kiểm tra những chủ đề sau:

  • diễn giải khu rừng ngẫu nhiên
  • huấn luyện rừng ngẫu nhiên
  • ưu và nhược điểm của khu rừng ngẫu nhiên

Diễn giải khu rừng ngẫu nhiên

Rừng ngẫu nhiên sẽ khó diễn giải hơn so với cây quyết định. Rừng ngẫu nhiên chứa cây quyết định được huấn luyện bằng tiếng ồn ngẫu nhiên. Do đó, khó có thể đánh giá cấu trúc cây quyết định hơn. Tuy nhiên, chúng ta có thể diễn giải các mô hình rừng ngẫu nhiên theo một số cách.

Một cách tiếp cận để diễn giải một khu rừng ngẫu nhiên chỉ đơn giản là huấn luyện và diễn giải cây quyết định bằng thuật toán CART. Vì cả rừng ngẫu nhiên và CART đều được đào tạo bằng cùng một thuật toán cốt lõi nên chúng thường sử dụng cùng một chế độ xem chung và mọi tập dữ liệu. Tuỳ chọn này hoạt động tốt đối với các tập dữ liệu đơn giản và để hiểu cách diễn giải tổng thể của mô hình.

Mức độ quan trọng của biến là một cách tiếp cận dễ hiểu khác. Ví dụ: bảng sau đây xếp hạng tầm quan trọng của các tính năng khác nhau đối với một mô hình rừng ngẫu nhiên được huấn luyện trên tập dữ liệu điều tra dân số (còn gọi là Người lớn).

Bảng 8. Tầm quan trọng của 14 tính năng khác nhau.

Tính năng Điểm tổng Mức độ chính xác giảm trung bình Mức giảm trung bình của AUC Độ sâu tối thiểu trung bình Phím số Mức giảm trung bình của PR-AUC Số là gốc
mối quan hệ

4203592,6

0,0045

0,0172

4.970

57040

0,0093

1095

hoa_ tất

3363045,1

0,0199

0,0194

2.852

56468

0,0655

457

tình_trạng_trong_marital

3128996,3

0,0018

0,0230

6.633

52391

0,0107

750

tuổi

2520658,8

0,0065

0,0074

4.969

356784

0,0033

200

giáo-dục

2015905,4

0,0018

-0,0080

5,266

115751

-0,0129

205

nghề nghiệp

1939409.3

0,0063

-0,0040

5,017

221935

-0,0060

62

số_giáo dục

1673648,4

0,0023

-0,0066

6.009

58303

-0,0080

Giảm 197

fnfngt

1564189,0

-0,0002

-0,0038

9.969

431987

-0,0049

0

giờ_mỗi_tuần

1333976,3

0,0030

0,0007

6.393

206526

-0,0031

20

thu_nhập_giảm

866863,8

0,0060

0,0020

8.076

58531

0,0118

1

lớp làm việc

644208,4

0,0025

-0,0019

9.898

132196

-0,0023

0

native_country [quốc_gia_gốc]

538841,2

0,0001

-0,0016

9,434

67211

-0,0058

0

tình dục

226049,3

0,0002

0,0002

10,911

37754

-0,0011

13

chủng tộc

168180,9

-0,0006

-0,0004

11.571

42262

-0,0031

0

Như bạn thấy, các định nghĩa khác nhau về mức độ quan trọng của biến có các tỷ lệ khác nhau và có thể dẫn đến sự khác biệt trong thứ hạng của tính năng.

Các tầm quan trọng của biến đến từ cấu trúc mô hình (ví dụ: tổng điểm, độ sâu tối thiểu, số nút và số dưới dạng gốc trong bảng trên) được tính toán tương tự cho cây quyết định (xem phần "Cart | Biến quan trọng") và rừng ngẫu nhiên.

Tầm quan trọng của biến hoán vị (ví dụ: giảm độ chính xác trung bình {Accuracy, auc, pr-auc} trong bảng ở trên) là các biện pháp không dựa trên mô hình mà có thể được tính toán trên mọi mô hình máy học bằng tập dữ liệu xác thực. Tuy nhiên, với rừng ngẫu nhiên, thay vì sử dụng tập dữ liệu xác thực, bạn có thể tính toán tầm quan trọng của các biến hoán vị bằng cách đánh giá ngẫu nhiên.

SHAP (SHapley Additive exPlanations) là một phương thức không phân biệt mô hình giúp giải thích từng dự đoán riêng lẻ hoặc diễn giải theo mô hình. (Xem phần Công nghệ máy học có thể phiên dịch của Molnar để biết thông tin giới thiệu về cách diễn giải theo mô hình bất định). SHAP thường tốn kém để tính toán nhưng có thể được tăng tốc đáng kể đối với các khu rừng quyết định, vì vậy đây là một cách hiệu quả để diễn giải rừng quyết định.

Ví dụ về cách dùng

Trong bài học trước, chúng ta đã đào tạo cây quyết định CART trên một tập dữ liệu nhỏ bằng cách gọi tfdf.keras.CartModel. Để đào tạo một mô hình rừng ngẫu nhiên, bạn chỉ cần thay thế tfdf.keras.CartModel bằng tfdf.keras.RandomForestModel:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

Ưu và nhược điểm

Phần này tóm tắt nhanh về ưu và nhược điểm của rừng ngẫu nhiên.

Ưu điểm:

  • Giống như cây quyết định, các khu rừng ngẫu nhiên chỉ hỗ trợ các tính năng dạng số và danh mục và thường không cần xử lý trước tính năng.
  • Vì các cây quyết định là độc lập, nên bạn có thể huấn luyện các khu rừng ngẫu nhiên song song. Do đó, bạn có thể huấn luyện rừng ngẫu nhiên một cách nhanh chóng.
  • Rừng ngẫu nhiên có các thông số mặc định thường cho kết quả tuyệt vời. Việc điều chỉnh các thông số đó thường ít ảnh hưởng đến mô hình.

Nhược điểm:

  • Vì cây quyết định không được cắt tỉa nên chúng có thể lớn. Các mô hình có nhiều hơn 1 triệu nút là phổ biến. Kích thước (và do đó tốc độ dự đoán) của rừng ngẫu nhiên đôi khi có thể là vấn đề.
  • Rừng ngẫu nhiên không thể tìm hiểu và sử dụng lại các đại diện nội bộ. Mỗi cây quyết định (và mỗi nhánh của mỗi cây quyết định) phải tìm hiểu lại mẫu tập dữ liệu. Trong một số tập dữ liệu, đặc biệt là các tập dữ liệu không phải bảng (ví dụ: hình ảnh, văn bản), việc này sẽ dẫn đến các rừng ngẫu nhiên dẫn đến kết quả không tốt hơn các phương thức khác.