Đánh giá tình trạng còn hàng

Rừng ngẫu nhiên không yêu cầu tập dữ liệu xác thực. Hầu hết các khu rừng ngẫu nhiên đều sử dụng kỹ thuật out-of-bag-evaluation (out-of-bag-evaluation out-of-bag-evaluation) để đánh giá chất lượng mô hình. Việc đánh giá OOB coi tập hợp huấn luyện như thể nó nằm trên tập hợp kiểm thử của quá trình xác thực chéo.

Như đã giải thích trước đó, mỗi cây quyết định trong một khu rừng ngẫu nhiên thường được huấn luyện trên khoảng 67% số ví dụ huấn luyện. Do đó, mỗi cây quyết định không thấy khoảng 33% ví dụ huấn luyện. Sau đây là ý tưởng cốt lõi của hoạt động đánh giá OOB:

  • Để đánh giá khu rừng ngẫu nhiên trên tập hợp huấn luyện.
  • Đối với mỗi ví dụ, chỉ sử dụng các cây quyết định không thấy ví dụ đó trong quá trình huấn luyện.

Bảng sau đây minh hoạ hoạt động đánh giá OOB của một khu rừng ngẫu nhiên với 3 cây quyết định được huấn luyện trên 6 ví dụ. (Có, đây vẫn là bảng giống như trong phần Đóng gói). Bảng này cho biết cây quyết định nào được sử dụng cùng với ví dụ nào trong quá trình đánh giá OOB.

Bảng 7. Đánh giá OOB – những con số biểu thị số lần một ví dụ huấn luyện nhất định được sử dụng trong quá trình huấn luyện của ví dụ đó

Ví dụ huấn luyện Ví dụ về hoạt động đánh giá OOB
#1 #2 #3 #4 #5 #6
tập dữ liệu gốc 1 1 1 1 1 1
cây quyết định 1 1 1 0 2 1 1 #3
cây quyết định 2 3 0 1 0 2 0 #2, #4 và #6
cây quyết định 3 0 1 3 1 0 1 1 và 5

Trong ví dụ minh hoạ trong Bảng 7, các dự đoán OOB cho ví dụ huấn luyện 1 sẽ được tính toán với cây quyết định #3 (vì cây quyết định #1 và #2 đã sử dụng ví dụ này để huấn luyện). Trong thực tế, trên một tập dữ liệu có kích thước hợp lý và với một vài cây quyết định, tất cả các ví dụ đều có thông tin dự đoán OOB.

Mã YDF
Trong YDF, giá trị đánh giá OOB có trong nhật ký huấn luyện nếu mô hình được huấn luyện bằng compute_oob_performances=True.

Việc đánh giá OOB cũng hiệu quả khi tính toán tầm quan trọng của biến hoán vị cho các mô hình rừng ngẫu nhiên. Hãy nhớ rằng trong phần Mức độ quan trọng của biến, mức độ quan trọng của biến hoán vị đo lường mức độ quan trọng của một biến bằng cách đo lường mức độ giảm chất lượng mô hình khi xáo trộn biến này. Rừng ngẫu nhiên "tầm quan trọng của biến hoán vị OOB" là tầm quan trọng của biến hoán vị được tính bằng phương thức đánh giá OOB.

Mã YDF
Trong YDF, mức độ quan trọng của biến hoán vị OOB sẽ có trong nhật ký huấn luyện nếu mô hình đó được huấn luyện bằng compute_oob_variable_importances=True.