Đánh giá ngoài phạm vi
Rừng ngẫu nhiên không yêu cầu tập dữ liệu xác thực. Hầu hết các rừng ngẫu nhiên đều sử dụng kỹ thuật có tên là đánh giá ngoài túi (đánh giá OOB) để đánh giá chất lượng của mô hình. Phương pháp đánh giá OOB coi tập huấn luyện như thể tập huấn luyện đó nằm trong tập kiểm thử của quy trình xác thực chéo.
Như đã giải thích trước đó, mỗi cây quyết định trong rừng ngẫu nhiên thường được huấn luyện trên khoảng 67% ví dụ huấn luyện. Do đó, mỗi cây quyết định không thấy khoảng 33% ví dụ huấn luyện. Ý tưởng cốt lõi của hoạt động đánh giá OOB như sau:
- Để đánh giá rừng ngẫu nhiên trên tập huấn luyện.
- Đối với mỗi ví dụ, chỉ sử dụng những cây quyết định không thấy ví dụ trong quá trình huấn luyện.
Bảng sau đây minh hoạ việc đánh giá OOB của một rừng ngẫu nhiên với 3 cây quyết định được huấn luyện trên 6 ví dụ. (Có, đây là bảng giống với bảng trong phần Gói). Bảng này cho biết cây quyết định nào được sử dụng với ví dụ nào trong quá trình đánh giá OOB.
Bảng 7. Đánh giá OOB – các con số thể hiện số lần một ví dụ đào tạo nhất định được sử dụng trong quá trình huấn luyện ví dụ nhất định đó
Ví dụ về việc huấn luyện | Ví dụ về hoạt động đánh giá OOB | ||||||
---|---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | ||
tập dữ liệu gốc | 1 | 1 | 1 | 1 | 1 | 1 | |
cây quyết định 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
cây quyết định 2 | 3 | 0 | 1 | 0 | 2 | 0 | #2, #4 và #6 |
cây quyết định 3 | 0 | 1 | 3 | 1 | 0 | 1 | #1 và #5 |
Trong ví dụ minh hoạ trong Bảng 7, dự đoán OOB cho ví dụ huấn luyện 1 sẽ được tính toán bằng cây quyết định số 3 (vì cây quyết định số 1 và số 2 đã sử dụng ví dụ này để huấn luyện). Trong thực tế, trên một tập dữ liệu có kích thước hợp lý và với một vài cây quyết định, tất cả các ví dụ đều có dự đoán OOB.
compute_oob_performances=True
.
Phương pháp đánh giá ngoài dữ liệu huấn luyện cũng hiệu quả trong việc tính toán tầm quan trọng của biến hoán vị cho mô hình rừng ngẫu nhiên. Hãy nhớ trong phần Tầm quan trọng của biến rằng tầm quan trọng của biến hoán vị đo lường tầm quan trọng của một biến bằng cách đo lường mức giảm chất lượng mô hình khi biến này được xáo trộn. "Tầm quan trọng của biến hoán vị OOB" của rừng ngẫu nhiên là tầm quan trọng của biến hoán vị được tính bằng cách sử dụng quy trình đánh giá OOB.
compute_oob_variable_importances=True
.