Dưới đây là tóm tắt nhanh về những gì bạn đã học được trong khóa học:
- Cây quyết định là một mô hình
bao gồm một tập hợp
Đã sắp xếp các điều kiện
có hệ thống phân cấp dưới hình dạng cái cây. Có nhiều tình trạng
danh mục:
- Căn chỉnh theo trục điều kiện bao gồm chỉ một tính năng duy nhất. Điểm xiên điều kiện bao gồm nhiều tính năng.
- Một tệp nhị phân điều kiện có thể có 2 kết quả. Phi nhị giới điều kiện có nhiều hơn hai kết quả có thể xảy ra.
- Đào tạo cây quyết định liên quan đến việc tìm kiếm điều kiện tốt nhất tại mỗi nút. Quy trình Splitter sử dụng các chỉ số như thông tin kiếm được hoặc Gini để xác định biến thể phù hợp nhất .
- Rừng quyết định là chế độ tạo từ nhiều cây quyết định. Dự đoán về rừng quyết định là tổng hợp các dự đoán của cây quyết định.
- Khu rừng ngẫu nhiên là tập hợp cây quyết định trong đó mỗi cây quyết định được huấn luyện bằng nhiễu ngẫu nhiên cụ thể.
- Đóng gói là một kỹ thuật trong đó mỗi cây quyết định trong khu rừng ngẫu nhiên được huấn luyện dựa trên một tập hợp con khác ví dụ.
- Rừng ngẫu nhiên không yêu cầu tập dữ liệu xác thực. Thay vào đó, ngẫu nhiên nhất rừng sử dụng một kỹ thuật có tên là out-of-bag-evaluation để đánh giá chất lượng của mô hình.
- Độ dốc tăng cường (quyết định) cái cây là một loại rừng quyết định được huấn luyện bằng cách điều chỉnh lặp đi lặp lại từ dữ liệu đầu vào cây quyết định. Một giá trị được gọi Hàm rút co kiểm soát tốc độ tại mà cây tăng độ dốc (quyết định) học hỏi và mức độ mà nó học có thể bị quá tải.
Tài liệu tham khảo
- Giá trị gần đúng của hàm tham lam: Tăng dần độ dốc Máy, Th6 Friedman.
- Các yếu tố của thống kê Tìm hiểu, Trevor Hastie. Chương 10.
- Mô hình được cải tiến tổng quát: Hướng dẫn về GBm gói, G. Ridgeway