Dữ liệu thích hợp cho rừng quyết định

Rừng quyết định hiệu quả nhất khi bạn có một tập dữ liệu dạng bảng (dữ liệu mà bạn có thể biểu thị trong một bảng tính, tệp csv hoặc bảng cơ sở dữ liệu). Dữ liệu dạng bảng là một trong những định dạng dữ liệu phổ biến nhất, và bạn nên chọn môi trường "di chuyển" để lập mô hình cho dữ liệu đó.

Bảng 1. Ví dụ về tập dữ liệu dạng bảng.

Số chân Số lượng mắt Trọng lượng (lbs) Loài (nhãn)
2 2 12 Chim cánh cụt
8 6 0,1 Nhện
4 2 44 Chó

Không giống như mạng nơron, rừng quyết định vốn tiêu thụ dữ liệu dạng bảng của mô hình. Khi phát triển rừng quyết định, bạn không cần phải làm những việc như sau:

  • Thực hiện chế độ xử lý trước như chuẩn hoá tính năng hoặc mã hoá một lần.
  • Thực hiện xác định (ví dụ: thay thế một giá trị bị thiếu bằng -1).

Tuy nhiên, rừng quyết định không phù hợp để sử dụng trực tiếp dữ liệu không cố định (còn gọi là dữ liệu không có cấu trúc), chẳng hạn như hình ảnh hoặc văn bản. Có, giải pháp cho giới hạn này vẫn tồn tại nhưng mạng nơ-ron thường xử lý dữ liệu không có cấu trúc tốt hơn.

Hiệu suất

Rừng quyết định có hiệu quả mẫu. Nghĩa là, các rừng quyết định rất phù hợp để huấn luyện các tập dữ liệu nhỏ hoặc các tập dữ liệu có tỷ lệ số lượng tính năng / số ví dụ cao (có thể lớn hơn 1). Mặc dù rừng quyết định là mẫu hiệu quả, giống như tất cả mô hình máy học, nhưng rừng quyết định hoạt động tốt nhất khi có nhiều dữ liệu.

Rừng quyết định thường suy luận nhanh hơn mạng nơron tương đương. Ví dụ: một rừng quyết định có kích thước trung bình chạy dự đoán trong vài micrô giây trên một CPU hiện đại.