Dữ liệu phù hợp cho rừng quyết định

Rừng quyết định hiệu quả nhất khi bạn có một tập dữ liệu dạng bảng (dữ liệu bạn có thể trình bày trong bảng tính, tệp csv hoặc bảng cơ sở dữ liệu). Dữ liệu dạng bảng là một trong những định dạng dữ liệu phổ biến nhất và rừng quyết định sẽ là giải pháp "ưu tiên" để lập mô hình dữ liệu dạng bảng.

Bảng 1. Ví dụ về tập dữ liệu dạng bảng.

Số chặng Số mắt Trọng lượng (pound) Loài (nhãn)
2 2 12 Chim cánh cụt
8 6 0,1 Nhện
4 2 44 Chó

Không giống như mạng nơron, rừng quyết định sử dụng dữ liệu dạng bảng của mô hình ngay từ đầu. Khi phát triển rừng quyết định, bạn không phải làm những việc như sau:

  • Thực hiện xử lý trước như chuẩn hoá đặc điểm hoặc mã hoá một nóng.
  • Thực hiện tính năng nội suy (ví dụ: thay thế giá trị bị thiếu bằng -1).

Tuy nhiên, rừng quyết định không phù hợp để trực tiếp sử dụng dữ liệu không ở dạng bảng (còn gọi là dữ liệu không có cấu trúc), chẳng hạn như hình ảnh hoặc văn bản. Có, có các giải pháp cho hạn chế này, nhưng mạng nơron thường xử lý dữ liệu không có cấu trúc tốt hơn.

Hiệu suất

Rừng quyết định có khả năng lấy mẫu hiệu quả. Tức là rừng quyết định rất phù hợp để huấn luyện trên các tập dữ liệu nhỏ hoặc trên các tập dữ liệu có tỷ lệ số lượng đặc điểm / số lượng ví dụ cao (có thể lớn hơn 1). Mặc dù rừng quyết định có thể lấy mẫu hiệu quả, nhưng giống như tất cả các mô hình học máy, rừng quyết định hoạt động hiệu quả nhất khi có nhiều dữ liệu.

Rừng quyết định thường suy luận nhanh hơn so với các mạng nơron tương đương. Ví dụ: một rừng quyết định cỡ trung bình chạy quy trình suy luận trong vài micro giây trên một CPU hiện đại.