Odpowiednie dane dla lasów decyzyjnych

Lasy decyzyjne są najskuteczniejsze, jeśli masz tabelaryczny zbiór danych (dane, które możesz reprezentować w arkuszu kalkulacyjnym, pliku CSV lub tabeli bazy danych). Dane tabelaryczne to jeden z najpopularniejszych formatów danych, a lasy decyzyjne powinny być Twoim rozwiązaniem przy modelowaniu.

Tabela 1. Przykład tabelarycznego zbioru danych.

Liczba nog Liczba oczu Waga (lbs) Gatunek (etykieta)
2 2 12 Pingwin
8 6 0,1 Pająk
4 2 44 Pies

W przeciwieństwie do sieci neuronowych lasy decyzyjne natywnie wykorzystują dane tabelaryczne. Podczas pracy w lasach decyzyjnych nie musisz wykonywać tych czynności:

  • Wykonaj wstępne przetwarzanie, np. normalizację cech lub kodowanie 1 gorące.
  • Wykonaj ocenę (np. zastąp brakującą wartość -1).

Jednak lasy decyzyjne nie są dobrze dopasowane do bezpośredniego wykorzystywania danych nietabelowych (zwanych też danymi nieuporządkowanymi), takich jak obrazy lub tekst. Tak, obchodzi to ograniczenie, ale sieci neuronowe lepiej radzą sobie z nieuporządkowanymi danymi.

Wyniki

Lasy decyzyjne są bardzo skuteczne. Oznacza to, że lasy decyzyjne dobrze nadają się do trenowania na niewielkich zbiorach danych lub w zbiorach danych, w których stosunek liczby funkcji do liczby przykładów jest wysoki (prawdopodobnie powyżej 1). Choć lasy decyzyjne są bardzo skuteczne, tak jak wszystkie modele systemów uczących się, lasy decyzyjne sprawdzają się najlepiej, gdy jest dużo danych.

Lasy decyzyjne są zwykle szybsze niż porównywalne sieci neuronowe. Na przykład przeciętny las decyzyjny będzie wnioskował w ciągu kilku sekund na nowoczesnym procesorze.