Odpowiednie dane dla lasów decyzji

Lasy decyzji są najbardziej skuteczne, gdy masz do czynienia z tabularnym zbiorem danych (dane mogą być reprezentowane w arkuszu kalkulacyjnym, pliku CSV lub tabeli bazy danych). Dane tablicowe to jeden z najpopularniejszych formatów danych, a lasy decyzyjne powinny być Twoim podstawowym rozwiązaniem do ich modelowania.

Tabela 1. Przykład tabelarycznego zbioru danych.

Liczba nóg Liczba oczu Waga (lb) Gatunek (etykieta)
2 2 12 Pingwin
8 6 0,1 Pająk
4 2 44 Pies

W przeciwieństwie do sieci neuronowych lasy decyzyjne domyślnie korzystają z danych tabelarycznych. Podczas tworzenia lasów decyzyjnych nie musisz wykonywać takich czynności jak:

  • Przeprowadź wstępne przetwarzanie, np. normalizację cech lub kodowanie one-hot.
  • wykonać imputację (np. zastąpić brakujące wartości wartością -1).

Lasy decyzji nie nadają się jednak do bezpośredniego przetwarzania danych nietablicowych (zwanych też danymi nieustrukturyzowanymi), takich jak obrazy czy tekst. Tak, istnieją sposoby na obejście tego ograniczenia, ale sieci neuronowe lepiej radzą sobie z danymi nieustrukturyzowanymi.

Wyniki

Lasy decyzyjne są efektywne pod względem próbki. Oznacza to, że lasy decyzyjne są dobrze dostosowane do trenowania na małych zbiorach danych lub na zbiorach danych, w których stosunku liczby cech do liczby przykładów jest wysoki (być może większy niż 1). Chociaż lasy decyzji są wydajne pod względem próby, tak jak wszystkie modele uczenia maszynowego, najlepiej sprawdzają się, gdy jest dostępne dużo danych.

Lasy decyzyjne zwykle działają szybciej niż porównywalne sieci neuronowe. Na przykład średniej wielkości las decyzyjny wykonuje wnioskowanie w kilku mikrosekundach na nowoczesnym procesorze.