Dati appropriati per le foreste di decisione

Le foreste di alberi decisionali sono più efficaci quando hai un set di dati tabulare (dati che potresti rappresentare in un foglio di lavoro, un file CSV o una tabella di database). I dati tabulari sono uno dei formati di dati più comuni e le foreste di decisione dovrebbero essere la soluzione di riferimento per la loro definizione.

Tabella 1. Un esempio di set di dati tabulare.

Numero di tratti Numero di occhi Peso (lb) Specie (etichetta)
2 2 12 Pinguino
8 6 0,1 Ragno
4 2 44 Cane

A differenza delle reti neurali, le foreste di alberi decisionali utilizzano in modo nativo i dati tabulari del modello. Quando sviluppi foreste di alberi decisionali, non devi svolgere attività come le seguenti:

  • Esegui la pre-elaborazione, ad esempio la normalizzazione delle caratteristiche o la codifica one-hot.
  • Esegui l'imputation (ad esempio, sostituendo un valore mancante con -1).

Tuttavia, le foreste di decisione non sono adatte all'utilizzo diretto di dati non tabulari (chiamati anche dati non strutturati), come immagini o testo. Sì, esistono soluzioni alternative per questa limitazione, ma in genere le reti neurali gestiscono meglio i dati non strutturati.

Prestazioni

Le foreste di alberi decisionali sono efficienti per i campioni. In altre parole, le foreste di decisione sono adatte per l'addestramento su set di dati di piccole dimensioni o su set di dati in cui il rapporto tra il numero di funzionalità e il numero di esempi è elevato (possibilmente maggiore di 1). Anche se le foreste di regressione sono efficienti per i campioni, come tutti i modelli di machine learning, le foreste di regressione hanno il rendimento migliore quando sono disponibili molti dati.

Le foreste di alberi decisionali in genere deducono più velocemente rispetto alle reti neurali paragonabili. Ad esempio, una foresta decisionale di medie dimensioni esegue l'inferenza in pochi microsecondi su una CPU moderna.