Importanza delle variabili

L'importanza della variabile (nota anche come importanza del tratto) è un punteggio che indica quanto "importante" è un tratto per il modello. Ad esempio, se per un determinato modello con due caratteristiche di input "f1" e "f2", le importanza delle variabili sono {f1=5,8, f2=2,5}, la caratteristica "f1" è più "importante" per il modello rispetto alla caratteristica "f2". Come per altri modelli di machine learning, l'importanza delle variabili è un modo semplice per capire come funziona un albero decisionale.

Puoi applicare alle strutture ad albero di decisione le importanza delle variabili indipendenti dal modello, ad esempio le importanza delle variabili di permutazione.

Gli alberi decisionali hanno anche importanza delle variabili specifiche, ad esempio:

  • La somma del punteggio di suddivisione con una determinata variabile.
  • Il numero di nodi con una determinata variabile.
  • La profondità media della prima occorrenza di un elemento in tutti i percorsi dell'albero.

L'importanza delle variabili può variare in base a qualità quali:

  • semantica
  • scalabilità
  • proprietà

Inoltre, le importanza delle variabili forniscono diversi tipi di informazioni su:

  • il modello
  • il set di dati
  • il processo di addestramento

Ad esempio, il numero di condizioni contenenti una funzionalità specifica indica quanto un albero decisionale esaminI questa funzionalità specifica, il che potrebbe indicare un'importanza variabile. Dopotutto, l'algoritmo di apprendimento non avrebbe utilizzato una funzionalità in più condizioni se non fosse importante. Tuttavia, la stessa funzionalità visualizzata in più condizioni potrebbe anche indicare che un modello sta cercando, ma non riesce, a generalizzare il pattern di una funzionalità. Ad esempio, questo può accadere quando una funzionalità è solo un identificatore di esempio senza informazioni da generalizzare.

D'altra parte, un valore elevato per un'importanza elevata della variabile di permutazione indica che la rimozione di una caratteristica danneggia il modello, il che è un'indicazione dell'importanza della variabile. Tuttavia, se il modello è solido, la rimozione di una funzionalità potrebbe non influire sul modello.

Poiché le diverse importanza delle variabili forniscono informazioni su aspetti diversi dei modelli, è utile esaminare contemporaneamente più importanza delle variabili. Ad esempio, se una funzionalità è importante in base a tutte le importanza delle variabili, è probabile che sia importante. Un altro esempio: se una caratteristica ha un'elevata importanza della variabile "Numero di nodi" e una bassa importanza della variabile "Permutazione", potrebbe essere difficile generalizzarla e può influire negativamente sulla qualità del modello.

Codice YDF
In YDF, puoi visualizzare l'importanza delle variabili di un modello chiamando model.describe() e consultando la scheda "Importanza delle variabili". Per ulteriori dettagli, consulta il tutorial sulla comprensione del modello.