Importazioni delle variabili
Importanza della variabile (nota anche come importanza delle caratteristiche) è un punteggio che indica quanto sia "importante" una caratteristica per il modello. Ad esempio, se per un determinato modello con due caratteristiche di input "f1" e "f2", l'importanza delle variabili è {f1=5.8, f2=2.5}, la caratteristica "f1" è più "importante" per il modello rispetto alla funzionalità "f2". Come per altri modelli di machine learning, l'importanza variabile è un modo semplice per capire come funziona.
Puoi applicare le priorità delle variabili indipendenti dal modello, ad esempio le importazioni delle variabili di permutazione, agli alberi decisionali.
Anche gli alberi decisionali hanno importanti priorità specifiche, ad esempio:
- La somma del punteggio parziale con una determinata variabile.
- Il numero di nodi con una determinata variabile.
- La profondità media della prima occorrenza di una caratteristica in tutti i percorsi dell'albero.
Le qualità delle variabili possono variare, ad esempio:
- semantica
- scalabilità
- proprietà
Inoltre, l'importanza delle variabili fornisce diversi tipi di informazioni su:
- il modello
- il set di dati
- il processo di addestramento
Ad esempio, il numero di condizioni contenenti una caratteristica specifica indica in che misura una struttura decisionale esamina questa caratteristica specifica, il che potrebbe indicare l'importanza della variabile. Dopotutto, l'algoritmo di apprendimento non avrebbe usato una funzionalità in più condizioni se non fosse importante. Tuttavia, la stessa caratteristica che compare in più condizioni potrebbe anche indicare che un modello sta provando, ma non riesce a generalizzare il pattern di una caratteristica. Ad esempio, questo può accadere quando una caratteristica è solo un identificatore di esempio senza informazioni da generalizzare.
Invece, un valore elevato per un'importanza della variabile di permutazione elevata indica che la rimozione di una caratteristica danneggia il modello, il che indica l'importanza della variabile. Tuttavia, se il modello è solido, la rimozione di una sola caratteristica potrebbe non danneggiarlo.
Poiché le diverse importanza delle variabili influiscono sui diversi aspetti dei modelli, esaminare contemporaneamente diverse importanza delle variabili è informativo. Ad esempio, se una caratteristica è importante in base a tutte le importazioni delle variabili, è probabile che questa sia importante. Per fare un altro esempio, se una caratteristica ha un'importanza elevata della variabile "numero di nodi" e una piccola importanza della variabile "permutazione", la caratteristica potrebbe essere difficile da generalizzare e danneggiare la qualità del modello.
model.describe()
e esaminando la scheda "importanza variabile".
Per ulteriori dettagli, consulta il
tutorial sulla comprensione dei modelli.