Ważność zmiennych
Ważność zmiennej (zwana też ważnością cech) to wynik, który wskazuje, jak „ważna” jest dana cecha dla modelu. Jeśli np. w przypadku danego modelu z 2 cechami wejściowymi „f1” i „f2” znaczenie zmiennych wynosi odpowiednio {f1=5.8, f2=2.5}, to cecha „f1” jest dla modelu „ważniejsza” niż cecha „f2”. Podobnie jak w przypadku innych modeli systemów uczących się, znaczenie zmiennych to prosty sposób na zrozumienie działania drzewa decyzyjnego.
Do drzewek decyzyjnych możesz stosować znaczenie zmiennych niezależne od modelu, takie jak znaczenie zmiennych permutacji.
Drzewa decyzyjne mają też określone wagi zmiennych, takie jak:
- Suma wyniku podziału z daną zmienną.
- Liczba węzłów z daną zmienną.
- Średnia głębokość pierwszego wystąpienia cechy we wszystkich ścieżkach drzewa.
Ważność zmiennych może się różnić w zależności od takich właściwości jak:
- semantyka
- skala
- usługi
Ponadto waga zmiennej zawiera różne typy informacji o:
- modelu
- zbioru danych
- proces trenowania,
Na przykład liczba warunków zawierających określoną cechę wskazuje, na ile drzewo decyzyjne zwraca uwagę na tę cechę, co może wskazywać na znaczenie zmiennej. W końcu algorytm uczenia się nie użyłby funkcji w wielu warunkach, gdyby nie był ona istotna. Jednak ta sama cecha występująca w różnych warunkach może też wskazywać, że model próbuje, ale nie udaje mu się uogólnić wzoru tej cechy. Może się tak zdarzyć, gdy funkcja jest tylko przykładowym identyfikatorem bez informacji umożliwiających uogólnianie.
Z drugiej strony wysoka wartość permutacyjnej ważności zmiennej wskazuje, że usunięcie cechy powoduje pogorszenie wyników modelu, co jest wskazówką dotyczącą znaczenia zmiennej. Jeśli jednak model jest solidny, usunięcie dowolnej funkcji może nie mieć wpływu na jego działanie.
Różne wagi zmiennych informują o różnych aspektach modeli, dlatego warto je analizować jednocześnie. Jeśli na przykład dana cecha jest ważna według wszystkich zmiennych, to prawdopodobnie jest ważna. Innym przykładem jest sytuacja, w której cecha ma wysoką wagę zmiennej „liczba węzłów” i niską wagę zmiennej „permutacja”. W takim przypadku trudno będzie ją uogólniać, co może pogorszyć jakość modelu.
model.describe()
i otwierając kartę „Znaczenie zmiennej”.
Aby dowiedzieć się więcej, zapoznaj się z
samouczkiem dotyczącym modelowania.