Ocena „poza biurem”

Lasy losowe nie wymagają zbioru danych do weryfikacji. W przypadku lasów losowych w przypadku lasów losowych do oceny jakości modelu stosowana jest metoda zwana out-of-bag-evaluation” (out-of-bag-evaluation out-of-bag-evaluation). Ocena OOB traktuje zbiór treningowy tak, jakby znajdował się w zestawie testowym weryfikacji krzyżowej.

Jak już wspomnieliśmy, każde drzewo decyzyjne w przypadkowym lesie jest zwykle trenowane na ok. 67% przykładów treningowych. Dlatego też każde drzewo decyzyjne nie widzi ok. 33% przykładów. Podstawowa koncepcja oceny OOB jest następująca:

  • Aby ocenić losowy las w zbiorze treningowym.
  • W każdym przykładzie użyj tylko tych drzew decyzyjnych, w których przypadku podczas trenowania nie pojawił się przykład.

W tabeli poniżej przedstawiono ocenę OOB w losowo wybranym lesie z 3 drzewami decyzyjnymi wytrenowanymi na 6 przykładach. (Tak, to ta sama tabela co w sekcji Bagaż). Tabela pokazuje, które drzewo decyzyjne jest używane z którym przykładem podczas oceny OOB.

Tabela 7. Ocena OOB – liczby oznaczają, ile razy dany przykład trenowania został użyty podczas trenowania danego przykładu.

Przykłady treningowe Przykłady oceny OOB
#1 #2 #3 #4 #5 #6
oryginalny zbiór danych 1 1 1 1 1 1
drzewo decyzyjne 1 1 1 0 2 1 1 #3
drzewo decyzyjne 2 3 0 1 0 2 0 2, 4 i 6
drzewo decyzyjne 3 0 1 3 1 0 1 #1 i #5

W przykładzie pokazanym w tabeli 7 prognozy OOB w przykładzie treningowym 1 zostaną obliczone za pomocą drzewa decyzyjnego nr 3 (ponieważ w przypadku drzew decyzyjnych nr 1 i nr 2 ten przykład był używany do trenowania). W praktyce gdy zbiór danych ma rozsądny rozmiar i kilka drzew decyzyjnych, wszystkie przykłady mają prognozę OOB.

Kod YDF
W YDF ocena OOB jest dostępna w logach treningowych, jeśli model jest trenowany przy użyciu compute_oob_performances=True.

Ocena OOB jest również skuteczna w obliczaniu znaczenia zmiennych permutacji w przypadku losowych modeli lasów. Pamiętaj, że z ważności zmiennej wynika, że znaczenie zmiennej permutacji mierzy znaczenie zmiennej, mierząc spadek jakości modelu podczas tasowania tej zmiennej. Losowy las „Znaczenie zmiennej permutacji OOB” to wartość zmiennej permutacji obliczana za pomocą oceny OOB.

Kod YDF
W YDF znaczenie zmiennej permutacji OOB są dostępne w logach trenowania, jeśli model jest trenowany przy użyciu compute_oob_variable_importances=True.