W przypadku problemów regresyjnych sensowne jest zdefiniowanie podpisanego błędu jako różnicy między prognozą a etykietą. Jednak w przypadku innych problemów ta strategia często prowadzi do słabych wyników. Lepszą strategią stosowaną w wzmacnianiu gradientem jest:
- Zdefiniuj funkcję straty podobną do funkcji straty stosowanych w sieciach neuronowych. Może to być na przykład entropia (zwana też stratą logarytmiczną) w przypadku problemu klasyfikacji.
- Trenuj słaby model w celu przewidywania gradientu straty na podstawie danych wyjściowych silnego modelu.
Formalnie, jeśli mamy funkcję strat , gdzie to etykietka, a to prognoza, pseudoodpowiedź użyta do trenowania słabego modelu na kroku jest taka:
gdzie:
- to prognoza modelu silnego.
Poprzedni przykład dotyczył problemu regresji: celem było przewidywanie wartości liczbowej. W przypadku regresji zwykłą funkcją utraty jest błąd kwadratowy:
W tym przypadku gradient jest:
Inaczej mówiąc, gradient jest podpisaną błędem z naszego przykładu z współczynnikiem 2. Pamiętaj, że czynniki stałe nie mają znaczenia ze względu na kurczenie się. Pamiętaj, że ta równoważność jest prawdziwa tylko w przypadku problemów z regresją z stratą błędu kwadratowego. W przypadku innych problemów z uczenia nadzorowanego (np. klasyfikacji, rankingu, regresji z stratą arytmetyczną) gradient i oznaczona wartość błędu nie są równoważne.
Optymalizacja liści i struktury za pomocą metody Newtona
Metoda Newtona to metoda optymalizacji podobna do metody gradientu prostego. Jednak w przeciwieństwie do metody gradientu prostego, która do optymalizacji wykorzystuje tylko gradient funkcji, metoda Newtona wykorzystuje do optymalizacji zarówno gradient (pierwsza pochodna), jak i drugą pochodną funkcji.
Krok schodkowego spadku to:
i metody Newtona:
Metodę Newtona można opcjonalnie zintegrować z trenowaniem drzew z wzmocnieniem gradientowym na 2 sposoby:
- Po wytrenowaniu drzewa do każdego liścia stosuje się krok Newtona, który zastępuje jego wartość. Struktura drzewa pozostaje niezmieniona, zmieniają się tylko wartości końcowe.
- Podczas wzrostu drzewa warunki są wybierane na podstawie wyniku, który zawiera składnik formuły Newtona. Ma to wpływ na strukturę drzewa.
- YDF zawsze stosuje krok Newtona na liściu (opcja 1).
- Opcję 2 możesz włączyć za pomocą
use_hessian_gain=True
.