Random Forest

To jest wół.

Stara fotografia wołu.

Rysunek 19. wół,

 

W 1906 r. w Anglia odbyły się zawody w sędziowaniu wagi. 787 osób zgadnęło wagę wołu. Średnia niezgodność poszczególnych szacunków wynosiła 37 lb (niezgodność 3,1%). Jednak ogólna mediana szacunków była tylko o 4 kg od rzeczywistej wagi byka (539 kg), co oznacza błąd wynoszący zaledwie 0,7%.

Histogram z poszczególnymi szacunkami, pokazujący, że większość z nich skupia się wokół rzeczywistej wagi byka.

Rysunek 20. Histogram z poszczególnymi przypuszczeniami dotyczącymi wagi.

 

Ta anegdota ilustruje mądrość tłumu: w pewnych sytuacjach zbiorcza opinia pozwala na bardzo trafne oceny.

Matematycznie mądrość tłumu można modelować za pomocą twierdzenia centralnego limitu rozkładu: nieformalnie kwadratowy błąd między wartością a średnią z N szumowych oszacowań tej wartości zmierza do zera z współczynnikiem 1/N. Jeśli jednak zmienne nie są niezależne, odchylenie standardowe jest większe.

W uczeniu maszynowym zbiór (ensemble) to zbiór modeli, których prognozy są uśredniane (lub agregowane w jakiś sposób). Jeśli modele zbiorcze różnią się na tyle, że nie są zbyt złe, jakość zbioru jest zazwyczaj lepsza niż jakość poszczególnych modeli. Model zbiorczy wymaga więcej czasu na trenowanie i wykonywanie wnioskowania niż pojedynczy model. W końcu trenowanie i wykonywanie wnioskowania musisz przeprowadzić na wielu modelach, a nie na jednym.

Aby ensemble działało jak najlepiej, poszczególne modele powinny być niezależne. Na przykład ensemble złożone z 10 identycznych modeli (czyli w żaden sposób nie niezależnych) nie będzie lepsze od pojedynczego modelu. Z drugiej strony wymuszenie niezależności modeli może spowodować, że będą one gorsze. Skuteczne tworzenie zbiorów wymaga znalezienia równowagi między niezależnością modelu a jakością jego podmodeli.