Zmniejszanie strat: stochastyczne zejście gradientu

W przypadku spadku gradientu zbiór to zestaw przykładów służących do obliczenia gradientu w pojedynczej iteracji trenowania. Do tej pory założyliśmy, że wsad to cały zbiór danych. W przypadku pracy na dużą skalę przez Google zbiory danych często zawierają miliardy, a nawet setki miliardów przykładów. Poza tym zbiory danych Google często zawierają ogromną liczbę cech. Oznacza to, że może to być ogromna porcja. Obliczenie bardzo dużej wsadu może spowodować, że obliczenie tylko jednej iteracji może zająć dużo czasu.

Duży zbiór danych z przykładowymi próbkami losowymi prawdopodobnie zawiera nadmiarowe dane. W miarę zwiększania wielkości wsadu nadmiarowość staje się coraz większa. Pewna nadmiarowość może być przydatna do wygładzania zaszumionych gradientów, ale duże wsady zazwyczaj nie zapewniają znacznie większej wartości prognozowanej niż duże partie.

A gdyby udało się uzyskać właściwy gradient średnio przy znacznie mniejszych możliwościach obliczeń? Wybierając przykłady losowo ze zbioru danych, możemy oszacować (chociaż z hałasem) duże średnie wartości na podstawie znacznie mniejszego. Stostyczna spadek gradientu (SGD) pozwala przenieść tę propozycję do ekstremalnego poziomu – w jednej iteracji wykorzystano tylko jeden przykład (wielkość wsadu równa 1). Przy odpowiedniej liczbie iteracji SGD działa, ale bardzo głośno. Termin „sztohastyczny” wskazuje, że jeden przykład składający się z każdej grupy jest wybierany losowo.

Minigrupowe zmniejszenie stochastycznego gradientu (mini-sezonowy SGD) to kompromis między całkowitą iteracją a SGD. Minigrupa zawiera zwykle od 10 do 1000 przykładów i jest wybierany losowo. Mała porcja SGD zmniejsza ilość szumu w SGD, ale wciąż jest bardziej efektywna niż pełna seria.

Aby uprościć wyjaśnienie, skupiliśmy się na obniżeniu gradientowym w przypadku pojedynczej funkcji. Możesz mieć pewność, że gradient gradientowy działa również na zestawach cech zawierających wiele obiektów.