Ta strona została przetłumaczona przez Cloud Translation API.

Słowniczek systemów uczących się: podstawy systemów uczących się

Ta strona zawiera podstawowe pojęcia z glosarium. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.

A

dokładność

#fundamentals

Liczba poprawnych prognoz podzielona przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który trafnie przewidział 40 wartości i 10 wartości błędnie, miałby dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja binarna umożliwia nadawanie konkretnych nazw różnym kategoriom prawidłowych prognoz i nieprawidłowych prognoz. Wzór dokładności w przypadku klasyfikacji binarnej:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

TP to liczba wyników prawdziwie pozytywnych (prawidłowych prognoz).
TN to liczba wyników prawdziwie negatywnych (poprawne prognozy).
FP to liczba wyników fałszywie dodatnich (nieprawidłowych prognoz).
FN to liczba wyników fałszywie negatywnych (nieprawidłowe prognozy).

Porównaj dokładność z precyzjością i czułością.

Kliknij ikonę, aby uzyskać informacje o dokładności i zbiorach danych z niezrównoważonymi klasami.

Chociaż dokładność jest wartościowym wskaźnikiem w niektórych sytuacjach, w innych może wprowadzać w błąd. Należy pamiętać, że do oceny modeli klasyfikacji, które przetwarzają zbiory danych z niezrównoważonym rozkładem klas, zwykle nie nadaje się dokładności.

Załóżmy na przykład, że w danym mieście subtropikalnym śnieg pada tylko 25 dni w wieku. Ponieważ dni bez śniegu (klasa negatywna) znacznie przeważają dni ze śniegiem (klasa pozytywna), zbiór danych o śniegu dla tego miasta jest niezrównoważony pod względem klas. Wyobraź sobie model klasyfikacji binarnej, który ma przewidywać, czy danego dnia będzie śnieg, czy nie. Zamiast tego codziennie przewiduje „brak śniegu”. Ten model jest bardzo dokładny, ale nie ma zdolności przewidywania. W tabeli poniżej podano podsumowanie wyników 100 lat prognoz:

Kategoria	Liczba
PP	0
PN	36499
FP	0
FN	25

Dokładność tego modelu jest więc następująca:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Chociaż dokładność na poziomie 99,93% wydaje się bardzo imponująca, model w ogóle nie ma zdolności przewidywania.

Precyzja i czułość są zwykle bardziej przydatnymi wskaźnikami niż dokładność do oceny modeli wytrenowanych na zbiorach danych z niezrównoważonym rozkładem klas.

Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane z nimi dane z Kursu intensywnego z systemów uczących się.

funkcja aktywacji

#fundamentals

Funkcja, która umożliwia sieciom neuronowym uczenie się nieliniowych (złożonych) relacji między cechami a etykietą.

Popularne funkcje aktywacji:

ReLU
Sigmoid

Wykresy funkcji aktywacji nigdy nie są prostymi liniami prostymi. Na przykład wykres funkcji aktywacyjnej ReLU składa się z dwóch linii prostych:

Układ kartezjański 2 linii. Pierwsza linia ma stałą wartość y równą 0, biegnącą wzdłuż osi x od –nieskończoności,0 do 0, –0.
Druga linia zaczyna się od 0,0. Ma ona nachylenie +1, więc biegnie od 0,0 do +nieskończoność,+nieskończoność.

Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Dwowymiarowa krzywa z wartościami x w zakresie od -nieskończoności do +dodatnich, a wartościami y w zakresie od prawie 0 do prawie 1. Gdy x = 0, y = 0,5. Nachylenie krzywej jest zawsze dodatnie, przy czym największe nachylenie występuje przy wartości 0,05, a nachylenie stopniowo maleje wraz ze wzrostem bezwzględnej wartości x.

Kliknij ikonę, aby zobaczyć przykład.

W sieci neuronowej funkcje aktywacyjne manipulują ważoną sumą wszystkich danych wejściowych neurona. Aby obliczyć sumę ważoną, neuron dodaje iloczyn odpowiednich wartości i wag. Załóżmy na przykład, że dane wejściowe przekazywane do neuronu zawierają:

wartość wejściowa	waga wejściowa
2	-1,3
-1	0,6
3	0,4

Suma ważona jest więc równa:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Załóżmy, że projektant tej sieci neuronowej wybierze funkcję sigmoidalną jako funkcję aktywacji. W takim przypadku neuron oblicza funkcję sigmoidalną o wartości -2,0, która wynosi około 0,12. Dlatego neuron przekazuje wartość 0,12 (a nie -2,0) do następnej warstwy sieci neuronowej. Poniższy rysunek przedstawia odpowiednią część procesu:

Więcej informacji znajdziesz w artykule Neural networks: Activation functions (Neural networks: funkcje aktywacyjne) z cyklu Crash Course z machine learning.

sztuczna inteligencja

#fundamentals

program lub model, który potrafi wykonywać złożone zadania. Na przykład program lub model, który tłumaczy tekst, lub program lub model, który identyfikuje choroby na podstawie obrazów radiologicznych, wykorzystuje sztuczną inteligencję.

Formalnie systemy uczące się to poddziedzina sztucznej inteligencji. Jednak w ostatnich latach niektóre organizacje zaczęły używać terminów sztuczna inteligencja i uczenie maszynowe zamiennie.

AUC (obszar pod krzywą ROC)

#fundamentals

Liczba z zakresu od 0,0 do 1,0 reprezentująca zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Im bliższa 1,0 jest wartość AUC, tym większa jest zdolność modelu do oddzielania klas od siebie.

Na przykład ilustracja poniżej przedstawia model klasyfikatora, który doskonale oddziela klasy pozytywne (zielone owalne pola) od klas negatywnych (fioletowe prostokąty). Ten nierealistycznie idealny model ma AUC 1,0:

Po jednej stronie osi liczbowej znajduje się 8 pozytywnych przykładów, a po drugiej – 9 negatywnych.

Ilustracja poniżej przedstawia wyniki modelu klasyfikatora, który generował losowe wyniki. Ten model ma AUC 0,5:

Linia liczbowa z 6 pozytywnymi i 6 ujemnymi przykładami.
Kolejność przykładów to: pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny.

Tak, poprzedni model ma AUC 0,5, a nie 0,0.

Większość modeli znajduje się gdzieś pomiędzy tymi dwoma skrajnościami. Na przykład poniższy model w pewnym stopniu oddziela pozytywne wyniki od negatywnych, dlatego jego AUC mieści się w zakresie od 0,5 do 1,0:

Linia liczbowa z 6 pozytywnymi i 6 ujemnymi przykładami.
Kolejność przykładów to: negatywny, negatywny, negatywny, negatywny, pozytywny, negatywny, pozytywny, pozytywny, negatywny, pozytywny, pozytywny.

AUC ignoruje dowolną wartość ustawioną dla progu klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi kwalifikacji.

Kliknij ikonę, aby dowiedzieć się więcej o zależności między krzywą AUC a krzywą ROC.

AUC to obszar pod krzywą ROC. Na przykład krzywa ROC modelu, który doskonale oddziela wyniki pozytywne od negatywnych, wygląda tak:

AUC to obszar szarego regionu na ilustracji powyżej. W tym nietypowym przypadku pole jest po prostu długością szarego regionu (1,0) pomnożoną przez szerokość szarego regionu (1,0). W związku z tym iloczyn 1,0 i 1,0 daje AUC dokładnie równy 1,0, czyli najwyższy możliwy wynik AUC.

Natomiast krzywa ROC dla klasyfikatora, który nie może w ogóle oddzielić klas, wygląda tak. Powierzchnia tego szarego obszaru wynosi 0,5.

Bardziej typowa krzywa ROC wygląda mniej więcej tak:

Obliczanie pola pod tą krzywą ręcznie byłoby żmudnym zadaniem, dlatego program zwykle oblicza większość wartości AUC.

Kliknij ikonę, aby uzyskać bardziej formalną definicję AUC.

AUC to prawdopodobieństwo, że klasyfikator będzie bardziej pewny, że losowo wybrany przykład pozytywny jest rzeczywiście pozytywny, niż że losowo wybrany przykład negatywny jest pozytywny.

Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

B

propagacja wsteczna

#fundamentals

Algorytm, który stosuje spadkowy gradient w sieciach neuronowych.

Szkolenie sieci neuronowej obejmuje wiele iterations w ramach tego 2-etapowego cyklu:

Podczas przesyłania do przodu system przetwarza partię przykładów, aby uzyskać prognozy. System porównuje każdą prognozę z każdą wartością etykiety. Różnica między prognozą a wartością etykiety to strata w danym przykładzie. System agreguje straty dla wszystkich przykładów, aby obliczyć łączną stratę dla bieżącego zbioru danych.
Podczas przesyłania wstecznego (backpropagation) system zmniejsza straty przez dostosowanie wag wszystkich neuronów we wszystkich warstwach ukrytych.

Sieci neuronowe często zawierają wiele neuronów na wielu warstwach ukrytych. Każdy z tych neuronów w inny sposób wpływa na ogólną stratę. Wsteczna propagacja określa, czy zwiększyć czy zmniejszyć wagi zastosowane do poszczególnych neuronów.

Tempo uczenia się to mnożnik, który kontroluje stopień, w jakim każda iteracja wsteczna zwiększa lub zmniejsza każdą wagę. Duże tempo uczenia się będzie zwiększać lub zmniejszać każdą wagę bardziej niż małe tempo uczenia się.

W terminologii rachunku różniczkowego i zbiórczego propagacja wsteczna implementuje regułę łańcuszkową. Oznacza to, że propagacja wsteczna oblicza częściową pochodną błędu względem każdego parametru.

Jeszcze kilka lat temu użytkownicy ML musieli pisać kod, aby zaimplementować propagację wsteczną. Nowoczesne interfejsy API do uczenia maszynowego, takie jak Keras, implementują teraz wsteczną propagację za Ciebie. Uff...

Więcej informacji znajdziesz w sekcji Sieci neuronowe w szybkim szkoleniu z uczenia maszynowego.

wsad

#fundamentals

Zestaw przykładów użytych w jednej iteracji. Rozmiar partii określa liczbę przykładów w partii.

Informacje o związku zbioru z epoką znajdziesz w sekcji epoka.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

wielkość wsadu

#fundamentals

Liczba przykładów w partii. Jeśli na przykład rozmiar partii wynosi 100, model przetwarza 100 przypadków na iterację.

Oto popularne strategie dotyczące rozmiaru wsadu:

Stochastyczny spadek wzdłuż gradientu (SGD), w którym rozmiar partii wynosi 1.
pełny wsad, w którym rozmiar wsadu to liczba przykładów w całym zbiorze treningowym; Jeśli np. zbiór treningowy zawiera milion przykładów, rozmiar partii będzie wynosił milion przykładów. Strategia polegająca na użyciu pełnej partii jest zwykle nieskuteczna.
minipartyjnych, w których rozmiar partii wynosi zwykle od 10 do 1000. Strategia minipartii jest zwykle najskuteczniejsza.

Więcej informacji znajdziesz w tych artykułach:

Produkcyjne systemy ML: wnioskowanie statyczne a dynamiczne w szybkim szkoleniu z uczenia maszynowego.
Poradnik dotyczący doboru parametrów sieci neuronowych

uprzedzenie (etyka/sprawiedliwość)

#fairness

#fundamentals

1. Tworzenie stereotypów lub faworyzowanie określonych rzeczy, ludzi lub grup względem innych. Te uprzedzenia mogą wpływać na zbieranie i interpretowanie danych, projektowanie systemu oraz sposób, w jaki użytkownicy z nim współpracują. Do tego rodzaju stronniczości należą m.in.:

2. Błąd systematyczny wprowadzony przez procedury próbkowania lub raportowania. Do tego rodzaju stronniczości należą m.in.:

Nie należy mylić tego pojęcia z terminem „bias” w modelach uczenia maszynowego ani z uprzedzeniem prognozy.

Więcej informacji znajdziesz w sekcji Uczciwość: rodzaje uprzedzeń z Kursu intensywnego z machine learningu.

uprzedzenie (matematyka) lub wyraz uprzedzenia

#fundamentals

Przecięcie lub przesunięcie od punktu początkowego. Uprzedzenie to parametr w modelach uczenia maszynowego, który jest symbolizowany przez jedną z tych wartości:

b
w₀

Na przykład wartość przesunięcia to b w tej formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W przypadku prostej linii dwuwymiarowej nachylenie oznacza po prostu „współrzędna y”. Na przykład na ilustracji poniżej nachylenie linii wynosi 2.

Wykres linii o nachyle 0,5 i błądzie (współrzędna y) równym 2.

Występuje ona, ponieważ nie wszystkie modele zaczynają się od punktu wyjścia (0,0). Załóżmy na przykład, że wstęp do parku rozrywki kosztuje 2 euro, a za każdą dodatkową godzinę pobytu klient płaci dodatkowo 0,5 euro. Dlatego model mapujący łączny koszt ma odchylenie 2, ponieważ najniższy koszt wynosi 2 euro.

Uprzedzeń nie należy mylić z uprzedzeniami dotyczącymi etyki i obiektywności ani z uprzedzeniami w prognozach.

Więcej informacji znajdziesz w sekcji Regresja liniowa w Szybkim szkoleniu z uczenia maszynowego.

klasyfikacja binarna

#fundamentals

Typ zadania klasyfikacji, które przewiduje jedną z 2 wzajemnie wykluczających się klas:

klasa wyników pozytywnych
klasa wyników negatywnych.

Na przykład 2 modele systemów uczących się wykonują podział na klasy binarne:

Model, który określa, czy wiadomości e-mail są spamem (klasa pozytywna) czy nie są spamem (klasa negatywna).
Model, który ocenia objawy medyczne, aby określić, czy dana osoba ma określoną chorobę (klasa pozytywna) czy nie (klasa negatywna).

Porównaj z klasyfikacją wieloklasową.

Zobacz też tematy regresja logistyczna i wartość progowa klasyfikacji.

Więcej informacji znajdziesz w sekcji Klasyfikacja w Szybkim szkoleniu z uczenia maszynowego.

skategoryzowanie w przedziałach

#fundamentals

Przekształcanie pojedynczej cechy w wiele cech binarnych zwanych zasobnikami lub bindami, zwykle na podstawie zakresu wartości. Funkcja pocięta jest zwykle ciągła.

Na przykład zamiast przedstawiać temperaturę jako pojedynczą ciągłą cechę zmiennoprzecinkową, możesz podzielić zakresy temperatur na oddzielne zbiory, takie jak:

< 10 stopni Celsjusza to „zimno”.
11–24 stopnie Celsjusza to „umiarkowany” zakres.
>= 25 stopni Celsjusza to zakres „ciepły”.

Model będzie traktować wszystkie wartości w tym samym zbiorze w identyczny sposób. Na przykład wartości 13 i 22 znajdują się w worku z umiarkowanym klimatem, więc model traktuje te 2 wartości tak samo.

Kliknij ikonę, aby dodać dodatkowe notatki.

Jeśli temperatura jest reprezentowana jako ciągła cecha, model traktuje ją jako pojedynczą cechę. Jeśli reprezentujesz temperaturę za pomocą 3 grup, model traktuje każdą z nich jako osobną cechę. Oznacza to, że model może uczyć się oddzielnych relacji każdego zbiornika do etykiety. Na przykład model regresji liniowej może uczyć się oddzielnych wag dla każdego zbioru.

Zwiększanie liczby puli powoduje komplikowanie modelu przez zwiększanie liczby relacji, które model musi się nauczyć. Na przykład zbiory „zimno”, „umiarkowanie” i „ciepło” to w istocie 3 osobne cechy, na których model może się uczyć. Jeśli zdecydujesz się dodać jeszcze 2 zasośniki (np. mróz i upał), model będzie musiał teraz trenować na 5 osobnych funkcjach.

Skąd wiesz, ile puli utworzyć i jakie powinny być zakresy poszczególnych puli? Odpowiedzi zwykle wymagają sporej ilości eksperymentowania.

Więcej informacji znajdziesz w sekcji Dane liczbowe: zagregowanie danych w szybkim szkoleniu z uczenia maszynowego.

C

dane kategorialne

#fundamentals

Cechy mające określony zestaw możliwych wartości. Rozważmy na przykład cechę metryczną o nazwie traffic-light-state, która może przyjmować jedną z 3 możliwych wartości:

red
yellow
green

Dzięki temu, że traffic-light-state jest reprezentowana jako cecha kategorialna, model może się uczyć o różnych wpływach zmiennych red, green i yellow na zachowanie kierowcy.

Funkcje kategorialne są czasami nazywane funkcjami dyskretnymi.

Kontrastuje z danymi liczbowymi.

Więcej informacji znajdziesz w sekcji Praca z danymi kategorycznymi w Kursie intensywnym z systemów uczących się.

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Na przykład:

W binarnym modelu klasyfikacji, który wykrywa spam, te 2 klasy mogą być oznaczone jako spam i nie spam.
W modelu klasyfikacji wieloklasowej służącym do identyfikowania ras psów klasy mogą być pudle, beagle, mops itd.

Model klasyfikacji prognozuje klasę. Z kolei model regresji prognozuje liczbę, a nie klasę.

Więcej informacji znajdziesz w sekcji Klasyfikacja w Szybkim szkoleniu z uczenia maszynowego.

model klasyfikacji

#fundamentals

model, którego prognoza to klasa. Na przykład wszystkie modele klasyfikacji:

Model, który przewiduje język zdania wejściowego (francuski? Hiszpański? włoski).
Model, który przewiduje gatunek drzewa (Maple? Oak? Baobab?).
Model, który prognozuje klasę pozytywną lub negatywną dla określonego stanu medycznego.

Modele regresji przewidują natomiast liczby, a nie klasy.

Dostępne są 2 popularne typy modeli klasyfikacji:

binarna klasyfikacja
klasyfikacja wieloklasowa

próg klasyfikacji

#fundamentals

W przypadku klasyfikacji binarnej liczba z zakresu od 0 do 1, która przekształca wynik nieprzetworzony modelu regresji logistycznej w prognozę klasy pozytywnej lub klasy negatywnej. Pamiętaj, że próg klasyfikacji to wartość wybrana przez człowieka, a nie przez trenowanie modelu.

Model regresji logistycznej zwraca wartość surową z zakresu od 0 do 1. Następnie:

Jeśli ta wartość jest większa od progu klasyfikacji, prognozowana jest klasa pozytywna.
Jeśli ta wartość jest niższa od progu klasyfikacji, przewidywana jest klasa negatywna.

Załóżmy na przykład, że próg klasyfikacji wynosi 0,8. Jeśli wartość nieprzetworzona wynosi 0,9, model prognozuje klasę pozytywną. Jeśli wartość surowa wynosi 0,7, model przewiduje klasę negatywną.

Wybór progu klasyfikacji ma duży wpływ na liczbę wyników fałszywie pozytywnych i wyników fałszywie negatywnych.

Kliknij ikonę, aby dodać dodatkowe notatki.

Wraz z rozwojem modeli i zbiorów danych inżynierowie czasami zmieniają próg klasyfikacji. Gdy zmienia się próg klasyfikacji, prognozy klasy pozytywnej mogą nagle stać się klasami ujemnymi i odwrotnie.

Rozważmy na przykład binarny model klasyfikacji służący do prognozowania chorób. Załóżmy, że w pierwszym roku system działa:

Wartość nieprzetworzona w przypadku konkretnego pacjenta to 0,95.
Próg klasyfikacji wynosi 0,94.

Dlatego system diagnozuje klasę pozytywną. (Pacjentka łapie oddech) Jestem chory.")

Rok później wartości mogą wyglądać tak:

Nieprzetworzona wartość dla tego samego pacjenta wynosi 0,95.
Wartość progowa klasyfikacji zmienia się na 0,97.

Dlatego system zaklasyfikuje teraz tego pacjenta jako pacjenta z ujemnym wynikiem. ("Happy day! Nie jestem chory.") Ten sam pacjent. Inna diagnoza.

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

zbiór danych z niezrównoważonymi klasami

#fundamentals

Zbiór danych do problemu klasyfikacji, w którym łączna liczba etykiet w poszczególnych klasach różni się znacznie. Rozważmy na przykład zbiór danych do klasyfikacji binarnej, w którym 2 etykiety są podzielone w ten sposób:

1 000 000 etykiet negatywnych
10 etykiet pozytywnych

Stosunek etykiet negatywnych do pozytywnych wynosi 100 000 do 1, więc jest to zbiór danych z niezrównowagą klas.

Natomiast ten zbiór danych nie jest niezrównoważony pod względem klas, ponieważ stosunek etykiet negatywnych do etykiet pozytywnych jest stosunkowo zbliżony do 1:

517 etykiet negatywnych
483 etykiety pozytywne

Zbiory danych z wieloma klasami mogą też być niezrównoważone pod względem klas. Na przykład ten zbiór danych do klasyfikacji wieloklasowej jest również niezrównoważony pod względem klas, ponieważ jedna etykieta ma znacznie więcej przykładów niż pozostałe 2:

1 000 000 etykiet z klasą „green”
200 etykiet z klasą „purple”
350 etykiet z klasą „pomarańczowy”

Zobacz też entropię, klasę większości i klasę mniejszości.

przycinanie

#fundamentals

Technika obsługi wartości odstające polegająca na wykonaniu jednej z tych czynności:

Obniżanie wartości cechy, które są wyższe niż maksymalny próg, do tego maksymalnego progu.
zwiększenie wartości atrybutów, które są mniejsze niż minimalny próg, do tego minimalnego progu;

Załóżmy na przykład, że mniej niż 0,5% wartości danej cechy wypada poza zakres 40–60. W takim przypadku możesz:

Wszystkie wartości powyżej 60 (maksymalny próg) są przycinane do 60.
Wszystkie wartości poniżej 40 (minimalny próg) są przycinane do 40.

Wartości odstające od reszty mogą uszkodzić modele, czasami powodując przepełnienie wag podczas trenowania. Niektóre wartości odstające mogą też znacznie zaburzać wskaźniki takie jak trafność. Przycinanie to powszechna technika ograniczania szkód.

Odcięcie gradientu wymusza wartości gradientu w określonym zakresie podczas trenowania.

Więcej informacji znajdziesz w sekcji Dane liczbowe: normalizacja z Kursu intensywnego na temat uczenia maszynowego.

tablica pomyłek

#fundamentals

Tabela N × N, która podsumowuje liczbę poprawnych i niepoprawnych prognoz modelu klasyfikacji. Rozważmy na przykład tę tablicę pomyłek dla modelu dwumiantowej klasyfikacji:

	Nowotwór (prognoza)	Nienowotworowe (prognozy)
Nowotwór (dane podstawowe)	18 (TP)	1 (FN)
Nienowotwor (dane podstawowe)	6 (FP)	452 (TN)

Powyższa tablica pomyłek pokazuje:

Spośród 19 prognoz, w których dane podstawowe to „Nowotwór”, model prawidłowo zaklasyfikował 18 z nich, a jedną błędnie.
Spośród 458 prognoz, w których przypadku dane podstawowe wskazywały, że nie ma guza, model prawidłowo sklasyfikował 452 z nich, a nieprawidłowo 6.

Tablica pomyłek dla problemu wieloklasowej klasyfikacji może pomóc w identyfikacji wzorców błędów. Rozważ na przykład tę macierz błędów dla 3-klasowego modelu klasyfikacji wieloklasowej, który kategoryzuje 3 różne rodzaje irysów (Virginica, Versicolor i Setosa). Gdy dane podstawowe to „Virginica”, tablica pomyłek pokazuje, że model znacznie częściej błędnie przewidywał „Versicolor” niż „Setosa”:

	Setosa (prognoza)	Versicolor (prognoza)	Virginica (prognoza)
Setosa (dane podstawowe)	88	12	0
Versicolor (dane podstawowe)	6	141	7
Virginica (dane podstawowe)	2	27	109

Innym przykładem może być macierz błędów, która może ujawnić, że model wytrenowany do rozpoznawania odręcznie wpisanych cyfr często błędnie przewiduje 9 zamiast 4 lub 1 zamiast 7.

Matryc konfuzji zawiera wystarczającą ilość informacji do obliczenia różnych wskaźników skuteczności, w tym precyzji i czułości.

ciągła funkcja

#fundamentals

Właściwość o typie zmiennopozycyjnym z nieskończonym zakresem możliwych wartości, np. temperatura lub waga.

W odróżnieniu od funkcji dyskretnej.

zbieżność

#fundamentals

Stan osiągnięty, gdy wartości utraty zmieniają się bardzo mało lub wcale w przypadku każdej iteracji. Na przykład na krzywej utraty funkcji celu widać, że zbieżność występuje po około 700 iteracjach:

Wykres kartezjański. Oś X to utrata. Oś Y to liczba iteracji trenowania. Straty są bardzo wysokie w pierwszych kilku iteracjach, ale gwałtownie spadają. Po około 100 iteracjach utrata nadal maleje, ale znacznie wolniej. Po około 700 iteracjach strata pozostaje na stałym poziomie.

Model zbiera się, gdy dodatkowe trenowanie nie poprawia jego wyników.

W deep learningu wartości strat czasami pozostają stałe lub prawie stałe przez wiele iteracji, zanim w końcu zaczną maleć. W przypadku długiego okresu stałej wartości utraty możesz mieć chwilowo fałszywe wrażenie zbieżności.

Zobacz też wczesne zatrzymanie.

Więcej informacji znajdziesz w sekcji Modele – krzywe zbieżności i strat w Szybkim szkoleniu z systemów uczących się.

D

[struktura] DataFrame

#fundamentals

Popularny typ danych pandas służący do reprezentowania zbiorów danych w pamięci.

DataFrame jest podobny do tabeli lub arkusza kalkulacyjnego. Każda kolumna DataFrame ma nazwę (nagłówek), a każdy wiersz jest identyfikowany za pomocą unikalnego numeru.

Każda kolumna w ramach DataFrame jest sformatowana jak tablica dwuwymiarowa, z tą różnicą, że każdej kolumnie można przypisać własny typ danych.

Zobacz też oficjalną stronę referencyjną pakietu pandas.DataFrame.

zbiór danych

#fundamentals

Zbiór danych nieprzetworzonych, zwykle (ale nie zawsze) uporządkowanych w jednym z tych formatów:

arkusz kalkulacyjny
plik w formacie CSV (wartości rozdzielone przecinkami),

model głęboki

#fundamentals

Sieci neuronowej zawierającej więcej niż 1 ukrytą warstwę.

Model głęboki to także głęboka sieć neuronowa.

Porównaj z modelem szerokim.

funkcja gęsta

#fundamentals

Cecha, w której większość lub wszystkie wartości są różne od 0, zwykle tensor wartości zmiennoprzecinkowych. Na przykład ten 10-elementowy tensor jest gęsty, ponieważ 9 jego wartości jest niezerowych:

W odróżnieniu od rzadkiej funkcji.

głębokość

#fundamentals

Suma tych wartości w sieci neuronowej:

liczba ukrytych warstw,
liczba warstw wyjściowych, która zwykle wynosi 1;
liczba warstw wektorów dystrybucyjnych,

Na przykład sieć neuronowa z 5 ukrytymi warstwami i 1 warstwą wyjściową ma głębokość 6.

Zwróć uwagę, że warstwa wejściowa nie wpływa na głębokość.

funkcja dyskretna

#fundamentals

cecha z ograniczonym zbiorem możliwych wartości. Na przykład cecha, której wartościami mogą być tylko zwierzę, warzywo lub minerał, jest cecha dyskretna (czyli kategorialna).

W odróżnieniu od funkcji ciągłej.

dynamiczny

#fundamentals

coś, co jest wykonywane często lub stale; W uczeniu maszynowym terminy dynamiczny i online są synonimami. Oto najczęstsze zastosowania dynamicznych i internetowych w przypadku uczenia maszynowego:

Model dynamiczny (lub model online) to model, który jest często lub stale ponownie trenowany.
Szkolenie dynamiczne (lub szkolenie online) to proces szkolenia często lub ciągle.
Wyraźnie dynamiczne wnioskowanie (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

model, który jest często (a nawet stale) ponownie trenowany. Model dynamiczny to „uczeń przez całe życie”, który stale dostosowuje się do zmieniających się danych. Model dynamiczny jest też nazywany modelem online.

Porównaj z modelem statycznym.

E

wczesne zatrzymanie

#fundamentals

Metoda regularyzacji, która polega na zakończeniu treningu przed zakończeniem zmniejszania się straty w treningu. W przypadku wczesnego zatrzymania celowo przerywasz trenowanie modelu, gdy strata na zbiorze danych do weryfikacji zaczyna się zwiększać, czyli gdy skuteczność w zakresie generalizacji się pogarsza.

Kliknij ikonę, aby dodać dodatkowe notatki.

Wczesne zatrzymanie może wydawać się sprzeczne z intuicją. Przecież żądanie wstrzymania treningu modelu, gdy straty wciąż się zmniejszają, może być podobne do żądania od szefa kuchni, aby przestał gotować, zanim deser zostanie w pełni upieczony. Jednak zbyt długie trenowanie modelu może prowadzić do nadmiernego dopasowania. Oznacza to, że jeśli trenujesz model zbyt długo, może on tak dobrze dopasować się do danych treningowych, że nie będzie w stanie trafnie prognozować nowych przykładów.

warstwa wstawiania

#language

#fundamentals

Specjalny warstwę ukrytą, która jest trenowana na podstawie cechy kategorialnej o dużej wymiarowości, aby stopniowo uczyć się wektora zanurzonego o mniejszej wymiarowości. Warstwę embeddingu można wykorzystać do trenowania sieci neuronowej w znacznie bardziej wydajny sposób niż przy użyciu tylko cechy wielowymiarowej.

Na przykład Earth obsługuje obecnie około 73 tys. gatunków drzew. Załóżmy, że gatunek drzewa jest atrybutem w Twoim modelu,więc warstwa wejściowa modelu zawiera wektor typu one-hot o długości 73 tys. elementów. Na przykład baobab może być przedstawione w ten sposób:

Tablica 73 tys. elementów. Pierwsze 6232 elementy mają wartość 0. Następny element zawiera wartość 1. Ostatnie 66 767 elementów ma wartość zero.

Tablica o 73 tys. elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy embeddingu, trenowanie zajmie bardzo dużo czasu z powodu mnożenia 72 999 zer. Możesz wybrać warstwę z 12 wymiarami. W konsekwencji warstwa embeddingu będzie stopniowo uczyć się nowego wektora embeddingu dla każdego gatunku drzewa.

W niektórych sytuacjach zaszyfrowanie jest odpowiednią alternatywą dla warstwy umieszczania.

Więcej informacji znajdziesz w sekcji Embeddings w szybkim szkoleniu z uczenia maszynowego.

początek epoki : epoka

#fundamentals

pełne trenowanie całego zbioru treningowego, w którym każdy przykład został przetworzony raz;

Jedna epoka to N/rozmiar wsadu iteracji treningowych, gdzie N to łączna liczba przykładów.

Załóżmy na przykład, że:

Zbiór danych zawiera 1000 przykładów.
Wielkość wsadu to 50 przykładów.

Dlatego jedna epoka wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

przykład

#fundamentals

wartości jednego wiersza cechy i ewentualnie etykiety, Przykłady w nauce nadzorowanej można podzielić na 2 ogólne kategorie:

Znakowane przykłady zawierają co najmniej 1 cechę i etykietę. Oznaczone etykietami przykłady są używane podczas trenowania.
Nieoznaczony przykład składa się z co najmniej 1 cechy, ale nie ma etykiety. Przykłady bez etykiet są używane podczas wnioskowania.

Załóżmy na przykład, że trenujesz model, aby określić wpływ warunków pogodowych na wyniki egzaminów uczniów. Oto 3 oznaczone przykłady:

Funkcje			Etykieta
Temperatura	wilgotność,	Ciśnienie	Wynik testu
15	47	998	Dobry
19	34	1020	Świetna
18	92	1012	Niska

Oto 3 przykłady bez etykiet:

Temperatura	wilgotność,	Ciśnienie
12	62	1014
21	47	1017
19	41	1021

Wiersz zbioru danych jest zwykle źródłem danych nieprzetworzonych. Oznacza to, że przykład zwykle składa się z podzbioru kolumn zbioru danych. Ponadto funkcje w przykładzie mogą obejmować funkcje syntetyczne, takie jak krzyżowanie funkcji.

Więcej informacji znajdziesz w sekcji Nauczanie nadzorowane w kursie Wprowadzenie do systemów uczących się.

F

fałszywie negatywny (FN),

#fundamentals

Przykład, w którym model błędnie przewiduje klasę negatywną. Na przykład model przewiduje, że dana wiadomość e-mail nie jest spamem (klasa negatywna), ale okazuje się, że jest to spam.

wynik fałszywie pozytywny (FP).

#fundamentals

Przykład, w którym model błędnie prognozuje klasę pozytywną. Na przykład model przewiduje, że dana wiadomość e-mail jest spamem (klasa pozytywna), ale w rzeczywistości nie jest to spam.

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

współczynnik wyników fałszywie pozytywnych (FPR);

#fundamentals

Odsetek rzeczywistych przykładów negatywnych, dla których model błędnie przewidział klasę pozytywną. Odsetek wyników fałszywie dodatnich oblicza się za pomocą tej formuły:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie pozytywnych to oś X na krzywej ROC.

Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa modelu uczenia maszynowego. Przykład składa się z co najmniej jednej funkcji. Załóżmy na przykład, że trenujesz model, aby określić wpływ warunków pogodowych na wyniki testów uczniów. W tabeli poniżej znajdziesz 3 przykłady, z których każdy zawiera 3 funkcje i 1 etykietę:

Funkcje			Etykieta
Temperatura	wilgotność,	Ciśnienie	Wynik testu
15	47	998	92
19	34	1020	84
18	92	1012	87

Kontrast z etykietą.

Więcej informacji znajdziesz w sekcji Nauczanie nadzorowane w kursie Wprowadzenie do systemów uczących się.

funkcja krzyżowa

#fundamentals

Cecha syntetyczna utworzona przez „przecięcie” cech kategorialnych lub zbiorowych.

Rozważmy na przykład model „prognozowania nastroju”, który przedstawia temperaturę w jednym z tych 4 zakresów:

freezing
chilly
temperate
warm

I reprezentuje prędkość wiatru w jednym z tych 3 zakresów:

still
light
windy

Bez krzyżowania cech model liniowy trenuje się niezależnie w przypadku każdego z 7 poprzednich różnych zbiorów. Model trenuje na przykład na danych freezing niezależnie od trenowania na przykład na danych windy.

Możesz też utworzyć funkcję krzyżową temperatury i prędkości wiatru. Ta syntetyczna cecha miałaby 12 możliwych wartości:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Dzięki skrzyżowaniu cech model może uczyć się różnic w nastroju między dniem freezing-windy a freezing-still.

Jeśli utworzysz funkcję syntetyczną na podstawie 2 funkcji, z których każda ma wiele różnych zbiorników, otrzymana funkcja krzyżowa będzie miała ogromną liczbę możliwych kombinacji. Jeśli na przykład jedna cecha ma 1000 segmentów, a druga – 2000 segmentów, to ich iloczyn ma 2 000 000 segmentów.

Formalnie krzyż jest iloczynem kartezjańskim.

Krzyżowanie cech jest używane głównie w przypadku modeli liniowych i rzadko w przypadku sieci neuronowych.

Więcej informacji znajdziesz w sekcji Dane kategoryczne: krzyżowanie cech w Szybkim szkoleniu z uczenia maszynowego.

ekstrakcja wyróżników

#fundamentals

#TensorFlow

Proces obejmujący te kroki:

Określanie, które cechy mogą być przydatne podczas trenowania modelu.
konwertowanie nieprzetworzonych danych ze zbioru danych na wydajne wersje tych funkcji;

Możesz na przykład uznać, że temperature może być przydatną funkcją. Następnie możesz eksperymentować z bucketingiem, aby zoptymalizować to, czego model może się nauczyć z różnych zakresów temperature.

Inżynieria cech jest czasami nazywana wyodrębnianiem cech lub tworzeniem cech.

Kliknij ikonę, aby wyświetlić dodatkowe informacje o TensorFlow.

W TensorFlow inżynieria cech często oznacza konwertowanie wpisów w pliku dziennika w postaci nieprzetworzonych danych do buforów protokołów tf.Example. Zobacz też funkcję tf.Transform.

Więcej informacji znajdziesz w sekcji Dane liczbowe: jak model przetwarza dane za pomocą wektorów cech z Kursu intensywnego z uczenia maszynowego.

zestaw cech

#fundamentals

Grupa funkcji, na podstawie których trenowany jest model systemów uczących się. Na przykład kod pocztowy, wielkość i stan nieruchomości mogą stanowić prosty zbiór cech dla modelu, który prognozuje ceny mieszkań.

wektor cech

#fundamentals

Tablica wartości cechy, która zawiera przykład. Wektor cech jest podawany podczas treningu i podczas wyciągania wniosków. Na przykład wektor cech w przypadku modelu z 2 cechami dyskretnymi może wyglądać tak:

[0.92, 0.56]

4 warstwy: warstwa wejściowa, 2 warstwy ukryte i jedna warstwa wyjściowa.
Warstwa wejściowa zawiera 2 węzły: jeden z wartością 0,92, a drugi z wartością 0,56.

Każdy przykład podaje różne wartości wektora cech, więc wektor cech w następnym przykładzie może wyglądać tak:

[0.73, 0.49]

Przygotowanie danych określa, jak przedstawiać cechy w wektorze cech. Na przykład dwuwartościowa cecha kategorialna z 5 możliwymi wartościami może być reprezentowana za pomocą kodowania 1-hot. W tym przypadku część wektora cech w przypadku konkretnego przykładu składałaby się z 4 zer i 1 wartości 1,0 na 3.pozycji:

[0.0, 0.0, 1.0, 0.0, 0.0]

Innym przykładem może być model składający się z 3 cech:

binarna cecha kategorialna o 5 możliwych wartościach reprezentowanych za pomocą kodowania 1-hot, np.: [0.0, 1.0, 0.0, 0.0, 0.0]
kolejna dwuwartościowa cecha kategorialna o 3 możliwych wartościach reprezentowanych za pomocą kodowania 1-hot, np.: [0.0, 0.0, 1.0]
funkcja zmiennoprzecinkowa, np. 8.3.

W tym przypadku wektor cech każdego przykładu będzie reprezentowany przez 9 wartości. Na podstawie przykładowych wartości z poprzedniej listy wektor cech wyglądałby tak:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Więcej informacji znajdziesz w sekcji Dane liczbowe: jak model przetwarza dane za pomocą wektorów cech z Kursu intensywnego z uczenia maszynowego.

pętla informacji zwrotnych

#fundamentals

W uczeniu maszynowym sytuacja, w której prognozy modelu wpływają na dane treningowe tego samego modelu lub innego modelu. Na przykład model, który rekomenduje filmy, wpływa na to, jakie filmy widzą użytkownicy, a to z kolei wpływa na kolejne modele rekomendacji filmów.

Więcej informacji znajdziesz w sekcji Produkcyjne systemy ML: pytania do zastanowienia się w Kursie intensywnym z uczenia maszynowego.

G

uogólnianie

#fundamentals

Zdolność modelu do trafnego przewidywania nowych, wcześniej niewidzianych danych. Model, który może uogólniać, jest przeciwieństwem modelu, który nadmiernie dopasowuje się.

Kliknij ikonę, aby dodać dodatkowe notatki.

Model trenujesz na przykładach z treningowego zbioru danych. W konsekwencji model uczy się specyfiki danych w zbiorze treningowym. Ogólnie rzecz biorąc, chodzi o to, czy Twój model może dobrze prognozować na przykładach, które nie znajdują się w zbiorze treningowym.

Aby zachęcić do uogólniania, regularyzacja pomaga modelowi trenować mniej dokładnie w stosunku do osobliwości danych w zbiorze treningowym.

Więcej informacji znajdziesz w sekcji Ogólnienie w szybkim szkoleniu z uczenia maszynowego.

krzywa generalizacji

#fundamentals

Wykres straty na etapie trenowania i straty na etapie walidacji w funkcji liczby iteracji.

Krzywa generalizacji może pomóc w wykryciu możliwego nadmiernego dopasowania. Na przykład krzywa generalizacji sugeruje przetrenowanie, ponieważ strata weryfikacyjna staje się ostatecznie znacznie większa niż strata podczas trenowania.

Wykres kartezjański, na którym oś Y ma etykietę „strata”, a oś X – „iteracje”. Pojawiają się 2 wykresy. Jeden wykres pokazuje stratę podczas trenowania, a drugi – stratę podczas weryfikacji.
Oba wykresy zaczynają się podobnie, ale strata podczas trenowania w końcu spada znacznie poniżej straty podczas walidacji.

Więcej informacji znajdziesz w sekcji Ogólnienie w szybkim szkoleniu z uczenia maszynowego.

spadku wzdłuż gradientu

#fundamentals

Technika matematyczna służąca do minimalizowania strat. Metoda gradientu stochastycznego iteracyjnie dostosowuje wagi i uśrednia błędy, stopniowo znajdując najlepszą kombinację w celu zminimalizowania strat.

Metoda gradientu stosowana jest od dawna, czyli znacznie wcześniej niż systemy uczące się.

Więcej informacji znajdziesz w artykule Regresja liniowa: metoda gradientu schodkowego z Kursu intensywnego na temat uczenia się maszynowego.

dane podstawowe (ground truth)

#fundamentals

Realizm.

co faktycznie się wydarzyło.

Rozważmy na przykład model dwuklasowej klasyfikacji, który przewiduje, czy student pierwszego roku studiów ukończy je w ciągu 6 lat. Dane podstawowe dla tego modelu to informacje o tym, czy dany student ukończył studia w ciągu 6 lat.

Kliknij ikonę, aby dodać dodatkowe notatki.

Jakość modelu oceniamy na podstawie danych podstawowych. Dane podstawowe nie zawsze są jednak w pełni wiarygodne. Rozważ na przykład te potencjalne niedoskonałości w danych referencyjnych:

Czy w przypadku przykładu ukończenia studiów możemy być pewni, że dane dotyczące ukończenia studiów są zawsze prawidłowe? Czy prowadzenie dokumentacji przez uczelnię jest bezbłędne?
Załóżmy, że etykieta to wartość zmiennoprzecinkowa zmierzona przez instrumenty (np. barometry). Jak możemy mieć pewność, że każdy instrument jest skalibrowany w identyczny sposób lub że każde odczyt zostało uzyskane w tych samych okolicznościach?
Jeśli etykieta zależy od ludzkiej opinii, jak możemy mieć pewność, że każdy weryfikator ocenia zdarzenia w ten sam sposób? Aby zapewnić spójność, czasami eksperci weryfikują treści.

H

warstwa ukryta

#fundamentals

Warstwa w sieci neuronowej między warstwą wejściową (cechy) a warstwą wyjściową (prognoza). Każda warstwa ukryta składa się z co najmniej 1 neurona. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy:

Głęboka sieć neuronowa zawiera więcej niż 1 warstwę ukrytą. Na przykład poprzednia ilustracja przedstawia głęboką sieć neuronową, ponieważ model zawiera 2 warstwy ukryte.

Więcej informacji znajdziesz w artykule Neural networks: Nodes and hidden layers z cyklu Crash Course z machine learningu.

hiperparametr

#fundamentals

zmienne, które Ty lub usługa dostrajania hiperparametrówdostosowujesz podczas kolejnych sesji trenowania modelu; Na przykład tempo uczenia się jest hiperparametrem. Przed rozpoczęciem sesji treningowej możesz ustawić szybkość uczenia się na 0,01. Jeśli uznasz, że 0,01 jest zbyt wysoką wartością, możesz ustawić szybkość uczenia się na 0,003 w następnej sesji treningowej.

Natomiast parametry to różne wagi i uprzedzenia, których model uczy się podczas trenowania.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

I

niezależne i identycznie rozłożone (i.i.d)

#fundamentals

Dane pochodzące z rozkładu, który się nie zmienia, a każda z wylosowanych wartości nie zależy od wcześniej wylosowanych wartości. IID to gaz doskonały w uczeniu maszynowym – przydatna konstrukcja matematyczna, która w rzeczywistych warunkach występuje bardzo rzadko. Na przykład w krótkim przedziale czasu rozkład wizyt na stronie internetowej może być niezależny od identyfikatora, co oznacza, że rozkład nie zmienia się w tym krótkim przedziale czasu, a wizyta jednej osoby jest zazwyczaj niezależna od wizyty innej osoby. Jeśli jednak rozszerzysz ten przedział czasu, mogą pojawić się sezonowe różnice w liczbie odwiedzających stronę.

Zobacz też niestacjonarność.

wnioskowanie

#fundamentals

W uczeniu maszynowym proces dokonywania prognoz polega na zastosowaniu wytrenowanego modelu do nieoznaczonych przykładów.

W statystyce wnioskowanie ma nieco inne znaczenie. Więcej informacji znajdziesz w tym artykule na temat wnioskowania statystycznego w Wikipedii.

Aby poznać rolę wnioskowania w systemie uczenia nadzorowanego, zapoznaj się z uczenie nadzorowane w Kursie wprowadzającym do uczenia maszynowego.

warstwa wejściowa

#fundamentals

Warstwa sieci neuronowej, która przechowuje wektory cech. Oznacza to, że warstwa wejściowa dostarcza przykładów do trenowania lub wyciągania wniosków. Na przykład warstwa wejściowa w tej sieci neuronowej składa się z 2 elementów:

4 warstwy: warstwa wejściowa, 2 warstwy ukryte i warstwa wyjściowa.

interpretowalność

#fundamentals

Umiejętność wyjaśnienia lub przedstawienia rozumowania modelu ML w zrozumiały sposób.

Na przykład większość modeli regresji liniowej jest łatwa do interpretacji. (wystarczy spojrzeć na wytrenowane wagi dla każdej cechy). Lasy decyzyjne są też bardzo czytelne. Interpretowalność niektórych modeli wymaga jednak rozbudowanej wizualizacji.

Do interpretowania modeli ML możesz użyć narzędzia do analizowania interpretowalności (LIT).

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modelu (wag i uprzedzeń) podczas trenowania. Rozmiar wsadu określa, ile przykładów model przetwarza w ramach jednej iteracji. Jeśli na przykład rozmiar partii wynosi 20, model przetwarza 20 przykładów, zanim dostosuje parametry.

Podczas trenowania sieci neuronowej pojedyncza iteracja obejmuje 2 przebiegi:

Przejście do przodu w celu oszacowania utraty na pojedynczym zbiorze danych.
Przejście wstecz (wsteczne propagowanie) w celu dostosowania parametrów modelu na podstawie utraty i tempo uczenia się.

L

Regularyzacja L₀

#fundamentals

Typ regularyzacji, która nakłada kary na łączną liczbę niezerowych wag w modelu. Na przykład model z 11 wartościami wag niezerowych byłby obciążony większą karą niż podobny model z 10 wartościami wag niezerowych.

Regularyzacja L₀ jest czasami nazywana regularyzacją normy L0.

Kliknij ikonę, aby dodać dodatkowe notatki.

Regularizacja L₀ jest zwykle niepraktyczna w przypadku dużych modeli, ponieważ powoduje, że trenowanie staje się problemem optymalizacji wypukłym.

Straty L₁

#fundamentals

Funkcja strat, która oblicza bezwzględną wartość różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Oto na przykład obliczenie utraty L₁ w partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu	Wartość prognozowana przez model	Wartość bezwzględna delty
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁

Strata L₁ jest mniej wrażliwa na wartości wyizolowane niż strata L₂.

Średni bezwzględny błąd to średnia utrata informacji L₁ na przykład.

Aby wyświetlić formalny zapis matematyczny, kliknij ikonę.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

gdzie:

$n$ to liczba przykładów.
$y$ to rzeczywista wartość etykiety.
$\hat{y}$ to wartość prognozowana przez model dla $y$.

Regularyzacja L₁

#fundamentals

Typ regularyzacji, która nakłada kary na wagi proporcjonalnie do ich sumy wartości bezwzględnych. Regularyzacja L₁ pomaga doprowadzić wagi nieistotnych lub mało istotnych cech do dokładnie 0. Cecha o wadze 0 zostaje skutecznie usunięta z modelu.

Porównaj z regularyzacją L₂.

Strata L₂

#fundamentals

Funkcja strat, która oblicza kwadrat różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Oto na przykład obliczenie strat L₂ dla partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu	Wartość prognozowana przez model	Kwadrat delty
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂

Z powodu kwadratowania strata L₂ wzmacnia wpływ wartości odstających. Oznacza to, że strata L₂ reaguje silniej na złe prognozy niż strata L₁. Na przykład strata L₁ w poprzednim zbiorze wynosi 8, a nie 16. Zwróć uwagę, że 9 z 16 wyników to wartości odstające.

Modele regresji zwykle używają funkcji utraty L₂ jako funkcji utraty.

Wartość błędu średniokwadratowego to średnia strata funkcji L₂ na przykład. Strata kwadratowa to inna nazwa straty L₂.

Aby wyświetlić formalny zapis matematyczny, kliknij ikonę.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

gdzie:

$n$ to liczba przykładów.
$y$ to rzeczywista wartość etykiety.
$\hat{y}$ to wartość prognozowana przez model dla $y$.

Regularyzacja L₂

#fundamentals

Rodzaj regularyzacji, która nakłada kary na wagi proporcjonalnie do sumy kwadratów tych wag. Regularyzacja L₂ pomaga zbliżyć wagi wyjści poza zakres (czyli te o wysokich dodatnich lub niskich ujemnych wartościach) do 0, ale nie doprowadzi ich do dokładnie tej wartości. Cechy o wartościach bardzo zbliżonych do 0 pozostają w modelu, ale nie mają większego wpływu na jego prognozy.

Regularyzacja L₂ zawsze poprawia uogólnianie w modelach liniowych.

Porównaj z regularyzacją L₁.

etykieta

#fundamentals

W uczeniu nadzorowanym jest to część „odpowiedź” lub „wynik” przykładu.

Każdy oznaczony przykład składa się z co najmniej 1 cechy i etykiety. Na przykład w zbiorze danych do wykrywania spamu etykietą byłaby prawdopodobnie wartość „spam” lub „nie spam”. W przypadku zbioru danych o opadach atmosferycznych etykietą może być ilość opadów w okresie.

przykład z oznaczeniem

#fundamentals

Przykład zawierający co najmniej jedną cechę i etykietę. Na przykład w tabeli poniżej znajdują się 3 oznaczone przykłady z modelu wyceny domu, z których każdy ma 3 cechy i 1 etykietę:

Liczba sypialni	Liczba łazienek	Wiek domu	Cena domu (etykieta)
3	2	15	345 tys. USD
2	1	72	179 tys. USD
4	2	34	392 000 USD

W nadzorowanym uczeniu maszynowym modele są trenowane na przykładach z oznacznikami i wydają prognozy na podstawie przykładów bez oznaczeń.

Porównanie przykładu z oznaczoną etykietą z przykładami bez etykiety.

lambda

#fundamentals

Synonim stawki legalizacji.

Lambda to przeciążony termin. Tutaj skupiamy się na definicji tego terminu w kontekście regularyzacji.

warstwa

#fundamentals

Zbiór neuronów w sieci neuronowej. Oto 3 najczęstsze typy warstw:

Warstwę wejściową, która zawiera wartości wszystkich cechowań.
Co najmniej 1 ukrytych warstw, które znajdują nieliniowe zależności między cechami a etykietą.
warstwa wyjściowa, która dostarcza prognozy.

Na przykład ilustracja poniżej przedstawia sieć neuronową z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwsza ukryta warstwa składa się z 3 neuronów, a druga – z 2 neuronów. Warstwa wyjściowa składa się z pojedynczego węzła.

W TensorFlow warstwy to też funkcje Pythona, które przyjmują jako dane wejściowe tensory i inne tensory jako dane wyjściowe.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która informuje algorytm gradientu prostego, jak mocno dostosowywać wagi i uśrednienia na każdej iteracji. Na przykład szybkość uczenia się 0,3 będzie wpływać na wagi i przechylenia 3 razy silniej niż szybkość uczenia się 0,1.

Tempo uczenia się to kluczowy hiperparametr. Jeśli ustawisz zbyt niski współczynnik nauki, proces trenowania potrwa zbyt długo. Jeśli tempo uczenia się jest zbyt wysokie, metoda gradientu prostego często ma problemy z osiągnięciem konwergencji.

Kliknij ikonę, aby uzyskać bardziej matematyczne wyjaśnienie.

Podczas każdej iteracji algorytm gradientu prostego spadku mnoży współczynnik szybkości uczenia przez gradient. Uzyskany produkt nazywa się stopniem gradientu.

jednostajne

#fundamentals

Związek między co najmniej 2 zmiennymi, który można przedstawić wyłącznie za pomocą dodawania i mnożenia.

Wykres zależności liniowej to linia.

Kontrast z nielinearnym.

model liniowy

#fundamentals

Model przypisuje wagę na każdą cechę, aby tworzyć prognozy. (modele liniowe uwzględniają też uprzedzenie). Natomiast relacja między cechami a prognozami w modelach głębokich jest zwykle nieliniowa.

Modele liniowe są zwykle łatwiejsze do wytrenowania i bardziej zrozumiałe niż modele głębokie. Modele głębokie mogą jednak uczyć się złożonych relacji między cechami.

Regresja liniowa i regresja logistyczna to 2 typy modeli liniowych.

Aby zobaczyć obliczenia, kliknij ikonę.

Model liniowy ma postać:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

gdzie:

y' to nieprzetworzona prognoza. (W przypadku niektórych rodzajów modeli liniowych ta surowa prognoza zostanie dodatkowo zmodyfikowana. Przykładem może być regresja logistyczna.
b to uprzedzenie.
w to waga, więc w₁ to waga pierwszej funkcji, w₂ to waga drugiej funkcji itd.
x to cecha, więc x₁ to wartość pierwszej cechy, x₂ to wartość drugiej cechy itd.

Załóżmy na przykład, że model liniowy dla 3 cech uczy się tych wartości średniej i wag:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Dlatego przy 3 cechach (x₁, x₂ i x₃) model liniowy do generowania prognoz używa tej zależności:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Załóżmy, że przykład zawiera te wartości:

x₁ = 4
x₂ = -10
x₃ = 5

Wstawienie tych wartości do formuły daje w tym przykładzie prognozę:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Modele liniowe obejmują nie tylko modele, które do tworzenia prognoz używają tylko równania liniowego, ale też szerszy zestaw modeli, które używają równania liniowego jako jednego z komponentów formuły służącej do tworzenia prognoz. Na przykład regresja logistyczna poddaje wstępnej obróbce surową prognozę (y'), aby uzyskać ostateczną wartość prognozy z zakresu od 0 do 1.

regresja liniowa

#fundamentals

Typ modelu uczenia maszynowego, który spełnia oba te warunki:

Model jest liniowy.
Prognoza jest wartością zmiennoprzecinkową. (jest to część dotycząca regresji w ramach regresji liniowej).

Porównaj regresję liniową z regresją logistyczną. Porównaj regresję z klasyfikacją.

regresja logistyczna

#fundamentals

Typ modelu regresji, który prognozuje prawdopodobieństwo. Modele regresji logistycznej mają te cechy:

Etykieta jest kategoryczna. Termin „regresja logistyczna” zwykle odnosi się do binarnej regresji logistycznej, czyli modelu, który oblicza prawdopodobieństwa dla etykiet o 2 możliwych wartościach. Mniej popularna wielomianowa regresja logistyczna oblicza prawdopodobieństwa dla etykiet o większej liczbie niż 2 możliwe wartości.
Funkcja utraty podczas trenowania to logarytmiczna utrata. (w przypadku etykiet z większą liczbą niż 2 możliwe wartości można umieścić równolegle wiele jednostek utraty logarytmicznej).
Model ma architekturę liniową, a nie jest siecią głęboką. Pozostała część tej definicji dotyczy jednak również głębokich modeli, które przewidują prawdopodobieństwa dla etykiet kategorycznych.

Rozważmy na przykład model regresji logistycznej, który oblicza prawdopodobieństwo, że podany e-mail jest spamem lub nie jest spamem. Podczas wnioskowania model przewiduje wartość 0, 72. Dlatego model szacuje:

72% szans, że e-mail jest spamem.
28% szans, że e-mail nie jest spamem.

Model regresji logistycznej korzysta z tej 2-stopniowej architektury:

Model generuje prognozę wstępną (y') przez zastosowanie funkcji liniowej cech wejściowych.
Model używa tej prognozy nieprzetworzonej jako danych wejściowych do funkcji sigmoidalnej, która konwertuje tę prognozę nieprzetworzoną na wartość z zakresu od 0 do 1.

Podobnie jak każdy model regresji, model regresji logistycznej prognozuje liczbę. Jednak liczba ta zwykle staje się częścią modelu klasyfikacji binarnej w ten sposób:

Jeśli prognozowana liczba jest większa od progu klasyfikacji, model klasyfikacji binarnej prognozuje klasę pozytywną.
Jeśli przewidywana liczba jest mniejsza od progu klasyfikacji, model klasyfikacji binarnej przewiduje klasę negatywną.

Logarytmiczna funkcja straty

#fundamentals

Funkcja utraty używana w binarnej regresji logistycznej.

Aby zobaczyć obliczenia, kliknij ikonę.

Strata logarytmiczna jest obliczana według tego wzoru:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

gdzie:

$(x,y)\in D$ to zbiór danych zawierający wiele przykładów z oznaczoną etykietą, które są $(x,y)$ parami.
$y$ to etykieta w przykładzie z etykietą. Ponieważ jest to regresja logistyczna, każda wartość parametru $y$ musi być równa 0 lub 1.
$y'$ to prognozowana wartość (z zakresu od 0 do 1, obustronnie otwartego) na podstawie zbioru cech w parametrze $x$.

log-odds

#fundamentals

Logarytm prawdopodobieństwa wystąpienia danego zdarzenia.

Aby zobaczyć obliczenia, kliknij ikonę.

Jeśli zdarzenie ma podwójną wartość prawdopodobieństwa, kurs to stosunek prawdopodobieństwa powodzenia (p) do prawdopodobieństwa niepowodzenia (1-p). Załóżmy na przykład, że dane zdarzenie ma 90% prawdopodobieństwa powodzenia i 10% prawdopodobieństwa niepowodzenia. W tym przypadku współczynnik jest obliczany w ten sposób:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Logarytm szans to po prostu logarytm szans. Zgodnie z konwencją termin „logaritm” odnosi się do logaritmu naturalnego, ale logarytm może mieć dowolną podstawę większą od 1. Zgodnie z zasadami logarytmiczne prawdopodobieństwo w naszym przykładzie wynosi:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Funkcja logarytmiczna jest odwrotnością funkcji sigmoidalnej.

przegrana

#fundamentals

Podczas treningu modelu nadzorowanego mierzy się, jak daleko prognoza modelu odbiega od etykiety.

Funkcja utraty oblicza utratę.

krzywa utraty

#fundamentals

Wykres straty jako funkcji liczby iteracji. Na wykresie poniżej widać typowy przebieg funkcji utraty:

Graficzny wykres strat w funkcji iteracji treningu, na którym widać szybki spadek strat w przypadku początkowych iteracji, a potem stopniowy spadek i płaską krzywą w przypadku ostatnich iteracji.

Krzywe strat mogą pomóc w określeniu, kiedy model zbiera dane lub nadmiernie dopasowuje się.

Krzywe strat mogą przedstawiać wszystkie te typy strat:

strata na etapie treningu
utrata walidacji
test loss

Zobacz też krzywą generalizacji.

funkcja utraty

#fundamentals

Podczas trenowania lub testowania funkcja matematyczna, która oblicza stratę na partii przykładów. Funkcja straty zwraca mniejszą stratę w przypadku modeli, które dobrze przewidują, niż w przypadku modeli, które źle przewidują.

Celem trenowania jest zwykle minimalizowanie straty zwracanej przez funkcję straty.

Istnieje wiele różnych rodzajów funkcji strat. Wybierz odpowiednią funkcję utraty dla rodzaju modelu, który budujesz. Na przykład:

L₂ (lub średnia kwadratowa błędu) jest funkcją utraty w przypadku regresji liniowej.
Strata logarytmiczna to funkcja straty w regresji logistycznej.

M

systemy uczące się

#fundamentals

To programy lub systemy, które trenowały model na podstawie danych wejściowych. Wytrenowany model może tworzyć przydatne prognozy na podstawie nowych (wcześniej nieużywanych) danych pobranych z tego samego rozkładu, co dane użyte do trenowania modelu.

Uczenie maszynowe odnosi się też do dziedziny nauki związanej z tymi programami lub systemami.

klasa większościowa

#fundamentals

Więcej informacji zawiera sekcja opisująca typowe błędy. Na przykład w przypadku zbioru danych zawierającego 99% etykiet negatywnych i 1% etykiet pozytywnych etykiety negatywne stanowią większość.

Porównaj z klasą mniejszościową.

mini-batch

#fundamentals

Mała, losowo wybrana podgrupa partii przetworzonej w jednej iteracji. Rozmiar minipartii zwykle wynosi od 10 do 1000 przykładów.

Załóżmy na przykład, że cały zbiór treningowy (pełna partia) składa się ze 1000 przypadków. Załóżmy też, że wielkość partii każdej minipartii wynosi 20. Dlatego w każdej iteracji określamy stratę dla 20 losowych przykładów spośród 1000 dostępnych, a następnie odpowiednio dostosowujemy wagi i uświadczenia.

Obliczanie strat na mini-partii jest znacznie wydajniejsze niż na wszystkich przykładach w pełnej partii.

klasa mniejszościowa

#fundamentals

Etykieta występująca rzadziej w zbiorze danych z niezrównoważonymi klasami. Na przykład w przypadku zbioru danych zawierającego 99% etykiet negatywnych i 1% etykiet pozytywnych etykiety pozytywne stanowią klasę mniejszościową.

Kontrastuje z klasą większości.

Kliknij ikonę, aby dodać dodatkowe notatki.

Zbiór treningowy z milionem przykładów brzmi imponująco. Jeśli jednak klasa mniejszości jest słabo reprezentowana, nawet bardzo duży zbiór treningowy może okazać się niewystarczający. Nie skupiaj się na łącznej liczbie przykładów w zbiorze danych, ale na liczbie przykładów w klasie mniejszości.

Jeśli Twój zbiór danych nie zawiera wystarczającej liczby przykładów klasy mniejszości, rozważ użycie próbkowania z wykluczeniem (definicja w drugim punkcie), aby uzupełnić klasę mniejszości.

model

#fundamentals

Ogólnie rzecz biorąc, każda konstrukcja matematyczna, która przetwarza dane wejściowe i zwraca dane wyjściowe. Inaczej mówiąc, model to zestaw parametrów i struktury, które są potrzebne systemowi do prognozowania. W nadzorowanym uczeniu maszynowym model otrzymuje jako dane wejściowe przykład, a jako dane wyjściowe wyprowadza prognozę. W ramach uczenia maszynowego nadzorowanego modele różnią się nieco od siebie. Na przykład:

Model regresji liniowej składa się z zestawu wag i błędu średniego.
Model sieci neuronowej składa się z tych elementów:
- Zestaw ukrytych warstw, z których każda zawiera co najmniej neuron.
- Wagi i błądy związane z każdym neuronem.
Model drzewa decyzyjnego składa się z tych elementów:
- Kształt drzewa, czyli wzór, w którym warunki i liście są połączone.
- Warunki i liście.

Możesz zapisać model, przywrócić go lub utworzyć jego kopie.

Nienadzorowane systemy uczące się generują też modele, zwykle funkcję, która może odwzorować przykład wejściowy na najbardziej odpowiedni klaster.

Kliknij ikonę, aby porównać funkcje algebraiczne i funkcje programistyczne z modelami uczenia maszynowego.

Modelem może być funkcja algebraiczna, np.

  f(x, y) = 3x -5xy + y² + 17

Poprzednia funkcja mapuje wartości wejściowe (x i y) na dane wyjściowe.

Podobnie funkcja programistyczna, taka jak ta, jest też modelem:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Wywołujący przekazuje argumenty do poprzedzającej funkcji Pythona, a ta generuje dane wyjściowe (za pomocą instrukcji return).

Chociaż głęboka sieć neuronowa ma bardzo odmienną strukturę matematyczną niż funkcja algebraiczna lub programistyczna, nadal przyjmuje dane wejściowe (np. przykład) i zwraca dane wyjściowe (prognozę).

Programista ręcznie koduje funkcję programowania. Model uczenia maszynowego stopniowo uczy się optymalnych parametrów podczas automatycznego trenowania.

klasyfikacja wieloklasowa

#fundamentals

W przypadku uczenia nadzorowanego problem klasyfikacji, w którym zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą należeć do jednej z tych trzech klas:

Iris setosa
Iris virginica
Iris versicolor

Model wytrenowany na zbiorze danych Iris, który prognozuje typ kwiatu na podstawie nowych przykładów, wykonuje klasyfikację wieloklasową.

Z kolei problemy klasyfikacji, które rozróżniają dokładnie 2 klasy, to binarne modele klasyfikacji. Na przykład model e-maila, który prognozuje spam lub nie spam, jest modelem klasyfikacji binarnej.

W problemach z klasteringiem klasyfikacja wieloklasowa odnosi się do więcej niż 2 klas.

N

klasa wyników negatywnych

#fundamentals

W przypadku klasyfikacji binarnej jedna klasa jest określana jako dodatnia, a druga jako ujemna. Klasa pozytywna to rzecz lub zdarzenie, które model testuje, a klasa negatywna to inna możliwość. Na przykład:

Klasa negatywna w teście medycznym może być oznaczona jako „nie nowotwór”.
Klasa negatywna w klasyfikatorze e-maili może być oznaczona jako „nie spam”.

Porównaj z klasą wyników pozytywnych.

sieć neuronowa

#fundamentals

Model zawierający co najmniej 1 ukrytą warstwę. Głęboka sieć neuronowa to rodzaj sieci neuronowej zawierającej więcej niż jedną warstwę ukrytą. Na przykład diagram poniżej przedstawia głęboką sieć neuronową z 2 ukrytymi warstwami.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami na następnej warstwie. Na przykład na diagramie powyżej widać, że każdy z 3 neuronów na pierwszej warstwie ukrytej jest osobno połączony z obamia neuronami na drugiej warstwie ukrytej.

Sieci neuronowe wdrażane na komputerach są czasami nazywane sztucznymi sieciami neuronowymi, aby odróżnić je od sieci neuronowych występujących w mózgu i innych układach nerwowych.

Niektóre sieci neuronowe mogą naśladować bardzo złożone zależności nieliniowe między różnymi cechami a etykietą.

Zobacz też splotową sieć neuronową i powtarzalną sieć neuronową.

neuron

#fundamentals

W uczeniu maszynowym: odrębna jednostka w ukrytej warstwie sieci neuronowej. Każdy neuron wykonuje tę dwuetapową czynność:

Oblicza sumę ważoną wartości wejściowych pomnożoną przez ich odpowiednie wagi.
Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacyjnej.

Neuron w pierwszym ukrytym warstwie przyjmuje dane wejściowe z wartości cech w warstwie wejściowej. Neuron w dowolnej warstwie ukrytej poza pierwszą przyjmuje dane wejściowe od neuronów w poprzedniej warstwie ukrytej. Na przykład neuron na 2. warstwie ukrytej przyjmuje dane wejściowe od neuronów na 1. warstwie ukrytej.

Na ilustracji poniżej zaznaczono 2 neurony i ich wejścia.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową. Wyróżniono 2 neurony: jeden na pierwszej warstwie ukrytej i jeden na drugiej warstwie ukrytej. Zaznaczony neuron na pierwszej warstwie ukrytej otrzymuje dane wejściowe z obu funkcji na warstwie wejściowej. Wyróżniony neuron na 2. ukrytej warstwie otrzymuje dane wejściowe od każdego z 3 neuronów na 1. ukrytej warstwie.

Neuron w sieci neuronowej naśladuje działanie neuronów w mózgu i innych częściach układu nerwowego.

węzeł (sieć neuronowa)

#fundamentals

Neuron w ukrytej warstwie.

nieliniowe

#fundamentals

Związek między co najmniej 2 zmiennymi, którego nie można przedstawić wyłącznie za pomocą dodawania i mnożenia. Linearna relacja może być przedstawiona w postaci linii, a nielinearna nie może być przedstawiona w postaci linii. Rozważmy na przykład 2 modele, z których każdy łączy jedną cechę z jedną etykietą. Model po lewej stronie jest liniowy, a model po prawej – nieliniowy:

2 wykresy. Jeden wykres jest linią, więc jest to zależność liniowa.
Drugi wykres jest krzywą, więc jest to związek nieliniowy.

niestałość

#fundamentals

Cecha, której wartości zmieniają się w ramach co najmniej 1 wymiaru, zwykle czasu. Oto przykłady niestałości:

Liczba strojów kąpielowych sprzedanych w danym sklepie zależy od sezonu.
Ilość danego owocu zebranego w danym regionie przez większość roku wynosi 0, ale w krótkim okresie jest duża.
Z powodu zmian klimatu średnie temperatury roczne się zmieniają.

Kontrastuje z stacionarnością.

normalizacja

#fundamentals

Ogólnie rzecz biorąc, jest to proces konwertowania rzeczywistego zakresu wartości zmiennej na standardowy zakres wartości, np.:

-1 do +1
Od 0 do 1
Z-wyniki (w przybliżeniu od -3 do +3)

Załóżmy na przykład, że rzeczywisty zakres wartości danej cechy wynosi od 800 do 2400. W ramach tworzenia cech możesz znormalizować rzeczywiste wartości do standardowego zakresu, np. -1 do +1.

Normalizacja jest częstym zadaniem w ramach inżynierii cech. Modele zwykle trenują szybciej (i wydają lepsze prognozy), gdy wszystkie cechy liczbowe w wektorze cech mają mniej więcej ten sam zakres.

Więcej informacji znajdziesz w module „Praca z danymi liczbowymi” z Kursu intensywnego na temat uczenia maszynowego. Zobacz też normalizację według wyniku z testu Z.

dane liczbowe

#fundamentals

Cechy reprezentowane jako liczby całkowite lub rzeczywiste. Na przykład model wyceny domu prawdopodobnie przedstawia wielkość domu (w stopach kwadratowych lub metrach kwadratowych) jako dane liczbowe. Przedstawienie cechy jako danych liczbowych wskazuje, że wartości tej cechy mają matematyczny związek z etykietą. Oznacza to, że liczba metrów kwadratowych domu prawdopodobnie ma pewien związek matematyczny z wartością domu.

Nie wszystkie dane całkowite powinny być reprezentowane jako dane liczbowe. Na przykład kody pocztowe w niektórych częściach świata są liczbami całkowitymi, ale nie należy ich przedstawiać w modelach jako danych liczbowych. Dzieje się tak, ponieważ kod pocztowy 20000 nie jest dwa razy (ani o połowę) mniej skuteczny niż kod pocztowy 10000. Co więcej, chociaż różne kody pocztowe są powiązane z różnymi wartościami nieruchomości, nie możemy zakładać, że wartości nieruchomości w kodach pocztowych 20000 są dwa razy wyższe niż wartości nieruchomości w kodach pocztowych 10000. Kody pocztowe powinny być zamiast tego reprezentowane jako dane kategoryczne.

Cechy liczbowe są czasami nazywane ciągłymi cechami.

O

offline

#fundamentals

Synonim statycznej.

wnioskowanie offline

#fundamentals

Proces generowania przez model zbioru prognoz, a następnie zapisywania tych prognoz w pamięci podręcznej. Aplikacje mogą wtedy korzystać z wywnioskowanej prognozy z pamięci podręcznej zamiast ponownie uruchamiać model.

Weźmy na przykład model, który generuje prognozy pogody lokalne (prognozy) co 4 godziny. Po każdym uruchomieniu modelu system przechowuje w pamięci podręcznej wszystkie lokalne prognozy pogody. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Wnioskowanie offline nazywane jest też wnioskowaniem statycznym.

Porównaj z inferencją online.

kodowanie one-hot

#fundamentals

Przedstawianie danych kategorialnych jako wektora, w którym:

Jeden element ma wartość 1.
Wszystkie pozostałe elementy mają wartość 0.

Kodowanie jednoelementowe jest często używane do reprezentowania ciągów znaków lub identyfikatorów, które mają skończony zbiór możliwych wartości. Załóżmy na przykład, że dana cecha kategorialna o nazwie Scandinavia ma 5 możliwych wartości:

„Dania”
„Szwecja”
„Norwegia”
„Finlandia”
„Islandia”

Kodowanie 1-hot może przedstawiać każdą z tych 5 wartości w ten sposób:

country	Wektor
„Dania”	1	0	0	0	0
„Szwecja”	0	1	0	0	0
„Norwegia”	0	0	1	0	0
„Finlandia”	0	0	0	1	0
„Islandia”	0	0	0	0	1

Dzięki kodowaniu one-hot model może uczyć się różnych połączeń na podstawie każdego z 5 krajów.

Reprezentowanie cechy jako danych liczbowych jest alternatywą dla kodowania 1-hot. Niestety reprezentowanie krajów skandynawskich za pomocą liczb nie jest dobrym pomysłem. Weź pod uwagę tę postać liczbową:

„Dania” to 0
„Sweden” to 1
„Norway” to 2
„Finlandia” to 3
„Islandia” to 4

W przypadku kodowania liczbowego model interpretuje liczby w postaci liczbowej i próbuje się na nich uczyć. Jednak Islandia nie jest w żaden sposób dwukrotnie większa (ani w połowie mniejsza) od Norwegii, więc model doszedłby do dziwnych wniosków.

jeden na wszystkich

#fundamentals

Rozwiązanie problemu klasyfikacji z N klasami składa się z N oddzielnych binarnych klasyfikatorów – po jednym binarnym klasyfikatorze dla każdego możliwego wyniku. Na przykład w przypadku modelu, który klasyfikuje przykłady jako zwierzęta, warzywa lub minerały, rozwiązanie typu jeden-przeciwko-wszystkim zapewniłoby te 3 osobne klasyfikatory binarne:

zwierzę a nie-zwierzę
warzywa a nie-warzywa
mineral versus not mineral

online

#fundamentals

Synonim dynamiczny.

wnioskowanie online

#fundamentals

generowanie prognoz na żądanie. Załóżmy, że aplikacja przekazuje dane wejściowe do modelu i wysyła żądanie prognozy. System korzystający z wnioskowania online odpowiada na żądanie, uruchamiając model (i zwracając prognozę do aplikacji).

W przeciwieństwie do offline inference.

warstwa wyjściowa

#fundamentals

„Ostateczna” warstwa sieci neuronowej. Warstwy wyjściowe zawierają prognozę.

Ilustracja poniżej przedstawia małą głęboką sieć neuronową z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową:

nadmierne dopasowanie

#fundamentals

Utworzenie modelu, który jest tak dokładnym odwzorowaniem danych treningowych, że nie jest w stanie generować prawidłowych prognoz na podstawie nowych danych.

Regulizacja może ograniczyć nadmierne dopasowanie. Trenowanie na dużym i zróżnicowanym zbiorze treningowym może też zmniejszyć nadmierne dopasowanie.

Kliknij ikonę, aby dodać dodatkowe notatki.

Nadmierne dopasowanie to jak ścisłe trzymanie się zaleceń tylko ulubionego nauczyciela. Prawdopodobnie będziesz dobrze radzić sobie na zajęciach prowadzonych przez tego nauczyciela, ale możesz „przetrenować” swoje umiejętności i nie odnieść sukcesu na innych zajęciach. Dzięki radom różnych nauczycieli łatwiej będzie Ci dostosowywać się do nowych sytuacji.

P

pandy

#fundamentals

Interfejs API do analizy danych ukierunkowanej na kolumny, zbudowany na bazie biblioteki numpy. Wiele platform uczenia maszynowego, w tym TensorFlow, obsługuje struktury danych pandas jako dane wejściowe. Szczegółowe informacje znajdziesz w dokumentacji pandas.

parametr

#fundamentals

wagi i błędy, których model uczy się podczas treningu. Na przykład w przypadku modelu regresji liniowej parametry to współczynnik błędu (b) i wszystkie wagi (w₁, w₂ itd.) w formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Natomiast hiperparametry to wartości, które Ty (lub usługa dostrajania hiperparametrów) podajesz do modelu. Na przykład tempo uczenia się jest hiperparametrem.

klasa wyników pozytywnych

#fundamentals

Zajęcia, których dotyczy test.

Na przykład klasa pozytywna w modelu dotyczącym raka może być „guz”. Klasa pozytywna w klasyfikatorze e-maili może być „spam”.

Porównaj z klasą wyników negatywnych.

Kliknij ikonę, aby dodać dodatkowe notatki.

Termin klasa pozytywna może być mylący, ponieważ „pozytywny” wynik wielu testów jest często niepożądany. Na przykład klasa pozytywna w przypadku wielu testów medycznych odpowiada guzom lub chorobom. Ogólnie rzecz biorąc, lekarz powinien powiedzieć: „Gratulacje! Wyniki testu były negatywne”. Niezależnie od tego klasa pozytywna to zdarzenie, które test próbuje znaleźć.

Testujesz jednocześnie pozytywne i negatywne klasy.

przetwarzanie końcowe

#fairness

#fundamentals

Dostosowywanie danych wyjściowych modelu po jego uruchomieniu. Przetwarzanie wsteczne można wykorzystać do egzekwowania ograniczeń sprawiedliwości bez modyfikowania samych modeli.

Można na przykład zastosować przetwarzanie wsteczne do klasyfikatora binarnego, ustawiając próg klasyfikacji w taki sposób, aby równać szanse w przypadku danego atrybutu. W tym celu należy sprawdzić, czy wskaźnik prawdziwych wyników dodatnich jest taki sam dla wszystkich wartości tego atrybutu.

prognoza

#fundamentals

Dane wyjściowe modelu. Na przykład:

Prognoza modelu klasyfikacji binarnej to klasa pozytywna lub negatywna.
Prognoza modelu klasyfikacji wieloklasowej to jedna klasa.
Prognoza modelu regresji liniowej jest liczbą.

etykiety proxy

#fundamentals

Dane używane do przybliżonego określania etykiet, które nie są dostępne bezpośrednio w zbiorze danych.

Załóżmy na przykład, że musisz wytrenować model do przewidywania poziomu stresu pracowników. Twój zbiór danych zawiera wiele funkcji predykcyjnych, ale nie zawiera etykiety o nazwie poziom stresu. Nieustraszony, wybierasz „wypadki w miejscu pracy” jako etykietę zastępczą dla poziomu stresu. W końcu pracownicy pod wpływem silnego stresu mają więcej wypadków niż pracownicy zachowujący spokój. Czy tak jest? Może wypadki przy pracy faktycznie wzrastają i maleją z różnych powodów.

Drugi przykład: zakładamy, że chcesz, aby etykietą logiczną w przypadku Twojego zbioru danych była wartość czy pada deszcz?, ale Twój zbiór danych nie zawiera danych o opadach. Jeśli masz zdjęcia, możesz użyć zdjęć przedstawiających osoby z parasolami jako etykiety zastępczej dla pytania czy pada deszcz?. Czy to odpowiednia etykieta zastępcza? Być może, ale w niektórych kulturach ludzie częściej noszą parasole, aby chronić się przed słońcem, a nie przed deszczem.

Etykiety zastępcze często nie są idealne. Jeśli to możliwe, wybieraj etykiety rzeczywiste zamiast etykiet zastępczych. Jeśli jednak nie ma etykiety, wybierz etykietę zastępczą bardzo ostrożnie, wybierając tę, która jest najmniej zła.

R

RAG

#fundamentals

Skrót od generowania rozszerzonego przez wyszukiwanie w zapisanych informacjach.

weryfikator

#fundamentals

Osoba, która tworzy etykiety dla przykładów. „Komentator” to inna nazwa oceniającego.

Wyprostowana jednostka liniowa (ReLU)

#fundamentals

funkcja aktywacji o takim działaniu:

Jeśli dane wejściowe są ujemne lub równe 0, dane wyjściowe mają wartość 0.
Jeśli wartość wejściowa jest dodatnia, wynik jest równy wartości wejściowej.

Na przykład:

Jeśli wartość wejściowa to -3, wynik to 0.
Jeśli dane wejściowe to +3, wynik to 3,0.

Oto wykres funkcji ReLU:

ReLU jest bardzo popularną funkcją aktywacji. Pomimo prostego działania ReLU umożliwia sieci neuronowej uczenie się nieliniowych relacji między cechami a oznacznikiem.

model regresji

#fundamentals

Nieformalnie: model, który generuje prognozę liczbową. (model klasyfikacji generuje prognozę klasy). Na przykład wszystkie modele regresji:

Model, który prognozuje wartość domu w euro,np. 423 000.
Model, który prognozuje długość życia danego drzewa w latach, na przykład 23,2.
Model, który prognozuje ilość opadów w calach w okresie najbliższych 6 godzin w danym mieście, np.0,18.

Dostępne są 2 popularne typy modeli regresji:

Regresja liniowa, która znajduje linię, która najlepiej dopasowuje wartości etykiet do cech.
Regresja logistyczna, która generuje prawdopodobieństwo z zakresu od 0,0 do 1,0, które system zwykle mapuje na prognozę klasy.

Nie każdy model, który generuje prognozy liczbowe, jest modelem regresji. W niektórych przypadkach prognoza liczbowa to tak naprawdę model klasyfikacji, który ma nazwy klas w postaci liczb. Na przykład model, który prognozuje liczbowy kod pocztowy, jest modelem klasyfikacji, a nie regresji.

regularyzacja

#fundamentals

Każdy mechanizm, który zmniejsza nadmierne dopasowanie. Popularne typy regularyzacji:

Regulacja L₁

L₂ uogólnianie

regularyzacja polegająca na pomijaniu

wczesne zatrzymanie (nie jest to formalna metoda regularyzacji, ale może skutecznie ograniczyć nadmierne dopasowanie)

Regularyzację można też zdefiniować jako karę za złożoność modelu.

Kliknij ikonę, aby dodać dodatkowe notatki.

Regularyzacja jest nieintuicyjna. Zwiększanie regularyzacji zwykle zwiększa stratę podczas trenowania, co jest mylące, ponieważ celem jest przecież minimalizowanie straty podczas trenowania.

Nie. Celem nie jest minimalizowanie straty podczas trenowania. Celem jest uzyskiwanie doskonałych wyników w przypadku przykładów rzeczywistych. Co ciekawe, mimo że zwiększanie regularyzacji zwiększa straty treningowe, zwykle pomaga modelom w lepszym przewidywaniu przykładów z rzeczywistego świata.

współczynnik regularyzacji

#fundamentals

Liczba określająca względne znaczenie regularyzacji podczas trenowania. Zwiększenie współczynnika regularyzacji zmniejsza nadmierne dopasowanie, ale może też zmniejszyć zdolność modelu do przewidywania. Z kolei zmniejszenie lub pominięcie współczynnika regularyzacji zwiększa ryzyko przetrenowania.

Aby zobaczyć obliczenia, kliknij ikonę.

Współczynnik regularyzacji jest zwykle oznaczany grecką literą lambda. Z poniższego uproszczonego równania strat wynika wpływ lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

gdzie regularyzacja to dowolny mechanizm regularyzacji, w tym:

Regulacja L₁

L₂ uogólnianie

ReLU

#fundamentals

Skrót od Rectified Linear Unit.

generowanie rozszerzone przez wyszukiwanie w zapisanych informacjach (RAG)

#fundamentals

Technika polepszania jakości danych wyjściowych dużego modelu językowego (LLM) poprzez powiązanie ich ze źródłami wiedzy wyodrębnionymi po wytrenowaniu modelu. RAG zwiększa dokładność odpowiedzi LLM, zapewniając trenowanemu modelowi dostęp do informacji pobranych z zaufanych baz wiedzy lub dokumentów.

Oto kilka typowych powodów, dla których warto używać generacji wspomaganej przez wyszukiwanie:

zwiększenie dokładności faktograficznej odpowiedzi generowanych przez model;

Dawanie modelowi dostępu do wiedzy, na której nie był on trenowany.

Zmiana wiedzy, której używa model.

Umożliwienie modelowi cytowania źródeł.

Załóżmy na przykład, że aplikacja do chemii korzysta z interfejsu PaLM API do generowania podsumowań dotyczących zapytań użytkowników. Gdy backend aplikacji otrzyma zapytanie, wykona te czynności:

Wyszukuje („pobiera”) dane pasujące do zapytania użytkownika.

Dodaje („rozszerza”) odpowiednie dane chemiczne do zapytania użytkownika.

Instrukcja dla LLM, aby utworzyć podsumowanie na podstawie dołączonych danych.

Krzywa ROC (charakterystyka operacyjna odbiornika)

#fundamentals

Wykres przedstawiający wskaźnik prawdziwie pozytywnych wyników w porównaniu z wskaźnikiem fałszywie pozytywnych wyników dla różnych progów klasyfikacji w przypadku klasyfikacji binarnej.

Kształt krzywej ROC wskazuje na zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Załóżmy na przykład, że binarny model klasyfikacji doskonale oddziela wszystkie klasy negatywne od wszystkich klas pozytywnych:

Krzywa ROC dla poprzedniego modelu wygląda tak:

Natomiast na ilustracji poniżej pokazano nieobrobione wartości regresji logistycznej w przypadku kiepskiego modelu, który w ogóle nie potrafi odróżnić klas negatywnych od klas pozytywnych:

Krzywa ROC dla tego modelu wygląda tak:

W prawdziwym życiu większość modeli binarnej klasyfikacji w pewnym stopniu oddziela klasy pozytywne i negatywne, ale zwykle nie robi tego idealnie. Krzywa ROC zwykle znajduje się gdzieś pomiędzy tymi dwoma skrajnościami:

Punkt na krzywej ROC najbliższy punktowi (0,0,1,0) teoretycznie wskazuje idealny próg klasyfikacji. Wybór optymalnego progu klasyfikacji zależy jednak od kilku innych rzeczywistych problemów. Może na przykład okazać się, że fałszywie wyniki negatywne są znacznie bardziej uciążliwe niż fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC do jednej wartości zmiennoprzecinkowej.

Średnia kwadratowa błędów (RMSE)

#fundamentals

Pierwiastek kwadratowy z błędu średniokwadratowego.

S

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „ściska” wartość wejściową w ograniczonym zakresie, zazwyczaj od 0 do 1 lub od –1 do +1. Oznacza to, że możesz przekazać dowolną liczbę (2, milion, minus miliard itd.) do funkcji sigmoidalnej, a wyjście nadal będzie należeć do ograniczonego zakresu. Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Funkcja sigmoidalna ma wiele zastosowań w uczeniu maszynowym, m.in.:

Konwertowanie nieprzetworzonych danych wyjściowych modelu regresji logistycznej lub regresji wielomianowej na prawdopodobieństwo.

W niektórych sieciach neuronowych pełni funkcję funkcji aktywacji.

Aby zobaczyć obliczenia, kliknij ikonę.

Funkcja sigmoidalna dla liczby wejściowej x ma następującą formułę:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

W systemach uczących się x jest zwykle sumą ważona.

funkcja softmax

#fundamentals

Funkcja określająca prawdopodobieństwa dla każdej możliwej klasy w modelu klasyfikacji wieloklasowej. Prawdopodobieństwo musi łącznie wynosić dokładnie 1,0. Na przykład w tabeli poniżej widać, jak softmax rozkłada różne prawdopodobieństwa:

Obraz jest... Probability,

pies 0,85

kot 0,13

koń 0,02

Softmax jest też nazywany pełnym softmaxem.

Porównaj z próbkowaniem kandydatów.

Aby zobaczyć obliczenia, kliknij ikonę.

Równanie softmax ma postać:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$
gdzie:

$\sigma_i$ to wektor wyjściowy. Każdy element wektora wyjściowego określa prawdopodobieństwo tego elementu. Suma wszystkich elementów wektora wyjściowego wynosi 1,0. Wektor wyjściowy zawiera taką samą liczbę elementów jak wektor wejściowy, czyli $z$.

$z$ to wektor wejściowy. Każdy element wektora wejściowego zawiera wartość zmiennoprzecinkową.

$K$ to liczba elementów wektora wejściowego (i wyjściowego).

Załóżmy na przykład, że wektor wejściowy ma postać:

[1.2, 2.5, 1.8]

Dlatego softmax oblicza mianownik w ten sposób:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Dlatego prawdopodobieństwo softmax dla każdego elementu wynosi:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Wektor wyjściowy ma więc postać:

$$\sigma = [0.154, 0.565, 0.281]$$

Suma tych trzech elementów w $\sigma$ wynosi 1,0. Uff...

rozproszona cecha

#language

#fundamentals

Cecha, której wartości są w większości równe 0 lub puste. Na przykład cecha zawierająca pojedynczą wartość 1 i milion wartości 0 jest rzadka. Natomiast gęsta cecha ma wartości, które w większości nie są równe 0 ani puste.

W uczeniu maszynowym zaskakująco wiele cech jest cech rzadkich. Funkcje kategorialne są zwykle rzadkie. Na przykład z 300 możliwych gatunków drzew w lesie pojedynczy przykład może zidentyfikować tylko klon. Z milionów możliwych filmów w bibliotece filmów jeden może być oznaczony jako „Casablanca”.

W modelu rzadkie cechy są zwykle reprezentowane za pomocą kodowania 1-hot. Jeśli kodowanie jednobitowe jest duże, możesz umieścić na nim warstwę zanurzeniową, aby zwiększyć wydajność.

rzadka reprezentacja

#language

#fundamentals

przechowywanie tylko pozycji elementów o wartości niezerowej w funkcji rzadkiej;

Załóżmy na przykład, że zmienna jakościowa o nazwie species identyfikuje 36 gatunków drzew w danym lesie. Załóżmy też, że każdy przykład identyfikuje tylko jeden gatunek.

W każdym przykładzie gatunek drzewa można reprezentować za pomocą wektora typu one-hot. Wektor jednoelementowy zawierałby 1 element 1 (reprezentujący dany gatunek drzewa w tym przykładzie) i 35 elementów 0 (reprezentujących 35 gatunków drzew nie w tym przykładzie). Reprezentacja jednoelementowa maple może wyglądać tak:

Inną możliwością jest skąpa reprezentacja, która po prostu wskazuje pozycję danego gatunku. Jeśli maple znajduje się w pozycji 24, rzadka reprezentacja maple będzie wyglądać tak:

24

Zwróć uwagę, że rzadka reprezentacja jest znacznie bardziej zwarta niż reprezentacja jednoelementowa.

Uwaga: nie należy przekazywać rzadkiej reprezentacji jako bezpośrednich danych wejściowych do modelu. Zamiast tego przed rozpoczęciem treningu należy przekonwertować rzadką reprezentację na reprezentację jednowartościową.

Kliknij ikonę, aby wyświetlić nieco bardziej złożony przykład.

Załóżmy, że każdy przykład w modelu musi reprezentować słowa w zestawie (ale nie ich kolejność) w zestawie zdań w języku angielskim. Język angielski składa się z około 170 tys. słów, więc jest to cecha kategorialna z około 170 tys. elementów. Większość zdań w języku angielskim używa bardzo małej części tych 170 tys. słów, więc zbiór słów w pojedynczym przykładzie z pewnością będzie rzadki.

Rozważ zdanie:

My dog is a great dog

Do reprezentowania słów w tym zdaniu możesz użyć wariantu wektora one-hot. W tym wariancie wiele komórek wektora może zawierać wartość różną od 0. Ponadto w tym wariancie komórka może zawierać liczbę całkowitą inną niż 1. Chociaż słowa „mój”, „jest”, „a” i „świetny” występują tylko raz w tym zdaniu, słowo „pies” występuje 2 razy. Użycie tej wersji wektorów typu one-hot do reprezentowania słów w tym zdaniu daje wektor o 170 tys. elementach:

Rozrzedziony zapis tego samego zdania wyglądałby tak:

0: 1 26100: 2 45770: 1 58906: 1 91520: 1

Jeśli nie masz pewności, kliknij ikonę.

Termin „rzadka reprezentacja” wprowadza wiele osób w błąd, ponieważ sama rzadka reprezentacja nie jest rzadkim wektorem. Rozrzeźbiona reprezentacja jest w istocie gęstą reprezentacją rozrzeźbionego wektora. Synonim reprezentacja indeksu jest nieco bardziej zrozumiały niż „reprezentacja rzadka”.

wektor rozproszony

#fundamentals

Wektor, którego wartości są w większości równe 0. Zobacz też tematy rzadkie i rzadkość.

strata kwadratowa

#fundamentals

Synonim straty na poziomie L₂.

statyczne

#fundamentals

coś, co jest wykonywane raz, a nie stale; Terminy statyczny i offline są synonimami. Oto najczęstsze zastosowania statycznych i offlineowych danych w nauczaniu maszynowym:

Model statyczny (lub model offline) to model wytrenowany raz, a następnie używany przez pewien czas.

Trenowanie statyczne (lub trenowanie offline) to proces trenowania modelu statycznego.

Wnioskowanie statyczne (lub wnioskowanie offline) to proces, w którym model generuje zbiorczy zestaw prognoz naraz.

Kontrast z dynamiczną.

wnioskowanie statyczne

#fundamentals

Synonim offline inference.

stacjonarność

#fundamentals

Cecha, której wartości nie zmieniają się w przypadku co najmniej 1 wymiaru, zwykle czasu. Na przykład cecha, której wartości są mniej więcej takie same w 2021 i 2023 roku, jest stacjonarna.

W rzeczywistych warunkach bardzo niewiele cechy wykazują stacjonarność. Nawet cechy kojarzone ze stabilnością (np. poziom morza) zmieniają się z czasem.

W odróżnieniu od niestacjonarności.

stochastyczny spadek wzdłuż gradientu (SGD),

#fundamentals

Algorytm schodziny gradientu, w którym rozmiar partii wynosi 1. Innymi słowy, SGD trenuje na podstawie pojedynczego przykładu wybranego losowo z równą częstotliwością z zbioru treningowego.

uczenie maszynowe nadzorowane

#fundamentals

Trenowanie modelu na podstawie cech i odpowiadających im etykiet. Uczenie nadzorowane jest podobne do uczenia się danego tematu przez analizowanie zestawu pytań i odpowiednich odpowiedzi. Po opanowaniu mapowania pytań i odpowiedzi uczeń może udzielać odpowiedzi na nowe (nigdy wcześniej niewidziane) pytania dotyczące tego samego tematu.

Porównaj z nienadzorowanym systemem uczącym się.

funkcja syntetyczna

#fundamentals

Cecha, która nie występuje w śród danych wejściowych, ale jest tworzona z jednego lub większej liczby tych danych. Metody tworzenia cech syntetycznych:

Grupowanie ciągłej cechy w zakresy.

Tworzenie przecięcia cech.

mnożenie (lub dzielenie) jednej wartości cechy przez inne wartości cech lub przez siebie. Jeśli np. a i b to dane wejściowe, przykładami danych syntetycznych są:

ab

a²

Zastosuj funkcję transcendentalną do wartości cechy. Jeśli np. c to cecha wejściowa, przykładami cech syntetycznych są:

sin(c)

ln(c)

Cechy utworzone przez normalizację lub skalowanie nie są uważane za cechy syntetyczne.

T

test strat

#fundamentals

Dane przedstawiające utratę modelu na zbiorze testowym. Podczas tworzenia modelu zwykle staramy się zminimalizować straty testowe. Dzieje się tak, ponieważ niski wskaźnik utraty w trakcie testu jest silniejszym sygnałem jakości niż niski wskaźnik utraty w trakcie treningu czy niski wskaźnik utraty w trakcie walidacji.

Duża różnica między stratą na etapie testowania a stratą na etapie trenowania lub walidacji może oznaczać, że należy zwiększyć stopień regularyzacji.

szkolenie

#fundamentals

Proces określania optymalnych parametrów (wag i uprzedzeń) modelu. Podczas trenowania system odczytuje przykłady i stopniowo dostosowuje parametry. Podczas trenowania każdy przykład jest używany od kilku do miliardów razy.

strata podczas treningu

#fundamentals

Dane przedstawiające stratę modelu podczas konkretnej iteracji treningu. Załóżmy na przykład, że funkcja utraty to średnia kwadratowa błędu. Strata podczas trenowania (średni kwadratowy błąd) w 10.itracji wynosi 2,2, a w 100.itracji – 1,9.

Krzywa strat przedstawia straty podczas trenowania w zależności od liczby iteracji. Krzywa strat zawiera te wskazówki dotyczące trenowania:

Spadek wskazuje, że model się poprawia.

Wzrost oznacza, że model staje się gorszy.

Płaski spadek oznacza, że model osiągnął konwergencję.

Na przykład z tego nieco uproszczonego zakrzywienia strat:

ostry spadek podczas początkowych iteracji, który oznacza szybkie ulepszanie modelu;

stopniowo spłaszczający się (ale nadal skierowany w dół) spadek aż do końca trenowania, co oznacza dalsze polepszanie modelu w trochę wolniejszym tempie niż podczas początkowych iteracji;

Płaski spadek pod koniec trenowania, który sugeruje konwergencję.

Strata na etapie treningu jest ważna, ale warto też zapoznać się z generalizacją.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między wydajnością modelu podczas treningu a jego wydajnością podczas stosowania.

treningowy zestaw danych

#fundamentals

Podzbiór zbioru danych używany do trenowania modelu.

Tradycyjnie przykłady w zbiorze danych dzieli się na 3 odrębne podzbiory:

zestaw treningowy,

zbiór danych do weryfikacji,

zbiór testowy,

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie może należeć zarówno do zbioru treningowego, jak i do zbioru do weryfikacji.

prawdziwie negatywny (PN).

#fundamentals

Przykład, w którym model prawidłowo prognozuje klasę negatywną. Na przykład model wnioskuje, że dana wiadomość e-mail nie jest spamem, i faktycznie tak jest.

prawdziwie pozytywny (TP).

#fundamentals

Przykład, w którym model prawidłowo prognozuje klasę pozytywną. Na przykład model wnioskuje, że dana wiadomość e-mail jest spamem, i faktycznie jest to spam.

współczynnik wyników prawdziwie pozytywnych (TPR).

#fundamentals

Synonim przypomnienia. Czyli:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Współczynnik wyników prawdziwie pozytywnych to oś Y na krzywej ROC.

U

niedopasowanie

#fundamentals

wygenerowanie modelu o słabych zdolnościach prognostycznych, ponieważ nie uchwycił on w pełni złożoności danych treningowych; Niedopasowanie może być spowodowane wieloma problemami, w tym:

Szkolenie na nieprawidłowym zbiorze cech.

Trenowanie przez zbyt małą liczbę epok lub przy zbyt niskiej szybkości uczenia się.

Trenowanie z zbyt wysoką stopą regularyzacji.

zbyt mało ukrytych warstw w głębokiej sieci neuronowej;

przykład bez etykiety

#fundamentals

Przykład, który zawiera funkcje, ale nie ma etykiety. Na przykład w tabeli poniżej znajdują się 3 beznazwane przykłady z modelu wyceny domu, z których każdy zawiera 3 cechy, ale nie ma wartości domu:

Liczba sypialni Liczba łazienek Wiek domu

3 2 15

2 1 72

4 2 34

W nadzorowanym uczeniu maszynowym modele są trenowane na przykładach z oznacznikami i wydają prognozy na podstawie przykładów bez oznaczeń.

W uczeniu częściowo nadzorowanym i nienadzorowanym podczas trenowania używa się przykładów bez etykiet.

Porównaj przykład bez etykiety z przykładem z etykietą.

uczenie maszynowe bez nadzoru

#clustering

#fundamentals

Trenowanie modelu w celu znajdowania wzorców w zbiorze danych, zwykle zbiorze danych bez etykiet.

Najczęstszym zastosowaniem uczenia maszynowego nienadzorowanego jest zgrupowanie danych w grupy podobnych przykładów. Na przykład algorytm uczenia maszynowego bez nadzoru może grupować utwory na podstawie różnych właściwości muzyki. Uzyskane klastry mogą stać się danymi wejściowymi dla innych algorytmów uczenia maszynowego (np. dla usługi rekomendacji muzycznej). Grupowanie może być przydatne, gdy przydatnych etykiet jest niewiele lub ich brak. Na przykład w przypadku domen takich jak zapobieganie nadużyciom i oszustwo klastry mogą pomóc ludziom lepiej zrozumieć dane.

W odróżnieniu od nadzorowanego uczenia maszynowego.

Kliknij ikonę, aby dodać dodatkowe notatki.

Innym przykładem uczenia maszynowego bez nadzoru jest analiza głównych składowych (PCA). Na przykład zastosowanie analizy głównych składowych na zbiorze danych zawierającym zawartość milionów koszyków może ujawnić, że koszyki zawierające cytryny często zawierają też leki zobojętniające narządy pokarmowe.

V

walidacja

#fundamentals

Wstępna ocena jakości modelu. Podczas walidacji sprawdzana jest jakość prognoz modelu na podstawie zbioru danych do walidacji.

Zestaw weryfikacyjny różni się od zbioru treningowego, dlatego weryfikacja pomaga zapobiegać nadmiernemu dopasowaniu.

Ocena modelu na zbiorze walidacyjnym może być pierwszą rundą testowania, a ocena modelu na zestawie testowym – drugą.

utrata walidacji

#fundamentals

Dane przedstawiające stratę modelu na zbiorze testowym podczas określonej iteracji trenowania.

Zobacz też krzywą generalizacji.

zestaw weryfikacji

#fundamentals

Podzbiór zbioru danych, na którym przeprowadzana jest wstępna ocena wytrenowanego modelu. Zazwyczaj trenowany model ocenia się na zestawie walidacyjnym kilkakrotnie, zanim oceni się go na zestawie testowym.

Tradycyjnie przykłady w zbiorze danych dzieli się na 3 odrębne podzbiory:

zbiór danych treningowych,

zestawu weryfikacji.

zbiór testowy,

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie może należeć zarówno do zbioru treningowego, jak i do zbioru do weryfikacji.

W

waga

#fundamentals

Wartość, którą model mnoży przez inną wartość. Trenowanie to proces określania idealnych wag modelu, a wyciąganie wniosków to proces wykorzystywania tych wag do prognozowania.

Kliknij ikonę, aby zobaczyć przykład wag w modelu liniowym.

Wyobraź sobie model liniowy z 2 cechami. Załóżmy, że podczas trenowania zostały określone następujące wagi (i uświadamianie):

Współczynnik b ma wartość 2,2.

Waga w₁ powiązana z jednym atrybutem wynosi 1, 5.

Waga w₂ powiązana z inną cechą wynosi 0, 4.

Wyobraź sobie teraz przykład z tymi wartościami cech:

Wartość jednej cechy, x₁, wynosi 6.

Wartość drugiej cechy, x₂, wynosi 10.

Ten model liniowy do generowania prognozy używa tej formuły:y'

$$y' = b + w_1x_1 + w_2x_2$$

Dlatego prognoza jest następująca:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Jeśli waga ma wartość 0, odpowiadająca jej cecha nie wpływa na model. Jeśli na przykład w₁ = 0, wartość x₁ jest nieistotna.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez ich wagi. Załóżmy na przykład, że odpowiednie dane wejściowe to:

wartość wejściowa waga wejściowa

2 -1,3

-1 0,6

3 0,4

Suma ważona jest więc równa:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Waga jest argumentem wejściowym funkcji aktywacji.

Z

Standaryzacja Z

#fundamentals

Technika skalowania, która zastępuje nieprzetworzoną wartość cechy wartością zmiennoprzecinkową reprezentującą liczbę odchyleń standardowych od średniej tej cechy. Weźmy na przykład cechę o średniej 800 i odchyleniu standardowym 100. W tabeli poniżej pokazano, jak normalizacja wartości Z-score mapuje wartość pierwotną na wartość Z-score:

Wartość nieprzetworzona Standaryzacja Z

800 0

950 +1,5

575 -2,25

Model uczenia maszynowego jest następnie trenowany na podstawie wartości Z-score tej cechy zamiast wartości surowych.

Słowniczek systemów uczących się: podstawy systemów uczących się

A

dokładność

Kliknij ikonę, aby uzyskać informacje o dokładności i zbiorach danych z niezrównoważonymi klasami.

funkcja aktywacji

Kliknij ikonę, aby zobaczyć przykład.

sztuczna inteligencja

AUC (obszar pod krzywą ROC)

Kliknij ikonę, aby dowiedzieć się więcej o zależności między krzywą AUC a krzywą ROC.

Kliknij ikonę, aby uzyskać bardziej formalną definicję AUC.

B

propagacja wsteczna

wsad

wielkość wsadu

uprzedzenie (etyka/sprawiedliwość)

uprzedzenie (matematyka) lub wyraz uprzedzenia

klasyfikacja binarna

skategoryzowanie w przedziałach

Kliknij ikonę, aby dodać dodatkowe notatki.

C

dane kategorialne

klasa

model klasyfikacji

próg klasyfikacji

Kliknij ikonę, aby dodać dodatkowe notatki.

zbiór danych z niezrównoważonymi klasami

przycinanie

tablica pomyłek

ciągła funkcja

zbieżność

D

[struktura] DataFrame

zbiór danych

model głęboki

funkcja gęsta

głębokość

funkcja dyskretna

dynamiczny

model dynamiczny

E

wczesne zatrzymanie

Kliknij ikonę, aby dodać dodatkowe notatki.

warstwa wstawiania

początek epoki : epoka

przykład

F

fałszywie negatywny (FN),

wynik fałszywie pozytywny (FP).

współczynnik wyników fałszywie pozytywnych (FPR);

cecha [in context of machine learning]

funkcja krzyżowa

ekstrakcja wyróżników

Kliknij ikonę, aby wyświetlić dodatkowe informacje o TensorFlow.

zestaw cech

wektor cech

pętla informacji zwrotnych

G

uogólnianie

Kliknij ikonę, aby dodać dodatkowe notatki.

krzywa generalizacji

spadku wzdłuż gradientu

dane podstawowe (ground truth)

Kliknij ikonę, aby dodać dodatkowe notatki.

H

warstwa ukryta

hiperparametr

I

niezależne i identycznie rozłożone (i.i.d)

wnioskowanie

warstwa wejściowa

interpretowalność

iteracja

L

Regularyzacja L0

Kliknij ikonę, aby dodać dodatkowe notatki.

Straty L1

Aby wyświetlić formalny zapis matematyczny, kliknij ikonę.

Regularyzacja L1

Strata L2

Aby wyświetlić formalny zapis matematyczny, kliknij ikonę.

Regularyzacja L₀

Straty L₁

Regularyzacja L₁

Strata L₂

Regularyzacja L₂