Słowniczek systemów uczących się: podstawy systemów uczących się

Ta strona zawiera podstawowe pojęcia z glosarium. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.

A

dokładność

#fundamentals

Liczba poprawnych prognoz podzielona przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który trafnie przewidział 40 wartości i 10 wartości błędnie, miałby dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja binarna umożliwia nadawanie konkretnych nazw różnym kategoriom prawidłowych prognoznieprawidłowych prognoz. Wzór dokładności w przypadku klasyfikacji binarnej:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

Porównaj dokładność z precyzjościączułością.

Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane z nimi dane z Kursu intensywnego z systemów uczących się.

funkcja aktywacji

#fundamentals

Funkcja, która umożliwia sieciom neuronowym uczenie się nieliniowych (złożonych) relacji między cechami a etykietą.

Popularne funkcje aktywacji:

Wykresy funkcji aktywacji nigdy nie są prostymi liniami prostymi. Na przykład wykres funkcji aktywacyjnej ReLU składa się z dwóch linii prostych:

Układ kartezjański 2 linii. Pierwsza linia ma stałą wartość y równą 0, biegnącą wzdłuż osi x od –nieskończoności,0 do 0, –0.
          Druga linia zaczyna się od 0,0. Ma ona nachylenie +1, więc biegnie od 0,0 do +nieskończoność,+nieskończoność.

Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Dwowymiarowa krzywa z wartościami x w zakresie od -nieskończoności do +dodatnich, a wartościami y w zakresie od prawie 0 do prawie 1. Gdy x = 0, y = 0,5. Nachylenie krzywej jest zawsze dodatnie, przy czym największe nachylenie występuje przy wartości 0,05, a nachylenie stopniowo maleje wraz ze wzrostem bezwzględnej wartości x.

Więcej informacji znajdziesz w artykule Neural networks: Activation functions (Neural networks: funkcje aktywacyjne) z cyklu Crash Course z machine learning.

sztuczna inteligencja

#fundamentals

program lub model, który potrafi wykonywać złożone zadania. Na przykład program lub model, który tłumaczy tekst, lub program lub model, który identyfikuje choroby na podstawie obrazów radiologicznych, wykorzystuje sztuczną inteligencję.

Formalnie systemy uczące się to poddziedzina sztucznej inteligencji. Jednak w ostatnich latach niektóre organizacje zaczęły używać terminów sztuczna inteligencjauczenie maszynowe zamiennie.

AUC (obszar pod krzywą ROC)

#fundamentals

Liczba z zakresu od 0,0 do 1,0 reprezentująca zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Im bliższa 1,0 jest wartość AUC, tym większa jest zdolność modelu do oddzielania klas od siebie.

Na przykład ilustracja poniżej przedstawia model klasyfikatora, który doskonale oddziela klasy pozytywne (zielone owalne pola) od klas negatywnych (fioletowe prostokąty). Ten nierealistycznie idealny model ma AUC 1,0:

Po jednej stronie osi liczbowej znajduje się 8 pozytywnych przykładów, a po drugiej – 9 negatywnych.

Ilustracja poniżej przedstawia wyniki modelu klasyfikatora, który generował losowe wyniki. Ten model ma AUC 0,5:

Linia liczbowa z 6 pozytywnymi i 6 ujemnymi przykładami.
          Kolejność przykładów to: pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny.

Tak, poprzedni model ma AUC 0,5, a nie 0,0.

Większość modeli znajduje się gdzieś pomiędzy tymi dwoma skrajnościami. Na przykład poniższy model w pewnym stopniu oddziela pozytywne wyniki od negatywnych, dlatego jego AUC mieści się w zakresie od 0,5 do 1,0:

Linia liczbowa z 6 pozytywnymi i 6 ujemnymi przykładami.
          Kolejność przykładów to: negatywny, negatywny, negatywny, negatywny, pozytywny, negatywny, pozytywny, pozytywny, negatywny, pozytywny, pozytywny.

AUC ignoruje dowolną wartość ustawioną dla progu klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi kwalifikacji.

Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

B

propagacja wsteczna

#fundamentals

Algorytm, który stosuje spadkowy gradientsieciach neuronowych.

Szkolenie sieci neuronowej obejmuje wiele iterations w ramach tego 2-etapowego cyklu:

  1. Podczas przesyłania do przodu system przetwarza partię przykładów, aby uzyskać prognozy. System porównuje każdą prognozę z każdą wartością etykiety. Różnica między prognozą a wartością etykiety to strata w danym przykładzie. System agreguje straty dla wszystkich przykładów, aby obliczyć łączną stratę dla bieżącego zbioru danych.
  2. Podczas przesyłania wstecznego (backpropagation) system zmniejsza straty przez dostosowanie wag wszystkich neuronów we wszystkich warstwach ukrytych.

Sieci neuronowe często zawierają wiele neuronów na wielu warstwach ukrytych. Każdy z tych neuronów w inny sposób wpływa na ogólną stratę. Wsteczna propagacja określa, czy zwiększyć czy zmniejszyć wagi zastosowane do poszczególnych neuronów.

Tempo uczenia się to mnożnik, który kontroluje stopień, w jakim każda iteracja wsteczna zwiększa lub zmniejsza każdą wagę. Duże tempo uczenia się będzie zwiększać lub zmniejszać każdą wagę bardziej niż małe tempo uczenia się.

W terminologii rachunku różniczkowego i zbiórczego propagacja wsteczna implementuje regułę łańcuszkową. Oznacza to, że propagacja wsteczna oblicza częściową pochodną błędu względem każdego parametru.

Jeszcze kilka lat temu użytkownicy ML musieli pisać kod, aby zaimplementować propagację wsteczną. Nowoczesne interfejsy API do uczenia maszynowego, takie jak Keras, implementują teraz wsteczną propagację za Ciebie. Uff...

Więcej informacji znajdziesz w sekcji Sieci neuronowe w szybkim szkoleniu z uczenia maszynowego.

wsad

#fundamentals

Zestaw przykładów użytych w jednej iteracji. Rozmiar partii określa liczbę przykładów w partii.

Informacje o związku zbioru z epoką znajdziesz w sekcji epoka.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

wielkość wsadu

#fundamentals

Liczba przykładówpartii. Jeśli na przykład rozmiar partii wynosi 100, model przetwarza 100 przypadków na iterację.

Oto popularne strategie dotyczące rozmiaru wsadu:

  • Stochastyczny spadek wzdłuż gradientu (SGD), w którym rozmiar partii wynosi 1.
  • pełny wsad, w którym rozmiar wsadu to liczba przykładów w całym zbiorze treningowym; Jeśli np. zbiór treningowy zawiera milion przykładów, rozmiar partii będzie wynosił milion przykładów. Strategia polegająca na użyciu pełnej partii jest zwykle nieskuteczna.
  • minipartyjnych, w których rozmiar partii wynosi zwykle od 10 do 1000. Strategia minipartii jest zwykle najskuteczniejsza.

Więcej informacji znajdziesz w tych artykułach:

uprzedzenie (etyka/sprawiedliwość)

#fairness
#fundamentals

1. Tworzenie stereotypów lub faworyzowanie określonych rzeczy, ludzi lub grup względem innych. Te uprzedzenia mogą wpływać na zbieranie i interpretowanie danych, projektowanie systemu oraz sposób, w jaki użytkownicy z nim współpracują. Do tego rodzaju stronniczości należą m.in.:

2. Błąd systematyczny wprowadzony przez procedury próbkowania lub raportowania. Do tego rodzaju stronniczości należą m.in.:

Nie należy mylić tego pojęcia z terminem „bias” w modelach uczenia maszynowego ani z uprzedzeniem prognozy.

Więcej informacji znajdziesz w sekcji Uczciwość: rodzaje uprzedzeń z Kursu intensywnego z machine learningu.

uprzedzenie (matematyka) lub wyraz uprzedzenia

#fundamentals

Przecięcie lub przesunięcie od punktu początkowego. Uprzedzenie to parametr w modelach uczenia maszynowego, który jest symbolizowany przez jedną z tych wartości:

  • b
  • w0

Na przykład wartość przesunięcia to b w tej formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W przypadku prostej linii dwuwymiarowej nachylenie oznacza po prostu „współrzędna y”. Na przykład na ilustracji poniżej nachylenie linii wynosi 2.

Wykres linii o nachyle 0,5 i błądzie (współrzędna y) równym 2.

Występuje ona, ponieważ nie wszystkie modele zaczynają się od punktu wyjścia (0,0). Załóżmy na przykład, że wstęp do parku rozrywki kosztuje 2 euro, a za każdą dodatkową godzinę pobytu klient płaci dodatkowo 0,5 euro. Dlatego model mapujący łączny koszt ma odchylenie 2, ponieważ najniższy koszt wynosi 2 euro.

Uprzedzeń nie należy mylić z uprzedzeniami dotyczącymi etyki i obiektywności ani z uprzedzeniami w prognozach.

Więcej informacji znajdziesz w sekcji Regresja liniowa w Szybkim szkoleniu z uczenia maszynowego.

klasyfikacja binarna

#fundamentals

Typ zadania klasyfikacji, które przewiduje jedną z 2 wzajemnie wykluczających się klas:

Na przykład 2 modele systemów uczących się wykonują podział na klasy binarne:

  • Model, który określa, czy wiadomości e-mail są spamem (klasa pozytywna) czy nie są spamem (klasa negatywna).
  • Model, który ocenia objawy medyczne, aby określić, czy dana osoba ma określoną chorobę (klasa pozytywna) czy nie (klasa negatywna).

Porównaj z klasyfikacją wieloklasową.

Zobacz też tematy regresja logistycznawartość progowa klasyfikacji.

Więcej informacji znajdziesz w sekcji Klasyfikacja w Szybkim szkoleniu z uczenia maszynowego.

skategoryzowanie w przedziałach

#fundamentals

Przekształcanie pojedynczej cechy w wiele cech binarnych zwanych zasobnikami lub bindami, zwykle na podstawie zakresu wartości. Funkcja pocięta jest zwykle ciągła.

Na przykład zamiast przedstawiać temperaturę jako pojedynczą ciągłą cechę zmiennoprzecinkową, możesz podzielić zakresy temperatur na oddzielne zbiory, takie jak:

  • < 10 stopni Celsjusza to „zimno”.
  • 11–24 stopnie Celsjusza to „umiarkowany” zakres.
  • >= 25 stopni Celsjusza to zakres „ciepły”.

Model będzie traktować wszystkie wartości w tym samym zbiorze w identyczny sposób. Na przykład wartości 1322 znajdują się w worku z umiarkowanym klimatem, więc model traktuje te 2 wartości tak samo.

Więcej informacji znajdziesz w sekcji Dane liczbowe: zagregowanie danych w szybkim szkoleniu z uczenia maszynowego.

C

dane kategorialne

#fundamentals

Cechy mające określony zestaw możliwych wartości. Rozważmy na przykład cechę metryczną o nazwie traffic-light-state, która może przyjmować jedną z 3 możliwych wartości:

  • red
  • yellow
  • green

Dzięki temu, że traffic-light-state jest reprezentowana jako cecha kategorialna, model może się uczyć o różnych wpływach zmiennych red, greenyellow na zachowanie kierowcy.

Funkcje kategorialne są czasami nazywane funkcjami dyskretnymi.

Kontrastuje z danymi liczbowymi.

Więcej informacji znajdziesz w sekcji Praca z danymi kategorycznymi w Kursie intensywnym z systemów uczących się.

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Na przykład:

Model klasyfikacji prognozuje klasę. Z kolei model regresji prognozuje liczbę, a nie klasę.

Więcej informacji znajdziesz w sekcji Klasyfikacja w Szybkim szkoleniu z uczenia maszynowego.

model klasyfikacji

#fundamentals

model, którego prognoza to klasa. Na przykład wszystkie modele klasyfikacji:

  • Model, który przewiduje język zdania wejściowego (francuski? Hiszpański? włoski).
  • Model, który przewiduje gatunek drzewa (Maple? Oak? Baobab?).
  • Model, który prognozuje klasę pozytywną lub negatywną dla określonego stanu medycznego.

Modele regresji przewidują natomiast liczby, a nie klasy.

Dostępne są 2 popularne typy modeli klasyfikacji:

próg klasyfikacji

#fundamentals

W przypadku klasyfikacji binarnej liczba z zakresu od 0 do 1, która przekształca wynik nieprzetworzony modelu regresji logistycznej w prognozę klasy pozytywnej lub klasy negatywnej. Pamiętaj, że próg klasyfikacji to wartość wybrana przez człowieka, a nie przez trenowanie modelu.

Model regresji logistycznej zwraca wartość surową z zakresu od 0 do 1. Następnie:

  • Jeśli ta wartość jest większa od progu klasyfikacji, prognozowana jest klasa pozytywna.
  • Jeśli ta wartość jest niższa od progu klasyfikacji, przewidywana jest klasa negatywna.

Załóżmy na przykład, że próg klasyfikacji wynosi 0,8. Jeśli wartość nieprzetworzona wynosi 0,9, model prognozuje klasę pozytywną. Jeśli wartość surowa wynosi 0,7, model przewiduje klasę negatywną.

Wybór progu klasyfikacji ma duży wpływ na liczbę wyników fałszywie pozytywnychwyników fałszywie negatywnych.

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

zbiór danych z niezrównoważonymi klasami

#fundamentals

Zbiór danych do problemu klasyfikacji, w którym łączna liczba etykiet w poszczególnych klasach różni się znacznie. Rozważmy na przykład zbiór danych do klasyfikacji binarnej, w którym 2 etykiety są podzielone w ten sposób:

  • 1 000 000 etykiet negatywnych
  • 10 etykiet pozytywnych

Stosunek etykiet negatywnych do pozytywnych wynosi 100 000 do 1, więc jest to zbiór danych z niezrównowagą klas.

Natomiast ten zbiór danych nie jest niezrównoważony pod względem klas, ponieważ stosunek etykiet negatywnych do etykiet pozytywnych jest stosunkowo zbliżony do 1:

  • 517 etykiet negatywnych
  • 483 etykiety pozytywne

Zbiory danych z wieloma klasami mogą też być niezrównoważone pod względem klas. Na przykład ten zbiór danych do klasyfikacji wieloklasowej jest również niezrównoważony pod względem klas, ponieważ jedna etykieta ma znacznie więcej przykładów niż pozostałe 2:

  • 1 000 000 etykiet z klasą „green”
  • 200 etykiet z klasą „purple”
  • 350 etykiet z klasą „pomarańczowy”

Zobacz też entropię, klasę większościklasę mniejszości.

przycinanie

#fundamentals

Technika obsługi wartości odstające polegająca na wykonaniu jednej z tych czynności:

  • Obniżanie wartości cechy, które są wyższe niż maksymalny próg, do tego maksymalnego progu.
  • zwiększenie wartości atrybutów, które są mniejsze niż minimalny próg, do tego minimalnego progu;

Załóżmy na przykład, że mniej niż 0,5% wartości danej cechy wypada poza zakres 40–60. W takim przypadku możesz:

  • Wszystkie wartości powyżej 60 (maksymalny próg) są przycinane do 60.
  • Wszystkie wartości poniżej 40 (minimalny próg) są przycinane do 40.

Wartości odstające od reszty mogą uszkodzić modele, czasami powodując przepełnienie wag podczas trenowania. Niektóre wartości odstające mogą też znacznie zaburzać wskaźniki takie jak trafność. Przycinanie to powszechna technika ograniczania szkód.

Odcięcie gradientu wymusza wartości gradientu w określonym zakresie podczas trenowania.

Więcej informacji znajdziesz w sekcji Dane liczbowe: normalizacja z Kursu intensywnego na temat uczenia maszynowego.

tablica pomyłek

#fundamentals

Tabela N × N, która podsumowuje liczbę poprawnych i niepoprawnych prognoz modelu klasyfikacji. Rozważmy na przykład tę tablicę pomyłek dla modelu dwumiantowej klasyfikacji:

Nowotwór (prognoza) Nienowotworowe (prognozy)
Nowotwór (dane podstawowe) 18 (TP) 1 (FN)
Nienowotwor (dane podstawowe) 6 (FP) 452 (TN)

Powyższa tablica pomyłek pokazuje:

  • Spośród 19 prognoz, w których dane podstawowe to „Nowotwór”, model prawidłowo zaklasyfikował 18 z nich, a jedną błędnie.
  • Spośród 458 prognoz, w których przypadku dane podstawowe wskazywały, że nie ma guza, model prawidłowo sklasyfikował 452 z nich, a nieprawidłowo 6.

Tablica pomyłek dla problemu wieloklasowej klasyfikacji może pomóc w identyfikacji wzorców błędów. Rozważ na przykład tę macierz błędów dla 3-klasowego modelu klasyfikacji wieloklasowej, który kategoryzuje 3 różne rodzaje irysów (Virginica, Versicolor i Setosa). Gdy dane podstawowe to „Virginica”, tablica pomyłek pokazuje, że model znacznie częściej błędnie przewidywał „Versicolor” niż „Setosa”:

  Setosa (prognoza) Versicolor (prognoza) Virginica (prognoza)
Setosa (dane podstawowe) 88 12 0
Versicolor (dane podstawowe) 6 141 7
Virginica (dane podstawowe) 2 27 109

Innym przykładem może być macierz błędów, która może ujawnić, że model wytrenowany do rozpoznawania odręcznie wpisanych cyfr często błędnie przewiduje 9 zamiast 4 lub 1 zamiast 7.

Matryc konfuzji zawiera wystarczającą ilość informacji do obliczenia różnych wskaźników skuteczności, w tym precyzjiczułości.

ciągła funkcja

#fundamentals

Właściwość o typie zmiennopozycyjnym z nieskończonym zakresem możliwych wartości, np. temperatura lub waga.

W odróżnieniu od funkcji dyskretnej.

zbieżność

#fundamentals

Stan osiągnięty, gdy wartości utraty zmieniają się bardzo mało lub wcale w przypadku każdej iteracji. Na przykład na krzywej utraty funkcji celu widać, że zbieżność występuje po około 700 iteracjach:

Wykres kartezjański. Oś X to utrata. Oś Y to liczba iteracji trenowania. Straty są bardzo wysokie w pierwszych kilku iteracjach, ale gwałtownie spadają. Po około 100 iteracjach utrata nadal maleje, ale znacznie wolniej. Po około 700 iteracjach strata pozostaje na stałym poziomie.

Model zbiera się, gdy dodatkowe trenowanie nie poprawia jego wyników.

W deep learningu wartości strat czasami pozostają stałe lub prawie stałe przez wiele iteracji, zanim w końcu zaczną maleć. W przypadku długiego okresu stałej wartości utraty możesz mieć chwilowo fałszywe wrażenie zbieżności.

Zobacz też wczesne zatrzymanie.

Więcej informacji znajdziesz w sekcji Modele – krzywe zbieżności i strat w Szybkim szkoleniu z systemów uczących się.

D

[struktura] DataFrame

#fundamentals

Popularny typ danych pandas służący do reprezentowania zbiorów danych w pamięci.

DataFrame jest podobny do tabeli lub arkusza kalkulacyjnego. Każda kolumna DataFrame ma nazwę (nagłówek), a każdy wiersz jest identyfikowany za pomocą unikalnego numeru.

Każda kolumna w ramach DataFrame jest sformatowana jak tablica dwuwymiarowa, z tą różnicą, że każdej kolumnie można przypisać własny typ danych.

Zobacz też oficjalną stronę referencyjną pakietu pandas.DataFrame.

zbiór danych

#fundamentals

Zbiór danych nieprzetworzonych, zwykle (ale nie zawsze) uporządkowanych w jednym z tych formatów:

  • arkusz kalkulacyjny
  • plik w formacie CSV (wartości rozdzielone przecinkami),

model głęboki

#fundamentals

Sieci neuronowej zawierającej więcej niż 1 ukrytą warstwę.

Model głęboki to także głęboka sieć neuronowa.

Porównaj z modelem szerokim.

funkcja gęsta

#fundamentals

Cecha, w której większość lub wszystkie wartości są różne od 0, zwykle tensor wartości zmiennoprzecinkowych. Na przykład ten 10-elementowy tensor jest gęsty, ponieważ 9 jego wartości jest niezerowych:

8 3 7 5 2 4 0 4 9 6

W odróżnieniu od rzadkiej funkcji.

głębokość

#fundamentals

Suma tych wartości w sieci neuronowej:

Na przykład sieć neuronowa z 5 ukrytymi warstwami i 1 warstwą wyjściową ma głębokość 6.

Zwróć uwagę, że warstwa wejściowa nie wpływa na głębokość.

funkcja dyskretna

#fundamentals

cecha z ograniczonym zbiorem możliwych wartości. Na przykład cecha, której wartościami mogą być tylko zwierzę, warzywo lub minerał, jest cecha dyskretna (czyli kategorialna).

W odróżnieniu od funkcji ciągłej.

dynamiczny

#fundamentals

coś, co jest wykonywane często lub stale; W uczeniu maszynowym terminy dynamicznyonline są synonimami. Oto najczęstsze zastosowania dynamicznychinternetowych w przypadku uczenia maszynowego:

  • Model dynamiczny (lub model online) to model, który jest często lub stale ponownie trenowany.
  • Szkolenie dynamiczne (lub szkolenie online) to proces szkolenia często lub ciągle.
  • Wyraźnie dynamiczne wnioskowanie (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

model, który jest często (a nawet stale) ponownie trenowany. Model dynamiczny to „uczeń przez całe życie”, który stale dostosowuje się do zmieniających się danych. Model dynamiczny jest też nazywany modelem online.

Porównaj z modelem statycznym.

E

wczesne zatrzymanie

#fundamentals

Metoda regularyzacji, która polega na zakończeniu treningu przed zakończeniem zmniejszania się straty w treningu. W przypadku wczesnego zatrzymania celowo przerywasz trenowanie modelu, gdy strata na zbiorze danych do weryfikacji zaczyna się zwiększać, czyli gdy skuteczność w zakresie generalizacji się pogarsza.

warstwa wstawiania

#language
#fundamentals

Specjalny warstwę ukrytą, która jest trenowana na podstawie cechy kategorialnej o dużej wymiarowości, aby stopniowo uczyć się wektora zanurzonego o mniejszej wymiarowości. Warstwę embeddingu można wykorzystać do trenowania sieci neuronowej w znacznie bardziej wydajny sposób niż przy użyciu tylko cechy wielowymiarowej.

Na przykład Earth obsługuje obecnie około 73 tys. gatunków drzew. Załóżmy, że gatunek drzewa jest atrybutem w Twoim modelu,więc warstwa wejściowa modelu zawiera wektor typu one-hot o długości 73 tys. elementów. Na przykład baobab może być przedstawione w ten sposób:

Tablica 73 tys. elementów. Pierwsze 6232 elementy mają wartość 0. Następny element zawiera wartość 1. Ostatnie 66 767 elementów ma wartość zero.

Tablica o 73 tys. elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy embeddingu, trenowanie zajmie bardzo dużo czasu z powodu mnożenia 72 999 zer. Możesz wybrać warstwę z 12 wymiarami. W konsekwencji warstwa embeddingu będzie stopniowo uczyć się nowego wektora embeddingu dla każdego gatunku drzewa.

W niektórych sytuacjach zaszyfrowanie jest odpowiednią alternatywą dla warstwy umieszczania.

Więcej informacji znajdziesz w sekcji Embeddings w szybkim szkoleniu z uczenia maszynowego.

początek epoki : epoka

#fundamentals

pełne trenowanie całego zbioru treningowego, w którym każdy przykład został przetworzony raz;

Jedna epoka to N/rozmiar wsadu iteracji treningowych, gdzie N to łączna liczba przykładów.

Załóżmy na przykład, że:

  • Zbiór danych zawiera 1000 przykładów.
  • Wielkość wsadu to 50 przykładów.

Dlatego jedna epoka wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

przykład

#fundamentals

wartości jednego wiersza cechy i ewentualnie etykiety, Przykłady w nauce nadzorowanej można podzielić na 2 ogólne kategorie:

  • Znakowane przykłady zawierają co najmniej 1 cechę i etykietę. Oznaczone etykietami przykłady są używane podczas trenowania.
  • Nieoznaczony przykład składa się z co najmniej 1 cechy, ale nie ma etykiety. Przykłady bez etykiet są używane podczas wnioskowania.

Załóżmy na przykład, że trenujesz model, aby określić wpływ warunków pogodowych na wyniki egzaminów uczniów. Oto 3 oznaczone przykłady:

Funkcje Etykieta
Temperatura wilgotność, Ciśnienie Wynik testu
15 47 998 Dobry
19 34 1020 Świetna
18 92 1012 Niska

Oto 3 przykłady bez etykiet:

Temperatura wilgotność, Ciśnienie  
12 62 1014  
21 47 1017  
19 41 1021  

Wiersz zbioru danych jest zwykle źródłem danych nieprzetworzonych. Oznacza to, że przykład zwykle składa się z podzbioru kolumn zbioru danych. Ponadto funkcje w przykładzie mogą obejmować funkcje syntetyczne, takie jak krzyżowanie funkcji.

Więcej informacji znajdziesz w sekcji Nauczanie nadzorowane w kursie Wprowadzenie do systemów uczących się.

F

fałszywie negatywny (FN),

#fundamentals

Przykład, w którym model błędnie przewiduje klasę negatywną. Na przykład model przewiduje, że dana wiadomość e-mail nie jest spamem (klasa negatywna), ale okazuje się, że jest to spam.

wynik fałszywie pozytywny (FP).

#fundamentals

Przykład, w którym model błędnie prognozuje klasę pozytywną. Na przykład model przewiduje, że dana wiadomość e-mail jest spamem (klasa pozytywna), ale w rzeczywistości nie jest to spam.

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

współczynnik wyników fałszywie pozytywnych (FPR);

#fundamentals

Odsetek rzeczywistych przykładów negatywnych, dla których model błędnie przewidział klasę pozytywną. Odsetek wyników fałszywie dodatnich oblicza się za pomocą tej formuły:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie pozytywnych to oś X na krzywej ROC.

Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa modelu uczenia maszynowego. Przykład składa się z co najmniej jednej funkcji. Załóżmy na przykład, że trenujesz model, aby określić wpływ warunków pogodowych na wyniki testów uczniów. W tabeli poniżej znajdziesz 3 przykłady, z których każdy zawiera 3 funkcje i 1 etykietę:

Funkcje Etykieta
Temperatura wilgotność, Ciśnienie Wynik testu
15 47 998 92
19 34 1020 84
18 92 1012 87

Kontrast z etykietą.

Więcej informacji znajdziesz w sekcji Nauczanie nadzorowane w kursie Wprowadzenie do systemów uczących się.

funkcja krzyżowa

#fundamentals

Cecha syntetyczna utworzona przez „przecięcie” cech kategorialnych lub zbiorowych.

Rozważmy na przykład model „prognozowania nastroju”, który przedstawia temperaturę w jednym z tych 4 zakresów:

  • freezing
  • chilly
  • temperate
  • warm

I reprezentuje prędkość wiatru w jednym z tych 3 zakresów:

  • still
  • light
  • windy

Bez krzyżowania cech model liniowy trenuje się niezależnie w przypadku każdego z 7 poprzednich różnych zbiorów. Model trenuje na przykład na danych freezing niezależnie od trenowania na przykład na danych windy.

Możesz też utworzyć funkcję krzyżową temperatury i prędkości wiatru. Ta syntetyczna cecha miałaby 12 możliwych wartości:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dzięki skrzyżowaniu cech model może uczyć się różnic w nastroju między dniem freezing-windyfreezing-still.

Jeśli utworzysz funkcję syntetyczną na podstawie 2 funkcji, z których każda ma wiele różnych zbiorników, otrzymana funkcja krzyżowa będzie miała ogromną liczbę możliwych kombinacji. Jeśli na przykład jedna cecha ma 1000 segmentów, a druga – 2000 segmentów, to ich iloczyn ma 2 000 000 segmentów.

Formalnie krzyż jest iloczynem kartezjańskim.

Krzyżowanie cech jest używane głównie w przypadku modeli liniowych i rzadko w przypadku sieci neuronowych.

Więcej informacji znajdziesz w sekcji Dane kategoryczne: krzyżowanie cech w Szybkim szkoleniu z uczenia maszynowego.

ekstrakcja wyróżników

#fundamentals
#TensorFlow

Proces obejmujący te kroki:

  1. Określanie, które cechy mogą być przydatne podczas trenowania modelu.
  2. konwertowanie nieprzetworzonych danych ze zbioru danych na wydajne wersje tych funkcji;

Możesz na przykład uznać, że temperature może być przydatną funkcją. Następnie możesz eksperymentować z bucketingiem, aby zoptymalizować to, czego model może się nauczyć z różnych zakresów temperature.

Inżynieria cech jest czasami nazywana wyodrębnianiem cech lub tworzeniem cech.

Więcej informacji znajdziesz w sekcji Dane liczbowe: jak model przetwarza dane za pomocą wektorów cech z Kursu intensywnego z uczenia maszynowego.

zestaw cech

#fundamentals

Grupa funkcji, na podstawie których trenowany jest model systemów uczących się. Na przykład kod pocztowy, wielkość i stan nieruchomości mogą stanowić prosty zbiór cech dla modelu, który prognozuje ceny mieszkań.

wektor cech

#fundamentals

Tablica wartości cechy, która zawiera przykład. Wektor cech jest podawany podczas treningu i podczas wyciągania wniosków. Na przykład wektor cech w przypadku modelu z 2 cechami dyskretnymi może wyglądać tak:

[0.92, 0.56]

4 warstwy: warstwa wejściowa, 2 warstwy ukryte i jedna warstwa wyjściowa.
          Warstwa wejściowa zawiera 2 węzły: jeden z wartością 0,92, a drugi z wartością 0,56.

Każdy przykład podaje różne wartości wektora cech, więc wektor cech w następnym przykładzie może wyglądać tak:

[0.73, 0.49]

Przygotowanie danych określa, jak przedstawiać cechy w wektorze cech. Na przykład dwuwartościowa cecha kategorialna z 5 możliwymi wartościami może być reprezentowana za pomocą kodowania 1-hot. W tym przypadku część wektora cech w przypadku konkretnego przykładu składałaby się z 4 zer i 1 wartości 1,0 na 3.pozycji:

[0.0, 0.0, 1.0, 0.0, 0.0]

Innym przykładem może być model składający się z 3 cech:

  • binarna cecha kategorialna o 5 możliwych wartościach reprezentowanych za pomocą kodowania 1-hot, np.: [0.0, 1.0, 0.0, 0.0, 0.0]
  • kolejna dwuwartościowa cecha kategorialna o 3 możliwych wartościach reprezentowanych za pomocą kodowania 1-hot, np.: [0.0, 0.0, 1.0]
  • funkcja zmiennoprzecinkowa, np. 8.3.

W tym przypadku wektor cech każdego przykładu będzie reprezentowany przez 9 wartości. Na podstawie przykładowych wartości z poprzedniej listy wektor cech wyglądałby tak:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Więcej informacji znajdziesz w sekcji Dane liczbowe: jak model przetwarza dane za pomocą wektorów cech z Kursu intensywnego z uczenia maszynowego.

pętla informacji zwrotnych

#fundamentals

W uczeniu maszynowym sytuacja, w której prognozy modelu wpływają na dane treningowe tego samego modelu lub innego modelu. Na przykład model, który rekomenduje filmy, wpływa na to, jakie filmy widzą użytkownicy, a to z kolei wpływa na kolejne modele rekomendacji filmów.

Więcej informacji znajdziesz w sekcji Produkcyjne systemy ML: pytania do zastanowienia się w Kursie intensywnym z uczenia maszynowego.

G

uogólnianie

#fundamentals

Zdolność modelu do trafnego przewidywania nowych, wcześniej niewidzianych danych. Model, który może uogólniać, jest przeciwieństwem modelu, który nadmiernie dopasowuje się.

Więcej informacji znajdziesz w sekcji Ogólnienie w szybkim szkoleniu z uczenia maszynowego.

krzywa generalizacji

#fundamentals

Wykres straty na etapie trenowaniastraty na etapie walidacji w funkcji liczby iteracji.

Krzywa generalizacji może pomóc w wykryciu możliwego nadmiernego dopasowania. Na przykład krzywa generalizacji sugeruje przetrenowanie, ponieważ strata weryfikacyjna staje się ostatecznie znacznie większa niż strata podczas trenowania.

Wykres kartezjański, na którym oś Y ma etykietę „strata”, a oś X – „iteracje”. Pojawiają się 2 wykresy. Jeden wykres pokazuje stratę podczas trenowania, a drugi – stratę podczas weryfikacji.
          Oba wykresy zaczynają się podobnie, ale strata podczas trenowania w końcu spada znacznie poniżej straty podczas walidacji.

Więcej informacji znajdziesz w sekcji Ogólnienie w szybkim szkoleniu z uczenia maszynowego.

spadku wzdłuż gradientu

#fundamentals

Technika matematyczna służąca do minimalizowania strat. Metoda gradientu stochastycznego iteracyjnie dostosowuje wagi i uśrednia błędy, stopniowo znajdując najlepszą kombinację w celu zminimalizowania strat.

Metoda gradientu stosowana jest od dawna, czyli znacznie wcześniej niż systemy uczące się.

Więcej informacji znajdziesz w artykule Regresja liniowa: metoda gradientu schodkowego z Kursu intensywnego na temat uczenia się maszynowego.

dane podstawowe (ground truth)

#fundamentals

Realizm.

co faktycznie się wydarzyło.

Rozważmy na przykład model dwuklasowej klasyfikacji, który przewiduje, czy student pierwszego roku studiów ukończy je w ciągu 6 lat. Dane podstawowe dla tego modelu to informacje o tym, czy dany student ukończył studia w ciągu 6 lat.

H

warstwa ukryta

#fundamentals

Warstwa w sieci neuronowej między warstwą wejściową (cechy) a warstwą wyjściową (prognoza). Każda warstwa ukryta składa się z co najmniej 1 neurona. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy:

4 warstwy. Pierwsza warstwa to warstwa wejściowa zawierająca 2 cechy. Druga warstwa to warstwa ukryta zawierająca 3 neurony. Trzecia warstwa to warstwa ukryta zawierająca 2 neurony. Czwarta warstwa to warstwa wyjściowa. Każda cecha zawiera 3 krawędzie, z których każda wskazuje inny neuron na drugim poziomie. Każdy z neuronów na 2 poziomie zawiera 2 krawędzie, z których każda wskazuje inny neuron na 3 poziomie. Każdy z neuronów na 3 poziomie zawiera 1 krawędzie, z których każda wskazuje na warstwę wyjściową.

Głęboka sieć neuronowa zawiera więcej niż 1 warstwę ukrytą. Na przykład poprzednia ilustracja przedstawia głęboką sieć neuronową, ponieważ model zawiera 2 warstwy ukryte.

Więcej informacji znajdziesz w artykule Neural networks: Nodes and hidden layers z cyklu Crash Course z machine learningu.

hiperparametr

#fundamentals

zmienne, które Ty lub usługa dostrajania hiperparametrówdostosowujesz podczas kolejnych sesji trenowania modelu; Na przykład tempo uczenia się jest hiperparametrem. Przed rozpoczęciem sesji treningowej możesz ustawić szybkość uczenia się na 0,01. Jeśli uznasz, że 0,01 jest zbyt wysoką wartością, możesz ustawić szybkość uczenia się na 0,003 w następnej sesji treningowej.

Natomiast parametry to różne wagiuprzedzenia, których model uczy się podczas trenowania.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

I

niezależne i identycznie rozłożone (i.i.d)

#fundamentals

Dane pochodzące z rozkładu, który się nie zmienia, a każda z wylosowanych wartości nie zależy od wcześniej wylosowanych wartości. IID to gaz doskonały w uczeniu maszynowym – przydatna konstrukcja matematyczna, która w rzeczywistych warunkach występuje bardzo rzadko. Na przykład w krótkim przedziale czasu rozkład wizyt na stronie internetowej może być niezależny od identyfikatora, co oznacza, że rozkład nie zmienia się w tym krótkim przedziale czasu, a wizyta jednej osoby jest zazwyczaj niezależna od wizyty innej osoby. Jeśli jednak rozszerzysz ten przedział czasu, mogą pojawić się sezonowe różnice w liczbie odwiedzających stronę.

Zobacz też niestacjonarność.

wnioskowanie

#fundamentals

W uczeniu maszynowym proces dokonywania prognoz polega na zastosowaniu wytrenowanego modelu do nieoznaczonych przykładów.

W statystyce wnioskowanie ma nieco inne znaczenie. Więcej informacji znajdziesz w  tym artykule na temat wnioskowania statystycznego w Wikipedii.

Aby poznać rolę wnioskowania w systemie uczenia nadzorowanego, zapoznaj się z uczenie nadzorowane w Kursie wprowadzającym do uczenia maszynowego.

warstwa wejściowa

#fundamentals

Warstwa sieci neuronowej, która przechowuje wektory cech. Oznacza to, że warstwa wejściowa dostarcza przykładów do trenowania lub wyciągania wniosków. Na przykład warstwa wejściowa w tej sieci neuronowej składa się z 2 elementów:

4 warstwy: warstwa wejściowa, 2 warstwy ukryte i warstwa wyjściowa.

interpretowalność

#fundamentals

Umiejętność wyjaśnienia lub przedstawienia rozumowania modelu ML w zrozumiały sposób.

Na przykład większość modeli regresji liniowej jest łatwa do interpretacji. (wystarczy spojrzeć na wytrenowane wagi dla każdej cechy). Lasy decyzyjne są też bardzo czytelne. Interpretowalność niektórych modeli wymaga jednak rozbudowanej wizualizacji.

Do interpretowania modeli ML możesz użyć narzędzia do analizowania interpretowalności (LIT).

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modelu (waguprzedzeń) podczas trenowania. Rozmiar wsadu określa, ile przykładów model przetwarza w ramach jednej iteracji. Jeśli na przykład rozmiar partii wynosi 20, model przetwarza 20 przykładów, zanim dostosuje parametry.

Podczas trenowania sieci neuronowej pojedyncza iteracja obejmuje 2 przebiegi:

  1. Przejście do przodu w celu oszacowania utraty na pojedynczym zbiorze danych.
  2. Przejście wstecz (wsteczne propagowanie) w celu dostosowania parametrów modelu na podstawie utraty i tempo uczenia się.

L

Regularyzacja L0

#fundamentals

Typ regularyzacji, która nakłada kary na łączną liczbę niezerowych wag w modelu. Na przykład model z 11 wartościami wag niezerowych byłby obciążony większą karą niż podobny model z 10 wartościami wag niezerowych.

Regularyzacja L0 jest czasami nazywana regularyzacją normy L0.

Straty L1

#fundamentals

Funkcja strat, która oblicza bezwzględną wartość różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Oto na przykład obliczenie utraty L1partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu Wartość prognozowana przez model Wartość bezwzględna delty
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1

Strata L1 jest mniej wrażliwa na wartości wyizolowane niż strata L2.

Średni bezwzględny błąd to średnia utrata informacji L1 na przykład.

Regularyzacja L1

#fundamentals

Typ regularyzacji, która nakłada kary na wagi proporcjonalnie do ich sumy wartości bezwzględnych. Regularyzacja L1 pomaga doprowadzić wagi nieistotnych lub mało istotnych cech do dokładnie 0. Cecha o wadze 0 zostaje skutecznie usunięta z modelu.

Porównaj z regularyzacją L2.

Strata L2

#fundamentals

Funkcja strat, która oblicza kwadrat różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Oto na przykład obliczenie strat L2 dla partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu Wartość prognozowana przez model Kwadrat delty
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2

Z powodu kwadratowania strata L2 wzmacnia wpływ wartości odstających. Oznacza to, że strata L2 reaguje silniej na złe prognozy niż strata L1. Na przykład strata L1 w poprzednim zbiorze wynosi 8, a nie 16. Zwróć uwagę, że 9 z 16 wyników to wartości odstające.

Modele regresji zwykle używają funkcji utraty L2 jako funkcji utraty.

Wartość błędu średniokwadratowego to średnia strata funkcji L2 na przykład. Strata kwadratowa to inna nazwa straty L2.

Regularyzacja L2

#fundamentals

Rodzaj regularyzacji, która nakłada kary na wagi proporcjonalnie do sumy kwadratów tych wag. Regularyzacja L2 pomaga zbliżyć wagi wyjści poza zakres (czyli te o wysokich dodatnich lub niskich ujemnych wartościach) do 0, ale nie doprowadzi ich do dokładnie tej wartości. Cechy o wartościach bardzo zbliżonych do 0 pozostają w modelu, ale nie mają większego wpływu na jego prognozy.

Regularyzacja L2 zawsze poprawia uogólnianie w modelach liniowych.

Porównaj z regularyzacją L1.

etykieta

#fundamentals

uczeniu nadzorowanym jest to część „odpowiedź” lub „wynik” przykładu.

Każdy oznaczony przykład składa się z co najmniej 1 cechy i etykiety. Na przykład w zbiorze danych do wykrywania spamu etykietą byłaby prawdopodobnie wartość „spam” lub „nie spam”. W przypadku zbioru danych o opadach atmosferycznych etykietą może być ilość opadów w okresie.

przykład z oznaczeniem

#fundamentals

Przykład zawierający co najmniej jedną cechęetykietę. Na przykład w tabeli poniżej znajdują się 3 oznaczone przykłady z modelu wyceny domu, z których każdy ma 3 cechy i 1 etykietę:

Liczba sypialni Liczba łazienek Wiek domu Cena domu (etykieta)
3 2 15 345 tys. USD
2 1 72 179 tys. USD
4 2 34 392 000 USD

nadzorowanym uczeniu maszynowym modele są trenowane na przykładach z oznacznikami i wydają prognozy na podstawie przykładów bez oznaczeń.

Porównanie przykładu z oznaczoną etykietą z przykładami bez etykiety.

lambda

#fundamentals

Synonim stawki legalizacji.

Lambda to przeciążony termin. Tutaj skupiamy się na definicji tego terminu w kontekście regularyzacji.

warstwa

#fundamentals

Zbiór neuronówsieci neuronowej. Oto 3 najczęstsze typy warstw:

Na przykład ilustracja poniżej przedstawia sieć neuronową z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwsza ukryta warstwa składa się z 3 neuronów, a druga – z 2 neuronów. Warstwa wyjściowa składa się z pojedynczego węzła.

TensorFlow warstwy to też funkcje Pythona, które przyjmują jako dane wejściowe tensory i inne tensory jako dane wyjściowe.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która informuje algorytm gradientu prostego, jak mocno dostosowywać wagi i uśrednienia na każdej iteracji. Na przykład szybkość uczenia się 0,3 będzie wpływać na wagi i przechylenia 3 razy silniej niż szybkość uczenia się 0,1.

Tempo uczenia się to kluczowy hiperparametr. Jeśli ustawisz zbyt niski współczynnik nauki, proces trenowania potrwa zbyt długo. Jeśli tempo uczenia się jest zbyt wysokie, metoda gradientu prostego często ma problemy z osiągnięciem konwergencji.

jednostajne

#fundamentals

Związek między co najmniej 2 zmiennymi, który można przedstawić wyłącznie za pomocą dodawania i mnożenia.

Wykres zależności liniowej to linia.

Kontrast z nielinearnym.

model liniowy

#fundamentals

Model przypisuje wagę na każdą cechę, aby tworzyć prognozy. (modele liniowe uwzględniają też uprzedzenie). Natomiast relacja między cechami a prognozami w modelach głębokich jest zwykle nieliniowa.

Modele liniowe są zwykle łatwiejsze do wytrenowania i bardziej zrozumiałe niż modele głębokie. Modele głębokie mogą jednak uczyć się złożonych relacji między cechami.

Regresja liniowaregresja logistyczna to 2 typy modeli liniowych.

regresja liniowa

#fundamentals

Typ modelu uczenia maszynowego, który spełnia oba te warunki:

  • Model jest liniowy.
  • Prognoza jest wartością zmiennoprzecinkową. (jest to część dotycząca regresji w ramach regresji liniowej).

Porównaj regresję liniową z regresją logistyczną. Porównaj regresję z klasyfikacją.

regresja logistyczna

#fundamentals

Typ modelu regresji, który prognozuje prawdopodobieństwo. Modele regresji logistycznej mają te cechy:

  • Etykieta jest kategoryczna. Termin „regresja logistyczna” zwykle odnosi się do binarnej regresji logistycznej, czyli modelu, który oblicza prawdopodobieństwa dla etykiet o 2 możliwych wartościach. Mniej popularna wielomianowa regresja logistyczna oblicza prawdopodobieństwa dla etykiet o większej liczbie niż 2 możliwe wartości.
  • Funkcja utraty podczas trenowania to logarytmiczna utrata. (w przypadku etykiet z większą liczbą niż 2 możliwe wartości można umieścić równolegle wiele jednostek utraty logarytmicznej).
  • Model ma architekturę liniową, a nie jest siecią głęboką. Pozostała część tej definicji dotyczy jednak również głębokich modeli, które przewidują prawdopodobieństwa dla etykiet kategorycznych.

Rozważmy na przykład model regresji logistycznej, który oblicza prawdopodobieństwo, że podany e-mail jest spamem lub nie jest spamem. Podczas wnioskowania model przewiduje wartość 0, 72. Dlatego model szacuje:

  • 72% szans, że e-mail jest spamem.
  • 28% szans, że e-mail nie jest spamem.

Model regresji logistycznej korzysta z tej 2-stopniowej architektury:

  1. Model generuje prognozę wstępną (y') przez zastosowanie funkcji liniowej cech wejściowych.
  2. Model używa tej prognozy nieprzetworzonej jako danych wejściowych do funkcji sigmoidalnej, która konwertuje tę prognozę nieprzetworzoną na wartość z zakresu od 0 do 1.

Podobnie jak każdy model regresji, model regresji logistycznej prognozuje liczbę. Jednak liczba ta zwykle staje się częścią modelu klasyfikacji binarnej w ten sposób:

  • Jeśli prognozowana liczba jest większa od progu klasyfikacji, model klasyfikacji binarnej prognozuje klasę pozytywną.
  • Jeśli przewidywana liczba jest mniejsza od progu klasyfikacji, model klasyfikacji binarnej przewiduje klasę negatywną.

Logarytmiczna funkcja straty

#fundamentals

Funkcja utraty używana w binarnej regresji logistycznej.

log-odds

#fundamentals

Logarytm prawdopodobieństwa wystąpienia danego zdarzenia.

przegrana

#fundamentals

Podczas treningu modelu nadzorowanego mierzy się, jak daleko prognoza modelu odbiega od etykiety.

Funkcja utraty oblicza utratę.

krzywa utraty

#fundamentals

Wykres straty jako funkcji liczby iteracji. Na wykresie poniżej widać typowy przebieg funkcji utraty:

Graficzny wykres strat w funkcji iteracji treningu, na którym widać szybki spadek strat w przypadku początkowych iteracji, a potem stopniowy spadek i płaską krzywą w przypadku ostatnich iteracji.

Krzywe strat mogą pomóc w określeniu, kiedy model zbiera dane lub nadmiernie dopasowuje się.

Krzywe strat mogą przedstawiać wszystkie te typy strat:

Zobacz też krzywą generalizacji.

funkcja utraty

#fundamentals

Podczas trenowania lub testowania funkcja matematyczna, która oblicza stratę na partii przykładów. Funkcja straty zwraca mniejszą stratę w przypadku modeli, które dobrze przewidują, niż w przypadku modeli, które źle przewidują.

Celem trenowania jest zwykle minimalizowanie straty zwracanej przez funkcję straty.

Istnieje wiele różnych rodzajów funkcji strat. Wybierz odpowiednią funkcję utraty dla rodzaju modelu, który budujesz. Na przykład:

M

systemy uczące się

#fundamentals

To programy lub systemy, które trenowały model na podstawie danych wejściowych. Wytrenowany model może tworzyć przydatne prognozy na podstawie nowych (wcześniej nieużywanych) danych pobranych z tego samego rozkładu, co dane użyte do trenowania modelu.

Uczenie maszynowe odnosi się też do dziedziny nauki związanej z tymi programami lub systemami.

klasa większościowa

#fundamentals

Więcej informacji zawiera sekcja opisująca typowe błędy. Na przykład w przypadku zbioru danych zawierającego 99% etykiet negatywnych i 1% etykiet pozytywnych etykiety negatywne stanowią większość.

Porównaj z klasą mniejszościową.

mini-batch

#fundamentals

Mała, losowo wybrana podgrupa partii przetworzonej w jednej iteracji. Rozmiar minipartii zwykle wynosi od 10 do 1000 przykładów.

Załóżmy na przykład, że cały zbiór treningowy (pełna partia) składa się ze 1000 przypadków. Załóżmy też, że wielkość partii każdej minipartii wynosi 20. Dlatego w każdej iteracji określamy stratę dla 20 losowych przykładów spośród 1000 dostępnych, a następnie odpowiednio dostosowujemy wagiuświadczenia.

Obliczanie strat na mini-partii jest znacznie wydajniejsze niż na wszystkich przykładach w pełnej partii.

klasa mniejszościowa

#fundamentals

Etykieta występująca rzadziej w zbiorze danych z niezrównoważonymi klasami. Na przykład w przypadku zbioru danych zawierającego 99% etykiet negatywnych i 1% etykiet pozytywnych etykiety pozytywne stanowią klasę mniejszościową.

Kontrastuje z klasą większości.

model

#fundamentals

Ogólnie rzecz biorąc, każda konstrukcja matematyczna, która przetwarza dane wejściowe i zwraca dane wyjściowe. Inaczej mówiąc, model to zestaw parametrów i struktury, które są potrzebne systemowi do prognozowania. W nadzorowanym uczeniu maszynowym model otrzymuje jako dane wejściowe przykład, a jako dane wyjściowe wyprowadza prognozę. W ramach uczenia maszynowego nadzorowanego modele różnią się nieco od siebie. Na przykład:

  • Model regresji liniowej składa się z zestawu wagbłędu średniego.
  • Model sieci neuronowej składa się z tych elementów:
    • Zestaw ukrytych warstw, z których każda zawiera co najmniej neuron.
    • Wagi i błądy związane z każdym neuronem.
  • Model drzewa decyzyjnego składa się z tych elementów:
    • Kształt drzewa, czyli wzór, w którym warunki i liście są połączone.
    • Warunki i liście.

Możesz zapisać model, przywrócić go lub utworzyć jego kopie.

Nienadzorowane systemy uczące się generują też modele, zwykle funkcję, która może odwzorować przykład wejściowy na najbardziej odpowiedni klaster.

klasyfikacja wieloklasowa

#fundamentals

W przypadku uczenia nadzorowanego problem klasyfikacji, w którym zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą należeć do jednej z tych trzech klas:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Model wytrenowany na zbiorze danych Iris, który prognozuje typ kwiatu na podstawie nowych przykładów, wykonuje klasyfikację wieloklasową.

Z kolei problemy klasyfikacji, które rozróżniają dokładnie 2 klasy, to binarne modele klasyfikacji. Na przykład model e-maila, który prognozuje spam lub nie spam, jest modelem klasyfikacji binarnej.

W problemach z klasteringiem klasyfikacja wieloklasowa odnosi się do więcej niż 2 klas.

N

klasa wyników negatywnych

#fundamentals

W przypadku klasyfikacji binarnej jedna klasa jest określana jako dodatnia, a druga jako ujemna. Klasa pozytywna to rzecz lub zdarzenie, które model testuje, a klasa negatywna to inna możliwość. Na przykład:

  • Klasa negatywna w teście medycznym może być oznaczona jako „nie nowotwór”.
  • Klasa negatywna w klasyfikatorze e-maili może być oznaczona jako „nie spam”.

Porównaj z klasą wyników pozytywnych.

sieć neuronowa

#fundamentals

Model zawierający co najmniej 1 ukrytą warstwę. Głęboka sieć neuronowa to rodzaj sieci neuronowej zawierającej więcej niż jedną warstwę ukrytą. Na przykład diagram poniżej przedstawia głęboką sieć neuronową z 2 ukrytymi warstwami.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami na następnej warstwie. Na przykład na diagramie powyżej widać, że każdy z 3 neuronów na pierwszej warstwie ukrytej jest osobno połączony z obamia neuronami na drugiej warstwie ukrytej.

Sieci neuronowe wdrażane na komputerach są czasami nazywane sztucznymi sieciami neuronowymi, aby odróżnić je od sieci neuronowych występujących w mózgu i innych układach nerwowych.

Niektóre sieci neuronowe mogą naśladować bardzo złożone zależności nieliniowe między różnymi cechami a etykietą.

Zobacz też splotową sieć neuronowąpowtarzalną sieć neuronową.

neuron

#fundamentals

W uczeniu maszynowym: odrębna jednostka w ukrytej warstwie sieci neuronowej. Każdy neuron wykonuje tę dwuetapową czynność:

  1. Oblicza sumę ważoną wartości wejściowych pomnożoną przez ich odpowiednie wagi.
  2. Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacyjnej.

Neuron w pierwszym ukrytym warstwie przyjmuje dane wejściowe z wartości cech w warstwie wejściowej. Neuron w dowolnej warstwie ukrytej poza pierwszą przyjmuje dane wejściowe od neuronów w poprzedniej warstwie ukrytej. Na przykład neuron na 2. warstwie ukrytej przyjmuje dane wejściowe od neuronów na 1. warstwie ukrytej.

Na ilustracji poniżej zaznaczono 2 neurony i ich wejścia.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową. Wyróżniono 2 neurony: jeden na pierwszej warstwie ukrytej i jeden na drugiej warstwie ukrytej. Zaznaczony neuron na pierwszej warstwie ukrytej otrzymuje dane wejściowe z obu funkcji na warstwie wejściowej. Wyróżniony neuron na 2. ukrytej warstwie otrzymuje dane wejściowe od każdego z 3 neuronów na 1. ukrytej warstwie.

Neuron w sieci neuronowej naśladuje działanie neuronów w mózgu i innych częściach układu nerwowego.

węzeł (sieć neuronowa)

#fundamentals

Neuronukrytej warstwie.

nieliniowe

#fundamentals

Związek między co najmniej 2 zmiennymi, którego nie można przedstawić wyłącznie za pomocą dodawania i mnożenia. Linearna relacja może być przedstawiona w postaci linii, a nielinearna nie może być przedstawiona w postaci linii. Rozważmy na przykład 2 modele, z których każdy łączy jedną cechę z jedną etykietą. Model po lewej stronie jest liniowy, a model po prawej – nieliniowy:

2 wykresy. Jeden wykres jest linią, więc jest to zależność liniowa.
          Drugi wykres jest krzywą, więc jest to związek nieliniowy.

niestałość

#fundamentals

Cecha, której wartości zmieniają się w ramach co najmniej 1 wymiaru, zwykle czasu. Oto przykłady niestałości:

  • Liczba strojów kąpielowych sprzedanych w danym sklepie zależy od sezonu.
  • Ilość danego owocu zebranego w danym regionie przez większość roku wynosi 0, ale w krótkim okresie jest duża.
  • Z powodu zmian klimatu średnie temperatury roczne się zmieniają.

Kontrastuje z stacionarnością.

normalizacja

#fundamentals

Ogólnie rzecz biorąc, jest to proces konwertowania rzeczywistego zakresu wartości zmiennej na standardowy zakres wartości, np.:

  • -1 do +1
  • Od 0 do 1
  • Z-wyniki (w przybliżeniu od -3 do +3)

Załóżmy na przykład, że rzeczywisty zakres wartości danej cechy wynosi od 800 do 2400. W ramach tworzenia cech możesz znormalizować rzeczywiste wartości do standardowego zakresu, np. -1 do +1.

Normalizacja jest częstym zadaniem w ramach inżynierii cech. Modele zwykle trenują szybciej (i wydają lepsze prognozy), gdy wszystkie cechy liczbowe w wektorze cech mają mniej więcej ten sam zakres.

Więcej informacji znajdziesz w module „Praca z danymi liczbowymi” z Kursu intensywnego na temat uczenia maszynowego. Zobacz też normalizację według wyniku z testu Z.

dane liczbowe

#fundamentals

Cechy reprezentowane jako liczby całkowite lub rzeczywiste. Na przykład model wyceny domu prawdopodobnie przedstawia wielkość domu (w stopach kwadratowych lub metrach kwadratowych) jako dane liczbowe. Przedstawienie cechy jako danych liczbowych wskazuje, że wartości tej cechy mają matematyczny związek z etykietą. Oznacza to, że liczba metrów kwadratowych domu prawdopodobnie ma pewien związek matematyczny z wartością domu.

Nie wszystkie dane całkowite powinny być reprezentowane jako dane liczbowe. Na przykład kody pocztowe w niektórych częściach świata są liczbami całkowitymi, ale nie należy ich przedstawiać w modelach jako danych liczbowych. Dzieje się tak, ponieważ kod pocztowy 20000 nie jest dwa razy (ani o połowę) mniej skuteczny niż kod pocztowy 10000. Co więcej, chociaż różne kody pocztowe powiązane z różnymi wartościami nieruchomości, nie możemy zakładać, że wartości nieruchomości w kodach pocztowych 20000 są dwa razy wyższe niż wartości nieruchomości w kodach pocztowych 10000. Kody pocztowe powinny być zamiast tego reprezentowane jako dane kategoryczne.

Cechy liczbowe są czasami nazywane ciągłymi cechami.

O

offline

#fundamentals

Synonim statycznej.

wnioskowanie offline

#fundamentals

Proces generowania przez model zbioru prognoz, a następnie zapisywania tych prognoz w pamięci podręcznej. Aplikacje mogą wtedy korzystać z wywnioskowanej prognozy z pamięci podręcznej zamiast ponownie uruchamiać model.

Weźmy na przykład model, który generuje prognozy pogody lokalne (prognozy) co 4 godziny. Po każdym uruchomieniu modelu system przechowuje w pamięci podręcznej wszystkie lokalne prognozy pogody. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Wnioskowanie offline nazywane jest też wnioskowaniem statycznym.

Porównaj z inferencją online.

kodowanie one-hot

#fundamentals

Przedstawianie danych kategorialnych jako wektora, w którym:

  • Jeden element ma wartość 1.
  • Wszystkie pozostałe elementy mają wartość 0.

Kodowanie jednoelementowe jest często używane do reprezentowania ciągów znaków lub identyfikatorów, które mają skończony zbiór możliwych wartości. Załóżmy na przykład, że dana cecha kategorialna o nazwie Scandinavia ma 5 możliwych wartości:

  • „Dania”
  • „Szwecja”
  • „Norwegia”
  • „Finlandia”
  • „Islandia”

Kodowanie 1-hot może przedstawiać każdą z tych 5 wartości w ten sposób:

country Wektor
„Dania” 1 0 0 0 0
„Szwecja” 0 1 0 0 0
„Norwegia” 0 0 1 0 0
„Finlandia” 0 0 0 1 0
„Islandia” 0 0 0 0 1

Dzięki kodowaniu one-hot model może uczyć się różnych połączeń na podstawie każdego z 5 krajów.

Reprezentowanie cechy jako danych liczbowych jest alternatywą dla kodowania 1-hot. Niestety reprezentowanie krajów skandynawskich za pomocą liczb nie jest dobrym pomysłem. Weź pod uwagę tę postać liczbową:

  • „Dania” to 0
  • „Sweden” to 1
  • „Norway” to 2
  • „Finlandia” to 3
  • „Islandia” to 4

W przypadku kodowania liczbowego model interpretuje liczby w postaci liczbowej i próbuje się na nich uczyć. Jednak Islandia nie jest w żaden sposób dwukrotnie większa (ani w połowie mniejsza) od Norwegii, więc model doszedłby do dziwnych wniosków.

jeden na wszystkich

#fundamentals

Rozwiązanie problemu klasyfikacji z N klasami składa się z N oddzielnych binarnych klasyfikatorów – po jednym binarnym klasyfikatorze dla każdego możliwego wyniku. Na przykład w przypadku modelu, który klasyfikuje przykłady jako zwierzęta, warzywa lub minerały, rozwiązanie typu jeden-przeciwko-wszystkim zapewniłoby te 3 osobne klasyfikatory binarne:

  • zwierzę a nie-zwierzę
  • warzywa a nie-warzywa
  • mineral versus not mineral

online

#fundamentals

Synonim dynamiczny.

wnioskowanie online

#fundamentals

generowanie prognoz na żądanie. Załóżmy, że aplikacja przekazuje dane wejściowe do modelu i wysyła żądanie prognozy. System korzystający z wnioskowania online odpowiada na żądanie, uruchamiając model (i zwracając prognozę do aplikacji).

W przeciwieństwie do offline inference.

warstwa wyjściowa

#fundamentals

„Ostateczna” warstwa sieci neuronowej. Warstwy wyjściowe zawierają prognozę.

Ilustracja poniżej przedstawia małą głęboką sieć neuronową z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwsza ukryta warstwa składa się z 3 neuronów, a druga – z 2 neuronów. Warstwa wyjściowa składa się z pojedynczego węzła.

nadmierne dopasowanie

#fundamentals

Utworzenie modelu, który jest tak dokładnym odwzorowaniem danych treningowych, że nie jest w stanie generować prawidłowych prognoz na podstawie nowych danych.

Regulizacja może ograniczyć nadmierne dopasowanie. Trenowanie na dużym i zróżnicowanym zbiorze treningowym może też zmniejszyć nadmierne dopasowanie.

P

pandy

#fundamentals

Interfejs API do analizy danych ukierunkowanej na kolumny, zbudowany na bazie biblioteki numpy. Wiele platform uczenia maszynowego, w tym TensorFlow, obsługuje struktury danych pandas jako dane wejściowe. Szczegółowe informacje znajdziesz w dokumentacji pandas.

parametr

#fundamentals

wagibłędy, których model uczy się podczas treningu. Na przykład w przypadku modelu regresji liniowej parametry to współczynnik błędu (b) i wszystkie wagi (w1, w2 itd.) w formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Natomiast hiperparametry to wartości, które Ty (lub usługa dostrajania hiperparametrów) podajesz do modelu. Na przykład tempo uczenia się jest hiperparametrem.

klasa wyników pozytywnych

#fundamentals

Zajęcia, których dotyczy test.

Na przykład klasa pozytywna w modelu dotyczącym raka może być „guz”. Klasa pozytywna w klasyfikatorze e-maili może być „spam”.

Porównaj z klasą wyników negatywnych.

przetwarzanie końcowe

#fairness
#fundamentals

Dostosowywanie danych wyjściowych modelu po jego uruchomieniu. Przetwarzanie wsteczne można wykorzystać do egzekwowania ograniczeń sprawiedliwości bez modyfikowania samych modeli.

Można na przykład zastosować przetwarzanie wsteczne do klasyfikatora binarnego, ustawiając próg klasyfikacji w taki sposób, aby równać szanse w przypadku danego atrybutu. W tym celu należy sprawdzić, czy wskaźnik prawdziwych wyników dodatnich jest taki sam dla wszystkich wartości tego atrybutu.

prognoza

#fundamentals

Dane wyjściowe modelu. Na przykład:

  • Prognoza modelu klasyfikacji binarnej to klasa pozytywna lub negatywna.
  • Prognoza modelu klasyfikacji wieloklasowej to jedna klasa.
  • Prognoza modelu regresji liniowej jest liczbą.

etykiety proxy

#fundamentals

Dane używane do przybliżonego określania etykiet, które nie są dostępne bezpośrednio w zbiorze danych.

Załóżmy na przykład, że musisz wytrenować model do przewidywania poziomu stresu pracowników. Twój zbiór danych zawiera wiele funkcji predykcyjnych, ale nie zawiera etykiety o nazwie poziom stresu. Nieustraszony, wybierasz „wypadki w miejscu pracy” jako etykietę zastępczą dla poziomu stresu. W końcu pracownicy pod wpływem silnego stresu mają więcej wypadków niż pracownicy zachowujący spokój. Czy tak jest? Może wypadki przy pracy faktycznie wzrastają i maleją z różnych powodów.

Drugi przykład: zakładamy, że chcesz, aby etykietą logiczną w przypadku Twojego zbioru danych była wartość czy pada deszcz?, ale Twój zbiór danych nie zawiera danych o opadach. Jeśli masz zdjęcia, możesz użyć zdjęć przedstawiających osoby z parasolami jako etykiety zastępczej dla pytania czy pada deszcz?. Czy to odpowiednia etykieta zastępcza? Być może, ale w niektórych kulturach ludzie częściej noszą parasole, aby chronić się przed słońcem, a nie przed deszczem.

Etykiety zastępcze często nie są idealne. Jeśli to możliwe, wybieraj etykiety rzeczywiste zamiast etykiet zastępczych. Jeśli jednak nie ma etykiety, wybierz etykietę zastępczą bardzo ostrożnie, wybierając tę, która jest najmniej zła.

R

RAG

#fundamentals

Skrót od generowania rozszerzonego przez wyszukiwanie w zapisanych informacjach.

weryfikator

#fundamentals

Osoba, która tworzy etykiety dla przykładów. „Komentator” to inna nazwa oceniającego.

Wyprostowana jednostka liniowa (ReLU)

#fundamentals

funkcja aktywacji o takim działaniu:

  • Jeśli dane wejściowe są ujemne lub równe 0, dane wyjściowe mają wartość 0.
  • Jeśli wartość wejściowa jest dodatnia, wynik jest równy wartości wejściowej.

Na przykład:

  • Jeśli wartość wejściowa to -3, wynik to 0.
  • Jeśli dane wejściowe to +3, wynik to 3,0.

Oto wykres funkcji ReLU:

Układ kartezjański 2 linii. Pierwsza linia ma stałą wartość y równą 0, biegnącą wzdłuż osi x od –nieskończoności,0 do 0, –0.
          Druga linia zaczyna się od 0,0. Ma ona nachylenie +1, więc biegnie od 0,0 do +nieskończoność,+nieskończoność.

ReLU jest bardzo popularną funkcją aktywacji. Pomimo prostego działania ReLU umożliwia sieci neuronowej uczenie się nieliniowych relacji między cechamioznacznikiem.

model regresji

#fundamentals

Nieformalnie: model, który generuje prognozę liczbową. (model klasyfikacji generuje prognozę klasy). Na przykład wszystkie modele regresji:

  • Model, który prognozuje wartość domu w euro,np. 423 000.
  • Model, który prognozuje długość życia danego drzewa w latach, na przykład 23,2.
  • Model, który prognozuje ilość opadów w calach w okresie najbliższych 6 godzin w danym mieście, np.0,18.

Dostępne są 2 popularne typy modeli regresji:

  • Regresja liniowa, która znajduje linię, która najlepiej dopasowuje wartości etykiet do cech.
  • Regresja logistyczna, która generuje prawdopodobieństwo z zakresu od 0,0 do 1,0, które system zwykle mapuje na prognozę klasy.

Nie każdy model, który generuje prognozy liczbowe, jest modelem regresji. W niektórych przypadkach prognoza liczbowa to tak naprawdę model klasyfikacji, który ma nazwy klas w postaci liczb. Na przykład model, który prognozuje liczbowy kod pocztowy, jest modelem klasyfikacji, a nie regresji.

regularyzacja

#fundamentals

Każdy mechanizm, który zmniejsza nadmierne dopasowanie. Popularne typy regularyzacji:

Regularyzację można też zdefiniować jako karę za złożoność modelu.

współczynnik regularyzacji

#fundamentals

Liczba określająca względne znaczenie regularyzacji podczas trenowania. Zwiększenie współczynnika regularyzacji zmniejsza nadmierne dopasowanie, ale może też zmniejszyć zdolność modelu do przewidywania. Z kolei zmniejszenie lub pominięcie współczynnika regularyzacji zwiększa ryzyko przetrenowania.

ReLU

#fundamentals

Skrót od Rectified Linear Unit.

generowanie rozszerzone przez wyszukiwanie w zapisanych informacjach (RAG)

#fundamentals

Technika polepszania jakości danych wyjściowych dużego modelu językowego (LLM) poprzez powiązanie ich ze źródłami wiedzy wyodrębnionymi po wytrenowaniu modelu. RAG zwiększa dokładność odpowiedzi LLM, zapewniając trenowanemu modelowi dostęp do informacji pobranych z zaufanych baz wiedzy lub dokumentów.

Oto kilka typowych powodów, dla których warto używać generacji wspomaganej przez wyszukiwanie:

  • zwiększenie dokładności faktograficznej odpowiedzi generowanych przez model;
  • Dawanie modelowi dostępu do wiedzy, na której nie był on trenowany.
  • Zmiana wiedzy, której używa model.
  • Umożliwienie modelowi cytowania źródeł.

Załóżmy na przykład, że aplikacja do chemii korzysta z interfejsu PaLM API do generowania podsumowań dotyczących zapytań użytkowników. Gdy backend aplikacji otrzyma zapytanie, wykona te czynności:

  1. Wyszukuje („pobiera”) dane pasujące do zapytania użytkownika.
  2. Dodaje („rozszerza”) odpowiednie dane chemiczne do zapytania użytkownika.
  3. Instrukcja dla LLM, aby utworzyć podsumowanie na podstawie dołączonych danych.

Krzywa ROC (charakterystyka operacyjna odbiornika)

#fundamentals

Wykres przedstawiający wskaźnik prawdziwie pozytywnych wyników w porównaniu z wskaźnikiem fałszywie pozytywnych wyników dla różnych progów klasyfikacji w przypadku klasyfikacji binarnej.

Kształt krzywej ROC wskazuje na zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Załóżmy na przykład, że binarny model klasyfikacji doskonale oddziela wszystkie klasy negatywne od wszystkich klas pozytywnych:

Linia liczbowa z 8 pozytywnymi przykładami po prawej stronie i 7 ujemnymi po lewej.

Krzywa ROC dla poprzedniego modelu wygląda tak:

Krzywa ROC Na osi X jest współczynnik wyników fałszywie pozytywnych, a na osi Y współczynnik wyników prawdziwie pozytywnych. Krzywa ma kształt odwróconej litery L. Krzywa zaczyna się w punkcie (0,0) i prosto idzie w górę do punktu (0,1). Następnie krzywa przechodzi z (0,0,1,0) do (1,0,1,0).

Natomiast na ilustracji poniżej pokazano nieobrobione wartości regresji logistycznej w przypadku kiepskiego modelu, który w ogóle nie potrafi odróżnić klas negatywnych od klas pozytywnych:

Linia liczbowa z pozytywnymi przykładami i negatywnymi klasami
          całkowicie pomieszanymi.

Krzywa ROC dla tego modelu wygląda tak:

Krzywa ROC, która jest w istocie linią prostą od punktu (0,0) do punktu (1,1).

W prawdziwym życiu większość modeli binarnej klasyfikacji w pewnym stopniu oddziela klasy pozytywne i negatywne, ale zwykle nie robi tego idealnie. Krzywa ROC zwykle znajduje się gdzieś pomiędzy tymi dwoma skrajnościami:

Krzywa ROC Na osi X jest współczynnik wyników fałszywie pozytywnych, a na osi Y współczynnik wyników prawdziwie pozytywnych. Krzywa ROC jest przybliżeniem wstrząśniętego łuku przechodzącego przez kierunki kompasu od zachodu do północy.

Punkt na krzywej ROC najbliższy punktowi (0,0,1,0) teoretycznie wskazuje idealny próg klasyfikacji. Wybór optymalnego progu klasyfikacji zależy jednak od kilku innych rzeczywistych problemów. Może na przykład okazać się, że fałszywie wyniki negatywne są znacznie bardziej uciążliwe niż fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC do jednej wartości zmiennoprzecinkowej.

Średnia kwadratowa błędów (RMSE)

#fundamentals

Pierwiastek kwadratowy z błędu średniokwadratowego.

S

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „ściska” wartość wejściową w ograniczonym zakresie, zazwyczaj od 0 do 1 lub od –1 do +1. Oznacza to, że możesz przekazać dowolną liczbę (2, milion, minus miliard itd.) do funkcji sigmoidalnej, a wyjście nadal będzie należeć do ograniczonego zakresu. Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Dwowymiarowa krzywa z wartościami x w zakresie od -nieskończoności do +dodatnich, a wartościami y w zakresie od prawie 0 do prawie 1. Gdy x = 0, y = 0,5. Nachylenie krzywej jest zawsze dodatnie, przy czym największe nachylenie występuje przy wartości 0,05, a nachylenie stopniowo maleje wraz ze wzrostem bezwzględnej wartości x.

Funkcja sigmoidalna ma wiele zastosowań w uczeniu maszynowym, m.in.:

funkcja softmax

#fundamentals

Funkcja określająca prawdopodobieństwa dla każdej możliwej klasy w modelu klasyfikacji wieloklasowej. Prawdopodobieństwo musi łącznie wynosić dokładnie 1,0. Na przykład w tabeli poniżej widać, jak softmax rozkłada różne prawdopodobieństwa:

Obraz jest... Probability,
pies 0,85
kot 0,13
koń 0,02

Softmax jest też nazywany pełnym softmaxem.

Porównaj z próbkowaniem kandydatów.

rozproszona cecha

#language
#fundamentals

Cecha, której wartości są w większości równe 0 lub puste. Na przykład cecha zawierająca pojedynczą wartość 1 i milion wartości 0 jest rzadka. Natomiast gęsta cecha ma wartości, które w większości nie są równe 0 ani puste.

W uczeniu maszynowym zaskakująco wiele cech jest cech rzadkich. Funkcje kategorialne są zwykle rzadkie. Na przykład z 300 możliwych gatunków drzew w lesie pojedynczy przykład może zidentyfikować tylko klon. Z milionów możliwych filmów w bibliotece filmów jeden może być oznaczony jako „Casablanca”.

W modelu rzadkie cechy są zwykle reprezentowane za pomocą kodowania 1-hot. Jeśli kodowanie jednobitowe jest duże, możesz umieścić na nim warstwę zanurzeniową, aby zwiększyć wydajność.

rzadka reprezentacja

#language
#fundamentals

przechowywanie tylko pozycji elementów o wartości niezerowej w funkcji rzadkiej;

Załóżmy na przykład, że zmienna jakościowa o nazwie species identyfikuje 36 gatunków drzew w danym lesie. Załóżmy też, że każdy przykład identyfikuje tylko jeden gatunek.

W każdym przykładzie gatunek drzewa można reprezentować za pomocą wektora typu one-hot. Wektor jednoelementowy zawierałby 1 element 1 (reprezentujący dany gatunek drzewa w tym przykładzie) i 35 elementów 0 (reprezentujących 35 gatunków drzew nie w tym przykładzie). Reprezentacja jednoelementowa maple może wyglądać tak:

Wektor, w którym pozycje 0–23 mają wartość 0, pozycja 24 ma wartość 1, a pozycje 25–35 mają wartość 0.

Inną możliwością jest skąpa reprezentacja, która po prostu wskazuje pozycję danego gatunku. Jeśli maple znajduje się w pozycji 24, rzadka reprezentacja maple będzie wyglądać tak:

24

Zwróć uwagę, że rzadka reprezentacja jest znacznie bardziej zwarta niż reprezentacja jednoelementowa.

wektor rozproszony

#fundamentals

Wektor, którego wartości są w większości równe 0. Zobacz też tematy rzadkierzadkość.

strata kwadratowa

#fundamentals

Synonim straty na poziomie L2.

statyczne

#fundamentals

coś, co jest wykonywane raz, a nie stale; Terminy statycznyoffline są synonimami. Oto najczęstsze zastosowania statycznychofflineowych danych w nauczaniu maszynowym:

  • Model statyczny (lub model offline) to model wytrenowany raz, a następnie używany przez pewien czas.
  • Trenowanie statyczne (lub trenowanie offline) to proces trenowania modelu statycznego.
  • Wnioskowanie statyczne (lub wnioskowanie offline) to proces, w którym model generuje zbiorczy zestaw prognoz naraz.

Kontrast z dynamiczną.

wnioskowanie statyczne

#fundamentals

Synonim offline inference.

stacjonarność

#fundamentals

Cecha, której wartości nie zmieniają się w przypadku co najmniej 1 wymiaru, zwykle czasu. Na przykład cecha, której wartości są mniej więcej takie same w 2021 i 2023 roku, jest stacjonarna.

W rzeczywistych warunkach bardzo niewiele cechy wykazują stacjonarność. Nawet cechy kojarzone ze stabilnością (np. poziom morza) zmieniają się z czasem.

W odróżnieniu od niestacjonarności.

stochastyczny spadek wzdłuż gradientu (SGD),

#fundamentals

Algorytm schodziny gradientu, w którym rozmiar partii wynosi 1. Innymi słowy, SGD trenuje na podstawie pojedynczego przykładu wybranego losowo z równą częstotliwością z zbioru treningowego.

uczenie maszynowe nadzorowane

#fundamentals

Trenowanie modelu na podstawie cech i odpowiadających im etykiet. Uczenie nadzorowane jest podobne do uczenia się danego tematu przez analizowanie zestawu pytań i odpowiednich odpowiedzi. Po opanowaniu mapowania pytań i odpowiedzi uczeń może udzielać odpowiedzi na nowe (nigdy wcześniej niewidziane) pytania dotyczące tego samego tematu.

Porównaj z nienadzorowanym systemem uczącym się.

funkcja syntetyczna

#fundamentals

Cecha, która nie występuje w śród danych wejściowych, ale jest tworzona z jednego lub większej liczby tych danych. Metody tworzenia cech syntetycznych:

  • Grupowanie ciągłej cechy w zakresy.
  • Tworzenie przecięcia cech.
  • mnożenie (lub dzielenie) jednej wartości cechy przez inne wartości cech lub przez siebie. Jeśli np. ab to dane wejściowe, przykładami danych syntetycznych są:
    • ab
    • a2
  • Zastosuj funkcję transcendentalną do wartości cechy. Jeśli np. c to cecha wejściowa, przykładami cech syntetycznych są:
    • sin(c)
    • ln(c)

Cechy utworzone przez normalizację lub skalowanie nie są uważane za cechy syntetyczne.

T

test strat

#fundamentals

Dane przedstawiające utratę modelu na zbiorze testowym. Podczas tworzenia modelu zwykle staramy się zminimalizować straty testowe. Dzieje się tak, ponieważ niski wskaźnik utraty w trakcie testu jest silniejszym sygnałem jakości niż niski wskaźnik utraty w trakcie treningu czy niski wskaźnik utraty w trakcie walidacji.

Duża różnica między stratą na etapie testowania a stratą na etapie trenowania lub walidacji może oznaczać, że należy zwiększyć stopień regularyzacji.

szkolenie

#fundamentals

Proces określania optymalnych parametrów (wag i uprzedzeń) modelu. Podczas trenowania system odczytuje przykłady i stopniowo dostosowuje parametry. Podczas trenowania każdy przykład jest używany od kilku do miliardów razy.

strata podczas treningu

#fundamentals

Dane przedstawiające stratę modelu podczas konkretnej iteracji treningu. Załóżmy na przykład, że funkcja utraty to średnia kwadratowa błędu. Strata podczas trenowania (średni kwadratowy błąd) w 10.itracji wynosi 2,2, a w 100.itracji – 1,9.

Krzywa strat przedstawia straty podczas trenowania w zależności od liczby iteracji. Krzywa strat zawiera te wskazówki dotyczące trenowania:

  • Spadek wskazuje, że model się poprawia.
  • Wzrost oznacza, że model staje się gorszy.
  • Płaski spadek oznacza, że model osiągnął konwergencję.

Na przykład z tego nieco uproszczonego zakrzywienia strat:

  • ostry spadek podczas początkowych iteracji, który oznacza szybkie ulepszanie modelu;
  • stopniowo spłaszczający się (ale nadal skierowany w dół) spadek aż do końca trenowania, co oznacza dalsze polepszanie modelu w trochę wolniejszym tempie niż podczas początkowych iteracji;
  • Płaski spadek pod koniec trenowania, który sugeruje konwergencję.

Wykres straty trenowania w zależności od iteracji. Krzywa strat zaczyna się od stromego spadku. Nachylenie stopniowo się zmniejsza, aż osiągnie wartość zero.

Strata na etapie treningu jest ważna, ale warto też zapoznać się z generalizacją.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między wydajnością modelu podczas treningu a jego wydajnością podczas stosowania.

treningowy zestaw danych

#fundamentals

Podzbiór zbioru danych używany do trenowania modelu.

Tradycyjnie przykłady w zbiorze danych dzieli się na 3 odrębne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie może należeć zarówno do zbioru treningowego, jak i do zbioru do weryfikacji.

prawdziwie negatywny (PN).

#fundamentals

Przykład, w którym model prawidłowo prognozuje klasę negatywną. Na przykład model wnioskuje, że dana wiadomość e-mail nie jest spamem, i faktycznie tak jest.

prawdziwie pozytywny (TP).

#fundamentals

Przykład, w którym model prawidłowo prognozuje klasę pozytywną. Na przykład model wnioskuje, że dana wiadomość e-mail jest spamem, i faktycznie jest to spam.

współczynnik wyników prawdziwie pozytywnych (TPR).

#fundamentals

Synonim przypomnienia. Czyli:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Współczynnik wyników prawdziwie pozytywnych to oś Y na krzywej ROC.

U

niedopasowanie

#fundamentals

wygenerowanie modelu o słabych zdolnościach prognostycznych, ponieważ nie uchwycił on w pełni złożoności danych treningowych; Niedopasowanie może być spowodowane wieloma problemami, w tym:

przykład bez etykiety

#fundamentals

Przykład, który zawiera funkcje, ale nie ma etykiety. Na przykład w tabeli poniżej znajdują się 3 beznazwane przykłady z modelu wyceny domu, z których każdy zawiera 3 cechy, ale nie ma wartości domu:

Liczba sypialni Liczba łazienek Wiek domu
3 2 15
2 1 72
4 2 34

nadzorowanym uczeniu maszynowym modele są trenowane na przykładach z oznacznikami i wydają prognozy na podstawie przykładów bez oznaczeń.

uczeniu częściowo nadzorowanymnienadzorowanym podczas trenowania używa się przykładów bez etykiet.

Porównaj przykład bez etykiety z przykładem z etykietą.

uczenie maszynowe bez nadzoru

#clustering
#fundamentals

Trenowanie modelu w celu znajdowania wzorców w zbiorze danych, zwykle zbiorze danych bez etykiet.

Najczęstszym zastosowaniem uczenia maszynowego nienadzorowanego jest zgrupowanie danych w grupy podobnych przykładów. Na przykład algorytm uczenia maszynowego bez nadzoru może grupować utwory na podstawie różnych właściwości muzyki. Uzyskane klastry mogą stać się danymi wejściowymi dla innych algorytmów uczenia maszynowego (np. dla usługi rekomendacji muzycznej). Grupowanie może być przydatne, gdy przydatnych etykiet jest niewiele lub ich brak. Na przykład w przypadku domen takich jak zapobieganie nadużyciom i oszustwo klastry mogą pomóc ludziom lepiej zrozumieć dane.

W odróżnieniu od nadzorowanego uczenia maszynowego.

V

walidacja

#fundamentals

Wstępna ocena jakości modelu. Podczas walidacji sprawdzana jest jakość prognoz modelu na podstawie zbioru danych do walidacji.

Zestaw weryfikacyjny różni się od zbioru treningowego, dlatego weryfikacja pomaga zapobiegać nadmiernemu dopasowaniu.

Ocena modelu na zbiorze walidacyjnym może być pierwszą rundą testowania, a ocena modelu na zestawie testowym – drugą.

utrata walidacji

#fundamentals

Dane przedstawiające stratę modelu na zbiorze testowym podczas określonej iteracji trenowania.

Zobacz też krzywą generalizacji.

zestaw weryfikacji

#fundamentals

Podzbiór zbioru danych, na którym przeprowadzana jest wstępna ocena wytrenowanego modelu. Zazwyczaj trenowany model ocenia się na zestawie walidacyjnym kilkakrotnie, zanim oceni się go na zestawie testowym.

Tradycyjnie przykłady w zbiorze danych dzieli się na 3 odrębne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie może należeć zarówno do zbioru treningowego, jak i do zbioru do weryfikacji.

W

waga

#fundamentals

Wartość, którą model mnoży przez inną wartość. Trenowanie to proces określania idealnych wag modelu, a wyciąganie wniosków to proces wykorzystywania tych wag do prognozowania.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez ich wagi. Załóżmy na przykład, że odpowiednie dane wejściowe to:

wartość wejściowa waga wejściowa
2 -1,3
-1 0,6
3 0,4

Suma ważona jest więc równa:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Waga jest argumentem wejściowym funkcji aktywacji.

Z

Standaryzacja Z

#fundamentals

Technika skalowania, która zastępuje nieprzetworzoną wartość cechy wartością zmiennoprzecinkową reprezentującą liczbę odchyleń standardowych od średniej tej cechy. Weźmy na przykład cechę o średniej 800 i odchyleniu standardowym 100. W tabeli poniżej pokazano, jak normalizacja wartości Z-score mapuje wartość pierwotną na wartość Z-score:

Wartość nieprzetworzona Standaryzacja Z
800 0
950 +1,5
575 -2,25

Model uczenia maszynowego jest następnie trenowany na podstawie wartości Z-score tej cechy zamiast wartości surowych.