Słowniczek systemów uczących się: podstawy systemów uczących się

Ta strona zawiera terminy z glosariusza z podstawami systemów uczących się. Aby zobaczyć wszystkie terminy ze glosariusza, kliknij tutaj.

O

dokładność

#fundamentals

Liczba prognoz klasyfikacji podzielona przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który stworzył 40 prawidłowych prognoz i 10 nieprawidłowych prognoz, miałby dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja binarna podaje konkretne nazwy różnych kategorii prawidłowych prognoz i nieprawidłowych prognoz. Zatem wzór dokładności klasyfikacji binarnej wygląda tak:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

Porównaj dokładność z precyzją i czułością.

funkcja aktywacyjna

#fundamentals

Funkcja, która umożliwia sieciom neuronowy poznawanie nieliniowych (złożonych) relacji między cechami a etykietą.

Popularne funkcje aktywacji to:

Wykresy funkcji aktywacyjnych nigdy nie są pojedynczymi liniami prostymi. Na przykład wykres funkcji aktywacji ReLU składa się z 2 linii prostych:

Dwuwierszowy wykres kartezjański. Pierwsza linia ma stałą wartość y równą 0 i biegnie wzdłuż osi X od -nieskończoności,0 do 0,-0.
          Drugi wiersz zaczyna się od 0,0. Ta linia ma nachylenie o wartości +1, więc biegnie od 0,0 do +nieskończoności i nieskończoności.

Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Dwuwymiarowy krzywy wykres z wartościami x w domenie – nieskończoność – +dodatnia, a wartości y obejmują zakres prawie od 0 do prawie 1. Gdy x = 0, y = 0,5. Nachylenie krzywej jest zawsze dodatnie, największe nachylenie ma wartość 0,0,5 i stopniowo zmniejsza się wraz ze wzrostem wartości bezwzględnej x.

sztuczna inteligencja

#fundamentals

Nieludzki program lub model, który może rozwiązywać złożone zadania. Na przykład program lub model, który tłumaczy tekst, program lub model, który identyfikuje choroby na podstawie zdjęć radiologicznych, wykazuje sztuczną inteligencję.

Systemy uczące się to podkategoria sztucznej inteligencji. Jednak w ostatnich latach niektóre organizacje zaczęły używać zamiennie terminów sztuczna inteligencja i systemy uczące się.

AUC (obszar pod krzywą charakterystyki operacyjnej odbiornika)

#fundamentals

Liczba od 0,0 do 1,0 reprezentująca zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Im wartość AUC jest bliższa wartości 1,0, tym lepsza jest zdolność modelu do oddzielania klas od siebie.

Na przykład ta ilustracja przedstawia model klasyfikatora, który znakomicie oddziela klasy pozytywne (zielone owale) od klas negatywnych (fioletowe prostokąty). Ten nierealistyczny model ma AUC 1,0:

Wiersz liczbowy z 8 przykładami pozytywnymi po jednej stronie i 9 przykładami negatywnymi po drugiej.

I na odwrót: na ilustracji poniżej widać wyniki modelu klasyfikatora, który wygenerował wyniki losowe. AUC tego modelu wynosi 0,5:

Wiersz liczbowy z 6 przykładami pozytywnymi i 6 przykładami negatywnymi.
          Przykłady są następujące: pozytywne, negatywne, dodatnie, negatywne, dodatnie, negatywne, dodatnie, negatywne, dodatnie, dodatnie, negatywne.

Tak. Poprzedni model ma wartość AUC równą 0,5, a nie 0,0.

Większość modeli znajduje się gdzieś pomiędzy dwoma skrajnościami. Na przykład poniższy model oddziela nieco plusy od negatywnych, przez co ma wartość AUC między 0,5 a 1,0:

Wiersz liczbowy z 6 przykładami pozytywnymi i 6 przykładami negatywnymi.
          Przykłady: negatywne, negatywne, negatywne, negatywne, pozytywne, negatywne, dodatnie, dodatnie, dodatnie, dodatnie,pozytywne.

AUC ignoruje wszystkie wartości ustawione dla progu klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi klasyfikacji.

B

propagacja wsteczna

#fundamentals

Algorytm, który implementuje zjazd gradientowy w sieciach neuronowych.

Trenowanie sieci neuronowej obejmuje wiele iteracji z następujących cykli 2-przebiegowych:

  1. Podczas przekazywania dalej system przetwarza zbiór przykładów, aby wygenerować prognozy. System porównuje każdą prognozę z każdą wartością etykiety. Różnica między prognozą a wartością etykiety to strata w tym przykładzie. System agreguje straty dla wszystkich przykładów, aby obliczyć łączną stratę w bieżącym wsadzie.
  2. Podczas przebiegu wstecznego (propagacji wstecznej) system zmniejsza straty, dostosowując wagę wszystkich neuronów we wszystkich ukrytych warstwach.

Sieci neuronowe często zawierają wiele neuronów w wielu ukrytych warstwach. Każdy z tych neuronów na różne sposoby przyczynia się do utraty wagi. Propagacja wsteczna określa, czy należy zwiększyć, czy zmniejszyć wagi stosowane do konkretnych neuronów.

Tempo uczenia się to mnożnik określający stopień, do którego każde przejście wsteczne zwiększa lub zmniejsza każdą wagę. Duże tempo uczenia się zwiększa lub zmniejsza każdą wagę bardziej niż małe tempo uczenia się.

W obliczeniach obliczeniowych wsteczna propagacja implementuje regułę łańcucha z rachunku różniczkowego. Oznacza to, że propagacja wsteczna oblicza częściową pochodną błędu z uwzględnieniem każdego parametru.

Lata temu osoby odpowiedzialne za systemy uczące się musiały napisać kod, aby wdrożyć propagację wsteczną. Nowoczesne interfejsy API systemów uczących się, takie jak TensorFlow, wdrażają teraz za Ciebie propagację wsteczną. Uff...

wsad

#fundamentals

Zbiór przykładów używanych w jednej iteracji trenowania. Rozmiar wsadu określa liczbę przykładów w grupie.

Patrz sekcja Epoka, aby dowiedzieć się, jak wsad wiąże się z epoką.

wielkość wsadu

#fundamentals

Liczba przykładów w grupie. Jeśli na przykład rozmiar wsadu to 100, model przetwarza 100 przykładów na iteracja.

Oto popularne strategie dotyczące wielkości wsadu:

  • Stochastic Gradient Descent (SGD), w którym rozmiar wsadu wynosi 1.
  • Pełny wsad, w którym rozmiar wsadu to liczba przykładów w całym zbiorze do trenowania. Jeśli np. zbiór treningowy zawiera milion przykładów, rozmiar wsadu będzie równy milionom przykładów. Zbiorcze przesyłanie materiałów zwykle nie jest efektywną strategią.
  • miniseria, w której rozmiar wsadu wynosi zwykle od 10 do 1000. Najskuteczniejszą strategią jest zwykle minigrupa.

uprzedzenie (etyka/uczciwość)

#fairness
#fundamentals

1. Stereotyp, uprzedzenia i faworyzowanie w stosunku do pewnych rzeczy, osób lub grup. Uprzedzenia mogą wpływać na zbieranie i interpretację danych, na konstrukcję systemu i sposób jego interakcji z nim. Przykłady tego rodzaju uprzedzeń:

2. Błąd systematyczny spowodowany procedurą próbkowania lub raportowania. Przykłady tego rodzaju uprzedzeń:

Nie należy mylić z terminem tendencyjności w modelach systemów uczących się oraz odchyleniem prognozowania.

pojęcie tendencyjności (matematyka) lub tendencyjność

#fundamentals

Przechwycenie lub odsunięcie od punktu początkowego. Tendencyjność to parametr w modelach systemów uczących się, którego symbolem jest jeden z tych elementów:

  • b
  • T0

Na przykład odchylenie ma wartość b w tej formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W prostej, dwuwymiarowej linii odchylenie oznacza po prostu „punkt przecięcia z osią y”. Na przykład odchylenie linii na ilustracji poniżej wynosi 2.

Wykres linii o nachyleniu równym 0,5 i odchyleniu (punkt przecięcia z osią y) o wartości 2.

Odchylenie istnieje, ponieważ nie wszystkie modele zaczynają się od punktu początkowego (0,0). Załóżmy, że wstęp do parku rozrywki kosztuje 2 EUR i dodatkowo 0,5 EUR za każdą godzinę pobytu klienta. Dlatego model mapowania całkowitego kosztu ma odchylenie na poziomie 2, ponieważ najniższy koszt to 2 euro.

Uprzedzenia nie należy mylić z stronniczością w zakresie etyki i uczciwości ani odchyleniami przewidywania.

klasyfikacja binarna

#fundamentals

Rodzaj zadania klasyfikacji, który przewiduje jedną z 2 wzajemnie wykluczających się klas:

Na przykład te 2 modele systemów uczących się wykonują klasyfikację binarną:

  • Model określający, czy e-maile są oznaczone jako spam (klasa pozytywna) czy nie spam (klasa negatywna).
  • Model, który ocenia objawy choroby (klasa negatywna), aby określić, czy dana osoba jest chorą na konkretną chorobę (klasa pozytywna) czy nie.

Porównaj z klasyfikacją wieloklasową.

Zobacz też informacje o regresji logicznej i progu klasyfikacji.

kategoryzowanie w przedziałach

#fundamentals

Przekształcanie pojedynczej funkcji w wiele funkcji binarnych zwanych zasobnikami lub pojemnikami, zazwyczaj na podstawie zakresu wartości. Odcięta funkcja jest zwykle funkcją ciągłą.

Na przykład zamiast prezentować temperaturę jako jedną ciągłą obiekt zmiennoprzecinkowy, możesz podzielić zakresy temperatur na osobne segmenty, takie jak:

  • <= 10 stopni Celsjusza to „zimny” zasobnik.
  • 11-24 stopnie Celsjusza to zasobnik „umiarkowany”.
  • >= 25 stopni Celsjusza to zasobnik „ciepłych”.

Model będzie jednakowo traktować każdą wartość w tym samym zasobniku. Na przykład wartości 13 i 22 znajdują się w zasobniku tymczasowym, więc model traktuje je jednakowo.

C

dane kategorialne

#fundamentals

Funkcje mające konkretny zestaw możliwych wartości. Weźmy na przykład funkcję kategorialną o nazwie traffic-light-state, która może mieć tylko jedną z tych 3 możliwych wartości:

  • red
  • yellow
  • green

Dzięki przedstawieniu traffic-light-state jako funkcji kategorialnej model może poznać różny wpływ tych czynników na zachowania kierowców, takich jak red, green i yellow.

Cechy kategorialne są czasami nazywane funkcjami dyskretnymi.

Porównaj z danymi liczbowymi.

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Na przykład:

Model klasyfikacji prognozuje klasę. W przeciwieństwie do tego model regresji przewiduje liczbę, a nie klasę.

model klasyfikacji

#fundamentals

model, którego prognozą jest model. Przykładem są wszystkie modele klasyfikacji:

  • Model, który przewiduje język wejściowego zdania (francuski? Hiszpański? włoskim).
  • Model, który przewiduje gatunki drzew (Klon Oak? Baobab?).
  • Model, który prognozuje pozytywną lub negatywną klasę danego schorzenia.

W przeciwieństwie do tego modele regresji prognozują liczby, a nie klasy.

Dwa najczęstsze typy modeli klasyfikacji to:

próg klasyfikacji

#fundamentals

W klasyfikacji binarnej liczba z zakresu od 0 do 1, która przekształca nieprzetworzone dane wyjściowe modelu regresji logistycznej w prognozę klasy pozytywnej lub klasy ujemnej. Pamiętaj, że próg klasyfikacji to wartość wybierana przez człowieka, a nie wartość wybierana przez trenowanie modelu.

Model regresji logistycznej zwraca nieprzetworzoną wartość z zakresu od 0 do 1. Następnie:

  • Jeśli ta nieprzetworzona wartość jest większa od progu klasyfikacji, prognozowana jest klasa pozytywna.
  • Jeśli ta nieprzetworzona wartość jest niższa od progu klasyfikacji, prognozowana jest klasa ujemna.

Załóżmy, że próg klasyfikacji wynosi 0,8. Jeśli nieprzetworzona wartość to 0,9, model przewiduje klasę pozytywną. Jeśli nieprzetworzona wartość to 0,7, model prognozuje klasę ujemną.

Wybór progu klasyfikacji ma duży wpływ na liczbę wyników fałszywie pozytywnych i fałszywie negatywnych.

zbiór danych o niezrównoważonym działaniu

#fundamentals

Zbiór danych związany z problemem klasyfikacji, w którym łączna liczba etykiet poszczególnych klas znacznie się różni. Rozważmy np. zbiór danych do klasyfikacji binarnej, w którym 2 etykiety są podzielone w ten sposób:

  • 1 000 000 negatywnych etykiet
  • 10 etykiet pozytywnych

Stosunek etykiet ujemnych do dodatnich wynosi od 100 000 do 1, więc jest to zbiór danych o zrównoważonym klasom.

W przeciwieństwie do tego zbioru danych nie ma zrównoważenia klas, ponieważ stosunek etykiet ujemnych do wartości pozytywnych jest stosunkowo bliska 1:

  • 517 etykiet wykluczających
  • 483 etykiety pozytywne

W wieloklasowych zbiorach danych może też być brak zrównoważenia klas. Na przykład ten zbiór danych do klasyfikacji wieloklasowej również jest niezrównoważony, ponieważ jedna etykieta ma znacznie więcej przykładów niż pozostałe:

  • 1 000 000 etykiet z klasą „zielony”
  • 200 etykiet z klasą „fioletowy”,
  • 350 etykiet z klasą „orange”

Zobacz też entropia, klasa większości i klasę mniejszości.

przycinanie

#fundamentals

Technika radzenia sobie z wartościami odstającymi, która polega na wykonaniu jednej lub obu tych czynności:

  • Zmniejsz wartości parametru feature, które są większe niż maksymalny próg, do tego maksymalnego progu.
  • Zwiększam wartości cech poniżej minimalnego progu do tego minimalnego progu.

Załóżmy np., że <0,5% wartości określonej cechy wykracza poza zakres 40–60. W takim przypadku możesz wykonać te czynności:

  • Wszystkie wartości powyżej 60 (maksymalny próg) należy usunąć, aby uzyskać dokładnie 60.
  • Przytnij wszystkie wartości poniżej 40 (minimalnego progu) do dokładnie 40.

Wartości odstające mogą uszkodzić modele, powodując czasem przepełnienie wag podczas trenowania. Niektóre wyjątki mogą też drastycznie zepsuć dane, np. dokładność. Powszechną techniką ograniczania szkód jest klipsowanie.

Podczas trenowania przycinanie gradientu wymusza stosowanie wartości gradientu w wyznaczonym zakresie.

tablica pomyłek

#fundamentals

Tabela NxN z podsumowaniem liczby prawidłowych i nieprawidłowych prognoz utworzonych przez model klasyfikacji. Przyjrzyj się na przykład tej tablicy pomyłek dla modelu klasyfikacji binarnej:

Guz (prognoza) Inne niż guzowe (prognozowane)
Guz (ground truth) 18 (P) 1 (FN)
Inne niż guzowe (ground truth) 6 (FP) 452 (TN)

Poprzednia tabela pomyłek zawiera te informacje:

  • Z 19 prognoz, w których dane ground truth to Guz, model poprawnie sklasyfikował 18 i nieprawidłowo sklasyfikował 1.
  • Z 458 prognoz, w których przypadku danych podstawowych (ground truth) nie było guzami, model prawidłowo sklasyfikował 452 i nieprawidłowo sklasyfikował 6.

Tablica pomyłek przy klasyfikacji wieloklasowej może pomóc w identyfikacji wzorców błędów. Spójrzmy na przykład na tabelę pomyłek dla 3-klasowego wieloklasowego modelu klasyfikacji, który kategoryzuje 3 różne typy tęczówki (Virginica, Versicolor i Setosa). Gdy zaobserwowano dane podstawowe,

  Setosa (prognoza) Versicolor (przewidywane) Virginica (prognoza)
Setosa (ground truth) 88 12 0
Versicolor (ground truth) 6 141 7
Virginica (ground truth) 2 27 109

Kolejny przykład z tablicy pomyłek może ujawnić, że model wytrenowany pod kątem rozpoznawania odręcznych cyfr ma tendencję do błędnego przewidywania liczby 9 zamiast 4 lub błędnego prognozowania liczby 1 zamiast 7.

Tablice pomyłek zawierają wystarczającą ilość informacji do obliczenia różnych danych dotyczących skuteczności, w tym precyzji i czułości.

funkcja ciągła

#fundamentals

Funkcja zmiennoprzecinkowa o nieskończonym zakresie możliwych wartości, np. temperatury czy wagi.

Skontrastować funkcję dyskretną.

zbieżność

#fundamentals

Stan osiągany, gdy wartości straty zmieniają się bardzo mało lub nie zmieniają się wcale przy każdej iteracji. Na przykład ta krzywa strat sugeruje zbieżność przy około 700 iteracjach:

Wykres kartezjański. Oś X oznacza stratę. Oś Y to liczba iteracji trenowania. Strata jest bardzo wysoka podczas kilku pierwszych iteracji, ale mocno spada. Po około 100 iteracjach strata wciąż maleje, ale znacznie stopniowo. Po około 700 iteracjach strata pozostaje stała.

Model zbiega się, gdy dodatkowe trenowanie go nie poprawi.

W przypadku deep learning wartości strat mogą być stałe lub prawie takie same w wielu iteracjach, zanim w końcu padną. W długim okresie ciągłych wartości strat możesz tymczasowo zauważyć błędne poczucie zbieżności.

Zobacz też Wcześniejsze zatrzymywanie.

D

DataFrame

#fundamentals

Popularny typ danych panda do reprezentowania zbiorów danych w pamięci.

Element DataFrame jest analogiczny jak tabela czy arkusz kalkulacyjny. Każda kolumna w DataFrame ma nazwę (nagłówek), a każdy wiersz ma niepowtarzalny numer.

Każda kolumna w DataFrame ma strukturę 2D, z tym że każda kolumna może mieć własny typ danych.

Zapoznaj się też z oficjalną stroną z informacjami o pandas.DataFrame.

zbiór danych lub zbiór danych

#fundamentals

Zbiór nieprzetworzonych danych, zwykle (ale nie wyłącznie) uporządkowanych w jednym z tych formatów:

  • arkusz kalkulacyjny
  • plik w formacie CSV (wartości rozdzielane przecinkami);

modelka

#fundamentals

Sieć neuronowa zawierająca więcej niż 1 ukrytą warstwę.

Model głęboki jest również nazywany głęboką siecią neuronową.

Skontrastowanie względem modelu szerokiego.

obiekt gęsty

#fundamentals

Funkcja, w której większość lub wszystkie wartości mają wartość różną od zera. Zwykle jest to Tensor wartości zmiennoprzecinkowych. Na przykład ten 10-elementowy obiekt Tensor jest gęsty, ponieważ 9 jego wartości jest innych niż 0:

8 3 7 5 2 4 0 4 9 6

Skontrastowanie za pomocą funkcji oddzielnej.

głębokość

#fundamentals

Suma tych wartości w sieci neuronowej:

Na przykład sieć neuronowa z 5 ukrytymi warstwami i 1 warstwą wyjściową ma głębię 6.

Zwróć uwagę, że warstwa wejściowa nie ma wpływu na głębię.

funkcja dyskretna

#fundamentals

Cecha z ograniczonym zbiorem możliwych wartości. Na przykład cecha, której wartościami mogą być tylko zwierzęta, warzywa lub minerały, jest cechą dyskretną (czyli kategoryczną).

Skontrastowanie względem funkcji ciągłej.

dynamiczny

#fundamentals

Coś wykonywane często lub przez cały czas Terminy dynamiczne i online to synonimy w systemach uczących się. Oto typowe zastosowania technologii dynamic i online w systemach uczących się:

  • Model dynamiczny (lub model online) to model, który jest regularnie lub stale trenowany.
  • Szkolenie dynamiczne (lub szkolenia online) to proces szkolenia częstego lub ciągłego.
  • Wnioskowanie dynamiczne (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

model, który jest często (nawet ciągły) trenowany. Model dynamiczny to „uczący się przez całe życie”, który stale dostosowuje się do zmieniających się danych. Model dynamiczny jest też nazywany modelem online.

Porównaj z modelem statycznym.

E

wcześniejsze zatrzymywanie

#fundamentals

Metoda regularności, która obejmuje zakończenie trenowania przed zmniejszaniem straty trenowania. We wczesnym zatrzymaniu celowo zatrzymujesz trenowanie modelu, gdy utrata zbioru danych do weryfikacji zacznie rosnąć, czyli gdy pogarsza się wydajność uogólniania.

warstwa umieszczania

#language
#fundamentals

Specjalna warstwa ukryta, która trenuje na wysokowymiarowej kategoriowej funkcji, aby stopniowo uczyć się wektorów osadzania niższego wymiaru. Warstwa osadzania pozwala sieci neuronowej trenować o wiele efektywniej niż trenowanie tylko na wysokowymiarowych cechach kategorialnych.

Na przykład Earth obsługuje obecnie około 73 000 gatunków drzew. Załóżmy, że gatunek drzewa jest cechą w Twoim modelu,więc warstwa wejściowa modelu zawiera jednogorący wektor o długości 73 000 elementów. baobab może być na przykład reprezentowany tak:

Tablica 73 000 elementów. Pierwsze 6232 elementy mają wartość 0. Następny element ma wartość 1. Ostatnie 66 767 elementów ma wartość 0.

Tablica 73 tys. elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy dystrybucyjnej, trenowanie będzie bardzo czasochłonne z powodu mnożenia 72 999 zer. Możesz np. wybrać warstwę osadzania tak, aby składała się z 12 wymiarów. W efekcie warstwa osadzania stopniowo uczy się nowych wektorów reprezentacji dla każdego gatunku drzew.

W niektórych sytuacjach szyfrowanie jest rozsądną alternatywą dla warstwy umieszczania.

początek epoki : epoka

#fundamentals

Pełny przepustkę na cały zbiór treningowy, tak by każdy przykład został przetworzony raz.

Epoka reprezentuje N/rozmiar wsadu iteracji, gdzie N to łączna liczba przykładów.

Załóżmy na przykład, że:

  • Zbiór danych zawiera 1000 przykładów.
  • Rozmiar wsadu to 50 przykładów.

Dlatego pojedyncza epoka wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

przykład

#fundamentals

Wartości jednego wiersza właściwości features i ewentualnie etykiety. Przykłady w uczeniu nadzorowanym dzielą się na 2 ogólne kategorie:

  • Przykład z etykietą składa się z co najmniej 1 funkcji i etykiety. Podczas trenowania używane są przykłady oznaczone etykietami.
  • Przykład bez etykiety zawiera co najmniej 1 funkcję, ale nie zawiera etykiety. Podczas wnioskowania są używane przykłady bez etykiet.

Załóżmy na przykład, że trenujesz model do określania wpływu warunków pogodowych na wyniki egzaminów uczniów. Oto 3 przykłady z etykietami:

Funkcje Wytwórnia
Temperatura Wilgotność Ciśnienie Wynik testu
15 47 998 Prawidłowy
19 34 1020 Świetny
18 92 1012 Słaby

Oto 3 przykłady bez etykiet:

Temperatura Wilgotność Ciśnienie  
12 62 1014a  
21 47 1017  
19 41 1021  

Wiersz zbioru danych jest zwykle nieprzetworzonym źródłem przykładu. Przykład składa się zwykle z podzbioru kolumn w zbiorze danych. Poza tym funkcje w przykładzie mogą też obejmować funkcje syntetyczne, takie jak krzyżówki cech.

F

wynik fałszywie negatywny (FN)

#fundamentals

Przykład, w którym model błędnie przewiduje klasę negatywną. Model przewiduje na przykład, że dana wiadomość nie jest spamem (klasą negatywną), ale w rzeczywistości jest spamem.

wynik fałszywie pozytywny (FP)

#fundamentals

Przykład, w którym model błędnie prognozuje klasę pozytywnych. Model przewiduje na przykład, że dana wiadomość e-mail jest spamem (klasą pozytywną), ale w rzeczywistości nie jest spamem.

Współczynnik wyników fałszywie pozytywnych (FPR)

#fundamentals

Odsetek rzeczywistych przykładów negatywnych, w przypadku których model błędnie oszacował klasę pozytywną. Ten wzór oblicza współczynnik wyników fałszywie dodatnich:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie dodatnich to oś X na krzywej ROC.

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa do modelu systemów uczących się. Przykład zawiera co najmniej 1 funkcję. Załóżmy na przykład, że trenujesz model do określania wpływu warunków pogodowych na wyniki testów uczniów. W tabeli poniżej znajdziesz 3 przykłady, z których każdy zawiera 3 cechy i 1 etykietę:

Funkcje Wytwórnia
Temperatura Wilgotność Ciśnienie Wynik testu
15 47 998 92
19 34 1020 84
18 92 1012 87

kontrast z etykietą,

krzyż cech

#fundamentals

Cecha syntetyczna utworzona przez cechy kategorialne lub zgrupowane jako „przekrojone”.

Rozważmy np. model „prognozowania nastroju”, który reprezentuje temperaturę w jednym z tych 4 grup:

  • freezing
  • chilly
  • temperate
  • warm

Przedstawia on też prędkość wiatru w jednym z tych 3 grup:

  • still
  • light
  • windy

Bez przekrojów cech model liniowy trenuje niezależnie na każdym z 7 poprzednich zasobników. Dlatego model trenuje na przykład w freezing niezależnie od trenowania na przykład w: windy.

Możesz też utworzyć funkcję pomiaru temperatury i prędkości wiatru. Ta funkcja syntetyczna miałaby 12 możliwych wartości:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dzięki krzyżykom model może nauczyć się różnicy nastroju między freezing-windy dniem a freezing-still dniem.

Jeśli utworzysz cechę syntetyczną na podstawie 2 cech, z których każda ma dużo różnych segmentów, w wyniku krzyżyka pojawi się bardzo dużo możliwych kombinacji. Jeśli na przykład jedna cecha ma 1000 zasobników, a druga 2000, wynikowa cecha będzie mieć 2 000 000 zasobników.

Formalnie Krzyż to iloczyn kartezjański.

Krzyże cech są używane głównie w modelach liniowych i rzadko występują w sieciach neuronowych.

ekstrakcja wyróżników

#fundamentals
#TensorFlow

Proces składający się z tych kroków:

  1. Określanie, które cechy mogą być przydatne podczas trenowania modelu.
  2. Konwertowanie nieprzetworzonych danych ze zbioru danych na efektywne wersje tych funkcji.

Możesz na przykład uznać, że temperature może być przydatną funkcją. Następnie możesz poeksperymentować z podziałem na segmenty, aby zoptymalizować to, czego model może nauczyć się na różnych zakresach temperature.

Inżynieria funkcji jest czasem nazywana wyodrębnianiem funkcji lub wyróżnianiem cech.

zbiór funkcji

#fundamentals

Grupa funkcji, których używa model systemów uczących się. Na przykład kod pocztowy, rozmiar i stan nieruchomości mogą składać się z prostego zestawu funkcji modelu prognozującego ceny nieruchomości.

wektor cech

#fundamentals

Tablica wartości funkcji feature stanowiąca przykład. Wektor cech jest wprowadzany podczas trenowania i wnioskowania. Na przykład wektor cech w przypadku modelu z 2 oddzielnymi cechami może wyglądać tak:

[0.92, 0.56]

Cztery warstwy: warstwa wejściowa, dwie ukryte warstwy i jedna warstwa wyjściowa.
          Warstwa wejściowa zawiera 2 węzły, jeden o wartości 0,92, a drugi o wartości 0,56.

Każdy przykład podaje inną wartość wektora cech, więc w kolejnym przykładzie wektor cech może wyglądać tak:

[0.73, 0.49]

Inżynieria cech określa sposób przedstawiania cech w wektorze cech. Na przykład binarna cecha kategorialna z 5 możliwymi wartościami może być reprezentowana za pomocą kodowania „one-hot”. W tym przypadku część wektora cechy z danego przykładu składałaby się z 4 zer i pojedynczego 1,0 w trzeciej pozycji w ten sposób:

[0.0, 0.0, 1.0, 0.0, 0.0]

W kolejnym przykładzie przyjmijmy, że model składa się z trzech cech:

  • binarna funkcja kategorialna z 5 możliwymi wartościami reprezentowanymi za pomocą kodowania jeden-szybko, np. [0.0, 1.0, 0.0, 0.0, 0.0]
  • kolejną binarną funkcję kategorialną z 3 możliwymi wartościami reprezentowanymi przez kodowanie „1 gorący”, np. [0.0, 0.0, 1.0]
  • obiektu zmiennoprzecinkowego, np. 8.3.

W tym przypadku wektor cech w każdym przykładzie byłby reprezentowany przez 9 wartości. Biorąc pod uwagę przykładowe wartości z poprzedniej listy, wektor funkcji będzie miał postać:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

pętla informacji zwrotnych

#fundamentals

W systemach uczących się to sytuacja, w której prognozy modelu wpływają na dane do trenowania tego samego lub innego modelu. Na przykład model polecający filmy będzie miał wpływ na filmy oglądane przez użytkowników, a to z kolei wpłynie na kolejne modele rekomendacji.

G

uogólnienie

#fundamentals

Zdolność modelu do generowania prawidłowych prognoz w przypadku nowych, wcześniej niewyświetlonych danych. Model, który może uogólnić, jest przeciwieństwem modelu, który jest przesadzony.

krzywa uogólnienia

#fundamentals

Wykres utraty wytrenowania i utraty weryfikacji jako funkcji iteracji.

Krzywa uogólnienia pomaga wykrywać możliwe nadmierne dopasowanie. Na przykład ta krzywa generalizacji sugeruje nadmierne dopasowanie, ponieważ utrata walidacji staje się znacznie większa niż utrata przy trenowaniu.

Wykres kartezjański z oś Y oznaczonymi etykietą stratę, a oś X oznaczonymi iteracjami. Pojawią się dwa wykresy. Jeden wykres pokazuje utratę trenowania, a drugi utratę utraconej podczas walidacji.
          Dwa wykresy zaczynają się w podobny sposób, ale utrata trenowania w końcu spada znacznie niżej niż utrata walidacji.

spadek gradientowy

#fundamentals

Technika matematyczna do minimalizacji strat. Obniżenie gradientu iteracyjnie koryguje wagi i odchylenia, stopniowo znajdując najlepszą kombinację w celu zminimalizowania strat.

Spadek gradientowy jest starszy – znacznie i znacznie starszy niż systemy uczące się.

zaobserwowane dane

#fundamentals

Reality show.

rzeczy, które faktycznie się wydarzyły.

Rozważmy na przykład model klasyfikacji binarnej, który prognozuje, czy uczeń na pierwszym roku studiów zakończy studia w ciągu 6 lat. Dane podstawowe w tym modelu dotyczą tego, czy uczeń ukończył 6 lat.

H

warstwa ukryta

#fundamentals

Warstwa w sieci neuronowej między warstwą wejściową (cechy) a warstwą wyjściową (prognozą). Każda warstwa ukryta składa się z co najmniej jednego neuronu. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy – pierwszą z 3 neuronami, a drugą z 2 neuronami:

Cztery warstwy. Pierwsza warstwa to warstwa wejściowa zawierająca 2 cechy. Druga warstwa to ukryta warstwa zawierająca 3 neurony. Trzecia warstwa to ukryta warstwa zawierająca 2 neurony. Czwarta warstwa jest warstwą wyjściową. Każdy obiekt zawiera 3 krawędzi, z których każda wskazuje inny neuron w drugiej warstwie. Każdy z neuronów w drugiej warstwie
 ma 2 krawędzie, z których każda wskazuje inny neuron w trzeciej warstwie. Każdy z neuronów w trzeciej warstwie
          zawiera 1 krawędź, z której każda wskazuje warstwę wyjściową.

Głęboka sieć neuronowa zawiera więcej niż 1 ukrytą warstwę. Na przykład poprzednia ilustracja przedstawia głęboką sieć neuronową, ponieważ model zawiera 2 ukryte warstwy.

hiperparametr

#fundamentals

Zmienne, które Ty lub usługa dostrajania hiperparametrów podczas kolejnych przebiegów trenowania modelu. Na przykład szybkość uczenia się jest hiperparametrem. Możesz ustawić tempo uczenia się na 0,01 przed jedną sesją szkoleniową. Jeśli stwierdzisz, że 0,01 jest za wysokie, możesz ustawić tempo uczenia się na 0,003 na kolejną sesję treningową.

W przeciwieństwie do tego parametry to różne wagi i odchylenia, których model uczy się podczas trenowania.

I

niezależny i rozproszony identyczne (i.i.d)

#fundamentals

Dane pobrane z niezmiennego rozkładu, w którym każda rysowana wartość nie zależy od wartości pobranych wcześniej. To idealny gaz dla systemów uczących się – przydatny konstrukt matematyczny, którego jednak prawie nigdy nie można znaleźć w świecie rzeczywistym. Na przykład rozkład użytkowników odwiedzających stronę internetową może się odbywać w krótkim okresie, tj. rozkład użytkowników nie zmienia się w tym krótkim okresie i wizyta jednej osoby jest zasadniczo niezależna od wizyty innej osoby. Jeśli jednak rozszerzysz ten przedział czasu, mogą pojawić się sezonowe różnice w liczbie użytkowników strony.

Zapoznaj się też z sekcją nonstationarity.

wnioskowanie

#fundamentals

W systemach uczących się proces tworzenia prognoz przez zastosowanie wytrenowanego modelu do przykładów bez etykiet.

Wnioskowanie ma w statystykach nieco inne znaczenie. Więcej informacji znajdziesz w artykule na temat wnioskowania statystycznego w Wikipedii.

warstwa wejściowa

#fundamentals

Warstwa sieci neuronowej, w której znajduje się wektor cech. Oznacza to, że warstwa wejściowa zawiera przykłady do trenowania lub wnioskowania. Na przykład warstwa wejściowa w tej sieci neuronowej składa się z 2 funkcji:

Cztery warstwy: warstwa wejściowa, dwie ukryte warstwy i warstwa wyjściowa.

zrozumiałość

#fundamentals

Umiejętność wyjaśniania lub przedstawiania rozumowania modelu ML w zrozumiały sposób.

Na przykład większość modeli regresji liniowej jest wysoce interpretowalna. (wystarczy tylko wziąć pod uwagę wytrenowane wagi dla każdej funkcji). Lasy decyzyjne też są łatwe do zrozumienia. Niektóre modele wymagają jednak zaawansowanej wizualizacji, aby można było je interpretować.

Do interpretowania modeli systemów uczących się możesz używać narzędzia Learning Interpretability Tool (LIT).

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modeluwag i odchylenia modelu podczas trenowania. Rozmiar wsadu określa liczbę przykładów przetwarzanych przez model w ramach jednej iteracji. Jeśli np. rozmiar wsadu to 20, przed dostosowaniem parametrów model przetwarza 20 przykładów.

Podczas trenowania sieci neuronowej pojedyncza iteracja obejmuje te 2 przebiegi:

  1. Przekazywanie dalej umożliwiające ocenę straty w jednej wsadzie.
  2. Przekazywanie wsteczne (propagacja wsteczna) umożliwiające korygowanie parametrów modelu na podstawie utraty i tempa uczenia się.

L

Regularyzacja L0

#fundamentals

Rodzaj regularności, który nakłada na model łączną liczbę niezerowych wag. Na przykład model mający 11 wag niezerowych będzie miał większą karę niż podobny model o 10 ważach innych niż zero.

Regularyzacja L0 jest czasami nazywana regularnością L0-norm.

Przegrana 1 poziomu

#fundamentals

Funkcja utraty, która oblicza wartość bezwzględną różnicy między rzeczywistymi wartościami etykiet a wartościami prognozowanymi przez model. Oto na przykład obliczenie straty L1 w grupie z 5 przykładami:

Rzeczywista wartość przykładu Prognozowana wartość modelu Wartość bezwzględna delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = strata L1

Strata L1 jest mniej wrażliwa na wartości odstające niż L2 strata.

Średnia wartość bezwzględna to średnia utrata L1 na przykład.

Regularyzacja L1

#fundamentals

Rodzaj regularności, który powoduje nałożenie kar na wagi proporcjonalne do ich wartości bezwzględnej. Regularyzacja L1 pomaga podnosić wagę nieistotnych lub mało przydatnych cech do wartości dokładnie 0. Cecha o wadze 0 jest efektywnie usuwana z modelu.

Skontrastowanie z regularnością L2.

Strata 2

#fundamentals

Funkcja utraty, która oblicza kwadrat różnicy między rzeczywistymi wartościami etykiet a wartościami prognozowanymi przez model. Oto na przykład obliczenie straty L2 w grupie z 5 przykładami:

Rzeczywista wartość przykładu Prognozowana wartość modelu Kwadrat delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = strata L2

Z powodu kwadratowych wyników utrata L2 zwiększa wpływ wartości odstających. Oznacza to, że strata L2 reaguje silniej na błędne prognozy niż utrata L1. Na przykład utrata L1 dla poprzedniej wsadu wynosiłaby 8, a nie 16. Zwróć uwagę, że jedna wartość odstająca jest powiązana z 9 z 16.

Modele regresji zwykle używają straty L2 jako funkcji straty.

Średnia kwadratowa wartość błędu to średnia utrata L2 na przykład. Kwadratowa strata to inna nazwa przegranej L2.

Regularyzacja L2

#fundamentals

Rodzaj regularności, który powoduje nałożenie kar na wagi proporcjonalne do sumy kwadratów tych wag. Regularyzacja L2 pomaga zwiększać wagi skrajne (takie, które mają wysokie lub niskie wartości dodatnie) bliższe 0, ale nie do 0. Cechy o wartościach bardzo zbliżonych do 0 pozostają w modelu, ale nie mają dużego wpływu na prognozy modelu.

Regularyzacja L2 zawsze poprawia uogólnienie w modelach liniowych.

Skontrastowanie z regularnością L1.

etykieta

#fundamentals

W przypadku nadzorowanych systemów uczących się część „odpowiedź” lub „wynik” z przykładu.

Każdy przykład z etykietą składa się z co najmniej 1 funkcji i etykiety. Na przykład w zbiorze danych do wykrywania spamu etykieta to „spam” lub „nie spam”. W zbiorze danych o deszczach etykieta może zawierać liczbę opadów deszczu w danym okresie.

przykład z etykietą

#fundamentals

Przykład zawierający co najmniej 1 funkcję i etykietę. Na przykład w tabeli poniżej znajdziesz 3 przykłady oznaczone etykietami z modelu wyceny domu, z których każdy ma 3 cechy i 1 etykietę:

Liczba sypialni Liczba łazienek Wiek rodziny Cena domu (etykieta)
3 2 15 345 000 USD
2 1 72 179 000 USD
4 2 34 392 000 USD

W nadzorowanych systemach uczących się modele trenują na przykładach z etykietami i generują prognozy na przykładach bez etykiet.

Porównaj przykład z etykietami z przykładami bez etykiet.

lambda

#fundamentals

Synonim dla częstotliwości regularyzacji.

Lambda to przeciążone hasło. W tym artykule skupimy się na definicji terminu w ramach regularności.

warstwa

#fundamentals

Zbiór neuronów w sieci neuronowej. Oto 3 typowe typy warstw:

Na przykład ta ilustracja przedstawia sieć neuronową z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z dwóch elementów. Pierwsza warstwa ukryta składa się z 3 neuronów, a druga – z 2 neuronów. Warstwa wyjściowa składa się z jednego węzła.

W TensorFlow warstwy są też funkcjami Pythona, które przyjmują Tensory i opcje konfiguracyjne jako dane wejściowe i generują inne tensory jako dane wyjściowe.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która informuje algorytm stopnia gradientu, jak mocno dostosowywać wagi i odchylenia w przypadku każdej iteracja. Na przykład tempo uczenia się na poziomie 0,3 spowoduje, że wagi i odchylenia zostaną 3 razy silniejsze niż tempo uczenia się równe 0,1.

Tempo uczenia się to kluczowy hiperparametr. Jeśli ustawisz zbyt niskie tempo uczenia się, trenowanie potrwa za długo. Jeśli tempo uczenia się jest zbyt wysokie, spadek gradientu często powoduje problemy z osiągnięciem konwencji.

jednostajne

#fundamentals

Zależność między co najmniej 2 zmiennymi, którą można przedstawić wyłącznie przez dodawanie i mnożenie.

Wykres relacji liniowej jest linią.

kontrast z nieliniowymi,

model liniowy

#fundamentals

model, który przypisuje 1 model do każdej model na potrzeby tworzenia model. (Modele liniowe obejmują też odchylenie). W przeciwieństwie do tego relacja cech z prognozami w szczegółowych modelach jest zasadniczo nieliniowa.

Modele liniowe są zwykle łatwiejsze w trenowaniu i łatwiejsze do zrozumienia niż modele głębokie. Jednak głębokie modele mogą uczyć się złożonych relacji między cechami.

Regresja liniowa i regresja logistyczna to 2 rodzaje modeli liniowych.

regresja liniowa

#fundamentals

Typ modelu systemów uczących się, w którym spełnione są oba te warunki:

  • Jest to model liniowy.
  • Prognoza ma wartość zmiennoprzecinkową. (Jest to regresja część regresji liniowej).

Porównaj regresję liniową z regresją logistyczną. Porównaj też regresję z klasyfikacją.

regresja logistyczna

#fundamentals

Rodzaj modelu regresji, który prognozuje prawdopodobieństwo. Modele regresji logistycznej mają te cechy:

  • Etykieta ma charakter kategorialny. Termin regresja logistyczna zwykle odnosi się do binarnej regresji logistycznej, czyli modelu, który oblicza prawdopodobieństwo dla etykiet z 2 możliwymi wartościami. Rzadziej stosowany wariant, czyli wielomianowa regresja logistyczna, oblicza prawdopodobieństwa dla etykiet z więcej niż 2 możliwymi wartościami.
  • Funkcja utraty podczas trenowania to Log Loss (Utrata logów). (W przypadku etykiet z więcej niż 2 możliwymi wartościami możesz równolegle umieścić wiele jednostek logarytmicznych).
  • Ma architekturę liniową, a nie głęboką sieć neuronową. Pozostała część tej definicji dotyczy też precyzyjnych modeli, które prognozują prawdopodobieństwo w przypadku etykiet kategorialnych.

Rozważmy na przykład model regresji logistycznej, który oblicza prawdopodobieństwo, że wejściowa wiadomość e-mail jest spamem albo nie jest spamem. Podczas wnioskowania załóżmy, że model przewiduje 0,72. Model szacuje więc:

  • 72% prawdopodobieństwa, że e-mail to spam.
  • 28% szans na to, że e-mail nie będzie spamem.

Model regresji logistycznej wykorzystuje tę architekturę 2-etapową:

  1. Model generuje nieprzetworzoną prognozę (y”) przez zastosowanie funkcji liniowej cech wejściowych.
  2. Model wykorzystuje tę nieprzetworzoną prognozę jako dane wejściowe dla funkcji sigmoidalnej, która konwertuje nieprzetworzoną prognozę na wartość z zakresu od 0 do 1 wyłącznie.

Podobnie jak każdy model regresji, model regresji logistycznej przewiduje liczbę. Ta liczba zazwyczaj staje się częścią modelu klasyfikacji binarnej w taki sposób:

  • Jeśli przewidywana liczba jest większa niż próg klasyfikacji, model klasyfikacji binarnej przewiduje klasę pozytywną.
  • Jeśli prognozowana liczba jest mniejsza od progu klasyfikacji, model klasyfikacji binarnej przewiduje klasę ujemną.

Logarytmiczna strata

#fundamentals

Funkcja straty używana w regresji logicznej.

algorytm logiczny

#fundamentals

Logarytm prawdopodobieństwa zdarzenia.

przegrana

#fundamentals

Miara prognozowania modelu podczas trenowania modelu nadzorowanego od etykiety.

Funkcja straty oblicza stratę.

krzywa straty

#fundamentals

Wykres straty jako funkcja liczby iteracji trenowania. Ten wykres przedstawia typową krzywą straty:

Kartezjański wykres straty w porównaniu z iteracjami trenowania, pokazujący szybki spadek straty dla początkowych iteracji, po którym następuje stopniowy spadek, a następnie płaski nachylenie podczas ostatnich iteracji.

Krzywe straty pomagają określić, kiedy model jest zbieżny, czy zbyt duży.

Krzywe straty mogą przedstawiać te rodzaje strat:

Zobacz też krzywą uogólnienia.

funkcja utraty

#fundamentals

Podczas trenowania lub testowania funkcja matematyczna, która oblicza stratę w postaci zbioru przykładów. Funkcja straty zwraca mniejszą stratę w przypadku modeli, które dają dobre prognozy, niż modeli, które generują błędne prognozy.

Celem trenowania jest zazwyczaj minimalizowanie strat, które zwraca funkcja utraty.

Istnieje wiele różnych rodzajów funkcji straty. Wybierz funkcję straty odpowiednią do tworzonego modelu. Na przykład:

P

systemy uczące się

#fundamentals

Program lub system, który trenuje model na podstawie danych wejściowych. Wytrenowany model może generować przydatne prognozy na podstawie nowych (nigdy wcześniej niewidocznych) danych, które pochodzą z tego samego rozkładu, który został użyty do trenowania modelu.

Systemy uczące się odnoszą się również do dziedzin badań związanych z tymi programami lub systemami.

klasa większości

#fundamentals

Powszechna etykieta w zbiorze danych o niezrównoważonym klasie. Na przykład w zbiorze danych zawierającym 99% etykiet negatywnych i 1% etykiet pozytywnych, etykiety ujemne są klasą większości.

kontrast z klasą mniejszości.

minigrupa

#fundamentals

Niewielki, losowo wybrany podzbiór wsadów przetworzony w ramach 1 cykli. Rozmiar wsadu wynosi zwykle od 10 do 1000 przykładów.

Załóżmy np., że cały zestaw treningowy (cały wsad) składa się z 1000 przykładów. Przyjmijmy też, że rozmiar wsadu każdej minigrupy został ustawiony na 20. Dlatego każda iteracja określa stratę dla 20 z 1000 przykładów losowo, a następnie odpowiednio dostosowuje wagi i odchylenia.

Dużo efektywniej jest obliczyć stratę w ramach minigrupy niż w przypadku wszystkich przykładów w całej wsadzie.

klasa mniejszościowa

#fundamentals

Rzadziej spotykana etykieta w zbiorze danych o niezrównoważonym klasie. Na przykład jeśli zbiór danych zawiera 99% etykiet negatywnych i 1% etykiet pozytywnych, etykiety pozytywne są klasą mniejszości.

Przeciwieństwo do klasy większości.

model

#fundamentals

Ogólnie rzecz biorąc, każdy konstrukt matematyczny, który przetwarza dane wejściowe i zwraca dane wyjściowe. Model to zbiór parametrów i struktur niezbędnych do generowania prognoz przez system. W nadzorowanych systemach uczących się model wykorzystuje przykład jako dane wejściowe i określa prognozę jako dane wyjściowe. W ramach nadzorowanych systemów uczących się modele nieco się różnią. Na przykład:

  • Model regresji liniowej składa się ze zbioru wag i odchylenia.
  • Model sieci neuronowej składa się z tych elementów:
    • Zestaw ukrytych warstw, z których każda zawiera co najmniej 1 neurony.
    • Wagi i odchylenia związane z każdym neuronem.
  • Model drzewa decyzyjnego składa się z tych elementów:
    • Kształt drzewa, czyli wzór, w jaki łączą się warunki i liście.
    • Warunki i opuszczanie gry.

Możesz zapisać lub przywrócić model albo utworzyć jego kopię.

Nienadzorowane systemy uczące się również generują modele, zwykle jako funkcję, która może zmapować przykład wejściowego na najbardziej odpowiedni klaster.

klasyfikacja wieloklasowa

#fundamentals

W uczeniu nadzorowanym jest to problem z klasyfikacją, w którym zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą należeć do jednej z tych 3 klas:

  • Iris setosa
  • Iris wirginica
  • Iris versicolor

Model wytrenowany na zbiorze danych Iris, który prognozuje typ Iris w nowych przykładach, wykonuje klasyfikację wieloklasową.

W przeciwieństwie do problemów z klasyfikacją, które odróżniają dokładnie 2 klasy, są binarnymi modelami klasyfikacji. Na przykład model poczty e-mail, który przewiduje spam lub nie spam, jest modelem klasyfikacji binarnej.

W problemach z grupowaniem klasyfikacja wieloklasowa odnosi się do więcej niż 2 klastrów.

N

klasa wykluczeń

#fundamentals

W klasyfikacji binarnej jedna klasa jest określana jako dodatnia, a druga jako ujemna. Klasa pozytywna to rzecz lub zdarzenie, dla których testuje model, a klasa negatywna to druga możliwość. Na przykład:

  • Klasa negatywna w badaniu medycznym może brzmieć „nie guz”.
  • Wykluczającą klasą w klasyfikatorze e-maili może być „nie spam”.

Skontrastowanie za pomocą klasy pozytywnej.

sieć neuronowa

#fundamentals

model zawierający co najmniej 1 model. Głęboka sieć neuronowa to rodzaj sieci neuronowej, która zawiera więcej niż 1 ukrytą warstwę. Na przykład schemat poniżej przedstawia głęboką sieć neuronową zawierającą 2 ukryte warstwy.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami w następnej warstwie. Na przykład na powyższym diagramie zauważ, że każdy z 3 neuronów w pierwszej ukrytej warstwie oddzielnie łączy się z obydwoma neuronami w drugiej ukrytej warstwie.

Sieci neuronowe zaimplementowane na komputerach są czasem określane jako sztuczne sieci neuronowe, aby odróżnić je od sieci neuronowych w mózgach i innych układach nerwowych.

Niektóre sieci neuronowe mogą naśladować bardzo złożone nieliniowe relacje między cechami a etykietą.

Zobacz też informacje o konwolucyjnych sieciach neuronowych i powracających sieciach neuronowych.

neuron

#fundamentals

Jest to osobna jednostka w ukrytej warstwie sieci neuronowej. Każdy neuron wykonuje takie dwuetapowe działanie:

  1. Oblicza sumę ważoną wartości wejściowych pomnożoną przez odpowiadające im wagi.
  2. Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacji.

Neuron w pierwszej ukrytej warstwie przyjmuje dane z wartości cech w warstwie wejściowej. Neuron w każdej ukrytej warstwie poza pierwszą ukrytą akceptuje dane wejściowe od neuronów z poprzedniej warstwy. Na przykład neuron w drugiej ukrytej warstwie przyjmuje dane wejściowe od neuronów w pierwszej warstwie ukrytej.

Ilustracja poniżej przedstawia 2 neurony i ich dane wejściowe.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową. Wyróżnione są 2 neurony: jeden w pierwszej ukrytej warstwie, a drugi w drugiej. Wyróżniony neuron w pierwszej ukrytej warstwie otrzymuje dane wejściowe z obu obiektów w warstwie wejściowej. Wyróżniony neuron w drugiej ukrytej warstwie otrzymuje dane wejściowe z każdego z 3 neuronów w pierwszej ukrytej warstwie.

Neuron w sieci neuronowej naśladuje zachowanie neuronów w mózgu i innych częściach układu nerwowego.

węzeł (sieć neuronowa)

#fundamentals

neuron w warstwie ukrytej,

nieliniowy

#fundamentals

Zależność między co najmniej 2 zmiennymi, której nie da się przedstawić wyłącznie za pomocą dodawania i mnożenia. Relacja liniowa może być przedstawiona w postaci linii. Relacji nielinearnej nie można przedstawić w postaci linii. Rozważmy np. 2 modele, z których każdy powiąże 1 cechę z 1 etykietą. Model po lewej stronie jest liniowy, a po prawej – nieliniowy:

Dwie działki. Jeden wykres jest linią, więc jest to zależność liniowa.
          Kolejny wykres jest krzywą, a więc jest to zależność nieliniowa.

niestacjonarność

#fundamentals

Cecha, której wartości zmieniają się w zależności od co najmniej jednego wymiaru, zwykle z upływem czasu. Oto przykłady braku statycznego charakteru:

  • Liczba strojów kąpielowych sprzedawanych w danym sklepie różni się w zależności od sezonu.
  • W danym regionie ilość konkretnych owoców przez większą część roku wynosi 0, ale przez krótki czas jest to bardzo duża ilość.
  • Ze względu na zmiany klimatyczne zmienia się roczne średnie temperatury.

Skontrastowanie względem stacjonarności.

normalizacja

#fundamentals

Ogólnie rzecz biorąc, proces przekształcania rzeczywistego zakresu wartości zmiennej w standardowy zakres wartości, np.:

  • Od -1 do +1
  • Od 0 do 1
  • rozkład normalny

Załóżmy np., że rzeczywisty zakres wartości określonej cechy wynosi od 800 do 2400. W ramach inżynierii funkcji możesz znormalizować rzeczywiste wartości do zakresu standardowego, np. od -1 do +1.

Normalizacja jest częstym zadaniem w inżynierii cech. Modele zwykle trenują szybciej (i generują lepsze prognozy), gdy wszystkie cechy liczbowe w wektorze cech mają mniej więcej taki sam zakres.

dane liczbowe

#fundamentals

Funkcje reprezentowane jako liczby całkowite lub liczby rzeczywiste. Na przykład model wyceny domu reprezentowałby prawdopodobnie wielkość domu (w stopach kwadratowych lub metrach kwadratowych) jako dane liczbowe. Przedstawianie cechy w postaci danych liczbowych oznacza, że wartości cechy są powiązane z etykietą matematyczną. Oznacza to, że liczba w metrach kwadratowych w domu jest prawdopodobnie w konsekwencji matematyczna z wartością domu.

Nie wszystkie dane całkowite powinny być przedstawiane jako dane liczbowe. Na przykład w niektórych częściach świata kody pocztowe są liczbami całkowitymi, ale nie powinny być przedstawiane w modelach jako dane liczbowe. Dzieje się tak, ponieważ kod pocztowy 20000 nie jest dwa razy (lub połowę) skuteczniejszy niż kod pocztowy 10 000. Co więcej, chociaż różne kody pocztowe mogą być powiązane z różnymi wartościami nieruchomości, nie możemy zakładać, że wartości nieruchomości w przypadku kodu pocztowego 20000 są dwukrotnie cenniejsze niż wartości nieruchomości w przypadku kodu pocztowego 10000. Kody pocztowe powinny być zamiast tego przedstawiane jako dane kategorialne.

Cechy liczbowe są czasami nazywane funkcjami ciągłymi.

O

offline

#fundamentals

Synonim terminu statyczny.

wnioskowanie offline

#fundamentals

Proces modelu generującego grupę prognoz, a następnie buforowania (zapisywania) tych prognoz. Dzięki temu aplikacje będą mogły uzyskać dostęp do prognozowanej prognozy z pamięci podręcznej, zamiast ponownie uruchamiać model.

Weźmy na przykład model, który co 4 godziny generuje lokalne prognozy pogody (prognozy). Po uruchomieniu modelu system zapisuje w pamięci podręcznej wszystkie lokalne prognozy pogody. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Takie wnioskowanie jest też nazywane wnioskowaniem statycznym.

Porównaj z wnioskowaniem online.

kodowanie one-got

#fundamentals

Przedstawienie danych kategorycznych jako wektor, w którym:

  • Jeden z nich ma wartość 1.
  • Pozostałe elementy mają wartość 0.

Do reprezentowania ciągów znaków lub identyfikatorów, które mają ograniczony zbiór możliwych wartości, zwykle używa się kodowania „1 gotowe”. Załóżmy na przykład, że pewna funkcja kategorialna o nazwie Scandinavia ma 5 możliwych wartości:

  • „Dania”
  • „Szwecja”
  • „Norwegia”
  • „Finlandia”
  • „Islandia”

Kodowanie „1-gorące” może reprezentować każdą z 5 wartości w następujący sposób:

country Wektor
„Dania” 1 0 0 0 0
„Szwecja” 0 1 0 0 0
„Norwegia” 0 0 1 0 0
„Finlandia” 0 0 0 1 0
„Islandia” 0 0 0 0 1

Dzięki kodowaniu 1 kodu model może nauczyć się różnych połączeń w zależności od 5 krajów.

Prezentowanie cech jako danych liczbowych jest alternatywą dla kodowania jednogorącego. Niestety, reprezentowanie krajów skandynawskich w formie liczb nie jest dobrym rozwiązaniem. Weźmy na przykład taką reprezentację liczbową:

  • „Dania” wynosi 0
  • „Szwecja” to 1
  • „Norwegia” to 2
  • „Finlandia” to 3
  • „Islandia” to 4

W przypadku kodowania numerycznego model interpretowałby nieprzetworzone liczby matematycznie i próbowałby trenować na nich. Islandia nie jest jednak w rzeczywistości 2 razy wyższa niż w Norwegii, więc model doprowadzi do dziwnych wniosków.

jeden vs. wszystkie

#fundamentals

Biorąc pod uwagę problem z klasyfikacją z klasami N, rozwiązanie składające się z N osobnych klasyfikatorów binarnych – jeden klasyfikator binarny dla każdego możliwego wyniku. Na przykład w modelu, który klasyfikuje przykłady jako zwierzęta, warzywa lub minerały, rozwiązanie „jeden przeciwko wszystkiemu” zapewniłoby te 3 osobne klasyfikatory binarne:

  • zwierzę czy nie zwierzę
  • warzywo vs. niewarzywne
  • mineralny lub bez mineralny

online

#fundamentals

Synonim terminu dynamic.

wnioskowanie online

#fundamentals

generowanie prognoz na żądanie. Załóżmy na przykład, że aplikacja przekazuje dane wejściowe do modelu i wysyła żądanie prognozy. System wykorzystujący wnioskowanie online odpowiada na żądanie, uruchamiając model (i zwracając prognozę do aplikacji).

Porównaj z wnioskowaniem offline.

warstwa wyjściowa

#fundamentals

„Ostatnia” warstwa sieci neuronowej. Warstwa wyjściowa zawiera prognozę.

Ilustracja poniżej przedstawia małą głęboką sieć neuronową z warstwą wprowadzania, 2 ukrytymi warstwami i warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z dwóch elementów. Pierwsza warstwa ukryta składa się z 3 neuronów, a druga – z 2 neuronów. Warstwa wyjściowa składa się z jednego węzła.

nadmierne dopasowanie

#fundamentals

Utworzenie model, który jest ściśle dopasowany do model, tak że nie będzie w stanie generować poprawnych prognoz na podstawie nowych danych.

Regularizacja może ograniczyć nadmierne dopasowanie. Trenowanie z wykorzystaniem dużego i zróżnicowanego zestawu treningowego również może ograniczyć nadmierne dopasowanie.

P

pandy

#fundamentals

Zorientowany na kolumny interfejs API do analizy danych stworzony na bazie numpy. Wiele platform systemów uczących się, w tym TensorFlow, obsługuje jako dane wejściowe struktury danych pand. Więcej informacji znajdziesz w dokumentacji Pandas.

parametr

#fundamentals

Wagi i odchylenia, których model uczy się podczas trenowania. Na przykład w modelu regresji liniowej parametry składają się z odchylenia (b) i wszystkich wag (w1, w2 itd.) w ramach tej formuły:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W przeciwieństwie do tego hiperparametr to wartości, które Ty (lub usługa zmieniająca hiperparametry) dostarczasz do modelu. Na przykład tempo uczenia się jest hiperparametrem.

klasa pozytywna

#fundamentals

Zajęcia, na których testujesz.

Na przykład klasą pozytywną w modelu raka może być „guz”. Klasyfikatorem e-maili może być „spam”.

Skontrastowanie z klasą wykluczającą.

obróbka

#fairness
#fundamentals

Dostosowywanie danych wyjściowych modelu po jego uruchomieniu. Przetwarzanie końcowe może pomóc w egzekwowaniu ograniczeń dotyczących obiektywności bez konieczności zmieniania samych modeli.

Można na przykład zastosować przetwarzanie końcowe do klasyfikatora binarnego, ustawiając próg klasyfikacji w taki sposób, aby w przypadku niektórych atrybutów była utrzymywana równość możliwości. W tym celu należy sprawdzić, czy współczynnik prawdziwie dodatni jest taki sam dla wszystkich wartości tego atrybutu.

prognoza

#fundamentals

Dane wyjściowe modelu. Na przykład:

  • Prognozowanie modelu klasyfikacji binarnej to klasa pozytywna lub negatywna.
  • Prognoza modelu klasyfikacji wieloklasowej to jedna klasa.
  • Prognoza modelu regresji liniowej ma wartość liczbową.

etykiety serwera proxy

#fundamentals

Dane używane do określania przybliżonych etykiet, które nie są bezpośrednio dostępne w zbiorze danych.

Załóżmy np., że musisz wytrenować model do prognozowania poziomu stresu pracowników. Twój zbiór danych zawiera wiele funkcji prognozujących, ale nie zawiera etykiety Poziom stresu. Bez obaw, wybierasz „wypadki w miejscu pracy” jako wartość pośrednią dla poziomu stresu. W końcu pracownicy w wysokim stresie przeżywają więcej wypadków niż spokojni pracownicy. A może tak? Być może liczba wypadków w miejscu pracy rośnie i upada z wielu powodów.

W drugim przykładzie załóżmy, że chcesz podać w zbiorze danych etykietę czy pada?, która ma być wartością logiczną, ale zbiór danych nie zawiera danych o deszczu. Jeśli zdjęcia są dostępne, możesz zrobić zdjęcia osób niosących parasole, aby sprawdzić, czy pada? Czy to dobra etykieta proxy? Tak, ale w niektórych kulturach ludzie noszą parasole do ochrony przed słońcem niż deszczem.

Etykiety serwera proxy są często niedoskonałe. Jeśli to możliwe, wybieraj rzeczywiste etykiety zamiast etykiet serwera proxy. Jeśli jednak brakuje rzeczywistej etykiety, wybierz ją bardzo ostrożnie i wybierz najmniej najgorszą propozycję etykiety serwera proxy.

R

RAG

#fundamentals

Skrót od wyrażenia retrieval-augmented Generation (generowanie rozszerzone przez wyszukiwanie).

oceniający

#fundamentals

Osoba, która dostarcza etykiety dla przykładów. „Annotator” to inna nazwa osoby oceniającej.

Prosto urządzona jednostka liniowa (ReLU)

#fundamentals

funkcję aktywacji, która działa tak:

  • Jeśli dane wejściowe mają wartość ujemną lub zero, wynik wynosi 0.
  • Jeśli dane wejściowe są dodatnie, dane wyjściowe są takie same.

Na przykład:

  • Jeśli wartość wejściowa wynosi -3, wynik wynosi 0.
  • Jeśli dane wejściowe mają wartość +3, wynik wynosi 3,0.

Oto fabuła ReLU:

Dwuwierszowy wykres kartezjański. Pierwsza linia ma stałą wartość y równą 0 i biegnie wzdłuż osi X od -nieskończoności,0 do 0,-0.
          Drugi wiersz zaczyna się od 0,0. Ta linia ma nachylenie o wartości +1, więc biegnie od 0,0 do +nieskończoności i nieskończoności.

ReLU to bardzo popularna funkcja aktywująca. Mimo że ReLU jest proste, wciąż umożliwia sieci neuronowej uczenie się nieliniowych zależności między funkcjami a etykietą.

model regresji

#fundamentals

Nieformalnie model generujący prognozę liczbową. Model klasyfikacji generuje natomiast prognozę klas. Na przykład te modele regresji:

  • Model, który przewiduje wartość konkretnego domu,na przykład 423 000 euro.
  • Model, który przewiduje oczekiwaną długość życia określonego drzewa, na przykład 23,2 roku.
  • Model, który prognozuje ilość opadów, które spadnie w określonym mieście w ciągu najbliższych 6 godzin, np.0,18 cala.

Dwa popularne typy modeli regresji to:

  • Regresja liniowa, która znajduje linię najlepiej pasującą do wartości etykiet.
  • regresja logistyczna, która generuje prawdopodobieństwo w przedziale od 0,0 do 1,0, które system zwykle mapuje na prognozę klas;

Nie każdy model, który generuje prognozy liczbowe, jest modelem regresji. W niektórych przypadkach prognozy liczbowe są po prostu modelem klasyfikacji, który ma w postaci liczbowej nazwy klas. Na przykład model, który prognozuje numeryczny kod pocztowy, jest modelem klasyfikacji, a nie regresji.

regularyzacja

#fundamentals

Każdy mechanizm, który ogranicza nadmierne dopasowanie. Popularne rodzaje regularyzacji to:

Regularyzacja można również zdefiniować jako spadek złożoności modelu.

współczynnik regularyzacji

#fundamentals

Liczba określająca względne znaczenie regularizacji podczas trenowania. Zwiększenie częstotliwości regularyzacji ogranicza nadmierne dopasowanie, ale może zmniejszyć moc prognozowania modelu. I na odwrót: ograniczenie lub pominięcie częstotliwości regularyzacji zwiększa nadmierne dopasowanie.

ReLU

#fundamentals

Skrót od wyrażenia Rectified Linear Unit (Wyrównana jednostka liniowa).

generacja rozszerzonego pobierania (RAG)

#fundamentals

Technika poprawiania jakości danych wyjściowych dużego modelu językowego (LLM) przez powiązanie go ze źródłami wiedzy pobranymi po wytrenowaniu modelu. RAG zwiększa dokładność odpowiedzi LLM, zapewniając wytrenowanemu modelowi LLM dostęp do informacji pobranych z zaufanych baz wiedzy lub dokumentów.

Najczęstsze powody korzystania z generowania rozszerzonego przez wyszukiwanie to:

  • Zwiększanie dokładności faktów generowanych przez model.
  • Udostępnienie modelu dostępu do wiedzy, do której nie został przeszkolony.
  • Modyfikowanie wiedzy wykorzystywanej przez model.
  • Umożliwienie modelu cytowania źródeł.

Załóżmy na przykład, że aplikacja chemiczna korzysta z interfejsu PaLM API do generowania podsumowań związanych z zapytaniami użytkowników. Gdy backend aplikacji otrzyma zapytanie, będzie:

  1. Wyszukuje („pobiera”) dane, które mają związek z zapytaniem użytkownika.
  2. Dodaje („rozszerzenia”) do zapytania użytkownika odpowiednie dane chemiczne.
  3. Instruuje LLM, aby utworzył podsumowanie na podstawie dołączonych danych.

Krzywa charakterystyki operacyjnej odbiornika

#fundamentals

Wykres przedstawiający współczynnik wyników prawdziwie pozytywnych i współczynnik wyników fałszywie pozytywnych dla różnych progów klasyfikacji w klasyfikacji binarnej.

Kształt krzywej ROC sugeruje, że model klasyfikacji binarnej może oddzielić klasy pozytywne od klas negatywnych. Załóżmy na przykład, że model klasyfikacji binarnej doskonale oddziela klasy negatywne od wszystkich klas pozytywnych:

Wiersz liczbowy z 8 przykładami pozytywnymi po prawej i 7 przykładami negatywnymi po lewej.

Krzywa charakterystyki operacyjnej odbiornika (ROC) poprzedniego modelu wygląda tak:

Krzywa charakterystyki operacyjnej odbiornika (ROC). Oś X przedstawia współczynnik fałszywie dodatni, a oś Y to współczynnik prawdziwie dodatni. Krzywa ma odwrócony kształt L. Krzywa zaczyna się w punkcie (0,0;0,0) i przechodzi prosto w górę do (0,0; 1,0). Następnie krzywa przechodzi od zakresu (0,0;1,0) do (1,0;1,0).

Ta ilustracja przedstawia natomiast nieprzetworzone wartości regresji logistycznej dla strasznego modelu, który nie jest w stanie oddzielić klas negatywnych od klas pozytywnych:

Wiersz liczbowy z przykładami pozytywnymi i negatywnymi, których nie można łączyć.

Krzywa charakterystyki operacyjnej odbiornika (ROC) dla tego modelu wygląda tak:

Krzywa ROC, która jest w rzeczywistości prostą linią prostą od (0,0;0,0) do (1,0;1,0).

Z kolei w świecie rzeczywistym większość modeli klasyfikacji binarnej do pewnego stopnia rozdziela klasy pozytywne i negatywne, ale zwykle nie idealnie. Typowa krzywa charakterystyki operacyjnej odbiornika wypada gdzieś pomiędzy 2 skrajne wartości:

Krzywa charakterystyki operacyjnej odbiornika (ROC). Oś X przedstawia współczynnik fałszywie dodatni, a oś Y to współczynnik prawdziwie dodatni. Krzywa ROC jest zbliżona do niestabilnego łuku przechodzącego przez punkty kompasu z zachodu na północ.

Punkt na krzywej charakterystyki operacyjnej odbiornika (ROC) najbliżej (0,0, 1,0) teoretycznie określa idealny próg klasyfikacji. Na wybór idealnego progu klasyfikacji wpływa jednak kilka innych czynników. Na przykład wyniki fałszywie negatywne powodują znacznie większy problem niż wyniki fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC w jedną wartość zmiennoprzecinkową.

Błąd średniokwadratowy (RMSE)

#fundamentals

Pierwiastek kwadratowy z średniego błędu kwadratowego.

S

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „wypycha” wartość wejściową do ograniczonego zakresu, zwykle od 0 do 1 lub od -1 do +1. Oznacza to, że można przekazać dowolną liczbę (dwie, milion, ujemne miliardy itd.) do sigmoidy, a wynik wciąż będzie mieścił się w ograniczonym zakresie. Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Dwuwymiarowy krzywy wykres z wartościami x w domenie – nieskończoność – +dodatnia, a wartości y obejmują zakres prawie od 0 do prawie 1. Gdy x = 0, y = 0,5. Nachylenie krzywej jest zawsze dodatnie, największe nachylenie ma wartość 0,0,5 i stopniowo zmniejsza się wraz ze wzrostem wartości bezwzględnej x.

Funkcja sigmoidalna ma kilka zastosowań w systemach uczących się, m.in.:

funkcja softmax

#fundamentals

Funkcja, która określa prawdopodobieństwo dla każdej możliwej klasy w modelu klasyfikacji wieloklasowej. Suma prawdopodobieństw wynosi dokładnie 1,0. Na przykład ta tabela pokazuje, jak kampania softmax rozkłada różne prawdopodobieństwa:

Obraz to... Probability,
pies 0,85
Cat 0,13
koń 0,02

Funkcja softmax jest też nazywana pełnym modelem softmax.

Porównaj to z próbkowaniem kandydatów.

obiekt rozproszony

#language
#fundamentals

feature, którego wartości są głównie zero lub puste. Na przykład cecha zawierająca 1 wartość i milion wartości 0 jest bardzo rozmieszczona. W przeciwieństwie do tego cechy gęstej mają wartości, które w większości nie są puste ani nie mają zerowej wartości.

W systemach uczących się niektóre funkcje są bardzo rzadkie, Cechy kategorialne są zwykle ubogie w dane. Na przykład spośród 300 możliwych gatunków drzew w lesie jeden przykład może zidentyfikować tylko klon. Spośród milionów możliwych filmów w bibliotece jeden przykład może zidentyfikować tylko „Casablanca”.

W modelu zazwyczaj reprezentujesz rozproszone funkcje za pomocą kodowania „1 szybko”. Jeśli jednostronne kodowanie jest duże, możesz nałożyć na nie warstwę do umieszczania, aby zwiększyć efektywność.

rzadka reprezentacja

#language
#fundamentals

Przechowywanie tylko pozycji elementów innych niż zero w obiekcie rozproszonym.

Załóżmy np., że funkcja kategorialna o nazwie species identyfikuje 36 gatunków drzew w konkretnym lesie. Teraz załóżmy, że każdy przykład identyfikuje tylko jeden gatunek.

Możesz użyć wektora „1 hot” do reprezentowania gatunków drzew w każdym przykładzie. Wektor „1 gorący” zawiera jeden element 1 (reprezentujący konkretne gatunki drzew w tym przykładzie) i 35 elementów 0 (czyli 35 gatunków drzew nie w tym przykładzie). Jednorazowa reprezentacja właściwości maple może więc wyglądać mniej więcej tak:

Wektor, w którym pozycje od 0 do 23 mają wartość 0, pozycja 24 ma wartość 1, a pozycje od 25 do 35 mają wartość 0.

Natomiast rozproszona reprezentacja mogłaby po prostu określić pozycję konkretnego gatunku. Jeśli maple znajduje się na pozycji 24, rzadkie reprezentowanie właściwości maple wyglądałoby tak:

24

Zwróć uwagę, że reprezentacja rzadka jest znacznie bardziej zwięzła niż ta prezentowana tylko raz.

wektor rozproszony

#fundamentals

Wektor, którego wartości są głównie zerami. Zobacz też informacje o niewielkich funkcjach i nierówności.

strata do kwadratu

#fundamentals

Synonim wyrażenia utrata L2.

statyczne

#fundamentals

Coś zostało wykonane tylko raz, a nie przez cały czas. Terminy statyczne i offline to synonimy. Oto typowe zastosowania elementów statycznych i offline w systemach uczących się:

  • Model statyczny (lub model offline) to model wytrenowany raz, a następnie używany przez pewien czas.
  • Trenowanie statyczne (lub trenowanie offline) to proces trenowania modelu statycznego.
  • wnioskowanie statyczne (lub wnioskowanie offline) to proces, w którym model generuje zbiorczo grupę prognoz.

kontrast z dynamicznym,

wnioskowanie statyczne

#fundamentals

Synonim dla wnioskowania offline.

stacjonarność

#fundamentals

Cecha, której wartości nie zmieniają się w zależności od co najmniej jednego wymiaru, zwykle przez czas. Na przykład cecha, której wartości są mniej więcej takie same w 2021 r. i 2023 r., prezentuje stan statyczny.

W świecie rzeczywistym niewiele obiektów wykazuje stanowność. Nawet funkcje, które działają równomiernie (np. na poziomie morza), zmieniają się z biegiem czasu.

Skontrastowanie względem nonstacjonarności.

spadek gradientu stochastycznego (SGD)

#fundamentals

Algorytm gradientu malejącego, w którym rozmiar serii wynosi jeden. Inaczej mówiąc, SGD trenuje na 1 przykładzie wybranym losowo z zbioru treningowego.

nadzorowane systemy uczące się

#fundamentals

Wytrenuj model z funkcji i odpowiadających im etykiet. Nadzorowane systemy uczące się przypominają uczenie się na dany temat – studiują zestaw pytań i odpowiadające na nie odpowiedzi. Po opanowaniu powiązania pytań i odpowiedzi uczeń może odpowiedzieć na nowe (nigdy wcześniej) pytania dotyczące tego samego tematu.

Porównaj z nienadzorowanymi systemami uczącymi się.

funkcja syntetyczna

#fundamentals

Cechę, której nie ma wśród funkcji wejściowych, ale została zbudowana z co najmniej 1 z nich. Metody tworzenia cech syntetycznych obejmują:

  • Grupowanie obiektu ciągłego w przedziały zakresów.
  • Tworzenie krzyżyków.
  • Mnożenie (lub dzielenie) jednej wartości cech przez wartości innych cech lub przez same wartości. Jeśli na przykład a i b są cechami wejściowymi, to przykłady funkcji syntetycznych to:
    • ab
    • a2
  • Zastosowanie funkcji transcendentalnej do wartości cech. Jeśli np. c jest cechą wejściową, to przykłady cech syntetycznych:
    • sin(c)
    • ln(c)

Funkcje utworzone przez normalizację lub skalowanie nie są uznawane za funkcje syntetyczne.

T

utrata testów

#fundamentals

Dane reprezentujące stratę modelu względem zbioru testowego. Podczas tworzenia model starasz się zwykle zminimalizować straty w testach. Dzieje się tak, ponieważ niska utrata testów jest silniejszym sygnałem jakości niż niska utrata wytrenowania lub niska utrata walidacji.

Duża przerwa między utratą testów a utratą trenowania lub walidacją może oznaczać konieczność zwiększenia częstotliwości regularyzacji.

szkolenie

#fundamentals

Proces określania idealnych parametrów (wag i odchyleń) wchodzących w skład modelu. Podczas trenowania system odczytuje dane z przykładów i stopniowo dostosowuje parametry. Podczas trenowania każdy przykład wykorzystywany jest od kilku do miliardów razy.

utrata treningu

#fundamentals

Dane reprezentujące utratę modelu podczas określonej iteracji trenowania. Załóżmy np., że funkcja straty to Średnia kwadratowa wartość błędu. Być może utrata trenowania (średni błąd podniesiony do kwadratu) przy 10. iteracji wynosi 2,2, a przy setnej iteracji – 1,9.

Krzywa straty przedstawia stratę trenowania w porównaniu z liczbą zakłóceń. Krzywa straty zawiera te wskazówki dotyczące trenowania:

  • Ten spadek oznacza, że model się poprawia.
  • Ten wzrost oznacza, że model się pogarsza.
  • Płaski spadek oznacza, że model osiągnął konwersję.

Na przykład tak wygląda nieco bardziej wyideizowana krzywa strat:

  • Ostry spadek w trakcie początkowych iteracji, co oznacza szybką poprawę modelu.
  • Stopniowo opadający (ale wciąż w dół) spadek aż do końca nauki, co oznacza ciągłe ulepszanie modelu w nieco wolniejszym tempie niż podczas początkowych iteracji.
  • Płaski spadek pod koniec trenowania, który sugeruje zbieżność.

Schemat utraty trenowania z iteracjami. Ta krzywa straty zaczyna się stromym spadkiem. Nachylenie stopniowo się spłaszcza, aż spadnie do zera.

Choć utrata trenowania jest ważna, zobacz też uogólnienie.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między wydajnością modelu podczas trenowania a wydajnością tego samego modelu podczas wyświetlania.

zestaw treningowy

#fundamentals

Podzbiór zbioru danych używany do trenowania modelu.

Zazwyczaj przykłady w zbiorze danych dzielą się na te 3 różne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie powinien należeć jednocześnie do zbioru treningowego i zestawu do walidacji.

wynik prawdziwie negatywny (TN)

#fundamentals

Przykład, w którym model prawidłowo przewiduje klasę negatywną. Model zakłada na przykład, że dany e-mail nie jest spamem, a w rzeczywistości nie jest spamem.

prawdziwie dodatni (TP)

#fundamentals

Przykład, w którym model prawidłowo przewiduje klasę pozytywną. Model zakłada na przykład, że dany e-mail to spam, a ten naprawdę jest spamem.

Współczynnik prawdziwie dodatni (TPR)

#fundamentals

Synonim terminu wycofanie. Czyli:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Współczynnik wyników prawdziwie dodatnich to oś Y na krzywej ROC.

U

niedopasowany

#fundamentals

Utworzenie model o niskiej zdolności prognozowania, ponieważ nie udało się w pełni odzwierciedlić złożoności danych treningowych. Niedopasowanie może powodować wiele problemów, w tym:

przykład bez etykiety

#fundamentals

Przykład zawierający wartość features, ale bez atrybutu label. Na przykład w tabeli poniżej znajdują się 3 przykłady bez etykiet z modelu wyceny domu, z których każdy ma 3 cechy, ale nie ma wartości nieruchomości:

Liczba sypialni Liczba łazienek Wiek rodziny
3 2 15
2 1 72
4 2 34

W nadzorowanych systemach uczących się modele trenują na przykładach z etykietami i generują prognozy na przykładach bez etykiet.

W uczeniu częściowo nadzorowanym i nienadzorowanym podczas trenowania używane są przykłady bez etykiet.

Porównaj przykład bez etykiety z przykładem z etykietą.

nienadzorowane systemy uczące się

#clustering
#fundamentals

Trenowanie model służącego do znajdowania wzorców w zbiorze danych, zwykle bez etykiety.

Najpopularniejszym zastosowaniem nienadzorowanych systemów uczących się jest grupowanie danych w grupy podobnych przykładów. Na przykład nienadzorowany algorytm systemów uczących się może grupować utwory według różnych właściwości muzyki. Utworzone w ten sposób klastry mogą stać się danymi wejściowymi dla innych algorytmów systemów uczących się (np. usługi rekomendacji muzycznych). Grupowanie może być przydatne, gdy przydatnych etykiet brakuje lub w ogóle nie ma w nich przydatnych etykiet. Na przykład w domenach takich jak przeciwdziałanie nadużyciom i oszustwom klastry mogą pomóc użytkownikom lepiej zrozumieć dane.

Porównaj je z nadzorowanymi systemami uczącymi się.

V

sprawdzanie poprawności

#fundamentals

Wstępna ocena jakości modelu. Weryfikacja pozwala sprawdzić jakość prognoz modelu w porównaniu z zbiorem walidacji.

Zbiór do walidacji różni się od zbioru treningowego, więc weryfikacja pomaga zapobiegać przestojom.

Ocena modelu w ramach zbioru do weryfikacji możesz potraktować jako pierwszą rundę testowania, a potem ocenić go w ramach zbioru testowego jako drugą rundę testowania.

utrata walidacji

#fundamentals

Dane reprezentujące utratę zbioru weryfikacji modelu podczas określonej iteracji trenowania.

Zobacz też krzywą uogólnienia.

zestaw do walidacji

#fundamentals

Podzbiór zbioru danych, który przeprowadza wstępną ocenę w porównaniu z wytrenowanym modelem. Zwykle porównujesz wytrenowany model kilka razy z zbiorem weryfikacji, zanim ocenisz go na podstawie zbioru testowego.

Tradycyjnie dzieli się przykłady w zbiorze danych na te 3 różne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie powinien należeć jednocześnie do zbioru treningowego i zestawu do walidacji.

Ś

waga

#fundamentals

Wartość, którą model mnoży przez inną wartość. Trenowanie to proces ustalania idealnej wagi modelu, a wnioskowanie to proces wykorzystywania nauczonych wag do prognozowania.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez odpowiadające im wagi. Załóżmy na przykład, że dane wejściowe składają się z tych elementów:

wartość wejściowa waga wejściowa
2 -1,3
-1 0,6
3 0,4

Suma ważona wygląda więc tak:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Suma ważona to argument wejściowy funkcji aktywacji.

Z

Normalizacja wyniku Z

#fundamentals

Metoda skalowania, która zastępuje nieprzetworzoną wartość cechy wartością zmiennoprzecinkową reprezentującą liczbę odchyleń standardowych od wartości średniej cechy. Rozważmy np. funkcję, której średnia wartość wynosi 800, a odchylenie standardowe wynosi 100. W tabeli poniżej pokazujemy, jak normalizacja wyniku Z odwzorowałaby nieprzetworzoną wartość na jej wynik Z:

Wartość nieprzetworzona Ocena Z
800 0
950 +1,5
575 -2,25

Model systemów uczących się trenuje następnie na wynikach Z dla danej cechy, a nie na nieprzetworzonych wartościach.