Słowniczek systemów uczących się: podstawy systemów uczących się

Ta strona zawiera terminy z glosariusza z podstaw systemów uczących się. Dla wszystkich terminów używanych w glosariuszu kliknij tutaj.

A

dokładność

#fundamentals

Liczba poprawnych prognoz przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który dokonał 40 poprawnych prognoz i 10 błędnych prognozy będą miały dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja plików binarnych zawiera konkretne nazwy dla różnych kategorii prawidłowych prognoz i niepoprawnych prognoz. Wzór dokładności klasyfikacji binarnej jest taki:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

Porównaj dokładność z precision recall.

funkcja aktywacji

#fundamentals

Funkcja, która umożliwia sieciom neuronowym uczenie się nonlinear (złożone) relacje między obiektami; i etykietę.

Do popularnych funkcji aktywacyjnych należą:

Wykresy funkcji aktywacyjnych nigdy nie są pojedynczymi liniami prostymi. Na przykład wykres funkcji aktywacji ReLU składa się z: dwie proste linie:

Wykres kartezjański składający się z dwóch wierszy. Pierwszy wiersz zawiera stałą
          wartość y 0, wzdłuż osi X, od -nieskończoność, 0 do 0,-0.
          Druga linia zaczyna się od 0,0. Nachylenie tej linii to +1, więc
          od 0,0 do +nieskończoności.

Schemat funkcji aktywacji sigmoidalnej wygląda tak:

Dwuwymiarowy, zakrzywiony wykres z wartościami x obejmującymi domenę
          -nieskończoność do +dodatnia, podczas gdy wartości y obejmują zakres niemal od 0 do
          prawie 1. Gdy x to 0, y to 0,5. Nachylenie krzywej jest zawsze
          dodatnia, o najwyższym nachyleniu na poziomie 0,0,5 i stopniowo malejącym
          wraz ze wzrostem wartości bezwzględnej x.

sztuczna inteligencja

#fundamentals

Program lub model nieprzeznaczony dla ludzi, który potrafi rozwiązać złożone zadania. Na przykład program lub model do tłumaczenia tekstu, a także program lub model, Identyfikuje choroby na podstawie zdjęć radiologicznych. Oba te schorzenia wykazują sztuczną inteligencję.

Formalnie systemy uczące się to podobszar sztuczny, i analizę. Jednak w ostatnich latach niektóre organizacje zaczęły korzystać czyli sztuczna inteligencja i systemy uczące się zamiennie.

AUC (obszar pod krzywą ROC)

#fundamentals

Liczba z zakresu od 0,0 do 1,0 oznaczająca Model klasyfikacji plików binarnych możliwość oddzielić klasy pozytywne od klas negatywnych. Im wartość AUC jest bliższa wartości 1,0, tym większa zdolność modelu do rozdzielenia i lekcji.

Na przykład ta ilustracja przedstawia model klasyfikatora oddzielających klasy pozytywne (zielone owale) od klas negatywnych (fioletowe prostokąty). Ten nierealistycznie idealny model ma AUC wynoszące 1,0:

Linia liczbowa z 8 przykładami dodatnimi po jednej stronie oraz
          9 negatywnych przykładów po drugiej stronie.

I na odwrót: ilustracja poniżej pokazuje wyniki zastosowania klasyfikatora. który generuje wyniki losowe. Ten model ma wartość AUC wynoszącą 0,5:

Linia liczbowa z 6 przykładami dodatnimi i 6 ujemnymi.
          w kolejności przykładów: dodatnia, ujemna,
          pozytywne, negatywne, pozytywne, negatywne, pozytywne, negatywne, pozytywne
          negatywną, dodatnią, negatywną.

Tak, poprzedni model ma wartość AUC wynoszącą 0,5, a nie 0,0.

Większość modeli znajduje się gdzieś pomiędzy tymi dwoma skrajnościami. Na przykład plik poniższy model oddziela nieco wartości dodatnie od negatywnych, dlatego ma wartość AUC mieszczącą się w zakresie od 0,5 do 1,0:

Linia liczbowa z 6 przykładami dodatnimi i 6 ujemnymi.
          Sekwencja przykładów jest ujemna, ujemna, ujemna, ujemna,
          pozytywny, negatywny, pozytywny, pozytywny, negatywny, pozytywny, pozytywny
          pozytywnym.

AUC ignoruje każdą ustawioną wartość próg klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi klasyfikacji.

B

wsteczne propagacja

#fundamentals

Algorytm implementujący gradient gradientowy w sieci neuronowych.

Trenowanie sieci neuronowej wymaga wielu iteracji. takiego cyklu dwuprzebiegowego:

  1. W trakcie przebiegu do przodu system przetwarza grupę obejmującą przykłady generowania prognoz. System porównuje do każdej wartości atrybutu label. Różnica między w przypadku prognozy, a wartością etykiety będzie strata. System agreguje straty dla wszystkich przykładów, aby obliczyć łączną wartość dla bieżącego wsadu.
  2. Podczas przebiegu wstecznego (propagacji wstecznej) system zmniejsza straty o by dostosować wagę wszystkich neuronów warstwy ukryte.

Sieci neuronowe często zawierają wiele neuronów w wielu ukrytych warstwach. Każdy z tych neuronów przyczynia się do całkowitej utraty danych na różne sposoby. Propagacja wsteczna określa, czy zwiększyć czy zmniejszyć wagę dla konkretnych neuronów.

Tempo uczenia się to mnożnik, który kontroluje stopień, o jaki każde przejście wstecz zwiększa lub zmniejsza każdą wagę. Duże tempo uczenia się będzie zwiększać lub zmniejszać każdą wagę więcej niż małe tempo uczenia się.

W ramach rachunku rachunkowego przez propagację wsteczną implementuje się reguła łańcucha. na podstawie rachunku różniczkowego. Oznacza to, że przez propagację wsteczną oblicza częściową pochodną błędu z wartością w odniesieniu do każdego parametru.

Wiele lat temu osoby zajmujące się systemami uczącymi się musiały pisać kod, aby wdrożyć propagację wsteczną. Nowoczesne interfejsy API systemów uczących się, takie jak TensorFlow, wdrażają propagację wsteczną. Uff...

wsad

#fundamentals

Zbiór przykładów używanych w jednym trenowaniu. iteracja. Rozmiar wsadu określa liczbę przykładów w wsad.

Wyjaśnienie związku grupy z grupą znajdziesz w sekcji epoka. epoki.

wielkość wsadu

#fundamentals

Liczba przykładów w grupie. Jeśli na przykład rozmiar wsadu to 100, model przetwarza 100 przykładów na powtarzanie.

Oto popularne strategie dotyczące wielkości wsadu:

  • Stochastic Gradient Descent (SGD), gdzie rozmiar wsadu wynosi 1.
  • Pełny wsad, w którym rozmiar wsadu to liczba przykładów w całej training set (zestaw treningowy). Jeśli na przykład zbiór treningowy zawiera milion przykładów, wielkość wsadu będzie wynosić milion przykłady. Strategia polegająca na przesyłaniu całego pliku jest zwykle mało efektywna.
  • minizbiorczy, w którym rozmiar wsadu wynosi zazwyczaj pomiędzy 10 i 1000. Najskuteczniejszą strategią jest zwykle przesyłanie małej ilości danych jednocześnie.

uprzedzenia (etyka/sprawiedliwość)

#fairness
#fundamentals

1. Tworzenie stereotypów, uprzedzenia lub faworyzowanie pewnych rzeczy, ludzi lub grup nad innymi. Te uprzedzenia mogą wpływać na zbieranie interpretacji danych, projektu systemu oraz sposobu interakcji użytkowników z systemem. Do form tego rodzaju uprzedzeń należą:

2. Błąd systematyczny wywołany w wyniku procedury próbkowania lub raportowania. Do form tego rodzaju uprzedzeń należą:

Nie należy mylić z terminem uprzedzeń w modelach systemów uczących się. czy odchylenia prognozy.

uprzedzenia (matematyka) lub termin „uprzedzenia”

#fundamentals

Przechwycenie lub przesunięcie od punktu początkowego. Odchylenie to parametr w systemów uczących się, które są symbolizowane przez :

  • B
  • ty0

Na przykład odchylenie to symbol b w tym wzorze:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W prostej, dwuwymiarowej linii odchylenie oznacza po prostu „punkt przecięcia z osią y”. Na przykład odchylenie linii na ilustracji poniżej wynosi 2.

Wykres prostej z nachyleniem 0,5 i punktu przecięcia osi y 2.

Istnieje tendencyjność, ponieważ nie wszystkie modele zaczynają się od punktu początkowego (0,0). Przykład: Załóżmy, że wstęp do parku rozrywki kosztuje 2 EUR i dodatkowo 0,5 euro za każdą godzinę pobytu klienta. Dlatego model mapujący łączny koszt ma odchylenie do 2, ponieważ najniższy koszt to 2 euro.

Uprzedzeń nie należy mylić z uprzedzeniami w kwestiach etyki i uczciwości czy odchylenia prognozy.

klasyfikacja binarna

#fundamentals

Typ zadania klasyfikacji, które prognozuje jedną z dwóch wzajemnie wykluczających się klas:

Na przykład te 2 modele systemów uczących się osiągają skuteczność: klasyfikacja binarna:

  • Model określający, czy e-maile spam (klasa pozytywna) lub not spam (klasa negatywna).
  • Model oceniający objawy medyczne w celu określenia, czy dana osoba cierpi na określoną chorobę (klasę pozytywną) lub jej nie ma; choroba (klasa negatywna).

Przeciwieństwem są klasyfikacje wieloklasowe.

Zobacz też regresję logiczną oraz próg klasyfikacji.

skategoryzowanie w przedziałach

#fundamentals

Konwersja pojedynczej cech na wiele funkcji binarnych nazywane zasobnikami lub pojemnikami, zwykle na podstawie zakresu wartości. Przecięty obiekt to zwykle cechy ciągłej.

Na przykład zamiast przedstawiać temperaturę jako ciągłym obiektem zmiennoprzecinkowym, można skracać zakresy temperatur w oddzielnych segmentach, takich jak:

  • <= 10 stopni Celsjusza będzie „zimno” zasobnika.
  • Od 11 do 24 stopni Celsjusza to temperatura umiarkowana zasobnika.
  • >= 25 stopni Celsjusza będzie „ciepłe” zasobnika.

Model będzie traktować każdą wartość w tym samym zasobniku jednakowo. Dla: na przykład wartości 13 i 22 są w zasobniku dla temperamentu, więc wartości model traktuje obie wartości jednakowo.

C

dane kategorialne

#fundamentals

Funkcje mające określony zestaw możliwych wartości. Przykład: uznajemy obiekt kategoryczny o nazwie traffic-light-state, który może być może mieć jedną z trzech możliwych wartości:

  • red
  • yellow
  • green

Dzięki temu, że traffic-light-state jest cechą kategoryczną, model może nauczyć się różny wpływ usług red, green i yellow na zachowanie kierowcy.

Czasem nazywane cechami kategorialnymi poszczególnych funkcji.

Przeciwieństwem są dane liczbowe.

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Na przykład:

Model klasyfikacji służy do prognozowania klasy. Model regresji prognozuje natomiast a nie klasą.

model klasyfikacji

#fundamentals

Model, którego prognoza to class. Poniżej znajdują się na przykład wszystkie modele klasyfikacji:

  • Model, który prognozuje język zdania wejściowego (francuski? Hiszpański? włoskim?).
  • Model, który prognozuje gatunki drzew (klon? Dąb? Baobab?).
  • Model, który prognozuje klasę pozytywną lub negatywną dla określonej klasy schorzenia.

Z kolei modele regresji prognozują liczby. a nie na zajęciach.

Dwa najczęstsze typy modeli klasyfikacji to:

próg klasyfikacji

#fundamentals

W klasyfikacji binarnej para klucz-wartość liczba z zakresu od 0 do 1, która konwertuje na nieprzetworzone dane wyjściowe model regresji logistycznej w prognozę klasy pozytywnej. lub klasa negatywnych. Pamiętaj, że próg klasyfikacji to wartość wybrana przez człowieka, a nie wartość wybrana przez trenowanie modelu.

Model regresji logistycznej zwraca nieprzetworzoną wartość z zakresu od 0 do 1. Następnie:

  • Jeśli ta nieprzetworzona wartość jest przekraczająca próg klasyfikacji, jest prognozowana klasa pozytywna.
  • Jeśli ta nieprzetworzona wartość jest niższa od progu klasyfikacji, jest prognozowana klasa ujemna.

Załóżmy na przykład, że próg klasyfikacji wynosi 0,8. Jeśli nieprzetworzona wartość wynosi 0,9, model przewiduje klasę pozytywną. Jeśli pierwotna wartość to 0,7, model prognozuje klasę ujemną.

Wybór progu klasyfikacji w dużym stopniu wpływa na liczbę fałszywie pozytywnych i fałszywie negatywne.

zbiór danych o niezrównoważonym klasie

#fundamentals

Zbiór danych do zadania z klasyfikacją, w którym łączna liczba etykiet poszczególnych klas znacznie się różnią. Weźmy na przykład zbiór danych klasyfikacji binarnej, w którym dwie etykiety są podzielone w taki sposób:

  • 1 000 000 etykiet negatywnych
  • 10 etykiet pozytywnych

Stosunek etykiet ujemnych do pozytywnych wynosi 100 000 do 1, więc ten to zbiór danych niezbalansowany według klasy.

W przeciwieństwie do tego poniższy zbiór danych nie jest równoważony w klasie, ponieważ stosunek etykiet negatywnych do etykiet pozytywnych jest względnie bliski 1:

  • 517 etykiet negatywnych
  • 483 etykiety pozytywne

Wieloklasowe zbiory danych też mogą być nierównoważone w stosunku do klas. Na przykład: Zbiór danych klasyfikacji wieloklasowej jest również niezgodny z klasą, ponieważ jedna etykieta zawiera znacznie więcej przykładów niż 2 pozostałe:

  • 1 000 000 etykiet z klasą „zielona”
  • 200 etykiet z klasą „fioletowy”
  • 350 etykiet z klasą „pomarańczowy”

Zobacz też entropia i klasa większości, i klasa mniejszości.

przycinanie

#fundamentals

Technika radzenia sobie z wynikami odstającymi przez wykonanie jeden lub oba z tych elementów:

  • Zmniejszanie wartości parametru feature, które są większe od wartości maksymalnej do tego maksymalnego progu.
  • Rosnące wartości cech, które nie przekraczają progu minimalnego minimalnego progu.

Załóżmy na przykład, że mniej niż 0,5% wartości danej cechy przypada na spoza zakresu 40–60. W takim przypadku możesz wykonać te czynności:

  • Przytnij wszystkie wartości powyżej 60 (próg maksymalny), aby dokładnie ustawić 60.
  • Przytnij wszystkie wartości poniżej 40 (minimalny próg), aby dokładnie ustawić 40.

Wartości odstające mogą uszkodzić modele, czasami powodując wagi mogą się przepełnić podczas trenowania. Niektóre wyjątki mogą się też drastycznie zepsuć takie jak dokładność. Przycinanie to powszechna technika ograniczania szkody.

Siły przycinania gradientu wartości gradientu w wyznaczonym zakresie podczas trenowania.

tablica pomyłek

#fundamentals

Tabela NxN podsumowująca liczbę poprawnych i nieprawidłowych prognoz opracowany przez model klasyfikacji. Rozważmy na przykład poniższą tablicę pomyłek dla Model klasyfikacji binarnej:

Guz (prognozowany) Inny niż tumor (prognozowany)
Guz (ground truth) 18 (TP) 1 (FN)
Inne niż tumor (ground truth) 6 (FP) 452 (TN)

Poprzednia tablica pomyłek wygląda tak:

  • Z 19 prognoz, w przypadku których dane podstawowe to Tumor, model poprawnie sklasyfikował 18, a nieprawidłowo sklasyfikował 1.
  • Spośród 458 prognoz, w przypadku których dane podstawowe były oparte na danych innych niż Tumor, model poprawnie sklasyfikowanych 452 i błędnie 6.

Tablica pomyłek dla klasyfikacji wieloklasowej może pomóc w określeniu wzorców błędów. Weźmy na przykład taką tablicę pomyłek dla klasy 3 wieloklasowy model klasyfikacji, który kategoryzuje 3 różne typy tęczówki. (Virginica, Versicolor i Setosa). W czasach, gdy danymi podstawowymi była Wirginia, tablica pomyłek wskazuje, że model z większym prawdopodobieństwem pomyli się ustaw prognozę Versicolor niż Setosa:

  Setosa (przewidywane) Versicolor (prognozana) Virginica (prognoza)
Setosa (ground truth) 88 12 0
Versicolor (ground truth) 6 141 7
Virginica (ground truth), 2 27 109

Kolejny przykład to tablica pomyłek pokazująca, że model wytrenowany rozpoznawalność odręcznych cyfr zwykle błędnie ocenia 9 zamiast 4, lub błędnie określono 1 zamiast 7.

Tablice pomyłek zawierają wystarczającą ilość informacji do obliczenia różne dane o skuteczności, w tym dokładność; i czułość.

cecha ciągła

#fundamentals

funkcję zmiennoprzecinkową o nieskończonym zakresie możliwych; takie jak temperatura czy waga.

Skontrastuj się z funkcjami dyskretnymi.

zbieżność

#fundamentals

stan, w którym wartości strat zmieniają się bardzo niewiele lub nie po wszystkich iteracjach. Na przykład: krzywa strat sugeruje zbieżność przy około 700 iteracjach:

Wykres kartezjański. Oś X to strata. Oś Y to liczba trenowania
          powtórzenia. Strata jest bardzo duża w pierwszych iteracjach, ale
          gwałtownie spada. Po około 100 iteracjach strata pozostaje
          malejąco, ale znacznie wolniej. Po około 700 iteracjach
          straty pozostają na stałym poziomie.

Model dochodzi do konwertowania, gdy dodatkowe trenowanie nie wystarcza i ulepszyć model.

W przypadku deep learning wartości strat czasami utrzymują się na stałym poziomie lub przez wiele iteracji, aż w końcu maleje. W długim okresie wartości stałych strat, możesz tymczasowo mieć fałszywe poczucie zbieżności.

Zobacz też Wcześniejsze zatrzymywanie.

D

[struktura] DataFrame

#fundamentals

Popularny typ danych panda do reprezentowania zbiorów danych w pamięci.

DataFrame przypomina tabelę lub arkusz kalkulacyjny. Każda kolumna argumentu element DataFrame ma nazwę (nagłówek), a każdy wiersz jest identyfikowany przez tag niepowtarzalny numer.

Każda kolumna w DataFrame ma strukturę podobną do tablicy 2D, z tą różnicą, że każdej kolumnie można przypisać własny typ danych.

Zobacz też oficjalnego Informacje na temat pandas.DataFrame

zbiór danych lub zbiór danych

#fundamentals

Zbiór nieprzetworzonych danych, zwykle (ale nie wyłącznie) zorganizowany w jednym miejscu w tych formatach:

  • arkusz kalkulacyjny
  • plik w formacie CSV (wartości rozdzielone przecinkami);

model głęboki

#fundamentals

Sieć neuronowa zawierająca więcej niż 1 ukrytą warstwę.

Model głęboki nazywany jest też głęboką siecią neuronowa.

Porównaj z modelem szerokim.

cecha zwarta

#fundamentals

Cecha, w której większość lub wszystkie wartości mają wartość inną niż 0, zwykle Tensor dla wartości zmiennoprzecinkowych. Na przykład: Tensor, który ma 10 elementów, jest gęsty, bo 9 jego wartości jest różna od zera:

8 3 7 5 2 4 0 4 9 6

Różnica w stosunku do funkcji rozproszonej.

głębokość

#fundamentals

Suma tych elementów w sieci neuronowej:

Na przykład sieć neuronowa z 5 ukrytymi warstwami i 1 warstwą wyjściową ma głębokość 6.

Zwróć uwagę, że warstwa wejściowa nie głębię wpływu.

cecha dyskretna

#fundamentals

Cechę ze skończonym zestawem możliwych wartości. Przykład: cecha, której wartościami może być tylko animal, vegetable lub mineral, jest cecha dyskretna (lub kategorialna).

kontrastuje z funkcją ciągłą;

dynamiczny

#fundamentals

Coś robionego często lub na bieżąco. W systemach uczących się terminy dynamiczny i online to synonimy. Poniżej znajdziesz typowe zastosowania dynamicznych i online w przypadku systemów uczących się nauka:

  • Model dynamiczny (inaczej online) to model, która jest regularnie lub stale trenowana.
  • Szkolenie dynamiczne (lub szkolenie online) to proces trenowania. często lub stale.
  • Wnioskowanie dynamiczne (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

Model, który jest często (nawet ciągły) i ponownie wytrenowali. Model dynamiczny uczy się przez całe życie które nieustannie dostosowuje się do zmieniających się danych. Model dynamiczny jest też nazywany modelu online.

Różnica z modelem statycznym.

E

wcześniejsze zatrzymanie

#fundamentals

Metoda regularizacji, która obejmuje kończenie trenowanie przed zakończeniem treningu. maleje. W ramach wczesnego zatrzymywania celowo zatrzymujesz trenowanie modelu gdy utrata zbioru danych do weryfikacji zaczyna się increase; czyli gdy uogólnianiem skuteczności pogarsza się;

warstwa wektorowa

#language
#fundamentals

Specjalną warstwą ukrytą, która trenuje na wielowymiarowa funkcja kategoryczna, stopniowo uczyć się wektora wektora dystrybucyjnego dla niższych wymiarów. An warstwa wektora dystrybucyjnego umożliwia sieci neuronowej lepsze trenowanie wydajniej niż trenowanie na wysokich wymiarach cechach kategorialnych.

Na przykład na Ziemi obecnie obsługiwanych jest około 73 000 gatunków drzew. Załóżmy, że gatunek drzewa jest cechą na Twoim modelu, więc model warstwa wejściowa zawiera jeden gorący wektor 73 000, . Wartość baobab zostałaby przedstawiona w ten sposób:

Tablica 73 000 elementów. Pierwsze 6232 elementy zawierają wartość
     0. Następny element zawiera wartość 1. Ostatnie 66 767 elementów składa się z
     wartość zero.

Tablica z 73 000 elementów jest bardzo długa. Jeśli nie dodasz warstwy osadzania trenowanie będzie bardzo czasochłonne, mnożenia przez 72 999 zer. Być może wybierzesz warstwę osadzania, z 12 wymiarów. W efekcie warstwa osadzania będzie stopniowo uczyć się nowego wektora dystrybucyjnego dla każdego gatunku drzewa.

W niektórych sytuacjach szyfrowanie jest rozsądnym rozwiązaniem. do warstwy osadzonej.

początek epoki : epoka

#fundamentals

Pełny bilet treningowy na cały zestaw treningowy. w taki sposób, aby każdy przykład został przetworzony raz.

Epoka reprezentuje N/rozmiar wsadu iteracje trenowania, gdzie N jest łączną liczbę przykładów.

Załóżmy na przykład, że:

  • Zbiór danych zawiera 1000 przykładów.
  • Wielkość wsadu to 50 przykładów.

Dlatego pojedyncza epoka wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

przykład

#fundamentals

Wartości w jednym wierszu cech i prawdopodobnie etykietę. Przykłady w: nauczanie nadzorowane dzieli się na 2 grupy: kategorie ogólne:

  • Przykład oznaczony etykietą zawiera co najmniej 1 funkcję i etykietę. Przykłady oznaczone etykietami są używane podczas trenowania.
  • Przykład bez etykiety składa się z jednego elementu lub więcej funkcji, ale bez etykiety. Podczas wnioskowania używane są przykłady bez etykiet.

Załóżmy, że trenujesz model do określenia wpływu warunków pogodowych na wynikach sprawdzianów uczniów. Oto 3 przykłady oznaczone etykietami:

Funkcje Etykieta
Temperatura wilgotność, Ciśnienie Wynik testu
15 47 998 Dobry
19 34 1020 Świetna
18 92 1012 Niska

Oto 3 przykłady bez etykiet:

Temperatura wilgotność, Ciśnienie  
12 62 1014  
21 47 1017  
19 41 1021  

Wiersz zbioru danych jest zwykle nieprzetworzonym źródłem przykładu. Oznacza to zazwyczaj, że przykład składa się zwykle z podzbioru kolumn w zbioru danych. Cechy z przykładu mogą też obejmować funkcje syntetyczne, takie jak: krzyżówki cech.

F

fałszywie negatywny (FN)

#fundamentals

Przykład, w którym model błędnie prognozuje wartość negative class (klasa wykluczające). Na przykład model przewiduje, że konkretny e-mail nie jest spamem, (klasa ujemna), ale ten e-mail to w rzeczywistości spam.

fałszywie dodatni (FP)

#fundamentals

Przykład, w którym model błędnie prognozuje wartość pozytywnej klasy. Na przykład model przewiduje, że konkretny e-mail zawiera spam (klasa pozytywna), ale e-mail nie jest spamem.

współczynnik wyników fałszywie pozytywnych (FPR)

#fundamentals

Odsetek rzeczywistych przykładów negatywnych, w których model popełnił błąd przewidzieliśmy klasę pozytywną. Ta formuła oblicza wartość fałsz współczynnik dodatni:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie pozytywnych to oś X na krzywej ROC.

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa dla modelu systemów uczących się. Przykład obejmuje co najmniej jedną cechę. Załóżmy na przykład, że trenujesz model do określania wpływu warunków pogodowych na wyniki testów uczniów. W tabeli poniżej znajdziesz 3 przykłady, z których każdy zawiera 3 funkcje i 1 etykietę:

Funkcje Etykieta
Temperatura wilgotność, Ciśnienie Wynik testu
15 47 998 92
19 34 1020 84
18 92 1012 87

Różnica za pomocą atrybutu etykieta.

krzyżówka

#fundamentals

Funkcje syntetyczne utworzone przez „krzyżowanie” funkcji kategorialnych lub pogrupowanych.

Weźmy np. „prognozowanie nastroju” model, który reprezentuje w jednym z czterech zasobników:

  • freezing
  • chilly
  • temperate
  • warm

I przedstawia prędkość wiatru w jednym z 3 rodzajów:

  • still
  • light
  • windy

Bez krzyżów cech model liniowy trenuje niezależnie na każdym poprzedzających 7 różnych zasobników. Model trenuje na przykład freezing niezależnie od trenowania na przykład windy

Można również utworzyć krzyżową cechę, prędkość wiatru. Ta funkcja syntetyczna miałaby 12 możliwych wyników wartości:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dzięki krzyżom cech model może nauczyć się różnic nastrojów od freezing-windy do freezing-still dnia.

Jeśli utworzysz obiekt syntetyczny z dwóch cech, z których każda ma wiele w różnych zasobnikach, wynikowy krzyż cech będzie miał ogromną liczbę możliwych kombinacji. Na przykład, jeśli jedna cecha ma 1000 zasobników, druga cecha ma 2000 zasobników, wynikowy krzyż cech ma 2 000 000 zasobników.

Formalnie krzyż to Iloczyn kartezjański.

Krzywe cech są używane głównie w modelach liniowych i rzadko są używane za pomocą sieci neuronowych.

ekstrakcja wyróżników

#fundamentals
#TensorFlow

Proces, który obejmuje te kroki:

  1. określać, które funkcje mogą być przydatne; podczas trenowania modelu.
  2. Konwersja nieprzetworzonych danych ze zbioru danych do efektywnych wersji tych funkcji.

Możesz np. uznać, że słowo temperature może być przydatne funkcji. Następnie możesz poeksperymentować z grupowaniem. aby zoptymalizować to, czego model może się uczyć na podstawie różnych zakresów temperature.

Inżynieria cech jest czasami nazywana inżynierią cech wyodrębnianie cech lub featurizacja.

zbiór cech

#fundamentals

grupę funkcji używanych przez systemy uczące się; model trenuje na nich. Na przykład kod pocztowy, rozmiar nieruchomości i stan obiektu mogą stanowią prosty zestaw funkcji modelu prognozującego ceny nieruchomości.

wektor cech

#fundamentals

Tablica wartości feature tworzących przykład. Wektor cech jest wprowadzany podczas trenowania i w trakcie wnioskowania. Na przykład wektor cech modelu z 2 odrębnymi cechami może wyglądać tak:

[0.92, 0.56]

4 warstwy: warstwa wejściowa, dwie warstwy ukryte i 1 warstwa wyjściowa.
          Warstwa wejściowa zawiera dwa węzły, w tym jeden z wartością
          0,92, a drugiej o wartości 0,56.

Każdy przykład dostarcza inne wartości wektora cech, więc funkcja w następnym przykładzie może wyglądać tak:

[0.73, 0.49]

Inżynieria cech określa, jak przedstawić w wektorze cech. Na przykład w przypadku funkcji binarnej kategorialnej funkcji pięć możliwych wartości może być reprezentowanych przez kodowanie jedno- gorące. W tym przypadku część argumentu wektor cech w danym przykładzie składałby się z czterech zer i pojedynczy 1,0 w trzeciej pozycji, jak niżej:

[0.0, 0.0, 1.0, 0.0, 0.0]

W kolejnym przykładzie załóżmy, że Twój model składa się z 3 cech:

  • funkcję kategoryczną z pięcioma możliwymi wartościami reprezentowanymi przez kodowanie jeden-gotowe, na przykład: [0.0, 1.0, 0.0, 0.0, 0.0]
  • kolejną cechę kategoryczną binarną, której reprezentowane są 3 możliwe wartości w ramach kodowania jeden-gorącego; na przykład: [0.0, 0.0, 1.0]
  • obiekt zmiennoprzecinkowy, na przykład: 8.3.

W tym przypadku wektor cech w każdym przykładzie będzie przedstawiony o dziewięć wartości. Biorąc pod uwagę przykładowe wartości z poprzedniej listy, wektor cech to:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

pętla informacji zwrotnych

#fundamentals

W uczeniu maszynowym to sytuacja, w której prognozy modelu wpływają na dla tego samego lub innego modelu. Na przykład model, poleca filmy, co wpłynie na to, jakie filmy oglądają widzowie, wpływać na kolejne modele rekomendacji filmów.

G

uogólnianie

#fundamentals

Zdolność modelu do generowania poprawnych prognoz na nowych, wcześniej niewyświetlonych danych. Model, który może uogólniać, jest przeciwieństwem modelu, który jest zbyt dopasowany.

krzywa uogólniania

#fundamentals

Wykres przedstawiający utraty trenowania i utrata walidacji jako funkcja liczby iteracji.

Krzywa uogólniania może pomóc w wykrywaniu nadmiernego dopasowania. Na przykład: krzywa uogólnienia sugeruje nadmierne dopasowanie, ponieważ utrata walidacji ostatecznie staje się znacznie większa niż utrata trenowania.

Wykres kartezjański, w którym oś Y jest oznaczona jako utrata, a oś X
          jest oznaczony etykietą. Pojawią się 2 działki. Jeden wykres przedstawia
          trenowanie, a drugie – utratę walidacji.
          Obydwa fabuły zaczynają się podobnie, ale w końcu przegrana
          są znacznie mniejsze niż straty walidacji.

opadanie gradientowe

#fundamentals

Technika matematyczna do zminimalizowania strat. Spadek gradientowy koryguje iteracyjnie wagi i uprzedzenia, stopniowo znajdują najlepsze kombinacje w celu zminimalizowania strat.

Metoda gradientowa jest starsza – znacznie, znacznie starsza niż systemy uczące się.

dane podstawowe

#fundamentals

Reality show.

Rzecz, która faktycznie się wydarzyła.

Weźmy na przykład klasyfikację binarną model, który prognozuje, czy uczeń na pierwszym roku studiów muszą zakończyć 13 lat. Dane podstawowe tego modelu to tego, czy nie że uczeń ukończył szkołę w ciągu 6 lat.

H

warstwa ukryta

#fundamentals

Warstwa w sieci neuronowej między warstwy wejściowej (cechy) oraz warstwa wyjściowa (prognoza). Każda ukryta warstwa składa się z co najmniej jednego neuronu. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy: pierwszy ma 3 neurony, a drugi 2:

Cztery warstwy. Pierwsza warstwa to warstwa wejściowa zawierająca dwie
          funkcje zabezpieczeń. Druga warstwa to ukryta warstwa zawierająca 3 elementy,
          neuronów. Trzecia warstwa to ukryta warstwa zawierająca dwie
          neuronów. Czwarta warstwa to warstwa wyjściowa. Każda cecha
          ma trzy krawędzie, z których każda wskazuje inny neuron
          w drugiej warstwie. Każdy z neuronów w drugiej warstwie
          ma dwie krawędzie, z których każda wskazuje inny neuron
          w trzeciej warstwie. Każdy neuron w trzeciej warstwie zawiera
          i po jednej krawędzi, z których każda wskazuje warstwę wyjściową.

Głęboka sieć neuronowa zawiera więcej niż jeden warstwa ukryta. Na przykład poprzednia ilustracja przedstawia głębokie połączenie neuronowe ponieważ model zawiera dwie ukryte warstwy.

hiperparametr

#fundamentals

Zmienne używane przez Ciebie lub usługę dostrajania hiperparametrów może się dostosować podczas kolejnych etapów trenowania modelu. Przykład: szybkość uczenia się jest hiperparametrem. Możesz ustaw tempo uczenia się na 0,01 przed jedną sesją treningową. Jeśli że 0,01 to za wysoka wartość, możesz ustawić ustaw współczynnik na 0,003 dla kolejnej sesji szkoleniowej.

Parametry to natomiast różne wagi i uprzedzenia, które model uczy się podczas trenowania.

I

są rozkładane niezależnie i identycznie (np.)

#fundamentals

Dane pobrane z rozkładu, który się nie zmienia, i gdzie każda wartość nie zależą od wartości, które zostały wcześniej narysowane. Identyfikator to gaz idealny maszyny uczenie się – przydatny, ale prawie nigdy nie znaleziony konstrukt matematyczny w świecie rzeczywistym. Na przykład rozkład użytkowników na stronę internetową mogą być i.i.d. w krótkim okresie, oznacza to, że rozkład w tym krótkim okresie, a wizyta jednej osoby jest zwykle niezależnie od wizyty innego użytkownika. Jeśli jednak rozszerzysz przedział czasu, mogą pojawić się sezonowe różnice w liczbie użytkowników strony.

Zobacz też artykuł o niestacjonarności.

wnioskowanie

#fundamentals

W uczeniu maszynowym proces prognozowania z zastosowaniem wytrenowanego modelu do przykładów bez etykiet.

Wnioskowanie ma w statystykach nieco inne znaczenie. Zobacz Więcej informacji znajdziesz w artykule o wnioskowaniu statystycznym w Wikipedii.

warstwa wejściowa

#fundamentals

Warstwa sieci neuronowej, która zawiera wektor cech. Oznacza to, że warstwa wejściowa zawiera przykłady szkoleń lub wnioskowania. Na przykład warstwa wejściowa w tym Sieć neuronowa składa się z 2 elementów:

4 warstwy: warstwa wejściowa, dwie warstwy ukryte i warstwa wyjściowa.

interpretowalność

#fundamentals

Umiejętność wyjaśnienia lub przedstawienia rozumowania modelu ML w zrozumiałe dla człowieka.

Na przykład większość modeli regresji liniowej zrozumiałe. (Wystarczy wziąć pod uwagę wytrenowane ciężary dla każdego feature.) Lasy decyzyjne są też bardzo czytelne. Niektóre modele wymagają zaawansowanej wizualizacji, aby była interpretowalna.

Za pomocą Narzędzie do interpretowalności (LIT) na potrzeby interpretowania modeli ML.

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modeluwagi i odchylenia podczas szkoleń. Rozmiar grupy określa liczbę przykładów, które model przetwarza w ramach jednej iteracji. Przykład: jeśli wielkość wsadu to 20, model przetworzy 20 przykładów wcześniej dostosować parametry.

podczas trenowania sieci neuronowej, pojedyncza iteracja; obejmuje 2 karty:

  1. Przekazywanie dalej w celu oceny straty w jednej wsadzie.
  2. przebieg wsteczny (propagacja wsteczna), aby dostosować parametry modelu na podstawie utraty i tempa uczenia się.

L

Regularyzacja L0

#fundamentals

Rodzaj regularizacji, nakłada karę na łączną liczbę wag innych niż zero w modelu. Na przykład model o 11 wagach innych niż zero otrzymałaby karę więcej niż w przypadku podobnego modelu o 10 wagach innych niż zero.

Regularyzacja L0 jest czasami nazywana regulacją normy L0.

Strata L1

#fundamentals

Funkcja straty, która oblicza wartość bezwzględną różnicy między rzeczywistymi wartościami label i wartości prognozowane przez model. Przykład: obliczanie straty L1 dla grupy składającej się z 5 przykłady:

Rzeczywista wartość przykładu Prognozowana wartość modelu Wartość bezwzględna delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = strata L1

Utrata L1 jest mniej wrażliwa na wartości odstające niż L2 strata.

Średni błąd bezwzględny to średnia wartość. Strata L1 na przykład.

Regularyzacja L1

#fundamentals

Rodzaj regularizacji, który powoduje nałożenie kary. wagi proporcjonalne do sumy wartości bezwzględnej wag. Regularyzacja L1 pomaga zwiększać wagę nieistotnych elementów lub prawie nieistotne, aby dokładnie 0. Funkcja z: waga równa 0 zostaje skutecznie usunięta z modelu.

Różnica z L2 regularyzacją.

Strata L2

#fundamentals

Funkcja straty, która oblicza kwadrat różnicy między rzeczywistymi wartościami label i wartości prognozowane przez model. Przykład: obliczanie straty L2 dla grupy składającej się z 5 przykłady:

Rzeczywista wartość przykładu Prognozowana wartość modelu Kwadrat delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = strata L2

Z powodu kwadratów strata L2 zwiększa wpływ wartości odstające: Oznacza to, że strata L2 reaguje silniej na błędne prognozy niż L1 strata. Na przykład strata L1 dla poprzedniej partii będzie 8, a nie 16. Zwróć uwagę, że w jednym miejscu 9 z 16 wyników.

Modele regresji zwykle używają utraty L2 .

Błąd średniokwadratowy to średnia wartość Strata L2 na przykład. Utrata kwadratowa to inna nazwa straty L2.

Regularyzacja L2

#fundamentals

Rodzaj regularizacji, który powoduje nałożenie kary. wagi proporcjonalnie do sumy ich kwadratów. Regularyzacja L2 pomaga osiągać odstające wagi (te z wysokimi lub niskimi wartościami ujemnymi) bliskimi 0, ale nie do 0. Cechy o wartościach bardzo bliskich 0 pozostają w modelu ale nie wpływają zbytnio na prognozę modelu.

Regularyzacja L2 zawsze poprawia uogólnianie modele liniowe.

Różnica z L1 regularyzacją.

etykieta

#fundamentals

W nadzorowanych systemach uczących się „odbierz” lub „wynik” w przykładzie.

Każdy przykład oznaczony etykietą zawiera co najmniej jeden element funkcje i etykietę. Na przykład w folderze Spam wykrywania w zbiorze danych do wykrywania treści, etykieta miałaby prawdopodobnie wartość „spam” lub „nie spam”. W zbiorze danych „deszczownica” etykieta może być wartością deszcz, który padał w danym okresie.

przykład z etykietami

#fundamentals

Przykład zawierający co najmniej 1 funkcję oraz label. Na przykład w tabeli poniżej podano 3 z nich: oznaczone etykietami przykłady z modelu wyceny domu, z których każda zawiera 3 cechy i 1 etykieta:

Liczba sypialni Liczba łazienek Wiek domowy Cena domu (etykieta)
3 2 15 345 000 PLN
2 1 72 179 000 PLN
4 2 34 392 000 PLN

W przypadku nadzorowanych systemów uczących się modele trenują na przykładach oznaczonych etykietami i generują prognozy przykłady bez etykiet.

Przykład oznaczony kontrastem z przykładami bez etykiet.

lambda

#fundamentals

Synonim współczynnika regularyzacji.

Lambda to termin przeciążony. Skupiamy się na tym haśle definicji w ramach regularizacji.

warstwa

#fundamentals

Zbiór neuronów sieci neuronowej. Trzy najczęstsze typy warstw są następujące:

Na przykład na ilustracji poniżej przedstawiono sieć neuronowa jedną warstwę wejściową, dwie warstwy ukryte i jedną warstwę wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 warstwami ukrytymi i 1
          warstwę wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwszy
          ukryta warstwa składa się z trzech neuronów i drugiej
          składa się z dwóch neuronów. Warstwa wyjściowa składa się z jednego węzła.

W TensorFlow warstwy są również funkcjami w języku Python, które pobierają Tensors i opcje konfiguracji jako dane wejściowe w postaci danych wyjściowych innych tensorów.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która określa zjawisko gradientu. jak silnie dostosować wagi i uprzedzenia dla każdego iteracja. Na przykład tempo uczenia się na poziomie 0, 3 3 razy mocniej dostosowują wagi i odchylenia niż tempo uczenia się wynosi 0,1.

Tempo uczenia się to kluczowy hiperparametr. Jeśli ustawisz tempo uczenia się jest zbyt niskie, trenowanie zajmie za długo. Jeśli jeśli ustawisz zbyt wysokie tempo uczenia się, zejście gradientowe często powoduje problemy. i osiągać zgodność.

jednostajne

#fundamentals

Relacja między co najmniej 2 zmiennymi, którą można przedstawić wyłącznie przez dodawanie i mnożenie.

Wykres zależności liniowej jest linią.

Przeciwieństwem są nonlinear.

model liniowy

#fundamentals

Model, który przypisuje jedną wagę każdemu feature do prognozowania. (Modele liniowe uwzględniają też uprzedzenia). W przeciwieństwie do tego: związek cech z prognozami w modelach szczegółowych jest zwykle nonlinear.

Modele liniowe są zwykle łatwiejsze do wytrenowania i nie tylko interpretowalne niż modele głębokie. Pamiętaj jednak: modele głębokie mogą uczyć się złożonych relacji między cechami.

Regresja liniowa oraz regresja logistyczna to 2 rodzaje modeli liniowych.

regresja liniowa

#fundamentals

Typ modelu systemów uczących się, w którym spełnione są oba te warunki:

Porównaj regresję liniową z regresją logistyczną. Dodatkowo regresja kontrastowa dzięki klasyfikacji.

regresja logistyczna

#fundamentals

Typ modelu regresji, który prognozuje prawdopodobieństwo. Modele regresji logistycznej mają te cechy:

  • Etykieta jest kategoryczna. Termin logistyka Termin regresja odnosi się zwykle do binarnej regresji logistycznej, czyli w modelu, który oblicza prawdopodobieństwo dla etykiet o 2 możliwych wartościach. Mniej popularny wariant, wielomianowa regresja logistyczna, oblicza prawdopodobieństwa dla etykiet z więcej niż 2 możliwymi wartościami.
  • Funkcja utraty podczas trenowania to Log Loss (Utrata logów). (Wiele jednostek utraty logów można umieścić równolegle dla etykiet z więcej niż dwiema możliwymi wartościami).
  • Model ma architekturę liniową, a nie głęboką sieć neuronowa. Pozostała część tej definicji ma jednak zastosowanie również modele precyzyjne, które prognozują prawdopodobieństwa dla etykiet kategorialnych.

Weźmy na przykład model regresji logistycznej, który oblicza prawdopodobieństwo, że wpisany e-mail jest spamem lub nie jest spamem. Podczas wnioskowania załóżmy, że model przewiduje 0,72. Dlatego model szacuje:

  • 72% prawdopodobieństwa, że e-mail będzie spamem
  • 28% szans, że e-mail nie jest spamem.

Model regresji logistycznej wykorzystuje tę architekturę dwuetapową:

  1. Model generuje nieprzetworzoną prognozę (y') przez zastosowanie funkcji liniowej cech wejściowych.
  2. Model używa tej nieprzetworzonej prognozy jako danych wejściowych funkcja sigmoidalna, która konwertuje nieprzetworzoną dla prognozy na wartość z zakresu od 0 do 1 wyłącznie.

Podobnie jak każdy model regresji, model regresji logistycznej przewiduje liczbę. Jednak ta liczba zwykle staje się częścią klasyfikacji binarnej model w następujący sposób:

  • Jeśli prognozowana liczba jest większa niż próg klasyfikacji, model klasyfikacji binarnej prognozuje klasę pozytywną.
  • Jeśli prognozowana liczba jest mniejsza niż próg klasyfikacji, model klasyfikacji binarnej prognozuje klasę ujemną.

Logarytmiczna funkcja utraty danych

#fundamentals

Funkcja straty używana w formacie binarnym. regresji logistycznej.

log-odds,

#fundamentals

Logarytm prawdopodobieństwa wystąpienia określonego zdarzenia.

przegrana

#fundamentals

Podczas szkolenia model nadzorowany, czyli miara odległości prognoza modelu pochodzi z etykiety.

Funkcja straty oblicza stratę.

krzywa straty

#fundamentals

Wykres straty jako funkcja liczby treningów iteracji. Ten wykres przedstawia typową stratę krzywa:

Kartezyjski wykres strat i iteracji treningowych, przedstawiający
          gwałtowny spadek utraty danych w pierwszych iteracjach, po którym następuje stopniowy spadek
          spadek, a potem płaski spadek podczas ostatnich iteracji.

Krzywe straty pomagają określić, kiedy model zbędne lub nadmierne dopasowanie.

Krzywe straty mogą wykreślać wszystkie te typy strat:

Zobacz też krzywą uogólnienia.

funkcja straty

#fundamentals

Podczas szkolenia lub testowania funkcja matematyczna, która oblicza z grupą przykładów. Funkcja utraty zwraca mniejszą stratę dla modeli, które generują dobre prognozy, niż dla modeli, które złych prognoz.

Celem trenowania jest zazwyczaj zminimalizowanie utraty funkcji „powrót karetki”.

Istnieje wiele różnych rodzajów funkcji utraty. Wybierz odpowiednią stratę dla rodzaju tworzonego modelu. Na przykład:

M

systemy uczące się

#fundamentals

Program lub system, który szkoli model na podstawie danych wejściowych. Wytrenowany model może tworzyć przydatne prognozy na podstawie nowych (nigdy wcześniej niewidzianych) danych pochodzących z taki sam rozkład, jaki został użyty do trenowania modelu.

Uczenie maszynowe odnosi się również do danej dziedziny nauki z tymi programami lub systemami.

klasa większości

#fundamentals

Im bardziej popularna etykieta w zbiór danych o niezbalansowaniu klasy. Przykład: dla zbioru danych zawierającego 99% etykiet negatywnych i 1% pozytywnych, etykiety negatywne są większością.

Wskaż kontrast z klasą mniejszości.

minizbiorcza

#fundamentals

Mały, losowo wybrany podzbiór grup przetwarzany w jednym iteracja. Rozmiar grupy to zwykle od 10 do 1000 przykładów.

Załóżmy na przykład, że cały zbiór treningowy (pełna wsad) obejmuje 1000 przykładów. Załóżmy też, że ustawisz parametr rozmiar grupy każdej minigrupy do 20. Dlatego każde iteracja określa stratę na losowych 20 z 1000 przykładów,a następnie odpowiednio dostosowuje wagi i odchylenia.

Znacznie efektywniej obliczysz stratę w przypadku małych partii niż w przypadku wszystkich przykładów w całej partii.

klasa mniejszościowa

#fundamentals

Rzadziej używana etykieta w zbiór danych o niezbalansowaniu klasy. Przykład: dla zbioru danych zawierającego 99% etykiet negatywnych i 1% pozytywnych, etykiety dodatnie to klasa mniejszości.

Kontrast z klasą większości.

model

#fundamentals

Ogólnie każdy konstrukt matematyczny, który przetwarza dane wejściowe i zwroty dane wyjściowe. Inaczej mówiąc, model to zbiór parametrów i struktury jest niezbędna do generowania prognoz. W przypadku nadzorowanych systemów uczących się model bierze pod uwagę przykład jako dane wejściowe i wyciąga wartość prognoza jako dane wyjściowe. W ramach nadzorowanych systemów uczących się modele się nieco różnią. Na przykład:

  • Model regresji liniowej składa się ze zbioru wag. i uprzedzenia.
  • Model sieci neuronowej składa się z tych elementów:
    • Zestaw ukrytych warstw, z których każda zawiera jedną lub więcej neuronów.
    • Wagi i uprzedzenia związane z każdym neuronem.
  • Model drzewa decyzji składa się z tych elementów:
    • Kształt drzewa; czyli wzorca, w którym warunki i liście są połączone.
    • Warunki i opóźnienie.

Model możesz zapisać, przywrócić lub utworzyć jego kopie.

Nienadzorowane systemy uczące się generuje modele, zwykle funkcję, która może zmapować przykład danych wejściowych najbardziej odpowiedni klaster.

klasyfikacja wieloklasowa

#fundamentals

W uczeniu nadzorowanym problem z klasyfikacją w których zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą być jedną z tych etykiet: 3 klasy:

  • Irys setosa
  • Irys wirginica
  • Irys w wersji versicolor

Model wytrenowany na zbiorze danych Iris, który prognozuje typ przesłony na nowych przykładach przeprowadza klasyfikację wieloklasową.

Z kolei problemy z klasyfikacją rozróżniają dokładnie dwa rodzaje danych. to binarne modele klasyfikacji. Na przykład model poczty e-mail, który przewiduje spam lub nie spam. to binarny model klasyfikacji.

W problemach klastrowania klasyfikacja wieloklasowa odnosi się do więcej niż dwóch klastrów.

N

klasa negatywna

#fundamentals

W klasyfikacji binarnej 1 klasa jest określanych jako pozytywne, a drugie – ujemnych. Klasa pozytywna to rzecz lub zdarzenie, pod kątem których testuje model, a klasa ujemna to innej możliwości. Na przykład:

  • Ocena negatywna w teście medycznym może oznaczać, że to nie guz.
  • Wykluczona klasa w klasyfikatorze e-mail może mieć stan „Nie spam”.

Wskaż kontrast z klasą pozytywną.

sieć neuronowa

#fundamentals

Model zawierający co najmniej jeden ukrytą warstwę. Głęboka sieć neuronowa to typ sieci neuronowej. zawierające więcej niż jedną ukrytą warstwę. Na przykład ten diagram pokazuje głęboką sieć neuronową zawierającą 2 ukryte warstwy.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami
          warstwę wyjściową.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami w następnej warstwie. Na przykład na poprzednim diagramie widać, że każdy z 3 neuronów w pierwszej ukrytej warstwie łączą się oddzielnie z 2 neuronami drugą ukrytą warstwę.

Sieci neuronowe stosowane na komputerach są czasem nazywane sztucznych sieci neuronowych, aby odróżnić je od sieci neuronowych występujących w mózgu i innych układach nerwowych.

Niektóre sieci neuronowe mogą naśladować bardzo złożone relacje nieliniowe między różnymi cechami i etykietą.

Zobacz też splotową sieć neuronowa oraz powracającej sieci neuronowej.

neuron

#fundamentals

W systemach uczących się: odrębna jednostka w ukrytej warstwie. sieci neuronowej. Każdy neuron wykonuje następujące czynności działanie dwuetapowe:

  1. Oblicza sumę ważoną wartości wejściowych pomnożonych przez przez odpowiednią wagę.
  2. Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacji.

Neuron w pierwszej ukrytej warstwie przyjmuje dane wejściowe z wartości cech w warstwie wejściowej. Neuron w dowolnej ukrytej warstwie poza nią pierwszy przyjmuje dane wejściowe z neuronów w poprzedniej ukrytej warstwie. Na przykład neuron w drugiej ukrytej warstwie przyjmuje dane wejściowe z i neuronów w pierwszej ukrytej warstwie.

Na ilustracji poniżej przedstawiono 2 neurony i ich danych wejściowych.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami
          warstwę wyjściową. Zaznaczone są dwa neurony: jeden w pierwszym
          ukrytą, a drugą w drugiej ukrytej warstwie. Wyróżniony
          neuron w pierwszej ukrytej warstwie otrzymuje dane wejściowe z obu cech
          w warstwie wejściowej. Podświetlony neuron w drugiej ukrytej warstwie
          odbiera sygnały wejściowe każdego z trzech neuronów w pierwszym ukrytym
          warstwę.

Neuron w sieci neuronowej naśladuje zachowanie neuronów w mózgu i innych częściach układu nerwowego.

węzeł (sieć neuronowa)

#fundamentals

Neuron w ukrytej warstwie.

nonlinear

#fundamentals

Relacja między co najmniej 2 zmiennymi, której nie można przedstawić wyłącznie przez dodawanie i mnożenie. Relacja liniowa może być przedstawiona za pomocą linii, zależność nonlinear jest reprezentowana jako linia. Przeanalizujmy na przykład 2 modele, z którymi każdy się odnosi z jedną cechę na jedną etykietę. Model po lewej stronie jest liniowy a model po prawej stronie jest nieliniowy:

Dwa działki. Jeden wykres jest liniowy, więc jest to zależność liniowa.
          Drugi wykres jest krzywą, więc jest to zależność nieliniowa.

niestacjonarny

#fundamentals

Cecha, której wartości zmieniają się w przypadku jednego lub kilku wymiarów, zwykle w czasie. Rozważmy na przykład te przykłady niestacjonarności:

  • Liczba kostiumów kąpielowych sprzedawanych w danym sklepie różni się w zależności od pory roku.
  • Ilość konkretnych owoców zebranych w konkretnym regionie wynosi 0 przez większą część roku, ale jest duża przez krótki okres.
  • Z powodu zmian klimatycznych średnia roczna temperatura się zmienia.

Przeciwieństwem jest stacjonarność.

normalizacja

#fundamentals

Ogólnie rzecz biorąc, proces konwertowania rzeczywistego zakresu zmiennej do standardowego zakresu wartości, takiego jak:

  • Od -1 do +1
  • Od 0 do 1
  • rozkład normalny

Na przykład załóżmy, że rzeczywisty zakres wartości danej cechy to z 800 do 2400. W ramach projektowania funkcji możesz znormalizować wartości rzeczywiste do standardowego zakresu, jako -1, aby dać +1.

Normalizacja jest częstym zadaniem inżynierii cech. Modele zwykle trenują szybciej (i tworzyć lepsze prognozy), gdy każda funkcja liczbowa w funkcji wektor cech ma mniej więcej taki sam zakres.

dane liczbowe

#fundamentals

Funkcje reprezentowane w postaci liczb całkowitych lub liczb rzeczywistych. Na przykład model wyceny domu prawdopodobnie reprezentowałby wielkość domu (w stopach kwadratowych lub metrach kwadratowych) jako dane liczbowe. Reprezentuję jeśli cecha ma postać danych liczbowych, wskazuje, że jej wartości zostały związek matematyczny z etykietą. To oznacza, że liczba metrów kwadratowych domu zbudowana jest na podstawie matematyczny związek z wartością domu.

Nie wszystkie dane całkowite powinny być przedstawiane jako dane liczbowe. Przykład: kody pocztowe w niektórych częściach świata są liczbami całkowitymi. jednak, całkowita liczba pocztowa W modelach kody nie powinny być przedstawiane w postaci danych liczbowych. To dlatego, że kod pocztowy 20000 nie jest dwa (lub o połowę) wyższy niż kod pocztowy 10000. Mimo że różne kody pocztowe wiążą się z różnymi nieruchomości, nie możemy założyć, że wartości nieruchomości podane w kodzie pocztowym Wartość 20 000 w przypadku kodu pocztowego 10 000 ma 2 razy większą wartość niż nieruchomości. Kody pocztowe powinny być przedstawiane jako dane kategorialne .

Cechy liczbowe są czasami nazywane funkcje ciągłe.

O

offline

#fundamentals

Synonim słowa statyczny.

wnioskowanie offline

#fundamentals

Proces generowania grupy prognoz przez model a następnie buforować (zapisywać) te prognozy. Dzięki temu aplikacje będą miały dostęp do z pamięci podręcznej, zamiast ponownie uruchamiać model.

Rozważmy na przykład model, który generuje lokalne prognozy pogody. (prognozy) co 4 godziny. Po uruchomieniu każdego modelu system zapisuje w pamięci podręcznej wszystkie lokalne prognozy pogody. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Wnioskowanie offline nazywane jest też wnioskowaniem statycznym.

Różnica z wnioskowaniem online.

kodowanie one-got

#fundamentals

Przedstawianie danych kategorialnych w postaci wektora, w którym:

  • Jeden z elementów ma wartość 1.
  • Pozostałe elementy mają wartość 0.

Kodowanie jednorazowe jest zwykle stosowane do reprezentowania ciągów znaków lub identyfikatorów, mają ograniczony zestaw możliwych wartości. Załóżmy na przykład, że określona cecha kategorialna o nazwie Pole Scandinavia może zawierać pięć wartości:

  • „Dania”
  • „Szwecja”
  • „Norwegia”
  • „Finlandia”
  • „Islandia”

Jednokrotne kodowanie może reprezentować każdą z tych 5 wartości w następujący sposób:

country Wektor
„Dania” 1 0 0 0 0
„Szwecja” 0 1 0 0 0
„Norwegia” 0 0 1 0 0
„Finlandia” 0 0 0 1 0
„Islandia” 0 0 0 0 1

Dzięki kodowaniu „jedno gorące” model może uczyć się różnych połączeń w każdym z 5 krajów.

Przedstawianie cechy w postaci danych liczbowych to to alternatywa dla kodowania jeden-gotowego. Niestety reprezentuję Numeryczne kraje skandynawskie nie są dobrym rozwiązaniem. Przykład: mamy do czynienia z taką reprezentacją liczbową:

  • „Dania” wynosi 0
  • „Szwecja” wynosi 1
  • „Norwegia” to 2
  • „Finlandia” wynosi 3
  • „Islandia” wynosi 4

Przy kodowaniu numerycznym model interpretowałby nieprzetworzone liczby i spróbowałby trenować na tych liczbach. Jednak w Islandii nie jest 2 razy więcej (albo o połowę mniej) Tak jak w Norwegii, wyciągnie z niego dziwne wnioski.

jeden kontra wszystko

#fundamentals

W przypadku problemu klasyfikacji N klas funkcję zawierające N osobne klasyfikatory binarne – jeden klasyfikator binarny dla każdego możliwego wyniku. Na przykład model klasyfikujący przykłady zwierzęce, roślinne lub mineralne, rozwiązanie uniwersalne dałoby tych 3 osobnych klasyfikatorów binarnych:

  • zwierzę czy nie zwierzę
  • warzywne czy niewarzywne
  • minerał vs. nieminerał

online

#fundamentals

Synonim terminu dynamic.

wnioskowanie online

#fundamentals

generowanie prognoz na żądanie. Przykład: załóżmy, że aplikacja przekazuje dane wejściowe do modelu i wysyła żądanie z prognozą. System wykorzystujący wnioskowanie online odpowiada na żądanie, uruchamiając polecenie model (i zwrócenie prognozy do aplikacji).

Przeciwieństwem są wnioskowanie offline.

warstwa wyjściowa

#fundamentals

„Ostateczny” warstwa sieci neuronowej. Warstwa wyjściowa zawiera prognozę.

Ilustracja przedstawiająca małą głęboką sieć neuronowa z danymi wejściowymi warstwami, 2 ukrytymi warstwami i warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 warstwami ukrytymi i 1
          warstwę wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwszy
          ukryta warstwa składa się z trzech neuronów i drugiej
          składa się z dwóch neuronów. Warstwa wyjściowa składa się z jednego węzła.

nadmierne dopasowanie

#fundamentals

Utwórz model pasujący do: danych do trenowania, aby model nie aby tworzyć prawidłowe prognozy na podstawie nowych danych.

Regularizowanie może ograniczyć nadmierne dopasowanie. Trenowanie na dużym i zróżnicowanym zestawie treningowym może również ograniczyć nadmierne dopasowanie.

P

pandy

#fundamentals

Interfejs API analizy danych z orientacją na kolumny oparty na numpy. Wiele platform systemów uczących się, w tym TensorFlow, obsługuje jako dane wejściowe struktury danych Pandas. Zobacz dokumentacja pandas .

parametr

#fundamentals

Wagi i odchylenia, których model uczy się podczas szkoleń. Na przykład w parametrze regresji liniowej, parametry składają się z: uprzedzenia (b) i wszystkich wag (w1, w2, i tak dalej) w takim wzorze:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

hiperparametr to wartości, które Ty (lub usługa przełączania hiperparametrów) do modelu. Na przykład szybkość uczenia się jest hiperparametrem.

klasa pozytywna

#fundamentals

Zajęcia, których dotyczy test.

Na przykład klasą pozytywną w modelu raka może być „guz”. Pozytywną klasą w klasyfikatorze e-mail może być „spam”.

Ustaw kontrast z klasą ujemną.

obróbka

#fairness
#fundamentals

Dostosowywanie danych wyjściowych modelu po jego uruchomieniu. Przetwarzanie końcowe może być wykorzystywane do egzekwowania ograniczeń obiektywności bez na ich własnych modyfikowaniu.

Można na przykład zastosować przetwarzanie do klasyfikatora binarnego ustalając próg klasyfikacji w taki sposób, równość szans jest utrzymana; dla niektórych atrybutów, sprawdzając, czy prawdziwie pozytywny współczynnik dodatni jest taka sama dla wszystkich wartości tego atrybutu.

prognoza

#fundamentals

Dane wyjściowe modelu. Na przykład:

  • Prognoza modelu klasyfikacji binarnej jest albo dodatnia klasę lub klasę negatywną.
  • Prognoza modelu klasyfikacji wieloklasowej to jedna klasa.
  • Prognoza modelu regresji liniowej jest liczbą.

etykiety serwera proxy

#fundamentals

Dane używane do określania przybliżonych etykiet, które nie są bezpośrednio dostępne w zbiorze danych.

Załóżmy na przykład, że musisz wytrenować model do prognozowania, poziom stresu. Zbiór danych zawiera wiele funkcji prognozowanych, ale nie zawiera etykiety poziom stresu. Niezrażony, wybierasz „wypadki w miejscu pracy” jako etykiety proxy dla poziom stresu. W końcu pracownicy podatni na stres bardziej angażują się niż spokojnych pracowników. Czy tak? Być może wypadki w miejscu pracy. rosną i spadają z wielu powodów.

Na potrzeby drugiego przykładu załóżmy, że chcesz użyć etykiety czy pada? Twój zbiór danych nie zawiera danych o deszczach. Jeśli dostępnych zdjęć, możesz stworzyć zdjęcia ludzi, z parasolami jako etykietką, czy pada? Czy to dobrą etykietę serwera proxy? Możliwe, ale w niektórych kulturach ludzie częściej będą nosić parasole chroniące przed słońcem niż deszcz.

Etykiety serwera proxy są często niedoskonałe. Jeśli to możliwe, wybieraj rzeczywiste etykiety zamiast etykiet serwera proxy. Mając to na uwadze, jeśli brakuje rzeczywistej etykiety, wybierz serwer proxy bardzo ostrożnie, wybierając najmniej okropną etykietę proxy.

R

RAG

#fundamentals

Skrót od generowanie rozszerzonego wyszukiwania z wykorzystaniem pobierania.

oceniający

#fundamentals

Osoba, która zapewnia etykiety przykładów. „Twórca adnotacji” to inna nazwa oceniającego.

Prostokątna jednostka liniowa (ReLU)

#fundamentals

funkcję aktywacji o takim działaniu:

  • Jeśli dane wejściowe mają wartość ujemną lub zero, wynik wynosi 0.
  • Jeśli dane wejściowe są dodatnie, wynik jest równy wartości wejściowej.

Na przykład:

  • Jeśli wartość wejściowa to -3, wynik to 0.
  • Jeśli podana wartość to +3, wynik to 3,0.

Oto fabuła ReLU:

Wykres kartezjański składający się z dwóch wierszy. Pierwszy wiersz zawiera stałą
          wartość y 0, wzdłuż osi X, od -nieskończoność, 0 do 0,-0.
          Druga linia zaczyna się od 0,0. Nachylenie tej linii to +1, więc
          od 0,0 do +nieskończoności.

ReLU to bardzo popularna funkcja aktywacyjna. Pomimo prostego działania ReLU nadal umożliwia sieci neuronowej uczenie się nonlinear. zależności między funkcjami a etykietą.

model regresji

#fundamentals

Nieformalnie model generujący prognozę liczbową. (W przeciwieństwie do tego model klasyfikacji generuje klasę, prediction.) Poniżej znajdują się na przykład wszystkie modele regresji:

  • Model, który prognozuje wartość konkretnej domu,np. 423 000 euro.
  • Model, który prognozuje oczekiwaną długość życia drzewa, np.23,2 roku.
  • Model prognozujący ilość deszczu, który spadnie w określonym mieście w ciągu następnych 6 godzin, np.0,18 cala.

2 typowe modele regresji to:

  • Regresja liniowa, która znajduje linię, która najlepiej dopasowuje wartości etykiet do cech.
  • regresji logistyki, która generuje prawdopodobieństwo z zakresu od 0,0 do 1,0, które system zwykle mapuje na klasę z prognozą.

Nie każdy model, który generuje prognozy liczbowe, jest modelem regresji. W niektórych przypadkach prognoza numeryczna jest w rzeczywistości tylko modelem klasyfikacji które mają nazwy klas liczbowych. Na przykład model, który prognozuje, Numeryczny kod pocztowy jest modelem klasyfikacji, a nie modelem regresji.

regularyzacja

#fundamentals

Każdy mechanizm, który ogranicza nadmierne dopasowanie. Popularne typy regularyzacji to między innymi:

Regularizację można też zdefiniować jako karę ze względu na złożoność modelu.

współczynnik regularyzacji

#fundamentals

Liczba, która określa względne znaczenie regularizacji podczas trenowania. Promowanie częstotliwość regularyzacji zmniejsza nadmierne dopasowanie, ale może zmniejszają moc prognozowania modelu. I na odwrót, zmniejszanie lub pomijanie współczynnik regularyzacji zwiększa dopasowanie.

ReLU

#fundamentals

Skrót od wyprostowanej jednostki liniowej.

generowanie rozszerzone przez pobieranie (RAG)

#fundamentals

Technika poprawiania jakości dane wyjściowe dużego modelu językowego (LLM) uzależniając go od źródeł wiedzy pobranych po wytrenowaniu modelu. RAG zwiększa dokładność odpowiedzi LLM, udostępniając wytrenowanemu LLM dostępu do informacji pobranych z zaufanych baz wiedzy lub dokumentów.

Oto częste powody, dla których warto korzystać z generowania rozszerzonego przez wyszukiwanie:

  • Zwiększenie dokładności faktów wygenerowanych przez model.
  • Zapewnienie modelowi dostępu do wiedzy, na której nie został trenowany.
  • Zmiana wiedzy wykorzystywanej przez model.
  • Umożliwienie modelowi cytowania źródeł.

Załóżmy na przykład, że aplikacja chemiczna korzysta z modelu PaLM API do generowania podsumowań. związane z zapytaniami użytkowników. Gdy backend aplikacji odbiera zapytanie, system:

  1. Wyszukuje dane („pobiera”) dane związane z zapytaniem użytkownika.
  2. Dołącza („rozszerza”) odpowiednie dane chemiczne do zapytania użytkownika.
  3. Instruuje LLM do utworzenia podsumowania na podstawie dołączonych danych.

Krzywa charakterystyki operacyjnej odbiornika

#fundamentals

wykres współczynnika prawdziwie dodatniego w porównaniu z współczynnik wyników fałszywie pozytywnych dla różnych progi klasyfikacji w formacie binarnym. klasyfikacja danych.

Kształt krzywej ROC sugeruje zdolność modelu klasyfikacji binarnej aby oddzielić klasy pozytywne od negatywnych. Załóżmy na przykład, że że model klasyfikacji binarnej idealnie oddziela wszystkie wartości ujemne ze wszystkich klas pozytywnych:

Linia liczbowa z 8 przykładami dodatnimi po prawej stronie oraz
          7 negatywnych przykładów po lewej stronie.

Krzywa charakterystyki ROC poprzedniego modelu wygląda tak:

Krzywa charakterystyki operacyjnej odbiornika (ROC). Oś X oznacza współczynnik fałszywie pozytywnych, a oś Y.
          współczynnik prawdziwie pozytywnych. Krzywa ma odwrócony kształt L. Krzywa
          zaczyna się od (0,0,0,0) i przechodzi bezpośrednio do (0,0,1,0). Potem krzywa
          zmienia się z (0,0,1,0) na (1,0,1.0).

Dla porównania na ilustracji poniżej przedstawiono nieprzetworzoną regresję logistyczną. strasznego modelu, który nie potrafi oddzielić klas negatywnych od pozytywnej klasy,

Linia liczbowa z przykładami dodatnimi i ujemnymi
          z całkowitą mieszanką.

Krzywa charakterystyki ROC w tym modelu wygląda tak:

Krzywa ROC, która jest w rzeczywistości linią prostą na podstawie (0,0,0,0)
          do (1,0,1,0).

Tymczasem w świecie rzeczywistym większość modeli klasyfikacji binarnej oddziela w pewnym stopniu pozytywnych i negatywnych, ale zwykle nie jest idealnie. A więc, typowa krzywa ROC mieści się gdzieś pomiędzy 2 skrajnymi wartościami:

Krzywa charakterystyki operacyjnej odbiornika (ROC). Oś X oznacza współczynnik fałszywie pozytywnych, a oś Y.
          współczynnik prawdziwie pozytywnych. Krzywa ROC odzwierciedla kształt łuku drgającego
          podczas podróży z zachodu na północ.

Punkt na krzywej ROC najbliższy (0,0, 1,0) teoretycznie identyfikuje idealnego progu klasyfikacji. Istnieje jednak kilka innych rzeczywistych problemów, wpływają na wybór idealnego progu klasyfikacji. Przykład: być może wyniki fałszywie negatywne powodują znacznie większy ból niż wyniki fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC w pojedynczą wartość zmiennoprzecinkową.

Średnia kwadratowa błędów (RMSE)

#fundamentals

Pierwiastek kwadratowy z średniego kwadratu błędu.

S

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „ściska” wartość wejściową do ograniczonego zakresu, zwykle 0 do 1 lub -1 do +1. Oznacza to, że można przekazać dowolną liczbę (dwa, milion, do sigmoidy, a wynik będzie nadal ograniczony zakres. Schemat funkcji aktywacji sigmoidalnej wygląda tak:

Dwuwymiarowy, zakrzywiony wykres z wartościami x obejmującymi domenę
          -nieskończoność do +dodatnia, podczas gdy wartości y obejmują zakres niemal od 0 do
          prawie 1. Gdy x to 0, y to 0,5. Nachylenie krzywej jest zawsze
          dodatnia, o najwyższym nachyleniu na poziomie 0,0,5 i stopniowo malejącym
          wraz ze wzrostem wartości bezwzględnej x.

Funkcja sigmoidalna ma wiele zastosowań w uczeniu maszynowym, m.in.:

funkcja softmax

#fundamentals

Funkcja, która określa prawdopodobieństwo dla każdej możliwej klasy w argumencie model klasyfikacji wieloklasowej. prawdopodobieństwa dają sumę dokładnie 1,0. Na przykład w tabeli poniżej pokazujemy, jak rozkłada się działanie funkcji softmax różne prawdopodobieństwa:

Obraz jest... Probability,
pies 0,85
Cat 0,13
koń 0,02

Jest on też nazywany pełnym softmax.

Przeciwieństwem jest próbkowanie kandydatów.

cecha rozproszona

#language
#fundamentals

Cecha, której wartości mają głównie zero lub są puste. Na przykład cecha zawierająca pojedynczą wartość 1 i milion 0 to rozproszony. Natomiast obiekt gęsty ma wartości, które nie są zerowe ani puste.

W systemach uczących się zaskakująca liczba funkcji to rzadkie funkcje. Cechy kategorialne są zwykle rozproszone. Na przykład z 300 możliwych gatunków drzew w lesie jeden przykład może rozpoznać po prostu klon. Lub spośród milionów filmów dostępnych w bibliotece, jeden przykład może wskazać tylko „Casablanca”.

W modelu zazwyczaj są przedstawiane rozproszone cechy, kodowanie jedno- gorące. Jeśli jedno gorące kodowanie jest duże, możesz umieścić na niej warstwę umieszczania 1 kodowanie jednorazowe, co pozwala zwiększyć wydajność.

reprezentacja rozproszona

#language
#fundamentals

Przechowywanie w obiekcie rozproszonym tylko pozycji elementów innych niż zero.

Załóżmy na przykład, że cecha kategorialna o nazwie species identyfikuje 36 gatunków drzew w konkretnym lesie. Zakładamy więc, że każdy przykład wskazuje tylko jeden gatunek.

Do reprezentowania gatunków drzew w każdym przykładzie możesz użyć wektora 1 gorąca. Wektor o jednej wartości gorącej mógłby zawierać pojedynczy element 1 (oznaczający konkretnego gatunku drzewa z tego przykładu) i 35 kształtów 0 (reprezentujących 35 gatunków drzew w tym przykładzie). Wyjątkowa reprezentacja z maple może wyglądać mniej więcej tak:

Wektor, w którym pozycje od 0 do 23 mają wartość 0, pozycję
          24 zawiera wartość 1, a pozycje od 25 do 35 – wartość 0.

Ewentualnie rozproszona reprezentacja określałaby po prostu pozycję konkretnego gatunku. Jeśli maple znajduje się na pozycji 24, to reprezentacja rozproszona w maple będzie po prostu:

24

Zwróć uwagę, że reprezentacja rozproszona jest znacznie bardziej zwięzła niż danych „jedno gorące”. reprezentacja.

wektor rozproszony

#fundamentals

Wektor, którego wartości to głównie zera. Zobacz też rozproszone cechę i różnorodność.

strata do kwadratu

#fundamentals

Synonim L2 straty.

statyczne

#fundamentals

Coś, co trzeba zrobić raz, a nie bez przerwy. Hasła statyczny i offline to synonimy. Poniżej znajdziesz typowe przypadki użycia plików statycznych i offline w systemach uczących się. nauka:

  • model statyczny (lub model offline) to model wytrenowany raz, a potem nie były używane od jakiegoś czasu.
  • trenowanie statyczne (trenowanie offline) to proces trenowania statycznego modelu atrybucji.
  • wnioskowanie statyczne (lub wnioskowanie offline) to funkcja procesu, w którym model generuje jednocześnie porcję prognoz.

Przeciwieństwem są dynamiczne.

wnioskowanie statyczne

#fundamentals

Synonim wnioskowania offline.

stacjonarność

#fundamentals

Cecha, której wartości nie zmieniają się w żadnym lub kilku wymiarach, zwykle w czasie. Na przykład cecha, której wartości w 2021 r. wyglądają mniej więcej tak samo, 2023 r. – stacjonarność eksponatów.

W prawdziwym świecie niewiele cech cechuje się stabilizacją. Funkcje równomierne synonimy stabilności (takiej jak poziom morza) zmiany w czasie.

Przeciwieństwem jest niestacjonarność.

gradient stochastyczny (SGD)

#fundamentals

Algorytm gradientu, w którym rozmiar grupy wynosi 1. Innymi słowy, SGD trenuje na jednego przykładu wybranego równomiernie losowo ze zestawu treningowego.

nadzorowane systemy uczące się

#fundamentals

Wytrenuj model z funkcji i ich odpowiednie etykiety. Nadzorowane systemy uczące się są analogiczne przez przeanalizowanie zestawu pytań i ich odpowiadające odpowiedziom. Po opanowaniu mapowania między pytaniami odpowiedzi, uczeń może następnie odpowiedzieć na nowe (nigdy wcześniej niewidziane) pytań na ten sam temat.

Porównaj z nienadzorowanych systemów uczących się.

funkcja syntetyczna

#fundamentals

cechę, której nie ma wśród cech wejściowych, ale z co najmniej jednego. Metody tworzenia cech syntetycznych należy uwzględnić następujące elementy:

  • Grupowanie obiektu ciągłego do przedziałów zakresu.
  • Utworzenie różnych cech.
  • Mnożenie (lub dzielenie) jednej wartości cechy przez wartości innych cech lub samo w sobie. Jeśli na przykład a i b są cechami wejściowymi, to Oto przykłady funkcji syntetycznych:
    • ab
    • a2
  • Stosowanie funkcji transcendentalnej do wartości cechy. Jeśli na przykład c jest cechą wejściową, to następujące przykłady funkcji syntetycznych:
    • sin(c)
    • ln(c)

Funkcje tworzone przez normalizację lub skalowanie nie są uznawane za funkcje syntetyczne.

T

strata testowa

#fundamentals

Dane reprezentujące stratę modelu zestawu testowego. Tworząc model, zazwyczaj starają się zminimalizować stratę testów. Dzieje się tak, ponieważ niska strata testu silniejszy sygnał jakości niż niska utraty trenowania lub niewielką utratę walidacji.

Czasami duża luka między utratą testów a utratą trenowania lub utratą walidacji sugeruje, że należy zwiększyć częstotliwość regularyzacji.

szkolenie

#fundamentals

Proces określania idealnych parametrów (wag i parametrów) uprzedzeń) składającej się z modelu. Podczas trenowania system odczytuje przykładów i stopniowo dostosowuje parametry. W szkoleniu wykorzystywane są poszczególne w dowolnym miejscu – od kilku do miliardów razy.

utrata treningu

#fundamentals

Dane reprezentujące stratę modelu podczas w konkretnej iteracji trenowania. Na przykład załóżmy, że funkcja utraty to średni kwadrat błędu. Być może utrata trenowania (średnia) Kwadratowy błąd) dla dziesiątej iteracji wynosi 2,2, a utrata trenowania dla dziesiąta iteracja to 1,9.

Krzywa straty przedstawia liczbę utraconych ćwiczeń w porównaniu z liczbą powtórzenia. Krzywa strat zawiera następujące wskazówki dotyczące trenowania:

  • Nachylenie w dół oznacza, że model się rozwija.
  • Stwierdzenie rosnące oznacza, że model się pogarsza.
  • Płaski nachylenie oznacza, że model osiągnął zgodności.

Na przykład taka krzywa strat do pewnego stopnia wyidealizacji programy:

  • Ostry spadek podczas początkowych iteracji, co oznacza, że szybkiego ulepszania modelu.
  • Stopniowo spłaszczony (ale nadal w dół) aż do końca trenowania, co oznacza ciągłe ulepszanie modelu w pewnym stopniu wolniejsze tempo niż podczas pierwszych iteracji.
  • Płaski spadek pod koniec trenowania, co sugeruje zbieżność.

Wykres strat trenowania i iteracji. Ta krzywa utraty zaczyna się
     ze stromym spadkiem. Nachylenie stopniowo spłaszcza się do momentu
     nachylenie wynosi zero.

Choć utrata trenowania jest ważna, zobacz też uogólnienia.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między wydajnością modelu w okresie trenowania i skuteczności tego samego modelu w trakcie wyświetlania.

zbiór treningowy

#fundamentals

Podzbiór zbioru danych używany do trenowania modelu.

Zazwyczaj przykłady w zbiorze danych są dzielone na 3 z tych elementów: różne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednej podzbiorów. Na przykład jeden przykład nie powinien należeć do zarówno w zbiorze treningowym, jak i w zbiorze walidacyjnym.

Wynik prawdziwie negatywny (TN)

#fundamentals

Przykład, w którym model prawidłowo przewiduje klasa wykluczających słów kluczowych. Model zakłada na przykład, że konkretny e-mail nie jest spamem, który naprawdę jest nie są spamem.

prawdziwie pozytywny (TP)

#fundamentals

Przykład, w którym model prawidłowo przewiduje klasie pozytywnej. Model zakłada na przykład, że konkretny e-mail jest spamem, a ten e-mail to tak naprawdę spam.

współczynnik prawdziwie pozytywnych (TPR)

#fundamentals

Synonim wyrażenia recall. Czyli:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Współczynnik prawdziwie pozytywnych to oś Y na krzywej ROC.

U

niedopasowany

#fundamentals

Utworzenie modelu o niskiej zdolności prognozowania, ponieważ nie uchwycił w pełni złożoności danych treningowych. Wiele problemów mogą powodować niedopasowanie, w tym:

przykład bez etykiety

#fundamentals

Przykład, który zawiera funkcje, ale nie zawiera etykiety. Na przykład w poniższej tabeli znajdują się 3 przykłady domu bez etykiet. modelu cenowego, z których każdy ma 3 cechy, ale nie ma wartości autoreklamy:

Liczba sypialni Liczba łazienek Wiek domowy
3 2 15
2 1 72
4 2 34

W przypadku nadzorowanych systemów uczących się modele trenują na przykładach oznaczonych etykietami i generują prognozy przykłady bez etykiet.

W przypadku częściowo nadzorowanych i uczenie się nienadzorowane, podczas trenowania używane są przykłady bez etykiet.

Porównaj przykład bez etykiety z przykładem z etykietą.

nienadzorowane systemy uczące się

#clustering
#fundamentals

Wytrenowanie modelu do znajdowania wzorców w zbiorze danych, zwykle zbiór danych bez etykiet.

Najczęstszym zastosowaniem nienadzorowanych systemów uczących się jest dane cluster na grupy podobnych przykładów. Na przykład na komputerze nienadzorowanym algorytm uczenia się może grupować utwory na podstawie różnych właściwości muzyki. Powstałe w ten sposób klastry mogą być danymi wejściowymi dla innej maszyny algorytmów uczących się (np. w usłudze polecania muzyki). Grupowanie może pomóc, gdy brakuje przydatnych etykiet lub brakuje ich. Na przykład w domenach takich jak przeciwdziałanie nadużyciom i oszustwom klastry mogą pomóc a ludzie lepiej rozumieją dane.

Przeciwieństwem są nadzorowane systemy uczące się.

V

weryfikacja

#fundamentals

Wstępna ocena jakości modelu. Weryfikacja sprawdza jakość prognoz modelu w porównaniu z zestaw do walidacji.

Zestaw do weryfikacji różni się od zestawu treningowego, pomaga chronić przed nadmiernym dopasowaniem.

Ocena modelu pod kątem zestawu walidacji może być taka pierwszej rundy testowania i oceny modelu w porównaniu z test set to druga runda testów.

utrata weryfikacji

#fundamentals

Dane reprezentujące stratę modelu zestaw weryfikacji w danym okresie powtarzanie trenowania.

Zobacz też krzywą uogólnienia.

zestaw do weryfikacji

#fundamentals

Podzbiór zbioru danych, który wykonuje początkowy w porównaniu z wytrenowanym modelem. Zwykle ocenia się wytrenowanego modelu z zestawem walidacji, przed oceną modelu w odniesieniu do zestawu testowego.

Zwykle należy podzielić przykłady w zbiorze danych na 3 następujące różne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednej podzbiorów. Na przykład jeden przykład nie powinien należeć do zarówno w zbiorze treningowym, jak i w zbiorze walidacyjnym.

W

waga

#fundamentals

Wartość, którą model mnoży przez inną wartość. Trenowanie to proces wyznaczania idealnych wag modelu. wnioskowanie to proces użycia nauczonych wag do i przewidywać.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez odpowiadające im wartości ciężary. Załóżmy na przykład, że odpowiednie dane wejściowe składają się z tych elementów:

wartość wejściowa waga wejściowa
2 –1,3
-1 0,6
3 0,4

Suma ważona wygląda więc tak:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Suma ważona jest argumentem wejściowym funkcji funkcji aktywacji.

Z

Normalizacja wyniku Z

#fundamentals

Technika skalowania, która zastępuje feature o wartości zmiennoprzecinkowej, która reprezentuje liczbę odchyleń standardowych od średniej danej cechy. Na przykład rozważmy cechę, której średnia wynosi 800 i której standardowa odchylenie wynosi 100. W tabeli poniżej pokazujemy, jak normalizacja wyniku Z zmapuje nieprzetworzoną wartość na wynik Z:

Wartość nieprzetworzona Wynik Z
800 0
950 +1,5
575 –2,25

Model uczenia maszynowego trenuje następnie na wyniku Z dla danej cechy zamiast nieprzetworzonych wartości.