Słowniczek systemów uczących się

W tym glosariuszu znajdziesz ogólne terminy związane z systemami uczącymi się oraz charakterystycznych dla TensorFlow.

A

ablacja

Technika oceny znaczenia cech lub komponent przez tymczasowe usunięcie go z modelu. Następnie ponownie trenujesz model bez tej funkcji lub komponentu. Jeśli po ponownym przeszkoleniu model działa znacznie gorzej, prawdopodobnie usunięta funkcja lub komponent był ważny.

Na przykład załóżmy, że trenujesz model klasyfikacji na 10 funkcjach i uzyskać precyzję na poziomie 88%, zestaw testowy. Aby sprawdzić znaczenie pierwszej cechy, możesz przetrenować model tylko z użyciem 9 innych cech. Jeśli ponownie wytrenowany model osiąga znacznie gorszą skuteczność (na przykład precyzji wynoszącej 55%), usunięta funkcja była prawdopodobnie ważna. Jeśli natomiast model po ponownym przeszkoleniu działa równie dobrze, prawdopodobnie dana cecha nie była aż tak ważna.

Ablacja może również pomóc określić znaczenie:

  • większe komponenty, np. cały podsystem większego systemu ML.
  • procesy lub techniki, np. etap wstępnego przetwarzania danych

W obu przypadkach możesz obserwować, jak zmienia się (lub nie zmienia) skuteczność systemu po usunięciu komponentu.

Testy A/B

Statystyczny sposób porównywania dwóch (lub więcej) technik – A, i B. A to zazwyczaj istniejąca technika, a B to nowa technika. Testy A/B nie tylko określają, która technika jest skuteczniejsza, ale też czy różnica jest istotna statystycznie.

Testy A/B polegają zwykle na porównaniu jednego danych za pomocą 2 metod: na przykład jak dokładność modelu wypada dla dwóch? ? Testy A/B mogą jednak porównywać dowolną ograniczoną liczbę danych.

układ akceleratora

#GoogleCloud

Kategoria specjalistycznych komponentów sprzętowych zaprojektowanych do do obliczeń potrzebnych w algorytmach deep learning.

Układy akceleracyjne (czyli po prostu akceleratory) mogą znacznie zwiększyć szybkość i wydajność zadań związanych z trenowaniem oraz wnioskowaniem w porównaniu z procesorem uniwersalnym. Są one idealne do trenowania sieci neuronowych i podobnych zadań wymagających dużej mocy obliczeniowej.

Przykłady układów przyspieszających:

  • Jednostki Tensor Processing Unit (TPU) firmy Google (TPU) z dedykowanym sprzętem do deep learningu.
  • Procesory graficzne NVIDIA, które chociaż początkowo były zaprojektowane do przetwarzania grafiki, mają umożliwiać równoległe przetwarzanie, co może znacznie zwiększyć szybkość przetwarzania.

dokładność

#fundamentals

Liczba prognoz poprawnych klasyfikacji podzielona przez przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który dokonał 40 poprawnych prognoz i 10 błędnych prognozy będą miały dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja plików binarnych zawiera konkretne nazwy dla różnych kategorii prawidłowych prognoz i niepoprawnych prognoz. Wzór dokładności w przypadku klasyfikacji binarnej:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

Porównaj dokładność z precyzjościączułością.

Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane z nimi dane z Kursu intensywnego z systemów uczących się.

działanie

#rl

W przypadku uczenia przez wzmacnianie mechanizm, za pomocą którego agent przejścia między stanami klasy środowisko. Agent wybiera działanie na podstawie polityki.

funkcja aktywacji

#fundamentals

Funkcja, która umożliwia sieciom neuronowym uczenie się nonlinear (złożone) relacje między obiektami; i etykietę.

Popularne funkcje aktywacji:

Wykresy funkcji aktywacyjnych nigdy nie są pojedynczymi liniami prostymi. Na przykład wykres funkcji aktywacji ReLU składa się z: dwie proste linie:

Wykres kartezjański 2 linii. Pierwsza linia ma stałą wartość y równą 0, biegnącą wzdłuż osi x od –nieskończoności, 0 do 0, –0.
          Druga linia zaczyna się od 0,0. Nachylenie tej linii to +1, więc
          od 0,0 do +nieskończoności.

Schemat funkcji aktywacji sigmoidalnej wygląda tak:

Dwuwymiarowy, zakrzywiony wykres z wartościami x obejmującymi domenę
          -nieskończoność do +dodatnia, podczas gdy wartości y obejmują zakres niemal od 0 do
          prawie 1. Gdy x = 0, y = 0,5. Nachylenie krzywej jest zawsze dodatnie, przy czym największe nachylenie występuje przy wartości 0,05, a nachylenie stopniowo maleje wraz ze wzrostem bezwzględnej wartości x.

Zobacz Sieci neuronowe: aktywacja funkcje w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

aktywne uczenie się

Metoda treningowa, w której algorytm wybiera część danych, z których się uczy. Aktywna nauka jest szczególnie przydatny, gdy przykłady oznaczone etykietami są rzadkie lub kosztowne. Zamiast ślepo szukać zróżnicowanego zakresu przykładów z oznacznikami, algorytm aktywnego uczenia się selektywnie wyszukuje określony zakres przykładów, których potrzebuje do nauki.

AdaGrad

Zaawansowany algorytm gradientu prostego, który zmienia skalę gradientów każdego parametru, co w efekcie daje każdemu parametrowi niezależną szybkość uczenia się. Pełne wyjaśnienie znajdziesz w materiałach na temat tym artykule AdaGrad.

agent

#rl

W nauczaniu wzmacniającym jest to podmiot, który korzysta z reguły, aby zmaksymalizować oczekiwany zwrot uzyskany z przejścia między stanami otoczenia.

Ogólnie rzecz biorąc, agent to oprogramowanie, które autonomicznie planuje i wykonuje sekwencję działań w celu osiągnięcia celu, przy czym jest w stanie dostosować się do zmian w swoim środowisku. Na przykład agent oparty na LLM może używać LLM do generowania planu zamiast stosować zasady uczenia ze wzmocnieniem.

grupowanie aglomeracyjne

#clustering

Zobacz hierarchiczne grupowanie.

wykrywanie anomalii

Proces identyfikowania wyjątków odstających. Jeśli np. średnia cechy wynosi 100, a odchylenie standardowe – 10, wykrywanie anomalii powinno oznaczyć wartość 200 jako podejrzaną.

AR

Skrót od terminu rzeczywistość rozszerzona.

powierzchnia pod krzywą PR

Zobacz PR AUC (obszar pod krzywą PR).

powierzchnia pod krzywą ROC

Zobacz AUC (obszar pod krzywą ROC).

sztuczna inteligencja

Mechanizm niebędący człowiekiem, który wykazuje szerokie spektrum umiejętności rozwiązywania problemów, kreatywności i adaptacji. Na przykład program prezentujący sztuczne na podstawie ogólnej inteligencji potrafi tłumaczyć tekst, skomponować symfonie oraz doskonalić w grach, które nie zostały jeszcze wynalezione.

sztuczna inteligencja

#fundamentals

Program lub model nieprzeznaczony dla ludzi, który potrafi rozwiązać złożone zadania. Na przykład program lub model, który tłumaczy tekst, lub program lub model, który identyfikuje choroby na podstawie obrazów radiologicznych, wykorzystuje sztuczną inteligencję.

Formalnie systemy uczące się to poddziedzina sztucznej inteligencji. Jednak w ostatnich latach niektóre organizacje zaczęły używać terminów sztuczna inteligencjauczenie maszynowe zamiennie.

uwaga

#language

Mechanizm używany w sieci neuronowej, który wskazuje znaczenie danego słowa lub jego części. Uwaga kompresuje ilość informacji, których model potrzebuje, aby przewidzieć następny token/słowo. Typowy mechanizm uwagi może składać się suma ważona na zbiorze danych wejściowych, gdzie waga poszczególnych danych wejściowych jest obliczana przez inną część dzięki sieci neuronowej.

Zapoznaj się też z konceptami samouczenia sięsamouczenia się z wieloma głowami, które są elementami składowymi transformacji.

Zobacz LLM: co to jest duży język model 3D? w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

atrybut

#fairness

Synonim funkcji.

W obiektywności uczenia maszynowego atrybuty często odnoszą się do na cechy fizyczne.

próbkowanie atrybutów

#df

Taktyka trenowania lasu decyzji, w którym każdy Drzewo decyzji uwzględnia tylko losowy podzbiór możliwych funkcje podczas poznawania stanu. Zazwyczaj w przypadku każdego węzła jest losowany inny podzbiór cech. Natomiast podczas trenowania drzewa decyzyjnego bez próbkowania atrybutów dla każdego węzła są brane pod uwagę wszystkie możliwe cechy.

AUC (obszar pod krzywą ROC)

#fundamentals

Liczba z zakresu od 0,0 do 1,0, która reprezentuje zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Im wartość AUC jest bliższa wartości 1,0, tym większa zdolność modelu do rozdzielenia i lekcji.

Na przykład ilustracja poniżej przedstawia model klasyfikatora, który doskonale oddziela klasy pozytywne (zielone owalne pola) od klas negatywnych (fioletowe prostokąty). Ten nierealistycznie idealny model ma AUC 1,0:

Po jednej stronie osi liczbowej znajduje się 8 pozytywnych przykładów, a po drugiej – 9 negatywnych.

Ilustracja poniżej przedstawia wyniki modelu klasyfikatora, który generował losowe wyniki. Ten model ma wartość AUC wynoszącą 0,5:

Linia liczbowa z 6 przykładami dodatnimi i 6 ujemnymi.
          w kolejności przykładów: dodatnia, ujemna,
          pozytywne, negatywne, pozytywne, negatywne, pozytywne, negatywne, pozytywne
          negatywną, dodatnią, negatywną.

Tak, poprzedni model ma AUC 0,5, a nie 0,0.

Większość modeli znajduje się gdzieś pomiędzy tymi dwoma skrajnościami. Na przykład plik poniższy model oddziela nieco wartości dodatnie od negatywnych, dlatego ma wartość AUC mieszczącą się w zakresie od 0,5 do 1,0:

Linia liczbowa z 6 pozytywnymi i 6 ujemnymi przykładami.
          Sekwencja przykładów jest ujemna, ujemna, ujemna, ujemna,
          pozytywny, negatywny, pozytywny, pozytywny, negatywny, pozytywny, pozytywny
          pozytywnym.

AUC ignoruje każdą ustawioną wartość próg klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi kwalifikacji.

Zobacz klasyfikację: ROC i AUC w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

rzeczywistość rozszerzona

#image

Technologia, która nakłada obraz wygenerowany komputerowo na widok świata widziany przez użytkownika, tworząc w ten sposób obraz złożony.

autoencoder

#language
#image

System, który uczy się wyodrębniać najważniejsze informacje z danych wejściowych. Autoenkoder to połączenie enkoderadekodera. Autoenkodery działają w ramach następującego dwuetapowego procesu:

  1. Koder mapuje dane wejściowe na (zwykle) stratny, mniej-wymiarowy (pośredni).
  2. Dekoder kompiluje stratną wersję pierwotnych danych wejściowych przez mapowanie tym niższym wymiarom niż oryginalne, format wprowadzania.

Autoenkodery są trenowane kompleksowo, a dekodery próbują odtworzyć oryginalne dane wejściowe z pośredniego formatu kodowania w jak najbliższej postaci. Format pośredni jest mniejszy (mniejszy wymiar) niż w formacie oryginalnym, autokoder jest wymuszany aby dowiedzieć się, jakie informacje wejściowe są niezbędne, a dane wyjściowe nie będą będą całkowicie identyczne z danymi wejściowymi.

Na przykład:

  • Jeśli dane wejściowe to grafika, kopia niepełna będzie podobna do oryginalnej grafiki, ale nieco zmodyfikowana. Być może kopia niepełna usuwa szum z pierwotnej grafiki lub wypełnia brakujące piksele.
  • Jeżeli danymi wejściowymi jest tekst, autokoder wygeneruje nowy tekst, imituje (ale nie jest identyczny) oryginalny tekst.

Zobacz też automatyczne kodery zmiennoprzecinkowe.

błąd automatyzacji

#fairness

Gdy osoba decyzyjna preferuje rekomendacje automatyczne do procesu decyzyjnego w odniesieniu do informacji podejmowanych bez automatyzacji, nawet gdy automatyczny system decyzyjny popełnia błędy.

Zobacz Obiektywność: typy uprzedzenie w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

AutoML

Każdy zautomatyzowany proces tworzenia systemów uczących się. modeli. AutoML może automatycznie wykonywać takie zadania jak:

AutoML przydaje się badaczom danych, ponieważ pozwala zaoszczędzić czas wysiłek w tworzenie potoków systemów uczących się i usprawnienie prognozowania dokładności. Ta metoda jest też przydatna dla osób, które nie są ekspertami, ponieważ komplikują i zadania uczenia maszynowego łatwiej dostępne.

Więcej informacji znajdziesz w sekcji Automatyczne systemy uczące się (AutoML) w szybkim szkoleniu z uczenia maszynowego.

model autoregresywny

#language
#image
#generativeAI

model, który wyprowadza prognozę na podstawie swoich poprzednich prognoz. Na przykład automatycznie regresywne modele językowe przewidują kolejne token na podstawie wcześniej przewidywanych tokenów. Wszystkie modele oparte na Transformer duże modele językowe są automatycznie regresywne.

Z kolei modele obrazów oparte na GAN zwykle nie są autoregresyjne, ponieważ generują obraz w jednym przejeździe do przodu, a nie w kolejnych krokach. Jednak niektóre modele generowania obrazów automatycznie regresywne, ponieważ krok po kroku generują obraz.

strata usługi pomocniczej

Funkcja straty – używana w połączeniu z funkcją Model sieci neuronowej funkcję utraty danych, która pomaga przyspieszyć trenowanie podczas w przypadku wczesnych iteracji, gdy wagi są zainicjowane losowo.

Funkcje pomocnicze funkcji straty przesyłają skuteczne gradienty do wcześniejszych warstw. Ułatwia to konwergencji podczas treningu, ponieważ zwalcza problem zanikania gradientu.

średnia precyzja

Dane podsumowujące skuteczność sekwencji wyników uporządkowanych według rankingu. Średnia precyzja jest obliczana na podstawie średniej wartości precision dla każdego trafnego wyniku (każdy wynik lista rankingowa, na której czułość zwiększa się w stosunku do poprzedniego wyniku).

Zobacz też Obszar pod krzywą PR.

warunek wyrównany do osi

#df

W drzewie decyzyjnym warunek, który obejmuje tylko 1 cechę. Na przykład, jeśli pole jest cechą, to taki warunek jest dopasowany do osi:

area > 200

Kontrast z warunkiem ukośnym.

B

propagacja wsteczna

#fundamentals

Algorytm implementujący gradient gradientowy w sieci neuronowych.

Szkolenie sieci neuronowej obejmuje wiele iteracji w ramach tego 2-etapowego cyklu:

  1. W trakcie przebiegu do przodu system przetwarza grupę obejmującą przykłady generowania prognoz. System porównuje każdą prognozę z każdą wartością etykiety. Różnica między prognozą a wartością etykiety to strata w danym przykładzie. System agreguje straty dla wszystkich przykładów, aby obliczyć łączną wartość dla bieżącego wsadu.
  2. Podczas przesyłania wstecznego (backpropagation) system zmniejsza straty przez dostosowanie wag wszystkich neuronów we wszystkich warstwach ukrytych.

Sieci neuronowe często zawierają wiele neuronów w wielu ukrytych warstwach. Każdy z tych neuronów przyczynia się do całkowitej utraty danych na różne sposoby. Propagacja wsteczna określa, czy zwiększyć czy zmniejszyć wagę dla konkretnych neuronów.

Tempo uczenia się to mnożnik, który kontroluje stopień, o jaki każde przejście wstecz zwiększa lub zmniejsza każdą wagę. Duże tempo uczenia się będzie zwiększać lub zmniejszać każdą wagę więcej niż małe tempo uczenia się.

W ramach rachunku rachunkowego przez propagację wsteczną implementuje się reguła łańcucha. na podstawie rachunku różniczkowego. Oznacza to, że propagacja wsteczna oblicza częściową pochodną błędu względem każdego parametru.

Wiele lat temu osoby zajmujące się systemami uczącymi się musiały pisać kod, aby wdrożyć propagację wsteczną. Nowoczesne interfejsy API systemów uczących się, takie jak Keras, wdrażają teraz propagację wsteczną. Uff...

Zobacz Sieci neuronowe w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

bagging

#df

Metoda treningu zbioru, w którym każdy model jest trenowany na losowym podzbiorze przykładów treningowych z wymianą. Na przykład losowy las to zbiór drzew decyzyjnych wytrenowanych za pomocą metody baggingu.

Termin bagging to skrót od bootstrap aggregating.

Więcej informacji znajdziesz w temacie lasy losowe w kursie Lasy decyzyjne.

torba słów

#language

reprezentacja słów w wyrażeniu lub fragmencie tekstu, niezależnie od ich kolejności. Na przykład torebka słów reprezentuje te 3 wyrażenia w identyczny sposób:

  • pies podskakuje
  • skaczący pies
  • pies skacze

Każde słowo jest mapowane na indeks w rozproszonym wektorze, gdzie wektor ma indeks każdego słowa w słowniku. Na przykład wyrażenie pies skacze jest mapowane na wektor cech z wartościami innymi niż 0 w 3 indeksach odpowiadających słowom the, dogjumps. Wartość różna od 0 może być dowolna:

  • 1 oznacza obecność słowa.
  • Liczba wystąpień słowa w torbie. Jeśli na przykład wyrażenie brzmiałoby brązowy pies to pies o brązowym futrze, zarówno brąz, jak i pies miałyby wartość 2, a pozostałe słowa – wartość 1.
  • Inna wartość, np. logarytm liczby razy jakieś słowo pojawi się w torbie.

bazowa

Model używany jako punkt odniesienia przy porównywaniu (zwykle jest on bardziej złożony). Na przykład model regresji logistycznej może stanowić dobrą podstawę dla głębokiego modelu.

W przypadku konkretnego problemu punkt odniesienia pomaga deweloperom modeli określić minimalną oczekiwaną skuteczność, jaką nowy model musi osiągnąć, aby był przydatny.

wsad

#fundamentals

Zestaw przykładów użytych w jednej iteracji. Rozmiar wsadu określa liczbę przykładów w wsad.

Wyjaśnienie związku grupy z grupą znajdziesz w sekcji epoka. epoki.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

zbiorcze wnioskowanie

#TensorFlow
#GoogleCloud

Proces wnioskowania na podstawie wielu danych przykłady bez etykiet podzielone na mniejsze podzbiory („wsady”).

Wnioskowanie wsadowe pozwala korzystać z funkcji równoległości układów akceleratora. Oznacza to, że wiele akceleratorów może jednocześnie dokonywać prognoz na różnych zbiorach nieoznaczonych przykładów, znacznie zwiększając liczbę wnioskowań na sekundę.

Zobacz produkcyjne systemy ML: statyczne a dynamiczne wnioskowanie w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

normalizacja wsadowa

Normalizowanie danych wejściowych lub wyjściowych funkcji aktywacyjnych w ukrytą warstwę. Normalizacja zbiorcza może przynieść następujące korzyści:

wielkość wsadu

#fundamentals

Liczba przykładów w grupie. Jeśli na przykład rozmiar partii wynosi 100, model przetwarza 100 przykładów na iterację.

Oto popularne strategie dotyczące wielkości wsadu:

  • Stochastic Gradient Descent (SGD), gdzie rozmiar wsadu wynosi 1.
  • Pełny wsad, w którym rozmiar wsadu to liczba przykładów w całej training set (zestaw treningowy). Jeśli na przykład zbiór treningowy zawiera milion przykładów, wielkość wsadu będzie wynosić milion przykłady. Strategia polegająca na użyciu pełnej partii jest zwykle nieskuteczna.
  • minipartii, w której rozmiar partii wynosi zwykle od 10 do 1000. Strategia minipartii jest zwykle najskuteczniejsza.

Więcej informacji znajdziesz w tych artykułach:

Bayesowskie sieci neuronowe

Prawdopodobna sieć neuronowa odpowiadająca za: niepewności w wagach i danych wyjściowych. Standardowa sieć neuronowa model regresji zwykle prognozuje wartość skalarną; Na przykład model standardowy przewiduje cenę domu, z 853 000. Bayesowskie sieć neuronowa przewiduje natomiast rozkład values; Na przykład model Bayesa przewiduje cenę domu na poziomie 853 000, odchylenie standardowe wynoszące 67 200.

Sieć neuronowa Bayesa korzysta z  twierdzenia Bayesa do obliczania niepewności wag i prognoz. Bayesowski neuronowy przydaje się, gdy trzeba ocenić niepewność, na przykład powiązanych z farmaceutykami. Bayesowskie sieci neuronowe również mogą pomóc i zapobiegaj nadmiernym dopasowaniu.

Optymalizacja bayesowska

Technika modelu regresji probabilistycznej służąca do optymalizacji kosztownej pod względem obliczeniowym funkcji celu, która zamiast tego optymalizuje funkcję zastępczą, która określa niepewność za pomocą techniki uczenia bayesowskiego. Optymalizacja bayesowska jest bardzo kosztowna, dlatego zwykle służy do optymalizowania zadań, które są kosztowne w weryfikacji i mają niewielką liczbę parametrów, np. dobierania hiperparametrów.

równanie Bellmana

#rl

W uczeniu ze wzmocnieniem ta tożsamość jest zaspokajana przez optymalną funkcję Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Stosują je algorytmy uczenia przez wzmacnianie Tożsamość na potrzeby tworzenia Q-learning za pomocą tej reguły aktualizacji:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Poza uczeniem wzmacniającym równanie Bellmana ma zastosowanie w programowaniu dynamicznym. Zobacz Wpis w Wikipedii dotyczący równania Bellmana

BERT (koder dwukierunkowy prezentacje z przekształceń)

#language

Architektura modelu do reprezentacji tekstu. Wytrenowany model BERT może być częścią większego modelu do klasyfikacji tekstu lub innych zadań uczenia maszynowego.

BERT ma te cechy:

Dostępne warianty BERT:

Zobacz Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Przetwarzam aby dowiedzieć się więcej o modelu BERT.

uprzedzenia (etyka/sprawiedliwość)

#fairness
#fundamentals

1. Tworzenie stereotypów lub faworyzowanie określonych rzeczy, ludzi lub grup względem innych. Te uprzedzenia mogą wpływać na zbieranie i interpretowanie danych, projektowanie systemu oraz sposób, w jaki użytkownicy z nim współpracują. Do form tego rodzaju uprzedzeń należą:

2. Błąd systematyczny wprowadzony przez procedury próbkowania lub raportowania. Do form tego rodzaju uprzedzeń należą:

Nie należy mylić z terminem uprzedzeń w modelach systemów uczących się. czy odchylenia prognozy.

Zobacz Obiektywność: typy uprzedzenie w Szybkie szkolenie z uczenia maszynowego, aby dowiedzieć się więcej.

bias (matematyka) lub wyraz upośledzenia

#fundamentals

Przecięcie lub przesunięcie od punktu początkowego. Odchylenie to parametr w systemów uczących się, które są symbolizowane przez :

  • b
  • ty0

Na przykład wartość przesunięcia to b w tej formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W przypadku prostej linii dwuwymiarowej odchylenie oznacza po prostu „współrzędna y”. Na przykład na ilustracji poniżej nachylenie linii wynosi 2.

Wykres linii o nachyle 0,5 i błądzie (współrzędnej y) równym 2.

Występuje ona, ponieważ nie wszystkie modele zaczynają się od punktu wyjścia (0,0). Przykład: Załóżmy, że wstęp do parku rozrywki kosztuje 2 EUR i dodatkowo 0,5 euro za każdą godzinę pobytu klienta. Dlatego model mapujący łączny koszt ma odchylenie do 2, ponieważ najniższy koszt to 2 euro.

Uprzedzeń nie należy mylić z uprzedzeniami w kwestiach etyki i uczciwości czy odchylenia prognozy.

Zobacz regresję liniową. w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

dwukierunkowe

#language

Termin używany do opisania systemu oceniającego tekst, który następuje i śledzi docelową sekcję tekstu. Natomiast jednokierunkowy system analizuje tylko tekst, który poprzedza docelowy fragment tekstu.

Rozważ na przykład model językowy z maskowaniem, który musi określać prawdopodobieństwo dla słów lub słów reprezentujących podkreślenie w następujące pytanie:

Jaka jest _____ z Tobą?

Model językowy jednokierunkowy musiałby opierać swoje prawdopodobieństwa tylko na kontekście określonym przez słowa „co”, „jest” i „ten”. W przeciwieństwie do tego: dwukierunkowy model językowy może też uzyskać kontekst dzięki słowu „z” i „Ty”, co może pomóc modelowi w generowaniu lepszych prognoz.

dwukierunkowy model językowy

#language

model językowy, który określa prawdopodobieństwo wystąpienia danego tokena w danym miejscu w wyciągu z tekstu na podstawie poprzedzającegonastępującego tekstu.

bigram

#seq
#language

N-gram, w którym N=2.

klasyfikacja binarna

#fundamentals

Typ zadania klasyfikacji, które prognozuje jedną z dwóch wzajemnie wykluczających się klas:

Na przykład te 2 modele systemów uczących się osiągają skuteczność: klasyfikacja binarna:

  • Model, który określa, czy wiadomości e-mail są spamem (klasa pozytywna) czy nie są spamem (klasa negatywna).
  • Model, który ocenia objawy medyczne, aby określić, czy dana osoba ma określoną chorobę (klasa pozytywna) czy nie (klasa negatywna).

Porównaj z klasyfikacją wieloklasową.

Zobacz też regresję logistycznawartość progową klasyfikacji.

Więcej informacji znajdziesz w sekcji Klasyfikacja w szybkim szkoleniu z uczenia maszynowego.

warunek binarny

#df

W drzewie decyzji warunek który ma tylko 2 możliwe wyniki – zwykle tak lub nie. Na przykład taki warunek binarny:

temperature >= 100

Porównaj z stanem niebinarnym.

Więcej informacji znajdziesz w sekcji Typy warunków w kursie Lasy decyzyjne.

Binning

Synonim bucketingu.

BLEU (Bilingual Evaluation Understudy)

#language

Wynik od 0,0 do 1,0 włącznie, który wskazuje jakość tłumaczenia między dwoma językami ludzkimi (np. angielskim i rosyjskim). A BLEU Wynik 1,0 oznacza tłumaczenie perfekcyjne; Wynik BLEU równy 0,0 wskazuje kiepskie tłumaczenie.

wzmacnianie

Technika systemów uczących się, która iteracyjnie łączy zestaw prostych i niezbyt dokładnych klasyfikatorów (zwanych „słabymi”) w klasyfikator o wysokiej dokładności (czyli „silny”). Dokonuje tego, zwiększając wagę przykładów, które model obecnie klasyfikuje błędnie.

Zobacz decyzję z wzmocnieniem gradientu Drzewa? lekcji na temat lasów decyzyjnych.

ramka ograniczająca

#image

Na obrazie współrzędne (x, y) prostokąta wokół obszaru zainteresowania, np. psa na obrazie poniżej.

Zdjęcie psa siedzącego na sofie. Zielony prostokąt ograniczający z współrzędnymi (275, 1271) w lewym górnym rogu i współrzędnymi (2954, 2761) w prawym dolnym rogu obejmuje ciało psa

transmisja

Rozszerzanie kształtu operandu w operacji matematycznej do postaci macierzy wymiarów zgodnych z tą operację. Na przykład w algebrze liniowej wymagane jest, aby 2 operandy w operacji dodawania macierzy miały te same wymiary. Nie można dodać macierzy kształtów (m, n) do wektora o długości n. Transmisja włącza tę operację przez wirtualnie rozszerzając wektor o długości n do macierzy kształtu (m, n) przez powielanie tych samych wartości w dół każdej kolumny.

Na przykład, biorąc pod uwagę poniższe definicje, algebra liniowa zabrania A+B, ponieważ A i B mają różne wymiary:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Jednak transmisja umożliwia operację A + B poprzez wirtualne rozszerzenie B do:

 [[2, 2, 2],
  [2, 2, 2]]

A+B jest teraz prawidłową operacją:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Zobacz opis tej funkcji transmisja w NumPy, aby uzyskać więcej informacji.

skategoryzowanie w przedziałach

#fundamentals

Przekształcanie pojedynczej cechy w wiele cech binarnych zwanych zasobnikami lub bindami, zwykle na podstawie zakresu wartości. Przecięty obiekt to zwykle cechy ciągłej.

Na przykład zamiast przedstawiać temperaturę jako pojedynczą ciągłą cechę zmiennoprzecinkową, możesz podzielić zakresy temperatur na oddzielne zbiory, takie jak:

  • <= 10 stopni Celsjusza będzie „zimno” zasobnika.
  • Od 11 do 24 stopni Celsjusza to temperatura umiarkowana zasobnika.
  • >= 25 stopni Celsjusza będzie „ciepłe” zasobnika.

Model będzie traktować każdą wartość w tym samym zasobniku jednakowo. Na przykład wartości 1322 znajdują się w worku z umiarkowanym klimatem, więc model traktuje te 2 wartości tak samo.

Patrz: Dane liczbowe: Łączenie w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

C

warstwa kalibracyjna

Korekta po prognozie, zwykle uwzględniająca błąd prognozy. Skorygowane prognozy i wartości prawdopodobieństwa powinny być zgodne z rozkładem obserwowanego zbioru etykiet.

generacja kandydatów

#recsystems

Początkowy zestaw rekomendacji wybrany przez systemem rekomendacji. Weźmy na przykład księgarnię, która oferuje 100 tys. tytułów. Faza generowania kandydatów tworzy czyli znacznie krótszej listy książek odpowiednich dla konkretnego użytkownika, np. 500. Ale nawet 500 książek to za dużo, aby polecić je użytkownikowi. Kolejne, droższe fazy systemu rekomendacji (np. ocenianieponownie ustalanie rankingu) ograniczają te 500 wartości do znacznie mniejszego, bardziej przydatnego zestawu rekomendacji.

Zobacz Generowanie kandydatów omówienie znajdziesz więcej informacji o systemach rekomendacji.

próbkowanie kandydatów

Optymalizacja podczas trenowania, która oblicza prawdopodobieństwo dla wszystkich pozytywnych etykiet, używając na przykład softmaxa, ale tylko dla losowej próbki negatywnych etykiet. Na przykład w przypadku przykładu z etykietą beagledog próbkowanie kandydatów oblicza przewidywane prawdopodobieństwa i odpowiednie warunki utraty dla:

  • beagle
  • pies
  • losowy podzbiór pozostałych klas negatywnych (np. cat, lizak czy płot).

Założenie jest takie, że klasy negatywne mogą się uczyć na podstawie rzadszego wzmocnienia negatywnego, o ile klasy pozytywne zawsze otrzymują odpowiednie wzmocnienie pozytywne. Jest to rzeczywiście obserwowane empirycznie.

Dobór kandydatów jest bardziej wydajny pod względem obliczeń niż algorytmy trenowania które obliczają prognozy dla wszystkich klas negatywnych, zwłaszcza gdy jest bardzo duża liczba klas negatywnych.

dane kategorialne

#fundamentals

Funkcje mające określony zestaw możliwych wartości. Rozważmy na przykład cechę kategorialną o nazwie traffic-light-state, która może mieć jedną z tych 3 możliwych wartości:

  • red
  • yellow
  • green

Dzięki temu, że traffic-light-state jest cechą kategoryczną, model może nauczyć się różny wpływ usług red, green i yellow na zachowanie kierowcy.

Funkcje kategorialne są czasami nazywane funkcjami dyskretnymi.

Kontrastuje z danymi liczbowymi.

Zobacz Praca z kategoriami dane w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

przyczynowy model językowy

#language

Synonim jednokierunkowego modelu językowego.

Zobacz dwukierunkowy model językowy, aby: kontrastują różne podejścia kierunkowe w modelowaniu językowym.

centroid

#clustering

Środek klastra określony za pomocą wartości k-średnich lub algorytm k-mediana. Jeśli na przykład k = 3, algorytm k-średnich lub k-median znajdzie 3 centroidy.

Zobacz Algorytmy grupowania. , aby dowiedzieć się więcej.

grupowanie oparte na centroidach

#clustering

Kategoria algorytmów grupowania, które porządkują dane w niehierarchiczne klastry. Zmienna k-średnie jest najpopularniejszą algorytm grupowania oparty na centroidach.

kontrast z grupowaniem hierarchicznym; za pomocą algorytmów.

Zobacz Algorytmy grupowania. , aby dowiedzieć się więcej.

wykorzystanie w prompcie łańcucha myśli

#language
#generativeAI

Technika zastosowania prompta, która zachęca duży model językowy (LLM) do wyjaśnienia swojego rozumowania krok po kroku. Weź pod uwagę tę prośbę, zwracając szczególną uwagę na drugie zdanie:

Ile ciężarów g-my wystąpi w samochodzie, którego wartość mieści się w zakresie od 0 do 60 mil na godzinę w 7 sekundach? W odpowiedzi pokaż wszystkie odpowiednie obliczenia.

Odpowiedź LLM prawdopodobnie:

  • Pokaż sekwencję wzorów fizycznych, dołączając wartości 0, 60 i 7 w odpowiednich miejscach.
  • Wyjaśnij, dlaczego wybrano te wzory i co oznaczają poszczególne zmienne.

Prompty z łańcuchem myśli zmuszają LLM do wykonania wszystkich obliczeń, co może skutkować bardziej poprawną odpowiedzią. Ponadto prompt łańcucha myślenia umożliwia użytkownikowi sprawdzenie kroków LLM, aby określić, czy odpowiedź ma sens.

czat

#language
#generativeAI

Treść dialogu z systemem ML, zwykle z dużym modelem językowym. Poprzednia interakcja w czacie (to, co wpisujesz i jak duży model językowy reaguje) staje się kontekstem dla kolejnych części czatu.

Czatbot to aplikacja oparta na dużym modelu językowym.

punkt kontroli

Dane, które rejestrują stan parametrów modelu podczas trenowania lub po jego zakończeniu. Na przykład podczas szkolenia możesz:

  1. Zatrzymanie trenowania, być może celowo lub w wyniku pewnych błędów.
  2. Przechwyć punkt kontrolny.
  3. Później ponownie załaduj punkt kontrolny, prawdopodobnie na innym sprzęcie.
  4. Ponownie uruchom trening.

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Na przykład:

Model klasyfikacji służy do prognozowania klasy. Model regresji prognozuje natomiast a nie klasą.

Zobacz klasyfikację w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

model klasyfikacji

#fundamentals

model, którego prognoza to klasa. Na przykład wszystkie modele klasyfikacji:

  • Model, który przewiduje język zdania wejściowego (francuski? Hiszpański? włoski).
  • Model, który przewiduje gatunek drzewa (Maple? Dąb? Baobab?).
  • Model, który prognozuje klasę pozytywną lub negatywną dla określonego stanu medycznego.

Modele regresji przewidują natomiast liczby, a nie klasy.

Dostępne są 2 popularne typy modeli klasyfikacji:

próg klasyfikacji

#fundamentals

W przypadku klasyfikacji binarnej liczba z zakresu od 0 do 1, która przekształca wynik nieprzetworzony modelu regresji logistycznej w prognozę klasy pozytywnej lub klasy negatywnej. Pamiętaj, że próg klasyfikacji to wartość wybrana przez człowieka, a nie wartość wybrana przez trenowanie modelu.

Model regresji logistycznej zwraca wartość surową z zakresu od 0 do 1. Następnie:

  • Jeśli ta wartość jest większa od progu klasyfikacji, prognozowana jest klasa pozytywna.
  • Jeśli ta wartość jest niższa od progu klasyfikacji, przewidywana jest klasa negatywna.

Załóżmy na przykład, że próg klasyfikacji wynosi 0,8. Jeśli nieprzetworzona wartość wynosi 0,9, model przewiduje klasę pozytywną. Jeśli wartość surowa wynosi 0,7, model przewiduje klasę negatywną.

Wybór progu klasyfikacji w dużym stopniu wpływa na liczbę fałszywie pozytywnych i fałszywie negatywne.

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

zbiór danych z niezrównoważonymi klasami

#fundamentals

Zbiór danych do problemu klasyfikacji, w którym łączna liczba etykiet w poszczególnych klasach różni się znacznie. Weźmy na przykład zbiór danych klasyfikacji binarnej, w którym dwie etykiety są podzielone w taki sposób:

  • 1 000 000 etykiet negatywnych
  • 10 etykiet pozytywnych

Stosunek etykiet negatywnych do pozytywnych wynosi 100 000 do 1, więc jest to zbiór danych z niezrównowagą klas.

W przeciwieństwie do tego następujący zbiór danych nie jest równoważony w klasie, ponieważ stosunek etykiet negatywnych do etykiet pozytywnych jest względnie bliski 1:

  • 517 etykiet negatywnych
  • 483 etykiety pozytywne

Wieloklasowe zbiory danych też mogą być nierównoważone w stosunku do klas. Na przykład ten zbiór danych do klasyfikacji wieloklasowej jest również niezrównoważony pod względem klas, ponieważ jedna etykieta ma znacznie więcej przykładów niż pozostałe 2:

  • 1 000 000 etykiet z klasą „green”
  • 200 etykiet z klasą „fioletowy”
  • 350 etykiet z klasą „pomarańczowy”

Zobacz też entropię, klasę większościklasę mniejszości.

przycinanie

#fundamentals

Technika radzenia sobie z wynikami odstającymi przez wykonanie jeden lub oba z tych elementów:

  • Zmniejszanie wartości parametru feature, które są większe od wartości maksymalnej do tego maksymalnego progu.
  • zwiększenie wartości atrybutów, które są mniejsze niż minimalny próg, do tego minimalnego progu;

Załóżmy na przykład, że mniej niż 0,5% wartości danej cechy wykracza się poza zakres 40–60. W takim przypadku możesz:

  • Przytnij wszystkie wartości powyżej 60 (próg maksymalny), aby dokładnie ustawić 60.
  • Wszystkie wartości poniżej 40 (minimalny próg) są przycinane do 40.

Wartości odstające od reszty mogą uszkodzić modele, czasami powodując przepełnienie wag podczas trenowania. Niektóre wartości odstające mogą też znacznie pogorszyć wyniki wskaźników takich jak trafność. Przycinanie to powszechna technika ograniczania szkody.

Odcięcie gradientu powoduje, że podczas trenowania wartości gradientu mieszczą się w określonym zakresie.

Więcej informacji znajdziesz w sekcji Dane liczbowe: normalizacja z Kursu intensywnego na temat uczenia maszynowego.

Cloud TPU

#TensorFlow
#GoogleCloud

Specjalny akcelerator sprzętowy zaprojektowany z myślą o przyspieszaniu zadań systemów uczących się w Google Cloud.

grupowanie

#clustering

Grupowanie powiązanych przykładów, zwłaszcza w okresie uczenie nienadzorowane. Gdy wszystkie przykłady zostaną pogrupowane, użytkownik może opcjonalnie nadać znaczenie poszczególnym klasterom.

Istnieje wiele algorytmów grupowania. Na przykład k-średnie algorytm grupuje przykłady na podstawie ich bliskości centroid, jak na tym schemacie:

Dwuwymiarowy wykres, na którym oś X jest oznaczona jako szerokość drzewa,
          Oś Y jest oznaczona etykietą „Wysokość drzewa”. Wykres zawiera dwa
          centroidów i kilkudziesięciu punktów danych. Punkty danych są kategoryzowane na podstawie ich bliskości. Oznacza to, że punkty danych
          najbliższe jednego centroidu są klasyfikowane jako klaster 1, a
          najbliższe drugiego centroidu – jako klaster 2.

Naukowiec może następnie przeanalizować klastry i na przykład oznacz grupę 1 jako „drzewa karłowate” i klastry 2 jako „pełnowymiarowe drzewa”.

Rozważmy kolejny przykład algorytm grupowania oparty na odległość od punktu środkowego, którą przedstawiono w następujący sposób:

Dziesiątki punktów danych są rozmieszczone na koncentrycznych okręgach,
          takie jak otwory na środku tarczy. Najwewnętrzny krąg punktów danych jest skategoryzowany jako klaster 1, środkowy krąg jako klaster 2, a zewnętrzny krąg jako klaster 3.

Więcej informacji znajdziesz w Kursie dotyczącym klasteringu.

współadaptacja

Gdy neurony przewidują wzorce w danych treningowych, opierając się prawie wyłącznie na wyjściach innych neuronów, a nie na zachowaniu sieci jako całości. Jeśli w danych weryfikacyjnych nie występują wzorce, które powodują adaptację współbieżną, to powoduje ona nadmierne dopasowanie. Regularizowanie porzuceń ogranicza współadaptację bo rezygnacja sprawia, że neurony nie mogą polegać wyłącznie na konkretnych, innych neuronach.

filtrowanie grupowe

#recsystems

prognozowanie zainteresowań jednego użytkownika, na podstawie zainteresowań wielu innych użytkowników. Filtrowanie grupowe jest często stosowane w systemach rekomendacji.

Więcej informacji znajdziesz w temacie filtrowania współpracy w kursie dotyczącym systemów rekomendacji.

dryf koncepcji,

zmiana relacji między cechami a etykietą. Dryf koncepcji z czasem obniża jakość modelu.

Podczas trenowania model uczy się relacji między cechami ich etykiety w zbiorze treningowym. Jeśli etykiety w zbiorze treningowym dobrze odzwierciedlają rzeczywistość, model powinien dobrze prognozować w rzeczywistych warunkach. Jednak ze względu na dryf koncepcji model prognozy z czasem stają się coraz gorsze.

Weźmy na przykład klasyfikację binarną model, który prognozuje, czy dany model samochodu jest „oszczędny na spalanie”. Oznacza to, że funkcje mogą być:

  • masa samochodu
  • kompresja silnika
  • typ transmisji

gdy etykieta jest:

  • oszczędne spalanie
  • nie jest oszczędne pod względem zużycia paliwa;

Jednak koncepcja „samochodu o niskim zużyciu paliwa” trzyma zmian. Model samochodu oznaczony w 1994 r. jako oszczędny w spalaniu w 2024 r. z pewnością zostałby oznaczony jako nieoszczędny w spalaniu. Model cierpiący z powodu dryfu koncepcji i generują z czasem mniej trafne i mniej przydatne prognozy.

Wskaż podobieństwa i różnice między niestacjonarnością.

stan

#df

W drzewie decyzji dowolny węzeł, który ocenia wyrażenie. Na przykład ta część drzewo decyzyjne zawiera 2 warunki:

Drzewo decyzyjne z 2 warunkami: (x > 0) i (y > 0).

Warunek jest też nazywany podziałem lub testem.

Stan kontrastu z wartością liść.

Zobacz także:

Więcej informacji znajdziesz w sekcji Typy warunków w kursie Lasy decyzyjne.

konfabulacja

#language

Synonim halucynacji.

Konfabulacja jest prawdopodobnie bardziej poprawnym terminem technicznym niż halucynacja. Jednak najpierw zyskały na popularności.

konfiguracja

Proces przypisywania początkowych wartości właściwości służących do trenowania modelu, w tym:

W projektach systemów uczących się konfigurację można ustawić za pomocą specjalnego pliku konfiguracji lub bibliotek konfiguracji, takich jak:

efekt potwierdzenia

#fairness

to tendencja do wyszukiwania, interpretowania, faworyzowania i przywoływania informacji w sposób, który potwierdza wcześniejsze przekonania lub hipotezy. Programiści systemów uczących się mogą w sposób niezamierzony zbierać informacje lub oznaczać etykietami w sposób wpływający na wyniki wspierające istniejące przekonania. Efekt potwierdzenia jest formą nieświadomego uprzedzeń.

Błąd eksperymentowania to forma stronniczości potwierdzenia, w którym eksperymentator kontynuuje trenowanie modeli, dopóki nie potwierdzenie hipotezy.

tablica pomyłek

#fundamentals

Tabela N × N podsumowująca liczbę poprawnych i niepoprawnych prognoz modelu klasyfikacji. Rozważmy na przykład poniższą tablicę pomyłek dla Model klasyfikacji binarnej:

Guz (prognozowany) Nienowotworowe (prognozy)
Nowotwór (dane podstawowe) 18 (TP) 1 (FN)
Inne niż tumor (ground truth) 6 (FP) 452 (TN)

Poprzednia tablica pomyłek wygląda tak:

  • Spośród 19 prognoz, w których dane podstawowe to „Nowotwór”, model prawidłowo zaklasyfikował 18 z nich, a jedną błędnie.
  • Spośród 458 prognoz, w przypadku których dane podstawowe były oparte na danych innych niż Tumor, model poprawnie sklasyfikowanych 452 i błędnie 6.

Tablica pomyłek dla problemu wieloklasowej klasyfikacji może pomóc w identyfikacji wzorców błędów. Rozważ na przykład tę macierz błędów dla 3-klasowego modelu klasyfikacji wieloklasowej, który kategoryzuje 3 różne rodzaje irysów (Virginica, Versicolor i Setosa). W czasach, gdy była ona Wirginią, tablica pomyłek wskazuje, że model z większym prawdopodobieństwem pomyli się ustaw prognozę Versicolor niż Setosa:

  Setosa (przewidywane) Versicolor (prognoza) Virginica (prognoza)
Setosa (dane podstawowe) 88 12 0
Versicolor (dane podstawowe) 6 141 7
Virginica (ground truth), 2 27 109

Kolejny przykład to tablica pomyłek pokazująca, że model wytrenowany rozpoznawalność odręcznych cyfr zwykle błędnie ocenia 9 zamiast 4, lub błędnie określono 1 zamiast 7.

Matryc konfuzji zawiera wystarczającą ilość informacji do obliczenia różnych danych o skuteczności, w tym precyzjiczułości.

analizowanie okręgów wyborczych

#language

Dzielenie zdania na mniejsze struktury gramatyczne („składniki”). Kolejna część systemu ML, np. modelu rozumienia języka naturalnego, może przeanalizować składniki składowe łatwiej niż oryginalne zdanie. Przykład: pomyśl o tym zdaniu:

Mój przyjaciel adoptował 2 koty.

Analizator składowych może podzielić to zdanie na 2 składniki:

  • Mój przyjaciel to wyrażenie rzeczownikowe.
  • adoptowane dwa koty to czasownik.

Te składniki można dalej dzielić na mniejsze składniki. Na przykład czasownik

adoptował 2 koty

może być dalej podzielony na:

  • adopted to czasownik.
  • dwa koty to kolejne wyrażenie rzeczownikowe.

wbudowanie języka w treści kontekstowe

#language
#generativeAI

Umieszczanie, które jest bliskie „zrozumienia” słowa i wyrażenia w sposób, który umożliwi rodzimym użytkownikom języka. Umieszczanie w kontekście za pomocą wektorów osadzonych w języku pozwala zrozumieć złożoną składnię, semantykę i kontekst.

Weź pod uwagę na przykład reprezentacje właściwościowe z angielskiego słowa cow. Starsze wektory dystrybucyjne np. word2vec, może oznaczać polski takie jak odległość w obszarze umieszczanym. od krowy do byka jest podobna do odległości od ewe (samiec owiec) do Ram (samiec owcy) lub kobieta na mężczyznę. Uczenie się kontekstowych wektorów językowych może pójść o krok dalej i rozpoznać, że użytkownicy języka angielskiego czasami używają słowa cow (krowa) w znaczeniu krowa lub byk.

okno kontekstu

#language
#generativeAI

Liczba tokenów, które model może przetworzyć w danym promptzie. Im większe okno kontekstu, tym więcej informacji może wykorzystać model, aby udzielać spójnych i konsekwentnych odpowiedzi na prompt.

cecha ciągła

#fundamentals

funkcję zmiennoprzecinkową o nieskończonym zakresie możliwych; takie jak temperatura czy waga.

Skontrastuj się z funkcjami dyskretnymi.

dobór wygodny

Korzystanie z zbioru danych zebranego nienaukowo do przeprowadzania szybkich eksperymentów. Później należy przejść na zbiór danych zebrany w sposób naukowy.

zbieżność

#fundamentals

stan, w którym wartości strat zmieniają się bardzo niewiele lub nie po wszystkich iteracjach. Na przykład: krzywa strat sugeruje zbieżność przy około 700 iteracjach:

Wykres kartezjański. Oś X to strata. Oś Y to liczba iteracji trenowania. Strata jest bardzo duża w pierwszych iteracjach, ale
          gwałtownie spada. Po około 100 iteracjach utrata nadal maleje, ale znacznie wolniej. Po około 700 iteracjach strata pozostaje na stałym poziomie.

Model zbiera się, gdy dodatkowe trenowanie nie poprawia jego wyników.

W deep learningu wartości strat czasami pozostają stałe lub prawie stałe przez wiele iteracji, zanim w końcu zaczną maleć. W przypadku długiego okresu stałej wartości utraty możesz mieć chwilowo fałszywe wrażenie zbieżności.

Zobacz też wczesne zatrzymanie.

Zobacz Zbieżność i strata modelu krzywe w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

funkcja wypukła

Funkcja, w której region nad wykresem funkcji jest konweksyjnym zbiorem. Prototypowa wypukła funkcja ma kształt zbliżony do litery U. Na przykład: to wszystkie funkcje wypukłe:

krzywe w kształcie litery U, z pojedynczym punktem minimalnym.

Natomiast funkcja podana poniżej nie jest wypukła. Zwróć uwagę, że funkcja obszar nad wykresem nie jest zestawem wypukłym:

Krzywa w kształcie litery W z 2 różnymi lokalnymi punktami minimum.

Funkcja ściśle wypukła ma dokładnie jeden punkt lokalnego minimum, który jest też punktem globalnego minimum. Klasyczne funkcje o kształcie litery U są funkcjami ściśle wypukłymi. Niektóre funkcje wypukłe (np. linie proste) nie mają kształtu U.

Więcej informacji znajdziesz w sekcji Konwergencja i funkcje wypukłe w Kursie intensywnym z systemów uczących się.

optymalizacja wklęsła

Proces korzystania z technik matematycznych, takich jak gradient prostego, w celu znalezienia minimum funkcji wypukłej. Wiele badań nad uczeniem maszynowym koncentrowało się na formułowaniu różnych problemów jako problemów z zakresu optymalizacji wklęsłej oraz na ich efektywniejszym rozwiązywaniu.

Szczegółowe informacje można znaleźć na stronach Boyda i Vandenberghego, Convex Optymalizacja.

zestaw wypukły

Podzbiór przestrzeni euklidesowej, w którym linia narysowana między dowolnymi 2 punktami w podzbiorze pozostaje całkowicie w ramach podzbioru. Na przykład te 2 kształty są zbiorami wypukłymi:

Ilustracja prostokąta. Kolejna ilustracja owalu.

W przeciwieństwie do tego następujące 2 kształty nie są zestawami wypukłymi:

Jedna ilustracja przedstawiająca wykres kołowy z brakującym wycinkiem.
          Inna ilustracja przedstawiająca nieregularny wielokąt.

splot

#image

W matematyce w codziennym zabieganiu jest to połączenie dwóch funkcji. W uczeniu maszynowym konwolucja łączy konwolucyjny filtr z macierzą wejściową, aby wytrenować wagi.

Termin „konwolucja” w uczeniu maszynowym często jest skrótem od operacji konwolucyjnej lub warstwy konwolucyjnej.

Bez splotów algorytm systemów uczących się musiałby nauczyć się osobnego wagi dla każdej komórki w dużym tensorze. Na przykład algorytm uczenia maszynowego trenowany na obrazach 2K x 2K musiałby znaleźć 4 mln oddzielnych wag. Dzięki splotom systemy uczące się znajdzie tylko wagi dla każdej komórki w filtr skonwolucyjny, znacząco zmniejszając pamięci niezbędną do wytrenowania modelu. Gdy zastosujesz filtr konwolucyjny, zostanie on po prostu powielony w komórkach, tak aby każda z nich została pomnożona przez filtr.

Więcej informacji znajdziesz w module Wprowadzenie do konwolucyjnych sieci neuronowych w kursie Klasyfikacja obrazów.

filtr konwolucyjny

#image

Jeden z 2 aktorów operacji splotowej. (Drugi aktor wycinkiem macierzy wejściowej). Filtr splotowy to macierz, w której tej samej rankingu co matryca wejściowa, ale o mniejszym kształcie. Na przykład w przypadku macierzy wejściowej 28 x 28 filtr może być dowolną macierzą 2D mniejszą niż 28 x 28.

W przypadku manipulacji fotograficznej wszystkie komórki w filtrze konwolutacji są zwykle ustawione na stały wzór jedynek i zer. W uczeniu maszynowym filtry konwolucyjne są zwykle zasilane losowymi liczbami, a następnie sieć trenowana dobiera optymalne wartości.

Zobacz Convolution więcej informacji znajdziesz w kursie na temat klasyfikacji obrazów.

warstwa konwolucyjna

#image

Warstwa głębokiej sieci neuronowej, w której splotowy filtr przetwarza wejściową macierz. Weźmy na przykład ten filtr splotowy o wymiarach 3 x 3:

Macierz 3 x 3 z tymi wartościami: [[0,1,0], [1,0;1], [0,1,0]]

Animacja poniżej przedstawia warstwa konwolucyjna, która składa się z 9 operacji konwolucyjnych z użyciem wejściowej macierzy 5 x 5. Zwróć uwagę, że każdy operacja splotowa działa na innym wycinku macierzy wejściowej 3 x 3. Wynikowa macierz 3 x 3 (po prawej) składa się z wyników 9 operacji konwolucyjnych:

Animacja przedstawiająca 2 macierz. Pierwsza macierz to
          macierz: [[128,97,53,201,198], [35,22,25,200,195],
          [37 24,28 197 182], [33 28,92 195 179], [31 40 100 192 177]].
          Druga to macierz 3 × 3:[[181,303,618], [115,338,605], [169,351,560]].
          Druga matryca jest obliczana przez zastosowanie filtra convolacyjnego [[0, 1, 0], [1, 0, 1], [0, 1, 0]] do różnych podzbiorów 3 x 3 macierzy 5 x 5.

Więcej informacji znajdziesz w sekcji Pełno połączone warstwy w Kursie klasyfikacji obrazów.

splotowa sieć neuronowa

#image

Sieci neuronowej, w której co najmniej jedna warstwa jest warstwą konwolucyjną. Typowa sieć neuronowa z konwolucją składa się z pewnej kombinacji tych warstw:

Konwolucyjne sieci neuronowe osiągnęły wielki sukces w określonych rodzajach takich jak rozpoznawanie obrazów.

operacja splotowa

#image

Następujący dwuetapowe działanie matematyczne:

  1. Element-wise multiplication of the convolutional filter and a slice of an input matrix. (wycinek macierzy wejściowej ma ten sam wymiar i rozmiar co filtr konwolucyjny).
  2. Suma wszystkich wartości w wynikowej macierzy iloczynów.

Na przykład użyj tej macierzy wejściowej 5 x 5:

Macierz 5 x 5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Wyobraź sobie teraz taki filtr splotowy 2 x 2:

Matryca 2 x 2: [[1, 0], [0, 1]]

Każda operacja splotowa obejmuje pojedynczy wycinek 2x2 macierzy wejściowej. Na przykład załóżmy, że używamy wycinka 2x2 w miejscu w lewym górnym rogu macierzy wejściowej. Operacja splotu na tym kawałku wygląda tak:

Stosuję filtr splotowy [[1, 0], [0, 1]] w lewym górnym rogu
          2x2 macierzy wejściowej, czyli [[128,97], [35,22]].
          Filtr convolucyjny pozostawia wartości 128 i 22 bez zmian, ale ustawia na 0 wartości 97 i 35. W efekcie operacja splotu daje
          wartość 150 (128+22).

Warstwa splotowa składa się splotowe operacje, z których każda działa na innym wycinku, macierzy wejściowej.

koszt

Synonim słowa strata.

wspólne szkolenie

Metoda uczenia nadzorowanego częściowego jest szczególnie przydatna, gdy spełnione są wszystkie te warunki:

Zasadniczo wspólne trenowanie wzmacnia sygnały niezależne w celu uzyskania silniejszego sygnału. Weźmy np. model klasyfikacji, który klasyfikuje poszczególne używane samochody jako Dobre lub Złe. Jeden zestaw funkcji predykcyjnych może skupiać się na cechach zbiorczych, takich jak rok, marka i model samochodu, a inny zestaw funkcji predykcyjnych może skupiać się na historii jazdy poprzedniego właściciela i historii konserwacji samochodu.

Artykuł na temat wspólnego szkolenia to Łączenie danych oznaczonych etykietami i bez etykiet z Wspólne szkolenie prowadzone przez Blum i Mitchell.

obiektywność kontrfaktyczna

#fairness

Wskaźnik obiektywności, który sprawdza, czy klasyfikator daje taki sam efekt u jednej osoby, jak u innej osoby. który jest identyczny z pierwszym, oprócz jednego lub kilku atrybuty poufne. Ocena klasyfikatora pod kątem obiektywności warunkowej to jeden ze sposobów na wykrycie potencjalnych źródeł stronniczości w modelu.

Więcej informacji znajdziesz w jednym z tych artykułów:

błąd pokrycia

#fairness

Zobacz błąd doboru.

rozkwit

#language

zdanie lub wyrażenie o niejednoznacznym znaczeniu; Kwitnące kwitnące drzewa są poważnym problemem w środowisku naturalnym rozumienia języków. Na przykład nagłówek Czerwona taśma trzymająca wieżowiec to ponieważ model NLU mógł dosłownie zinterpretować nagłówek lub przekonująco.

krytyk

#rl

Synonim wyrażenia Deep Q-Network.

entropia krzyżowa

Uogólnienie pojęcia Log Loss: Problemy z klasyfikacją wieloklasową. Entropia krzyżowa pozwala określić różnicę między dwoma rozkładami prawdopodobieństwa. Zobacz też złożoność.

weryfikacja krzyżowa

Mechanizm szacowania, jak dobrze model mógłby uogólnić nowych danych, testując model dla co najmniej 1 niepokrywających się podzbiorów danych z zestawu treningowego.

funkcja rozkładu skumulowanego (CDF)

Funkcja, która definiuje częstotliwość próbek mniejszych lub równych wartość docelową. Rozważmy na przykład rozkład normalny wartości ciągłych. CDF informuje, że około 50% próbek powinno być mniejsze lub równe do średniej oraz że około 84% próbek powinno być mniejsze lub równe do jednego odchylenia standardowego powyżej średniej.

D

analiza danych

Uzyskanie zrozumienia danych przez analizę próbek, pomiarów, i wizualizacji. Analiza danych może być szczególnie przydatna, gdy zbiór danych zostanie po raz pierwszy odebrany, zanim uda się zbudować pierwszy model. Jest to też kluczowe w rozumieniu eksperymentów i rozwiązywaniu problemów z systemem.

wzbogacanie danych

#image

Sztuczne zwiększanie zakresu i liczby przykładów treningowych przez przekształcanie dotychczasowych przykładów w celu utworzenia dodatkowych przykładów. Załóżmy na przykład, że obrazy są jedną z właściwości, ale Twój zbiór danych nie zawiera wystarczającej liczby przykładów obrazów, aby model mógł się nauczyć przydatnych skojarzeń. W idealnej sytuacji do zbioru danych należy dodać wystarczającą liczbę oznaczonych obrazów, aby umożliwić prawidłowe trenowanie modelu. Jeśli nie jest to możliwe, rozszerzanie danych może obracać, rozciągać i odbijać poszczególne obrazy, aby wygenerować wiele wersji oryginalnego zdjęcia. Dzięki temu można uzyskać wystarczającą ilość danych z oznacznikami, aby umożliwić skuteczne trenowanie.

[struktura] DataFrame

#fundamentals

Popularny typ danych pandas służący do reprezentowania zbiorów danych w pamięci.

DataFrame przypomina tabelę lub arkusz kalkulacyjny. Każda kolumna argumentu element DataFrame ma nazwę (nagłówek), a każdy wiersz jest identyfikowany przez tag niepowtarzalny numer.

Każda kolumna w DataFrame ma strukturę podobną do tablicy 2D, z tą różnicą, że każdej kolumnie można przypisać własny typ danych.

Zobacz też oficjalnego Informacje na temat pandas.DataFrame

równoległość danych

Sposób skalowania trenowania lub wnioskowania który powiela cały model urządzeń, a następnie przekazuje podzbiór danych wejściowych do każdego z nich. Równoległość danych umożliwia trenowanie i wnioskowanie na bardzo dużych rozmiary wsadów, jednak równoległość danych wymaga, model musi być wystarczająco mały, aby zmieścił się na każdym urządzeniu.

Równoległość danych zwykle przyspiesza trenowanie i wykonywanie wnioskowania.

Zapoznaj się też z paralelizmem modelu.

zbiór danych lub zbiór danych

#fundamentals

Zbiór nieprzetworzonych danych, zwykle (ale nie wyłącznie) zorganizowany w jednym miejscu w tych formatach:

  • arkusz kalkulacyjny
  • plik w formacie CSV (wartości rozdzielone przecinkami);

Interfejs Dataset API (tf.data)

#TensorFlow

Ogólny interfejs API TensorFlow do odczytu danych na przykład do postaci wymaganej przez algorytm systemów uczących się. Obiekt tf.data.Dataset reprezentuje sekwencję elementów, w których każdy element zawiera co najmniej 1 tensor. tf.data.Iterator zapewnia dostęp do elementów Dataset.

granica decyzji

Separator między klasami wyuczonymi przez modelproblemie klasyfikacji binarnej lub wieloklasowej. Na przykład na poniższym obrazie przedstawiającym problem klasyfikacji binarnej krawędź decyzyjna jest granicą między klasą pomarańczową a klasą niebieską:

Dobrze zdefiniowana granica między klasą a drugą.

las decyzji

#df

Model utworzony na podstawie wielu drzew decyzyjnych. Las decyzyjny tworzy prognozy, agregując prognozy i drzewa decyzyjne. Do popularnych typów lasów decyzyjnych należą: losowe lasy i drzewa z motywem gradientu.

Więcej informacji znajdziesz w sekcji Lasy decyzyjne w szkoleniu Lasy decyzyjne.

próg decyzji

Synonim progu klasyfikacji.

schemat decyzyjny

#df

Nadzorowany model uczenia się składający się ze zbioru warunki i liście uporządkowane hierarchicznie. Oto przykładowe schematy decyzyjne:

Drzewo decyzyjne złożone z 4 ułożonych warunków
          hierarchicznie, co daje pięć liści.

dekoder

#language

Ogólnie chodzi o dowolny system ML, który przekształca przetworzoną, gęstą lub wewnętrzną reprezentację w nieprzetworzoną, rzadką lub zewnętrzną reprezentację.

Dekodery są często składnikami większego modelu, który często sparowany z koderem.

zadaniach sekwencja–sekwencja dekoder zaczyna od stanu wewnętrznego wygenerowanego przez koder, aby przewidzieć następną sekwencję.

Definicję dekodera w obrębie znajdziesz w artykule Transformer. o architekturze Transformer.

Zobacz Duże modele językowe (LLM). w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

model głęboki

#fundamentals

Sieci neuronowej zawierającej więcej niż 1 ukryty poziom.

Model głęboki nazywany jest też głęboką siecią neuronowa.

Porównaj z modelem szerokim.

głęboka sieć neuronowa

Synonim głbokiego modelu.

Deep Q-Network (DQN)

#rl

Q-learningu wykorzystuje się głęboką sieci neuronową, która prognozuje funkcje Q.

Krytyk to synonim sieci Deep Q.

parytet demograficzny

#fairness

Wskaźnik obiektywności, który jest spełniony, jeśli wyniki klasyfikacji modelu nie zależą od danego atrybutu wrażliwego.

Jeśli np. zarówno Lilliputianie, jak i Brobdingnagijczycy aplikują do Uniwersytetu w Glubbdubdrib, równość demograficzna jest osiągnięta, gdy odsetek przyjętych Lilliputian jest taki sam jak odsetek przyjętych Brobdingnagijczyków, niezależnie od tego, czy jedna grupa jest średnio lepiej wykwalifikowana od drugiej.

W odróżnieniu od równych szansrówności szans, które umożliwiają, aby wyniki klasyfikacji w ujęciu zbiorczym zależały od atrybutów wrażliwych, ale nie zezwalają, aby wyniki klasyfikacji dla określonych etykiet rzeczywistego stanu zależały od atrybutów wrażliwych. Zobacz „Atak dyskryminacji przy użyciu inteligentnych systemów uczących się”. kompromisów związanych z optymalizacją pod kątem parytetu demograficznego.

Zobacz artykuł Obiektywność: dane demograficzne równość w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

usuwanie szumów

#language

Typowe podejście do samokontrolowanego uczenia się:

  1. Szum jest sztucznie dodawany do zbioru danych.
  2. Model próbuje usunąć szum.

Odszumianie umożliwia uczenie się na podstawie przykładów bez etykiet. Pierwotny zbiór danych służy jako docel lub etykieta, a zaszumione dane są wejściem.

Niektóre zamaskowane modele językowe używają funkcji wyciszania szumów w następujący sposób:

  1. Szum jest sztucznie dodawany do zdania bez etykiety przez maskowanie części tokeny.
  2. Model próbuje przewidzieć oryginalne tokeny.

cecha zwarta

#fundamentals

Cecha, w której większość lub wszystkie wartości mają wartość różną od zera, zwykle Tensor dla wartości zmiennoprzecinkowych. Na przykład ten 10-elementowy tensor jest gęsty, ponieważ 9 jego wartości jest niezerowych:

8 3 7 5 2 4 0 4 9 6

Różnica w stosunku do funkcji rozproszonej.

gęsta warstwa

Synonim w pełni połączonej warstwy.

głębokość

#fundamentals

Suma tych wartości w sieci neuronowej:

Na przykład sieć neuronowa z 5 ukrytymi warstwami i 1 warstwą wyjściową ma głębokość 6.

Zwróć uwagę, że warstwa wejściowa nie głębię wpływu.

splotowa sieć neuronowa z separowanymi filtrami (sepCNN)

#image

splotowej sieci neuronowej, architektura oparta na Incepcja, ale moduły incepcyjne są zastępowane sekcjami, które można szczegółowo rozdzielać. splotów. Inna nazwa to Xception.

Konwolucja rozdzielna w głębi (nazywana też konwolucją rozdzielną) dzieli standardową konwolucję 3D na 2 osobne operacje konwolucji, które są bardziej wydajne pod względem obliczeniowym: najpierw konwolucję w głębi o głębokości 1 (n × n × 1), a potem konwolucję punktową o długości i szerokości 1 (1 × 1 × n).

Więcej informacji na ten temat znajdziesz w artykule Xception: Deep learning with Depthwise Separable. Sploty.

etykieta derywowana

Synonim etykiety serwera proxy.

urządzenie

#TensorFlow
#GoogleCloud

Przeciążony termin z 2 możliwymi definicjami:

  1. Kategoria sprzętu, na którym można uruchomić sesję TensorFlow, w tym procesory CPU, GPU i TPU.
  2. Podczas trenowania modelu ML na urządzeniach przyspieszających (kartach graficznych lub jednostkach TPU) część systemu, która faktycznie manipuluje tensoramiwkładami. Urządzenie korzysta z układów akceleratora. Natomiast host zwykle działa na procesorze.

prywatność różnicowa

W uczeniu maszynowym anonimizacja służy do ochrony zbioru danych treningowych zawierającego dane wrażliwe (np. dane osobowe), aby nie zostały one ujawnione. Takie podejście zapewnia że model nie uczy się ani nie pamięta danej osoby. Jest to osiągane przez próbkowanie i dodawanie szumu podczas modelu. trenowania do ukrywania poszczególnych punktów danych, co zmniejsza ryzyko ujawnienia poufne dane treningowe.

Prywatność różnicowa jest też wykorzystywana poza systemami uczącymi się. Przykład: badacze danych czasami używają prywatności różnicowej, prywatności przy obliczaniu statystyk użytkowania usług dla różnych grup demograficznych.

redukcja wymiarów

Zmniejszanie liczby wymiarów używanych do reprezentowania konkretnej cechy w wektorze cech, zwykle przez do wektora umieszczania.

wymiary

Przeciążony termin mający jedną z tych definicji:

  • Liczba poziomów współrzędnych w tensorze. Przykład:

    • Wartość skalarna ma wymiary zerowe, np. ["Hello"].
    • Wektor ma jeden wymiar, na przykład [3, 5, 7, 11].
    • Matryca ma 2 wymiary, np. [[2, 4, 18], [5, 7, 14]]. Komórkę w wektorze jednowymiarowym można jednoznacznie określić za pomocą jednej współrzędnej, natomiast do jednoznacznego określenia komórki w macierzy dwuwymiarowej potrzeba 2 współrzędnych.
  • Liczba wpisów w wektorze cech.

  • Liczba elementów w warstwie umieszczania.

bezpośrednie prompty

#language
#generativeAI

Synonim promptów typu „zero-shot”.

cecha dyskretna

#fundamentals

cecha z ograniczonym zbiorem możliwych wartości. Na przykład cecha, której wartościami mogą być tylko zwierzę, warzywo lub minerał, jest cecha dyskretna (czyli kategorialna).

W odróżnieniu od funkcji ciągłej.

model dyskryminacyjny

Model, który prognozuje etykietę na podstawie co najmniej jednego zestawu cech. Bardziej formalnie modele dyskryminacyjne definiują prawdopodobieństwo warunkowe danych wyjściowych z uwzględnieniem funkcji i weights; czyli:

p(output | features, weights)

Na przykład model, który na podstawie cech i wag przewiduje, czy e-mail jest spamem, jest modelem dyskryminacyjnym.

Większość modeli uczenia się nadzorowanego, w tym modele klasyfikacji i regresji, to modele dyskryminacyjne.

Różnica z modelem generatywnym.

wyróżnik

System określający, czy przykłady są prawdziwe czy fałszywe.

Z kolei podsystem w ramach kontrowersyjnego generatywnego , która określa, czy przykłady utworzone przez generator są prawdziwe lub fałszywe.

Zobacz „Diskryminator” w kursie GAN, aby dowiedzieć się więcej.

nieproporcjonalny wpływ

#fairness

Podejmowanie decyzji o ludziach, które mają wpływ na różne populacje podgrupy nieproporcjonalne. Zwykle odnosi się to do sytuacji gdzie algorytmiczny proces decyzyjny szkodzi lub przynosi korzyści; pewnych podgrup.

Załóżmy na przykład, że algorytm, który określa, czy liliput ma prawo do pożyczki na zakup miniaturowego domu, prawdopodobnie zaklasyfikuje go jako „niekwalifikującego się”, jeśli jego adres pocztowy zawiera określony kod pocztowy. Jeśli wielkie liliputacje z dużym prawdopodobieństwem z tym kodem pocztowym niż w przypadku Lilliputians, algorytm może mieć zróżnicowany wpływ.

W przeciwieństwie do różnego traktowania, które koncentruje się na różnicach wynikających z charakterystyk podgrup, które są jawnymi danymi wejściowymi w ramach procesu podejmowania decyzji przez algorytm.

odmienne traktowanie

#fairness

uwzględnianie wrażliwych danych użytkowników w algorytmicznym procesie podejmowania decyzji, tak aby różne podgrupy osób były traktowane inaczej;

Rozważmy na przykład algorytm, który określa, czy mieszkańcy Lilliputu kwalifikują się do pożyczki na miniaturowy dom na podstawie danych podanych w ich wniosku o pożyczkę. Jeśli algorytm używa parametru przynależność Lilliputiana do wielkiego Endu lub Little-Endianu może oznaczać, stosuje zróżnicowane podejście w tym wymiarze.

W przeciwieństwie do różnych wpływów, które koncentrują się na różnicach w społecznym wpływie decyzji algorytmicznych na podgrupy, niezależnie od tego, czy podgrupy te są danymi wejściowymi modelu.

destylacja

#generativeAI

Proces redukcji rozmiaru 1 modelu (nazywany nauczyciel) na mniejszy model (nazywany uczniem), który jak najwierniej formułować prognozy oryginalnego modelu. Oczyszczanie jest przydatny, ponieważ mniejszy model ma dwie główne zalety model (nauczyciel):

  • Szybszy czas wnioskowania
  • Mniejsze zużycie pamięci i energii

Jednak prognozy uczniów zwykle nie są tak dobre, jak na podstawie prognoz nauczyciela.

Destylacja trenuje model ucznia, aby zminimalizować funkcję straty na podstawie różnicy między wyjściami przewidywań modelu ucznia i nauczyciela.

Porównaj oczyszczanie z następującymi hasłami:

Więcej informacji znajdziesz w artykule LLMs: Fine-tuning, distillation, and prompt engineering z szybkiego szkolenia z uczenia maszynowego.

distribution

Częstotliwość i zakres różnych wartości danej cechy lub etykiety. Rozkład określa prawdopodobieństwo wystąpienia danej wartości.

Na ilustracji poniżej przedstawiono histogramy z 2 różnych rozkładów:

  • Po lewej stronie widać rozkład majątku według prawa potęgi w zależności od liczby osób, które mają ten majątek.
  • Po prawej stronie widać normalny rozkład wzrostu w zależności od liczby osób o danym wzroście.

Dwa histogramy. Jeden histogram pokazuje rozkład według prawa potęgowego z bogactwem na osi X i liczbą osób z tym bogactwem na osi Y. Większość ludzi ma bardzo mało pieniędzy, a nieliczni mają ich bardzo dużo. Drugi histogram pokazuje rozkład normalny
          z wysokością na osi X i liczbą osób o tym wzroście
          na osi Y. Większość osób znajduje się w pobliżu średniej.

Zrozumienie poszczególnych cech i rozkładu etykiet pomoże Ci określić, jak aby normalizować wartości i wykrywać wartości odstające.

Wyrażenie poza dystrybucją odnosi się do wartości, która nie występuje w zbiorze danych lub jest bardzo rzadka. Na przykład obraz planety Saturna byłby taki są uznawane za nieuwzględnione w dystrybucji w zbiorze danych składających się z obrazów przedstawiających koty.

grupowanie niezgodne

#clustering

Zobacz hierarchiczne grupowanie.

próbkowanie w dół

#image

Przeciążone hasło, które może mieć jedno z tych znaczenia:

  • Zmniejszenie ilości informacji w cechu, aby trenować model w bardziej efektywny sposób. Przykład: przed wytrenowaniem modelu rozpoznawania obrazów przez zmniejszenie próbkowania do formatu z niższą rozdzielczością.
  • Trenowanie na nieproporcjonalnie niskim odsetku nadreprezentowanych class w celu ulepszenia trenowania modelu w klasach niedostatecznie reprezentowanych. Na przykład w przypadku klasyniezbalansowanej modele zwykle dowiadują się wielu większości i za mało na temat klasa mniejszości. Opcja Downsampling pomaga zrównoważyć intensywność trenowania na klasach większości i mniejszości.

Więcej informacji znajdziesz w sekcji Zbiory danych: nierównowaga w zbiorach danych w Szybkim szkoleniu z uczenia maszynowego.

DQN

#rl

Skrót od Deep Q-Network.

regularyzacja dropout

Forma regularizacji przydatna w trenowaniu. sieci neuronowych. Regularyzacja porzuceń usuwa losowy wybór stałej liczby jednostek w sieci dla pojedynczego kroku gradientu. Im więcej jednostek zostało wyeliminowanych, tym silniejsza była regularyzacja. Jest to analogiczne do trenowania sieci do emulacji. stanowiąc wykładniczo duży zbiór mniejszych sieci. Więcej informacji znajdziesz w artykule Dropout: A Simple Way to Prevent Neural Networks from Overfitting (ang. „Dropout: prosty sposób na zapobieganie przetrenowaniu sieci neuronowych”).

dynamiczny

#fundamentals

Coś robionego często lub na bieżąco. W systemach uczących się terminy dynamiczny i online to synonimy. Oto najczęstsze zastosowania dynamicznychinternetowych w przypadku uczenia maszynowego:

  • Model dynamiczny (inaczej online) to model, która jest regularnie lub stale trenowana.
  • Szkolenie dynamiczne (lub szkolenie online) to proces trenowania. często lub stale.
  • Dynamiczne wnioskowanie (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

model, który jest często (a nawet stale) ponownie trenowany. Model dynamiczny uczy się przez całe życie które nieustannie dostosowuje się do zmieniających się danych. Model dynamiczny jest też nazywany modelem online.

Różnica z modelem statycznym.

E

wykonanie natychmiastowe

#TensorFlow

Środowisko programowania TensorFlow, w którym operacje są wykonywane natychmiast. Z drugiej strony operacje wywoływane w wykonaniu grafu nie są wykonywane, dopóki nie zostaną wyraźnie ocenione. Szybkie wykonanie to imperatywnego interfejsu. jak w większości języków programowania. Programy wykonawcze są znacznie łatwiejsze do debugowania niż programy do wykonywania grafów.

wcześniejsze zatrzymanie

#fundamentals

Metoda regularizacji, która obejmuje kończenie trenowanie przed zakończeniem treningu. maleje. W przypadku wczesnego zatrzymania celowo przerywasz trenowanie modelu, gdy strata na zbiorze danych do weryfikacji zacznie rosnąć, czyli gdy skuteczność w zakresie generalizacji się pogarsza.

odległość od Ziemi (EMD)

Pomiar względnego podobieństwa 2 rozkładów. Im mniejsza odległość przemieszczenia, tym bardziej podobne są rozkłady.

edytuj odległość

#language

Pomiar podobieństwa dwóch ciągów tekstowych. W uczeniu maszynowym odległość edytowania jest przydatna, ponieważ łatwo ją obliczyć, a jednocześnie jest skutecznym sposobem na porównanie 2 ciągów znaków, które są podobne, lub na znalezienie ciągów znaków podobnych do danego ciągu.

Istnieje kilka definicji odległości służącej do edycji, a każda z nich zawiera inny ciąg znaków operacji. Na przykład odległość Levenshteina uwzględnia operacje usuwania, wstawiania i zastępowania o najmniejszej liczbie.

Na przykład odległość Levenshteina między słowami „serce” i „rzutki” wynosi 3, ponieważ te 3 zmiany wymagają najmniejszej liczby modyfikacji, aby jedno słowo zamienić na drugie:

  1. heart → deart (zastąp „h” przez „d”)
  2. deart → dart (usuń „e”)
  3. dart → rzutki (wstaw „s”)

notacja Einsum

Skuteczna notacja opisująca sposób łączenia dwóch tensorów. Tensory są łączone przez mnożenie pierwiastków danego tensora przez elementy tego tensora, a następnie sumując iloczyny. Notacja Einsum używa symboli do identyfikowania osi każdego tensora, a te same symbole są przestawiane, aby określić kształt nowego wynikowego tensora.

NumPy to typowa implementacja Einsum.

warstwa wektorowa

#language
#fundamentals

Specjalną warstwą ukrytą, która trenuje na wielowymiarowa funkcja kategoryczna, stopniowo uczyć się wektora wektora dystrybucyjnego dla niższych wymiarów. An warstwa wektora dystrybucyjnego umożliwia sieci neuronowej lepsze trenowanie wydajniej niż trenowanie na wysokich wymiarach cechach kategorialnych.

Na przykład na Ziemi obecnie obsługiwanych jest około 73 000 gatunków drzew. Załóżmy, że gatunek drzewa jest atrybutem w Twoim modelu, więc warstwa wejściowa modelu zawiera wektor typu one-hot o długości 73 tys. elementów. Na przykład baobab może być przedstawione w ten sposób:

Tablica 73 tys. elementów. Pierwsze 6232 elementy zawierają wartość
     0. Następny element zawiera wartość 1. Ostatnie 66 767 elementów składa się z
     wartość zero.

Tablica z 73 000 elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy embeddingu, trenowanie zajmie bardzo dużo czasu z powodu mnożenia 72 999 zer. Możesz wybrać warstwę z 12 wymiarami. W efekcie warstwa osadzania będzie stopniowo uczyć się nowego wektora dystrybucyjnego dla każdego gatunku drzewa.

W niektórych sytuacjach szyfrowanie jest rozsądnym rozwiązaniem. do warstwy osadzonej.

Więcej informacji znajdziesz w sekcji Embeddings w szybkim szkoleniu z uczenia maszynowego.

przestrzeń wektorowa

#language

Przestrzeń wektorowa w wymiarze D obejmująca do przestrzeni wektorowej. W idealnej sytuacji przestrzeń wektorów zastępczych zawiera strukturę, która daje znaczące wyniki matematyczne. Na przykład w idealnej przestrzeni wektorów zastępczych dodawanie i odejmowanie wektorów zastępczych może służyć do rozwiązywania zadań polegających na znajdowaniu analogii między słowami.

Produkt skalarny 2 wewnętrznych obiektów jest miarą ich podobieństwa.

wektor dystrybucyjny

#language

Ogólnie rzecz biorąc, tablica liczb zmiennoprzecinkowych pobieranych z dowolnej ukrytą warstwę, która opisuje dane wejściowe do tej ukrytej warstwy. Często wektorem dystrybucyjnym jest tablica liczb zmiennoprzecinkowych wytrenowanych w i warstwy wektora dystrybucyjnego. Załóżmy na przykład, że warstwa embeddingu musi nauczyć się wektora embeddingu dla każdego z 73 tys. gatunków drzew na Ziemi. Być może następująca tablica jest wektorem dystrybucyjnym baobabu:

Tablica 12 elementów, z których każdy zawiera liczbę zmiennoprzecinkową
          z zakresu od 0,0 do 1,0.

Wektor dystrybucyjny nie jest grupą liczb losowych. Warstwę wbudowania określają te wartości podczas trenowania, podobnie jak sieć neuronowa uczy się innych wag podczas trenowania. Każdy element tablicy to ocena pewnej cechy gatunku drzewa. Który reprezentuje wybrane gatunki drzew jest cechą charakterystyczną? Jest to bardzo trudne do określenia przez ludzi.

Matematycznie niezwykłą cechą wektora dystrybucyjnego jest to, że podobne elementy mają podobne zbiory liczb zmiennoprzecinkowych. Na przykład podobne gatunki drzew mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż niepodobna do siebie roślina. Sekwoje i sekwojadendro są spokrewnionymi gatunkami drzew, więc będą miały bardziej podobny zestaw liczb zmiennoprzecinkowych niż sekwoje i palmy kokosowe. Liczby w wektorze dystrybucyjnym są zmieniane przy każdym trenowaniu modelu, nawet jeśli ten z identycznym wpisywaniem.

empiryczna funkcja skumulowanego rozkładu (eCDF lub EDF)

dystrybuanta kumulatywna oparta na pomiarach empirycznych pochodzących z rzeczywistego zbioru danych. Wartość klucza w dowolnym punkcie na osi x stanowi odsetek obserwacji zbiór danych, które są mniejsze od określonej wartości lub jej równe.

empiryczna minimalizacja ryzyka (ERM)

Wybierz funkcję, która minimalizuje straty w zbiorze treningowym. Porównaj to z strukturalnym minimalizowaniem ryzyka.

koder

#language

Ogólnie chodzi o dowolny system ML, który przekształca dane w postaci nieprzetworzonej, rzadkiej lub zewnętrznej w postać bardziej przetworzoną, gęstszą lub bardziej wewnętrzną.

Enkodery są często elementem większego modelu, w którym są często sparowane z dekoderem. Niektóre Transformery łączą kodery z dekoderami, ale inne używają tylko kodera lub tylko dekodera.

Niektóre systemy używają danych wyjściowych kodera jako danych wejściowych do sieci klasyfikacyjnej lub regresyjnej.

W zadaniach sekwencyjnych koder pobiera sekwencję wejściową i zwraca stan wewnętrzny (wektor). Następnie funkcja Na podstawie tego stanu wewnętrznego dekoder przewiduje następną sekwencję.

Definicję enkodera w architekturze Transformer znajdziesz w artykule Transformer.

Zobacz LLM: co to jest duży język model w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

ensemble

Kolekcja modeli wytrenowanych niezależnie, których prognozy są uśredniane lub agregowane. W wielu przypadkach zestaw daje lepsze wrażenia, niż w przypadku pojedynczego modelu. Na przykład losowy las to zestaw utworzony z wielu drzewek decyzyjnych. Pamiętaj, że nie wszystkie lasy decyzji to zespoły.

Zobacz losowe Las w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

entropia

#df

W teorii informacji jest to opis tego, jak nieprzewidywalna jest rozkład prawdopodobieństwa. Entropia może być też zdefiniowana jako ilość informacji zawartych w każdym przykładzie. Dystrybucja zawiera najwyższa możliwa entropia, gdy wszystkie wartości zmiennej losowej są z równym prawdopodobieństwem.

Entropia zbioru o dwóch możliwych wartościach „0” i „1” (np. etykiety w problemie dwudzielnej klasyfikacji) ma postać:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

gdzie:

  • H to entropia.
  • p to ułamek liczby „1”. przykłady.
  • q to ułamek przykładów o wartości „0”. Pamiętaj, że q = (1 – p).
  • log to zwykle log2. W tym przypadku entropia rozmiar jest niższy.

Załóżmy na przykład, że:

  • 100 przypadków zawiera wartość „1”.
  • 300 przykładów zawiera wartość „0”

W związku z tym wartość entropii wynosi:

  • P = 0,25
  • Q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 b na przykład

Zbiór, który jest idealnie zrównoważony (np. 200 wartości „0” i 200 wartości „1”), będzie miał entropię wynoszącą 1,0 bita na przykład. W miarę jak zbiór staje się bardziej niezrównoważony, jego entropia zbliża się do 0.

W drzewach decyzyjnych entropia pomaga formułować wzrost informacji, aby ułatwić spółczynnikowi wybór warunków podczas rozbudowywania drzewa decyzyjnego klasyfikacji.

Porównaj entropię z:

Entropia jest często nazywana entropią Shannona.

Więcej informacji znajdziesz w sekcji Rozdzielacz dokładny do klasyfikacji binarnej z cechami liczbowymi w Kursie lasów decyzyjnych.

środowisko

#rl

W nagradzaniu świat to świat, który zawiera agenta i pozwala mu obserwować stan tego świata. Przedstawiany świat może być na przykład grą w szachy lub fizycznym labiryntem. Gdy agent zastosuje działanie do środowiska, środowisko przechodzi między stanami.

odcinek

#rl

W nauce ze wzmocnieniem każda z powtarzanych prób agenta polega na uczeniu się środowiska.

początek epoki : epoka

#fundamentals

pełne przetrenowanie całego zbioru treningowego, tak aby każdy przykład został przetworzony raz;

Epoka reprezentuje N/rozmiar wsadu iteracje trenowania, gdzie N jest łączną liczbę przykładów.

Załóżmy na przykład, że:

  • Zbiór danych zawiera 1000 przykładów.
  • Wielkość wsadu to 50 przykładów.

Dlatego jedna epoka wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Zobacz Regresję liniową: Hiperparametry w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

zasady zachłanne epsilon

#rl

W przypadku uczenia przez wzmacnianie zasad, które są zgodne zasada losowa z prawdopodobieństwem ypsilon lub wartością W przeciwnym razie zasadą zachłanności. Jeśli na przykład epsilon = 0,9, to w 90% przypadków polityka będzie zgodna z polityka losową, a w 10% – z polityka chciwą.

W kolejnych odcinkach algorytm obniża wartość ypsilon w kolejności zamiast zachłannego chwytania się zasad. Według gdy agent zmienia zasady, najpierw losowo analizuje środowisko a następnie zachłannie wykorzystuje wyniki eksploracji losowej.

równość szans

#fairness

Dane o sprawiedliwości, które pozwalają ocenić, czy model prognozuje pożądany wynik równie dobrze w przypadku wszystkich wartości wrażliwego atrybutu. Inaczej mówiąc, jeśli pożądanym wynikiem działania modelu jest klasa pozytywna, celem jest uzyskanie prawdziwej wartości pozytywnej w przypadku wszystkich grup.

Równość możliwości jest związana z wyrównaniem szans, który wymaga, aby zarówno współczynniki prawdziwie dodatnie, współczynnik wyników fałszywie pozytywnych jest taki sam we wszystkich grupach.

Załóżmy, że Uniwersytet Glubbdubdrib akceptuje zarówno liliputów, jak i brobdingnagiów do rygorystycznego programu matematycznego. Szkoły średnie w Lilliput oferują solidny program nauczania matematyki, a znaczna większość uczniów kwalifikuje się do studiów na uniwersytecie. Brobdingnagians w szkołach średnich w ogóle nie oferują zajęć z matematyki, przez co znacznie mniej uczniów zakwalifikował się do programu. Równe szanse są zapewnione w przypadku preferowanej etykiety „przyjęcie” w związku z przynależnością narodową (Lilliputianin lub Brobdingnagijczyk), jeśli kwalifikujący się uczniowie mają równe szanse na przyjęcie niezależnie od tego, czy są Lilliputianami czy Brobdingnagijczykami.

Załóżmy na przykład, że na Uniwersytet Glubbdubdrib aplikuje 100 mieszkańców Lilliputu i 100 mieszkańców Brobdingnag. Decyzje dotyczące przyjęcia na studia są podejmowane w następujący sposób:

Tabela 1. Lilliputian applicants (90% are qualified)

  Zakwalifikowany Niezakwalifikowany
Przyjęty 45 3
Odrzucono 45 7
Łącznie 90 10
Odsetek przyjętych studentów spełniających kryteria: 45/90 = 50%
Odsetek odrzuconych studentów, którzy nie spełniali kryteriów: 7/10 = 70%
Całkowity odsetek przyjętych studentów z Lilliput: (45+3)/100 = 48%

 

Tabela 2. Kandydaci do Izby Reprezentantów (10% zakwalifikowanych):

  Zakwalifikowany Niezakwalifikowany
Zaakceptowano 5 9
Odrzucono 5 81
Łącznie 10 90
Odsetek przyjętych studentów spełniających kryteria: 5/10 = 50%
Odsetek odrzuconych studentów niespełniających kryteriów: 81/90 = 90%
Całkowity odsetek przyjętych studentów z Brobdingnagi: (5+9)/100 = 14%

Poprzednie przykłady spełniają wymagania równości możliwości przy akceptacji ponieważ wykwalifikowani liliputowie i artyści z Brobdingnagi mają 50% szans na przyjęcie do programu.

Chociaż jest zaspokaja równość możliwości, 2 wskaźniki obiektywności niezadowolony(a):

  • spójność demograficzna: liliputowie Rodzaje brobdingnagich są przyjmowane na uniwersytet według różnych stawek. Przyjmuje do niego 48% studentów, ale tylko 14% Przyjmowani są studenci z Brobdingnagów.
  • wyrównane szanse: kwalifikowany liliputański i studenci Brobdingnagian mają taką samą szansę na przyjęcie z dodatkowym ograniczeniem, na jakie narażają się liliputowie Obie grupy mają jednakowe szanse na odrzucenie zadowolonych klientów. Osoby pozbawione kwalifikacji mają 70% współczynnik odrzuceń, Brak zakwalifikowanych uczestników ma 90% współczynnik odrzuceń.

Więcej informacji znajdziesz w sekcji Uczciwość: równe szanse w Szybkim szkoleniu z uczenia maszynowego.

wyrównane szanse

#fairness

Wskaźnik obiektywności, który pozwala ocenić, czy model prognozuje wyniki w równym stopniu w przypadku wszystkich wartości atrybutu poufnego z atrybutami zarówno w odniesieniu do klasy pozytywnej, jak i klasa wykluczające, a nie tylko jedna z nich. . Inaczej mówiąc, współczynnik prawdziwie dodatni i współczynnik wyników fałszywie negatywnych powinny być takie same w przypadku we wszystkich grupach.

Szanse wyrównane są związane z równouprawnienie szans, który skupia się tylko na dotyczące odsetka błędów dla jednej klasy (pozytywnej lub ujemnej).

Załóżmy na przykład, że Uniwersytet Glubbdubdrib przyjmuje do rygorystycznego programu matematycznego zarówno Liliputan, jak i Brobdingnagijczyków. Szkoły średnie na Lilliput prowadzą solidny program nauczania matematyki, a znaczna większość uczniów kwalifikuje się do studiów uniwersyteckich. Brobdingnagians dodatkowa w ogóle nie oferują lekcji z matematyki, więc znacznie mniej że ich uczniowie są kwalifikowani. Warunek równości szans jest spełniony, jeśli bez względu na to, czy kandydat jest Liliputanem czy Brobdingnżaninem, jeśli spełnia wymagania, ma równe szanse na przyjęcie do programu, a jeśli ich nie spełnia, ma równe szanse na odrzucenie.

Załóżmy, że do Glubbdubdrib jest 100 liliputów i 100 brobdingnagiów Uniwersytety i procesy rekrutacyjne są podejmowane w następujący sposób:

Tabela 3. Kandydaci na stanowiska liliputów (90% to kwalifikowani uczestnicy)

  Zakwalifikowany Niezakwalifikowany
Przyjęty 45 2
Odrzucono 45 8
Łącznie 90 10
Odsetek zakwalifikowanych uczestników: 45/90 = 50%
Odsetek odrzuconych uczniów, którzy nie spełniają wymagań: 8/10 = 80%
Łączny odsetek przyjętych studentów w Liliputiach: (45 + 2)/100 = 47%

 

Tabela 4. Kandydaci do Izby Reprezentantów (10% zakwalifikowanych):

  Zakwalifikowany Niezakwalifikowany
Zaakceptowano 5 18
Odrzucono 5 72
Łącznie 10 90
Odsetek przyjętych studentów spełniających wymagania: 5/10 = 50%
Odsetek odrzuconych studentów, którzy nie spełniali wymagań: 72/90 = 80%
Całkowity odsetek przyjętych studentów z Brobdingnagi: (5 + 18)/100 = 23%

Wyrównane szanse są spełnione, ponieważ wykwalifikowani liliputowie i brobdingnagia uczniowie mają 50% szans na przyjęcie do programu, a liliputowie mają 50% a brobdingnagian ma 80% szans na odrzucenie.

Równe szanse są formalnie zdefiniowane w artykule „Równe szanse w nauce nadzorowanej” w ten sposób: „Predictor Ŷ spełnia warunek równych szans w odniesieniu do chronionego atrybutu A i wyniku Y, jeśli Ŷ i A są niezależne, warunkowo na Y”.

Estimator

#TensorFlow

Wycofany interfejs TensorFlow API. Zamiast Estimators użyj tf.keras.

evals

#language
#generativeAI

Używany głównie jako skrót od LLM evaluations. Ogólnie evals to skrót nazwy dowolnej formy oceny.

ocena

#language
#generativeAI

Proces pomiaru jakości modelu lub porównywania różnych modeli i otwierać przed sobą nawzajem.

Aby ocenić nadzorowany model uczenia maszynowego, zwykle porównujemy go z zestawami danychzestawami danych testowych. Ocena modelu LLMzazwyczaj obejmuje szerszą ocenę jakości i bezpieczeństwa.

przykład

#fundamentals

wartości jednego wiersza cechy i ewentualnie etykiety; Przykłady w nauce nadzorowanej można podzielić na 2 ogólne kategorie:

  • Znakowane przykłady zawierają co najmniej 1 cechę i etykietę. Przykłady oznaczone etykietami są używane podczas trenowania.
  • Przykład bez etykiety składa się z jednego elementu lub więcej funkcji, ale bez etykiety. Przykłady bez etykiet są używane podczas wnioskowania.

Załóżmy na przykład, że trenujesz model, aby określić wpływ warunków pogodowych na wyniki egzaminów uczniów. Oto 3 oznaczone przykłady:

Funkcje Etykieta
Temperatura wilgotność, Ciśnienie Wynik testu
15 47 998 Dobry
19 34 1020 Świetna
18 92 1012 Niska

Oto 3 przykłady bez etykiet:

Temperatura wilgotność, Ciśnienie  
12 62 1014  
21 47 1017  
19 41 1021  

Wiersz zbioru danych jest zwykle źródłem danych nieprzetworzonych. Oznacza to, że przykład zwykle składa się z podzbioru kolumn zbioru danych. Cechy z przykładu mogą też obejmować funkcje syntetyczne, takie jak: krzyżówki cech.

Więcej informacji znajdziesz w sekcji Nauczanie nadzorowane w kursie Wprowadzenie do systemów uczących się.

odtwarzanie

#rl

W uczeniu się przez wzmocnienie technika DQN służąca do zmniejszania korelacji czasowych w danych treningowych. Agent przechowuje przejścia stanu w buforze odtwarzania, a potem pobiera próbki przejść z bufora odtwarzania, aby utworzyć dane treningowe.

efekt eksperymentu

#fairness

Zobacz efekt potwierdzenia.

problem z wybuchowym gradientem

#seq

tendencji do gradientów w głębokich sieci neuronowych (zwłaszcza powracających sieci neuronowych), zaskakująco strome (wysokie). Strome gradienty często powodują bardzo duże aktualizacje wag każdego węzła w głębokiej sieci neuronowej.

Modele, które mają problem z wybuchem gradientu, stają się trudne lub niemożliwe do wytrenowania. Przycinanie gradientu aby zminimalizować ten problem.

Porównaj problem ze znikającym gradientem.

F

K1

Dane „podstawowe” klasyfikacji binarnej, które zależą zarówno od precyzyjności, jak i od czułości. Oto wzór:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Na przykład:

  • precyzja = 0,6
  • przypomnienie = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Gdy precyzja i czułość są dość podobne (jak w poprzednim przykładzie), F1 jest bliskie swojej średniej. Gdy precyzja i czułość różnią się znacznie, F1 jest bliższe niższej wartości. Na przykład:

  • precyzja = 0,9
  • czułość = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

ograniczenie obiektywności

#fairness
Stosowanie ograniczenia do algorytmu w celu zapewnienia co najmniej 1 definicji i obiektywności. Przykłady ograniczeń związanych z obiektywnością:

wskaźnik obiektywności

#fairness

Matematyczna definicja „uczciwości” wymiernej skuteczności. Do najczęściej używanych wskaźników sprawiedliwości należą:

Wiele wskaźników obiektywności wyklucza się wzajemnie. Zobacz niezgodność wskaźników obiektywności.

fałszywie negatywny (FN),

#fundamentals

Przykład, w którym model błędnie prognozuje wartość negative class (klasa negatywna). Na przykład model przewiduje, że dana wiadomość e-mail nie jest spamem (klasa negatywna), ale okazuje się, że jest to spam.

współczynnik wyników fałszywie negatywnych

Odsetek rzeczywistych pozytywnych przykładów, w których model popełnił błąd przewidziało klasę negatywną. Ta formuła oblicza wartość fałsz współczynnik ujemny:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

fałszywie dodatni (FP)

#fundamentals

Przykład, w którym model błędnie prognozuje klasę pozytywną. Na przykład model przewiduje, że konkretny e-mail zawiera spam (klasa pozytywna), ale e-mail nie jest spamem.

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

współczynnik wyników fałszywie pozytywnych (FPR);

#fundamentals

Odsetek rzeczywistych przykładów negatywnych, dla których model błędnie przewidział klasę pozytywną. Ta formuła oblicza wartość fałsz wskaźnik pozytywnych:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie pozytywnych to oś X na krzywej ROC.

Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa dla modelu systemów uczących się. Przykład obejmuje co najmniej jedną cechę. Załóżmy na przykład, że trenujesz model, aby określić wpływ warunków pogodowych na wyniki egzaminów uczniów. W tabeli poniżej znajdziesz 3 przykłady, z których każdy zawiera 3 funkcje i 1 etykietę:

Funkcje Etykieta
Temperatura wilgotność, Ciśnienie Wynik testu
15 47 998 92
19 34 1020 84
18 92 1012 87

Różnica za pomocą atrybutu etykieta.

Więcej informacji znajdziesz w sekcji Nauczanie nadzorowane w kursie Wprowadzenie do systemów uczących się.

krzyżówka

#fundamentals

Cecha syntetyczna utworzona przez „przecięcie” cech kategorialnych lub zbiorowych.

Weźmy np. „prognozowanie nastroju” model, który reprezentuje w jednym z czterech zasobników:

  • freezing
  • chilly
  • temperate
  • warm

I przedstawia prędkość wiatru w jednym z 3 rodzajów:

  • still
  • light
  • windy

Bez krzyżów cech model liniowy trenuje niezależnie na każdym poprzedzających 7 różnych zasobników. Model trenuje na przykład na danych freezing niezależnie od danych windy.

Możesz też utworzyć funkcję krzyżową temperatury i prędkości wiatru. Ta syntetyczna cecha miałaby 12 możliwych wartości:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dzięki krzyżowaniu cech model może uczyć się różnic w nastroju między dniem freezing-windyfreezing-still.

Jeśli utworzysz funkcję syntetyczną na podstawie 2 funkcji, z których każda ma wiele różnych zbiorników, otrzymana funkcja krzyżowa będzie miała ogromną liczbę możliwych kombinacji. Jeśli na przykład jedna cecha ma 1000 segmentów, a druga – 2000 segmentów, to ich iloczyn ma 2 000 000 segmentów.

Formalnie krzyż jest iloczynem kartezjańskim.

Krzywe cech są używane głównie w modelach liniowych i rzadko są używane za pomocą sieci neuronowych.

Więcej informacji znajdziesz w sekcji Dane kategoryczne: krzyżowanie cech w Szybkim szkoleniu z uczenia maszynowego.

ekstrakcja wyróżników

#fundamentals
#TensorFlow

Proces obejmujący te kroki:

  1. Określanie, które cechy mogą być przydatne podczas trenowania modelu.
  2. konwertowanie nieprzetworzonych danych ze zbioru danych na wydajne wersje tych funkcji;

Możesz np. uznać, że słowo temperature może być przydatne funkcji. Następnie możesz poeksperymentować z grupowaniem. aby zoptymalizować to, czego model może się uczyć na podstawie różnych zakresów temperature.

Inżynieria cech jest czasami nazywana inżynierią cech wyodrębnianie cech lub featurizacja.

Zobacz Dane liczbowe: jak model pozyskuje dane za pomocą funkcji wektory w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

wyodrębnianie cech

Przeciążony termin, który ma jedno z tych znaczeń:

znaczenie cech

#df

Synonim zmiennej ważności.

zbiór cech

#fundamentals

Grupa funkcji, na podstawie których trenowany jest model systemów uczących się. Na przykład kod pocztowy, rozmiar nieruchomości i stan obiektu mogą stanowią prosty zestaw funkcji modelu prognozującego ceny nieruchomości.

specyfikacja funkcji

#TensorFlow

Opisuje informacje wymagane do wyodrębnienia danych funkcji. z bufora protokołu tf.Example. Ponieważ tf.Przykładowy bufor protokołu to tylko kontener na dane, który musisz określić następujące:

  • Dane do wyodrębnienia (czyli klucze funkcji).
  • typ danych (np. liczba zmiennoprzecinkowa lub całkowita);
  • długość (stała lub zmienna);

wektor cech

#fundamentals

Tablica wartości feature tworzących przykład. Wektor cech jest wprowadzany podczas trenowania i w trakcie wnioskowania. Na przykład wektor cech modelu z 2 odrębnymi cechami może wyglądać tak:

[0.92, 0.56]

4 warstwy: warstwa wejściowa, 2 warstwy ukryte i jedna warstwa wyjściowa.
          Warstwa wejściowa zawiera 2 węzły: jeden z wartością 0,92, a drugi z wartością 0,56.

Każdy przykład dostarcza inne wartości wektora cech, więc funkcja w następnym przykładzie może wyglądać tak:

[0.73, 0.49]

Inżynieria funkcji określa sposób przedstawiania danych w wektorze cech. Na przykład cecha binarna kategorialna z ciągiem pięć możliwych wartości może być reprezentowanych przez kodowanie jedno- gorące. W tym przypadku część argumentu wektor cech w danym przykładzie składałby się z czterech zer i pojedynczy 1,0 w trzeciej pozycji, jak niżej:

[0.0, 0.0, 1.0, 0.0, 0.0]

Innym przykładem może być model składający się z 3 cech:

  • funkcję kategoryczną z pięcioma możliwymi wartościami reprezentowanymi przez kodowanie jeden-gotowe, na przykład: [0.0, 1.0, 0.0, 0.0, 0.0]
  • kolejną cechę kategoryczną binarną, której reprezentowane są 3 możliwe wartości w ramach kodowania jeden-gorącego; na przykład: [0.0, 0.0, 1.0]
  • obiekt zmiennoprzecinkowy, na przykład: 8.3.

W tym przypadku wektor cech w każdym przykładzie będzie przedstawiony o dziewięć wartości. Biorąc pod uwagę przykładowe wartości z poprzedniej listy, wektorem cech powinien być:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Więcej informacji znajdziesz w sekcji Dane liczbowe: jak model przetwarza dane za pomocą wektorów cech z Kursu intensywnego z uczenia maszynowego.

featurization

procesu wyodrębniania cech ze źródła danych wejściowych; takich jak dokument lub film, i odwzorowanie tych cech na wektor cech.

Niektórzy eksperci od uczenia maszynowego używają pojęcia „featuryzacja” jako synonimu tworzenia cech lub wyodrębniania cech.

sfederowane uczenie się

Rozproszone podejście do uczenia maszynowego, w którym modele uczenia maszynowego są trenowane za pomocą zdecentralizowanych przykładów znajdujących się na urządzeniach, takich jak smartfony. W ramach sfederowanego uczenia się bieżący model pobiera podzbiór urządzeń z centralnego serwera koordynacyjnego. Urządzenia używają zapisanych przykładów na tych urządzeniach w celu ulepszenia modelu. Następnie urządzenia przesyłają dane ulepszanie modelu (ale nie przykłady treningowe) w celu koordynowania, serwera, gdzie są one agregowane z innymi aktualizacjami, by zapewnić model globalny. Po agregacji aktualizacje modelu obliczone przez urządzenia nie są już potrzebne i można je odrzucić.

Ponieważ przykłady treningowe nie są nigdy przesyłane, sfederowane uczenie się jest zgodne z zasady ochrony prywatności, czyli ukierunkowanie na zbieranie danych i minimalizację danych.

Więcej informacji o sfederowanym uczeniu się znajdziesz zobacz ten samouczek.

pętla informacji zwrotnych

#fundamentals

W uczeniu maszynowym to sytuacja, w której prognozy modelu wpływają na dla tego samego lub innego modelu. Na przykład model, który rekomenduje filmy, wpływa na to, jakie filmy widzą użytkownicy, a to z kolei wpływa na kolejne modele rekomendacji filmów.

Więcej informacji znajdziesz w sekcji Produkcyjne systemy ML: pytania do zastanowienia się w Kursie intensywnym z uczenia maszynowego.

sieć neuronowa do przodu (FFN)

Sieć neuronowa bez połączeń cyklicznych ani rekurencyjnych. Na przykład tradycyjne głębokie sieci neuronowe to sieci neuronowe typu feedforward. W odróżnieniu od powtarzających się sieci neuronowych, które są cykliczne.

uczenie się w kilku przykładach

Systemy uczące się, często używane do klasyfikacji obiektów, zaprojektowane w celu trenowania skutecznych klasyfikatorów na podstawie niewielkiej liczby przykładów.

Zobacz też uczenie jednorazowym przykłademuczenie zero-shot.

prompty „few-shot”

#language
#generativeAI

prompt zawierający więcej niż 1 (czyli „kilka”) przykładów pokazujących, jak duży model językowy powinien odpowiadać. Na przykład ten długi prompt zawiera 2 przykłady, które pokazują dużemu modelowi językowemu, jak odpowiadać na zapytanie.

Elementy jednego promptu Uwagi
Jaka jest oficjalna waluta w wybranym kraju? Pytanie, na które chcesz uzyskać odpowiedź od modelu LLM.
Francja: EUR Przykład:
Wielka Brytania: GBP Inny przykład
Indie: Faktyczne zapytanie.

Krótkie prompty pozwalają zwykle uzyskać lepsze wyniki niż promptów typu „zero-shot”, jedno-razowe prompty. Prompty „few-shot” wymagają jednak dłuższego promptu.

Prompty „few-shot” to forma uczenia się typu „few-shot”, która wykorzystuje uczenie się na podstawie promptów.

Zobacz prompt inżynieria w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

Skrzypce

#language

Biblioteka konfiguracji skoncentrowana na Pythonie, która ustawia wartości funkcji i klas bez inwazyjnego kodu i infrastruktury. W przypadku Pax i innych baz kodu ML te funkcje i klasy reprezentują modele i trenowanieparametry hiperzmiennych.

Skrzypce zakłada, że bazy kodu systemów uczących się są zwykle podzielone na:

  • Kod biblioteki, który definiuje warstwy i optymalizatory.
  • kod „klejący” zbiór danych, który wywołuje biblioteki i połącza wszystko ze sobą.

Fiddle przechwytuje strukturę wywołania kodu glue w elemencie nieocenionym lub zmiennej postaci.

dostrajanie

#language
#image
#generativeAI

Drugi przejazd treningowy, który jest wykonywany na wytrenowanym wcześniej modelu w celu dostosowania jego parametrów do konkretnego zastosowania. Przykładowa pełna sekwencja trenowania niektórych dużych modeli językowych:

  1. Wstępne trenowanie: trenowanie dużego modelu językowego na ogromnym ogólnym zbiorze danych, takim jak wszystkie strony Wikipedii w języku angielskim.
  2. Dostrajanie: wytrenuj już wytrenowany model do wykonania określonego zadania. np. odpowiadania na pytania medyczne. Dostrojenie polega zwykle na wykorzystaniu setek lub tysięcy przykładów dotyczących konkretnego zadania.

Innym przykładem jest pełna sekwencja trenowania dużego modelu obrazu. następujące:

  1. Przed trenowaniem: wytrenuj duży model obrazu na dużym obrazie ogólnym takich jak wszystkie obrazy w witrynie Wikimedia Commons.
  2. Dostrojenie: wytrenowanie wstępnie przeszkolonego modelu do wykonywania konkretnego zadania, np. generowania obrazów orek.

Dostosowanie dokładne może obejmować dowolną kombinację tych strategii:

  • Zmodyfikowanie wszystkich wytrenowanych modeli parametry. Czasami nazywa się to pełnym dostrajaniem.
  • Zmodyfikowanie tylko niektórych istniejących parametrów wytrenowanego modelu (zwykle warstwy najbliższe warstwie wyjściowej), a inne istniejące parametry nie zmieniają się (zwykle warstwy najbliżej warstwy wejściowej). Zapoznaj się z dostrajaniem z optymalnym wykorzystaniem parametrów.
  • Dodawanie kolejnych warstw, zwykle na wierzchu istniejących warstw najbliżej warstwy wyjściowej.

Dostrojenie to forma uczenia się przez przenoszenie. W związku z tym do dostrajania może być używana inna funkcja straty lub inny model. niż używany do trenowania wytrenowanego modelu. Możesz na przykład: dostrajać wytrenowany duży model obrazów w celu wygenerowania modelu regresji, zwraca liczbę ptaków na obrazie wejściowym.

Porównaj dostrojenie z tymi pojęciami:

Patrz: Dostrajanie w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

Len

#language

Wysokowydajna biblioteka open source do uczenia głębokiego oparta na JAX. Flax udostępnia funkcje treningu sieci neuronowych oraz metody oceny ich wydajności.

Len

#language

Biblioteka Transformer oparta na Flaxie, przeznaczona głównie do przetwarzania języka naturalnego i badania multimodalnego.

forget gate

#seq

Część pamięci krótkoterminowej która reguluje przepływ informacji przez komórkę. Bramki zapominania zachowują kontekst, określając, które informacje mają zostać odrzucone ze stanu komórki.

pełny softmax

Synonim wyrażenia softmax.

Przeciwieństwem jest próbkowanie kandydatów.

Więcej informacji znajdziesz w sekcji Uczenie maszynowe – sieć neuronowa: klasyfikacja wieloklasowa w Kursie intensywnym z uczenia maszynowego.

w pełni połączona warstwa

Warstwa ukryta, w której każdy węzeł jest połączony z każdym węzłem w kolejnej warstwie ukrytej.

W pełni połączona warstwa nazywana jest też gęstą warstwą.

przekształcenie funkcji

Funkcja, która przyjmuje funkcję jako argument wejściowy, a jako wynik zwraca przekształconą funkcję. JAX używa przekształceń funkcji.

G

GAN

Skrót od generative adversarial)

uogólnianie

#fundamentals

Zdolność modelu do trafnego przewidywania wyników na podstawie nowych, wcześniej niewidzianych danych. Model, który może uogólniać, jest przeciwieństwem modelu, który jest zbyt dopasowany.

Patrz: Uogólnianie. w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

Gemini

#language
#image
#generativeAI

Ekosystem obejmujący najbardziej zaawansowaną AI od Google. Elementy tego ekosystemu:

  • różne modele Gemini;
  • Interaktywny interfejs konwersacyjny dla modelu Gemini. Użytkownicy wpisują prompty, a Gemini na nie odpowiada.
  • różne interfejsy Gemini API;
  • różne usługi biznesowe oparte na modelach Gemini; np. Gemini dla Google Cloud
.

Modele Gemini

#language
#image
#generativeAI

Opracowany przez Google najnowocześniejszy model Transformer modele multimodalne, Modele Gemini są szczególnie zaprojektowany z myślą o integracji z agentami.

Użytkownicy mogą wchodzić w interakcje z modelami Gemini na różne sposoby, m.in. za pomocą interaktywnego interfejsu dialogowego i pakietów SDK.

krzywa generalizacji

#fundamentals

Wykres straty na etapie trenowaniastraty na etapie walidacji w funkcji liczby iteracji.

Krzywa uogólniania może pomóc w wykryciu możliwego nadmiernego dopasowania. Na przykład krzywa generalizacji sugeruje przetrenowanie, ponieważ strata weryfikacyjna staje się ostatecznie znacznie większa niż strata podczas trenowania.

Wykres kartezjański, na którym oś Y ma etykietę „strata”, a oś X – „iteracje”. Pojawią się 2 działki. Jeden wykres przedstawia
          trenowanie, a drugie – stratę przy walidacji.
          Oba wykresy zaczynają się podobnie, ale strata podczas trenowania w końcu spada znacznie poniżej straty podczas walidacji.

Patrz: Uogólnianie. w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

uogólniony model liniowy

Uogólnianie modeli regresji najmniejszych kwadratów, które opierają się na szumie Gaussa, na inne typy modeli opartych na innych rodzajach szumu, takich jak szum Poissona lub szum kategorialny. Przykłady uogólnionych modeli liniowych:

Parametry uogólnionego modelu liniowego można znaleźć za pomocą optymalizację wypukłą.

Modele liniowe ogólne mają te właściwości:

  • Średnia prognoza optymalnego modelu regresji najmniejszych kwadratów jest równa średniej etykiecie w danych treningowych.
  • Średnie prawdopodobieństwo prognozowane przez optymalną regresję logistyczną model jest równy średniej etykiecie danych treningowych.

Moc modelu liniowego ogólnego jest ograniczona przez jego cechy. W przeciwieństwie do modelu głębokiego, uogólniony model liniowy nie może „uczyć się nowych cech”.

generatywna sieć kontradyktoryjnej (GAN)

System do tworzenia nowych danych, w którym generator tworzy dane, a element dyskryminujący określa, czy utworzone dane są prawidłowe.

Zapoznaj się z kursem na temat Generative Adversarial Networks. .

generatywna AI

#language
#image
#generativeAI

Nowe, rewolucyjne pole, które nie ma formalnej definicji. Jednak większość ekspertów zgadza się, że modele generatywnej AI mogą tworzyć („generować”) treści, które:

  • złożone
  • spójne
  • oryginał

Na przykład model generatywnej AI może tworzyć zaawansowane wypracowania lub grafiki.

Niektóre starsze technologie, w tym sieci LSTMsieci RNN, również mogą generować oryginalne i spójne treści. Niektórzy eksperci uważają, że te wcześniejsze technologie są generatywną AI, podczas gdy inni uważają, że prawdziwa generatywna AI wymaga bardziej złożonego wyjścia, niż mogą wygenerować te wcześniejsze technologie.

W przeciwieństwie do systemów ML prognozujących.

model generatywny

W praktyce model, który wykonuje jedną z tych czynności:

  • Tworzy (generuje) nowe przykłady na podstawie zbioru danych treningowych. Na przykład model generatywny może tworzyć poezję po wytrenowaniu na zbiorze wierszy. Do tej kategorii należy część generatora generatywnej sieci generatywnej.
  • Określa prawdopodobieństwo, że nowy przykład pochodzi z zbiór treningowych lub został utworzony za pomocą tego samego mechanizmu, który został utworzony do zbioru treningowego. Na przykład po trenowaniu zbioru danych zawierającego angielskie zdania, model generatywny może określać prawdopodobieństwo, że nowe dane wejściowe są prawidłowym zdaniem w języku angielskim.

Model generatywny może teoretycznie rozróżnić rozkład przykładów czy konkretnych cech zbioru danych. Czyli:

p(examples)

Modele uczenia nienadzorowanego są generatywne.

W przeciwieństwie do modeli dyskryminacyjnych.

generator

Podsystem w ramach kontrowersyjnego generatywnego sieć który tworzy nowe przykłady.

Kontrast w porównaniu z modelem dyskryminacyjnym.

wskaźnik gini,

#df

Dane podobne do entropii. Rozdzielacze użyj do utworzenia wartości pochodzących z zanieczyszczenia gini lub entropii warunki klasyfikacji drzewa decyzyjne. Zysk informacji pochodzi z entropii. Nie ma powszechnie przyjętego odpowiednika dla danych pochodzących z wskaźnika gini. Jednak te nienazwane dane są równie ważne jak zysk informacyjny.

Nieczystość giniego jest również nazywana wskaźnikiem ginie lub po prostu gini.

golden zbiór danych

Zestaw ręcznie sporządzonych danych, który zawiera dane podstawowe. Aby ocenić jakość modelu, zespoły mogą użyć co najmniej 1 złotego zbioru danych.

Niektóre złote zbiory danych obejmują różne podzbiory dokładnych informacji. Na przykład zbiór danych złotego standardu do klasyfikacji obrazów może uwzględniać warunki oświetlenia i rozdzielczość obrazu.

GPT (wytrenowany generatywny transformer)

#language

Rodzina produktów opartych na Transformer dużych modeli językowych opracowanych przez OpenAI.

Warianty GPT mogą dotyczyć wielu modalności, w tym:

  • generowanie obrazów (np. ImageGPT)
  • generowanie obrazu na podstawie tekstu (np. DALL-E).

gradient

Wektor częściowych pochodnych względem wszystkich zmiennych niezależnych. W uczeniu maszynowym gradient to wektor pochodnych cząstkowych funkcji modelu. Punkty gradientu w kierunku najbardziej stromego podejścia.

akumulacja gradientu

Technika propagacji wstecznej, która aktualizuje parametry tylko raz na erę, a nie raz na iterację. Po przetworzeniu każdej minizbiorczej gradientu funkcja akumulacji aktualizuje bieżącą łączną liczbę gradientów. Następnie, po przetworzeniu ostatniego mini-zbioru w epoce, system aktualizuje parametry na podstawie sumy wszystkich zmian gradientu.

Akumulacja gradientów jest przydatna, gdy rozmiar grupy to bardzo duża w porównaniu z ilością dostępnej pamięci do trenowania. Gdy pamięć jest problemem, naturalną tendencją jest zmniejszanie wielkości wsadu. Jednak zmniejszenie rozmiaru partii w ramach zwykłego rekurencyjnego propagowania wstecznego zwiększa liczbę aktualizacji parametrów. Akumulacja gradientem włącza model aby uniknąć problemów z pamięcią, ale nadal wydajnie trenować.

drzewa decyzyjne z wzmocnieniem gradientu (GBT),

#df

Typ lasu decyzyjnego, w którym:

Zobacz decyzję z wzmocnieniem gradientu Drzewa w Aby dowiedzieć się więcej, zapoznaj się z kursem Decision Forests.

boosting gradientowy

#df

Algorytm trenowania, w którym słabe modele są trenowane iteracyjnie Poprawa jakości (zmniejszenie utraty) solidnego modelu. Słabością modelu może być np. model liniowy lub małe drzewo decyzyjne. Silny model staje się sumą wszystkich wytrenowanych wcześniej słabych modeli.

W najprostszej formie wzmacniania gradientowego na każdej iteracji słaby model jest trenowany do przewidywania gradientu utraty silnego modelu. Następnie funkcja silny model jest aktualizowany przez odjęcie przewidywanego gradientu, podobnie jak w przypadku opadania gradientowego.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

gdzie:

  • $F_{0}$ to początkowy model silny.
  • $F_{i+1}$ to kolejny silny model.
  • $F_{i}$ to bieżący silny model.
  • $\xi$ to wartość z zakresu od 0,0 do 1,0 nazywana skurczem, co jest analogiczne do tempo uczenia się w opadanie gradientowe.
  • $f_{i}$ to słaby model wytrenowany do przewidywania gradientu straty $F_{i}$.

Nowoczesne warianty boostingu gradientowego uwzględniają w swoim działaniu także drugą pochodną (Hesjana) funkcji strat.

Drzewa decyzyjne są powszechnie używane jako słabe modele wzmocnienia gradientu. Zobacz drzewa decyzyjne z ulepszoną jakością gradientu.

przycinanie gradientu

#seq

Często stosowany mechanizm ograniczający problem wybuchowego gradientu poprzez sztuczne ograniczanie (przycinanie) maksymalnej wartości gradientów podczas stosowania metody gradientu prostego do treningu modelu.

spadku wzdłuż gradientu

#fundamentals

Technika matematyczna służąca do minimalizowania strat. Spadek gradientowy koryguje iteracyjnie wagi i uprzedzenia, stopniowo znajdują najlepsze kombinacje w celu zminimalizowania strat.

Metoda gradientowa jest starsza – znacznie, znacznie starsza niż systemy uczące się.

Zobacz sekcję Regresja liniowa: gradient gradientowy. descent w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

wykres

#TensorFlow

W TensorFlow jest to specyfikacja obliczeń. Węzły na wykresie przedstawiają operacje. Krawędzie są kierowane i reprezentują zaliczoną wartość operacji (Tensor) jako do innej operacji. Użyj TensorBoard, aby zwizualizować wykres.

wykonanie grafu

#TensorFlow

Środowisko programistyczne TensorFlow, w którym program najpierw tworzy wykres, a następnie wykonuje cały wykres lub jego część. Wykres to domyślny tryb wykonywania w TensorFlow 1.x.

Przeciwieństwem jest wykonanie z zaangażowaniem.

zasada zachłanności

#rl

W uczeniu ze wzmocnieniem polityka, która zawsze wybiera działanie o najwyższym oczekiwanym zwrocie.

dane podstawowe

#fundamentals

Reality

Rzecz, która faktycznie się wydarzyła.

Rozważmy na przykład model dwuklasowej klasyfikacji, który przewiduje, czy student pierwszego roku studiów ukończy je w ciągu 6 lat. Dane podstawowe tego modelu to tego, czy nie że uczeń ukończył szkołę w ciągu 6 lat.

efekt udziału grupy

#fairness

Zakładanie, że to, co jest prawdziwe w przypadku danej osoby, jest też prawdziwe w przypadku wszystkich innych osób w tej grupie. Skutki błędu atrybucji grupowej mogą być nasilone, jeśli do zbierania danych używasz próbkowania dogodnego. W przypadku niereprezentatywnej próby mogą wystąpić przypisania, które nie odzwierciedlają rzeczywistości.

Zobacz też odchylenie jednorodności poza grupą i uprzedzenia w grupie. Więcej informacji znajdziesz w sekcji Uczciwość: rodzaje stronnicości w Szybkim szkoleniu z uczenia maszynowego.

H

halucynacja

#language

wygenerowanie przez model generatywnej AI danych wyjściowych, które wydają się wiarygodne, ale są nieprawdziwe, i które rzekomo stanowią twierdzenie o rzeczywistym świecie. Na przykład generatywny model AI twierdzi, że Barack Obama zmarł w 1865 roku. jest hallucynacyjny.

wyliczanie skrótu

W uczeniu maszynowym mechanizm grupowania danych kategorialnych, zwłaszcza gdy liczba kategorii jest duża, ale liczba kategorii, które faktycznie się pojawiają, jest dość mała.

Na przykład na Ziemi występuje około 73 tys. gatunków drzew. Możesz reprezentują każdy z 73 000 gatunków drzew w 73 000 osobnych kategorii zasobników. Jeśli w zbiorze danych występuje tylko 200 gatunków drzew, możesz użyć haszowania, aby podzielić je na około 500 grup.

Jeden kosz może zawierać wiele gatunków drzew. Na przykład funkcja hashowania może umieścić baobab i klon czerwony – 2 gatunki genetycznie różne – w tym samym zbiorze. Mimo to haszowanie jest nadal dobrym sposobem na mapowanie dużych zbiorów kategorii na wybraną liczbę puli. Funkcja haszująca zamienia cechę kategorialną o dużej liczbie możliwych wartości na znacznie mniejszą liczbę wartości przez zgrupowanie wartości w sposób deterministyczny.

Zobacz Dane kategorialne: słownictwo i jedno gorące kodowanie w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

heurystyka

Proste i szybkie rozwiązanie problemu. Na przykład: "Dzięki heurystycznym algorytmom udało nam się uzyskać dokładność na poziomie 86%. Gdy przeszliśmy na dzięki głębokiej sieci neuronowej, dokładność wzrosła nawet o 98%”.

warstwa ukryta

#fundamentals

Warstwa w sieci neuronowej między warstwą wejściową (cechy) a warstwą wyjściową (prognoza). Każda warstwa ukryta składa się z co najmniej 1 neurona. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy:

4 poziomy. Pierwsza warstwa to warstwa wejściowa zawierająca dwie
          funkcje zabezpieczeń. Druga warstwa to ukryta warstwa zawierająca 3 elementy,
          neuronów. Trzecia warstwa to ukryta warstwa zawierająca dwie
          neuronów. Czwarta warstwa to warstwa wyjściowa. Każda cecha
          ma trzy krawędzie, z których każda wskazuje inny neuron
          w drugiej warstwie. Każdy z neuronów w drugiej warstwie
          ma dwie krawędzie, z których każda wskazuje inny neuron
          w trzeciej warstwie. Każdy z neuronów na 3 poziomie zawiera 1 krawędzie, z których każda wskazuje na warstwę wyjściową.

Głęboka sieć neuronowa zawiera więcej niż 1 warstwę ukrytą. Na przykład poprzednia ilustracja przedstawia głębokie połączenie neuronowe ponieważ model zawiera dwie ukryte warstwy.

Więcej informacji znajdziesz w artykule Neural networks: Nodes and hidden layers z cyklu Crash Course z machine learningu.

grupowanie hierarchiczne

#clustering

Kategoria algorytmów klasterowania, które tworzą drzewo klastrów. Grupowanie hierarchiczne jest odpowiednie do danych hierarchicznych, takich jak taksonomia roślin. Istnieją 2 rodzaje hierarchicznych algorytmów grupowania:

  • Grupowanie agregacyjne polega na tym, że najpierw przypisujemy każdy przykład do własnego klastra. iteracyjnie scala najbliższe klastry, aby utworzyć drzewo.
  • Grupowanie dywizyjne najpierw grupuje wszystkie przykłady w 1 klaster, a następnie iteracyjnie dzieli klaster na drzewo hierarchiczne.

Przeciwieństwem są grupowanie oparte na centroidach.

Więcej informacji znajdziesz w sekcji Algorytmy klastrowania w Kursie z klasteringu.

utrata zawiasu,

Rodzina funkcji straty do klasyfikacji, która ma na celu znalezienie granicy decyzyjnej jak najbardziej oddalonej od każdego przykładu treningowego, maksymalizując w ten sposób margines między przykładami a granicą. KSVM używają funkcji hinge loss (lub powiązanej z nią funkcji, np. kwadratowej funkcji hinge loss). W przypadku klasyfikacji binarnej funkcja utraty zawiasów jest zdefiniowane w ten sposób:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

gdzie y to właściwa etykieta (-1 lub +1), a y' to nieprzetworzone dane wyjściowe modelu klasyfikatora:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W efekcie wykres utraconych zawiasów w porównaniu z postacią (y * y) wygląda tak:

Wykres kartezjański składający się z 2 połączonych ze sobą fragmentów liniowych. Pierwszy
          segment linii zaczyna się w miejscu (-3, 4) i kończy się w (1, 0). Drugi wiersz
          segment zaczyna się od (1, 0) i trwa nieskończoność z nachyleniem
          z 0.

efekt historyczny

#fairness

Rodzaj uprzedzeń, który istnieje już na świecie i ma które stały się dostępne w zbiorze danych. Te uprzedzenia mają tendencję do odzwierciedlania istniejących stereotypów kulturowych, nierówności demograficznych i uprzedzeń wobec niektórych grup społecznych.

Weźmy np. model klasyfikacji, który prognozuje, czy osoba ubiegająca się o kredyt nie spłaci kredytu, który był trenowanych na historycznych danych o wierzytelności kredytowej z lat 80. ubiegłego wieku od lokalnych banków w dwóch dla różnych społeczności. Jeśli w przypadku wcześniejszych wniosków kredytowych osób z grupy A prawdopodobieństwo niespłacenia kredytu było 6 razy większe niż w przypadku osób z grupy B, model mógłby nauczyć się historycznego uprzedzeństwa, co spowodowałoby, że model rzadziej udzielałby kredytów w grupie A, nawet jeśli historyczne warunki, które spowodowały wyższe współczynniki niespłacalności w tej grupie, nie były już istotne.

Więcej informacji znajdziesz w artykule Uczciwość: rodzaje uprzedzeń z cyklu „Krótki kurs uczenia maszynowego”.

dane wstrzymane

Przykłady: celowe niewykorzystane („wstrzymane”) podczas szkolenia. Zbiór danych do weryfikacjizbiór danych do testów to przykłady danych holdout. Dane z danych nieużywanych pomagają ocenić zdolność modelu do uogólniania na dane inne niż dane, na których został wytrenowany. Strata na zbiorze testowym daje lepsze oszacowanie straty na nieznanym zbiorze danych niż strata na zbiorze treningowym.

host

#TensorFlow
#GoogleCloud

Podczas trenowania modelu ML na elementach akceleratora (GPU lub TPU), część systemu, która kontroluje oba te elementy:

  • Ogólny przepływ kodu.
  • wyodrębnianie i przekształcanie potoku danych wejściowych;

Host zazwyczaj działa na procesorze, a nie na akceleratorze. device manipuluje tensorami układy akceleratora.

hiperparametr

#fundamentals

zmienne, które Ty lub usługa dostrajania hiperparametrówzmieniasz podczas kolejnych sesji trenowania modelu; Przykład: szybkość uczenia się jest hiperparametrem. Przed rozpoczęciem sesji treningowej możesz ustawić szybkość uczenia się na 0,01. Jeśli uznasz, że 0,01 jest zbyt wysoką wartością, możesz ustawić szybkość uczenia się na 0,003 na następnej sesji treningowej.

Parametry to natomiast różne wagi i uprzedzenia, które model uczy się podczas trenowania.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

hiperplan

Granica, która dzieli przestrzeń na 2 podprzestrzenie. Na przykład linia jest hiperpłaszczyzną w 2 wymiarach, a płaszczyzna jest hiperpłaszczyzną w 3 wymiarach. W uczeniu maszynowym hiperpłaszczyzna to zwykle granica oddzielająca przestrzeń o dużej wymiarowości. Użycie maszyn wektorowych obsługujących jądra do oddzielania klas pozytywnych od ujemnych, często w bardzo wielkowymiarową przestrzeń.

I

i.i.d.

Skrót oznaczający dystrybucję niezależną i identycznie.

rozpoznawanie obrazów

#image

Proces, który klasyfikuje obiekty, wzorce lub pojęcia na obrazie. Rozpoznawanie obrazów jest też nazywane klasyfikacją obrazów.

Więcej informacji znajdziesz w artykule ML Practicum: Image Classification.

Więcej informacji znajdziesz w praktycznym kursie dotyczącym uczenia maszynowego: klasyfikacja obrazów.

niezrównoważony zbiór danych

Synonim zbioru danych o niezrównoważonych klasach.

nieświadome uprzedzenia

#fairness

Automatyczne tworzenie skojarzeń lub założeń na podstawie modeli i wspomnień. Ukryte uprzedzenia mogą wpływać na:

  • sposobach zbierania i klasyfikowania danych;
  • Jak projektować i rozwijać systemy uczące się.

Gdy na przykład tworzysz klasyfikator do identyfikowania zdjęć ślubnych, inżynier może wykorzystać obecność na zdjęciu obecności białej sukni jako elementu elementu. Jednak białe suknie były zwyczajowo noszone tylko w określonych epokach i kulturach.

Zobacz też odchylenie potwierdzenia.

przypisywanie

Skrót w postaci metody określania wartości.

niezgodność wskaźników obiektywności

#fairness

Przekonanie, że niektóre pojęcia uczciwości są wzajemnie niezgodne nie mogą być spełnione jednocześnie. W rezultacie nie ma jednego uniwersalnego wskaźnika obiektywności, który można zastosować do wszystkich problemów z uczeniem maszynowym.

Może to wydawać się zniechęcające, ale niezgodność wskaźników obiektywności nie oznacza, że wysiłki związane z uczciwością są bezcelowe. Zamiast tego sugeruje, że obiektywność trzeba definiować w kontekście określonego problemu związanego z ML, aby zapobiegać szkodom związanym z danymi zastosowaniami.

Więcej informacji na ten temat znajdziesz w artykule „O możliwościach i niemożnościach zapewnienia sprawiedliwości”.

uczenie się w kontekście

#language
#generativeAI

Synonim promptów „few-shot”.

są rozkładane niezależnie i identycznie (np.)

#fundamentals

Dane pochodzące z rozkładu, który się nie zmienia, a każda wylosowana wartość nie zależy od wcześniej wylosowanych wartości. Identyfikator to gaz idealny maszyny uczenie się – przydatny konstrukt matematyczny, który niemal nigdy nie został znaleziony dokładnie w świecie rzeczywistym. Na przykład rozkład użytkowników na stronę internetową mogą być i.i.d. w krótkim okresie, oznacza to, że rozkład w tym krótkim okresie, a wizyta jednej osoby jest zwykle niezależnie od wizyty innego użytkownika. Jeśli jednak rozszerzysz ten przedział czasu, mogą pojawić się sezonowe różnice w liczbie odwiedzających stronę.

Zobacz też niestacjonarność.

obiektywność indywidualna

#fairness

Wskaźnik obiektywności, który sprawdza, czy podobne osoby zostały sklasyfikowane podobnie jak w przyszłości. Na przykład Brobdingnagian Academy może chcieć zapewnić sprawiedliwość indywidualną, dbając o to, aby 2 uczniowie z identycznymi ocenami i wynikami testów standaryzowanych mieli równe szanse na przyjęcie.

Pamiętaj, że indywidualna sprawiedliwość zależy wyłącznie od tego, jak zdefiniujesz „podobność” (w tym przypadku oceny i wyniki testów), a jeśli wskaźnik podobieństwa pominie ważne informacje (np. rygorystyczne programy nauczania), możesz narazić się na ryzyko wprowadzenia nowych problemów z sprawiedliwością.

Aby dowiedzieć się więcej o sprawiedliwości indywidualnej, zapoznaj się z artykułem „Fairness Through Awarenes”.

wnioskowanie

#fundamentals

W uczeniu maszynowym proces prognozowania z zastosowaniem wytrenowanego modelu do przykładów bez etykiet.

Wnioskowanie ma w statystykach nieco inne znaczenie. Zobacz Więcej informacji znajdziesz w artykule o wnioskowaniu statystycznym w Wikipedii.

Aby poznać rolę wnioskowania w systemie uczenia nadzorowanego, zapoznaj się z uczenie nadzorowane w Kursie wprowadzającym do uczenia maszynowego.

ścieżka wnioskowania

#df

drzewie decyzyjnym podczas uogólniania przykład przechodzi od korzenia do innych warunków, aż do listka. Na przykład w tym schemacie decyzyjnym grubsze strzałki wskazują ścieżkę wnioskowania w przypadku przykładu z tymi wartościami cech:

  • x = 7
  • y = 12
  • z = –3

Ścieżka wnioskowania na ilustracji poniżej przebiega przez trzy przed dotarciem do liścia (Zeta).

Drzewo decyzyjne składające się z 4 warunków i 5 węzłów
          Warunek pierwotny to (x > 0). Ponieważ odpowiedź to „Tak”, ścieżka wnioskowania przechodzi od węzła głównego do następnego warunku (y > 0).
          Ponieważ odpowiedź to „Tak”, ścieżka wnioskowania przechodzi do następnego warunku (z > 0). Ponieważ odpowiedź to „Nie”, ścieżka wnioskowania dociera do węzła końcowego, który jest węzłem końcowym (Zeta).

3 grube strzałki wskazują ścieżkę wnioskowania.

Zobacz Drzewa decyzyjne lekcji na temat lasów decyzyjnych.

zdobycie informacji

#df

W lasach decyzyjnych jest to różnica między entropią węzła a ważoną (pod względem liczby przykładów) sumą entropii jego węzłów podrzędnych. Entropia węzła jest entropią w tym węźle.

Weźmy na przykład te wartości entropii:

  • entropia węzła nadrzędnego = 0,6
  • entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
  • entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1

Oznacza to, że 40% przykładów znajduje się w jednym węźle podrzędnym, a 60% – w drugim. Dlatego:

  • ważona suma entropii węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Informacje, które można uzyskać, to:

  • przyrost informacji = entropia węzła nadrzędnego – ważona suma entropii węzłów podrzędnych
  • przyrost informacji = 0,6 - 0,14 = 0,46

Większość rozdzielaczy stara się tworzyć warunki, które maksymalizują zysk informacji.

stronniczość wewnątrzgrupowa

#fairness

Pokazanie stronniczości własnej grupy lub własnych cech. Jeśli testerzy lub oceniający to znajomi dewelopera systemów uczących się, rodziny lub współpracowników, uprzedzenia w grupie mogą unieważnić testy produktów lub zbioru danych.

Błąd w grupie to forma grupowy efekt atrybucji. Zobacz też Błąd jednorodności poza grupą.

Zobacz Obiektywność: typy uprzedzenie w Szybkie szkolenie z uczenia maszynowego, aby dowiedzieć się więcej.

generator danych wejściowych

Mechanizm, za pomocą którego dane są wczytywane do sieci neuronowej.

Generator danych wejściowych można traktować jako komponent odpowiedzialny za przetwarzanie danych źródłowych w tensory, które są iterowane w celu generowania partii na potrzeby trenowania, oceny i wykonywania wnioskowania.

warstwa wejściowa

#fundamentals

Warstwa sieci neuronowej, która przechowuje wektory cech. Oznacza to, że warstwa wejściowa dostarcza przykładów do trenowania lub wyciągania wniosków. Na przykład warstwa wejściowa w tym Sieć neuronowa składa się z 2 elementów:

4 warstwy: warstwa wejściowa, 2 warstwy ukryte i warstwa wyjściowa.

warunek w zestawie

#df

drzewie decyzyjnym warunek, który sprawdza obecność jednego elementu w zbiorze elementów. Oto przykładowy warunek w zestawie:

  house-style in [tudor, colonial, cape]

Podczas wnioskowania, jeśli wartość cech w stylu domu wynosi tudor, colonial lub cape, ten warunek przyjmuje wartość Tak. Jeśli wartość funkcji typu domu jest inna (np. ranch), warunek ten przyjmuje wartość Nie.

Warunki w zbiorze zwykle prowadzą do bardziej wydajnych drzewek decyzyjnych niż warunki testujące zmienną zaszyfrowaną w postaci tablicy 1-hot.

instancja

Synonim wyrażenia przykład.

dostrajanie instrukcji

#generativeAI

Forma dostrajania, która poprawia Zdolność modelu generatywnej AI do śledzenia za instrukcje. Dostrajanie instrukcji obejmuje trenowanie modelu na serii promptów, zwykle obejmujących szeroki zakres wiele różnych zadań. Powstały w ten sposób model dostrojony do instrukcji generować przydatne odpowiedzi na prompty typu „zero-shot”, do różnych zadań.

Porównaj z:

interpretowalność

#fundamentals

Umiejętność wyjaśnienia lub przedstawienia rozumowania modelu ML w zrozumiały sposób.

Na przykład większość modeli regresji liniowej jest łatwa do interpretacji. (wystarczy spojrzeć na wytrenowane wagi dla każdej cechy). Lasy decyzji są też bardzo czytelne. Niektóre modele wymagają zaawansowanej wizualizacji, aby była interpretowalna.

Do interpretacji modeli ML możesz użyć narzędzia do analizowania interpretowalności (LIT).

umowa między recenzentami

Pomiar częstotliwości, z jaką weryfikatorzy zgadzają się podczas wykonywania zadania. Jeśli oceniający się nie zgadzają, może być konieczne poprawienie instrukcji zadania. Czasem jest też nazywany porozumieniem między selekcjonerami lub wiarygodnością między oceniającymi. Zobacz też Cohena kappa, To jedna z najpopularniejszych metod pomiaru umów między uczestnikami umów.

Więcej informacji znajdziesz w sekcji Dane kategoryczne: typowe problemy z Kursu intensywnego na temat uczenia maszynowego.

współczynnik podobieństwa (IoU)

#image

Przecięcie 2 zbiorów podzielone przez ich związek. W zadaniach związanych z wykrywaniem obrazów za pomocą uczenia maszynowego współczynnik podobieństwa służy do pomiaru dokładności prognozowanej ramki ograniczającej modelu w odniesieniu do ramki ograniczającej danych podstawowych. W tym przypadku współczynnik podobieństwa dla dwóch pól to stosunek obszaru nakładania się do całkowitego obszaru, a jego wartość waha się od 0 (brak nakładania się prognozowanej ramki ograniczającej i ramki ograniczającej danych podstawowych) do 1 (prognozowana i dane podstawowe mają dokładnie te same współrzędne).

Oto przykład:

  • Prognozowana ramka ograniczająca (współrzędne ograniczające miejsce, w którym model (rysunek znajduje się na stoliku nocnym) jest zaznaczony na fioletowo.
  • Zaznaczony na zielono jest obszar ograniczony (box) danych podstawowych (współrzędne określające, gdzie na obrazie znajduje się stół nocny).

Obraz Van Gogha w sypialni Vincenta w Arles, na którym znajdują się
          Stoliki ograniczające stoliki przy łóżku. Dane podstawowe
          ramka ograniczająca (w kolorze zielonym) idealnie opisuje stół nocny. 
          przewidywana ramka ograniczająca (w kolorze fioletowym) jest przesunięta o 50% w dół i w prawo
          ramki ograniczającej dane podstawowe (ground truth), obejmuje prawą dolną ćwiartkę
          podczas nocnego stolika, ale przegapia resztę stołu.

W tym przypadku przecięcie ramek ograniczających na potrzeby prognozowania i danych podstawowych (na dole po lewej) wynosi 1 i suma ramek ograniczających prognozy i dane podstawowe (ground truth) (poniżej po prawej stronie) wynoszą 7, więc współczynnik IoU to \(\frac{1}{7}\).

Ten sam obraz co powyżej, ale z ramkami ograniczającymi podzielonymi na 4 ćwiartki. W prawym dolnym rogu
znajduje się siedem
          kwadrant ramki ograniczającej dane podstawowe (ground truth) i lewego górnego rogu
          kwadrant przewidywanej ramki ograniczającej nakłada się na siebie. Ten
          nakładająca się sekcja (zaznaczona na zielono) przedstawia
          i ma powierzchnię 1. Ten sam obraz co powyżej, ale z ramkami ograniczającymi podzielonymi na 4 ćwiartki. W prawym dolnym rogu
znajduje się siedem
          kwadrant ramki ograniczającej dane podstawowe (ground truth) i lewego górnego rogu
          kwadrant przewidywanej ramki ograniczającej nakłada się na siebie.
          Cały obszar wewnątrz obu pudeł (zaznaczony na zielono) reprezentuje związek i ma powierzchnię 7.

IoU

Skrót od współczynnika podobieństwa.

macierz elementów

#recsystems

W systemach rekomendacji jest to macierz wektorów zastępczych wygenerowana przez faktoryzację macierzy, która zawiera ukryte sygnały dotyczące każdego elementu. Każdy wiersz macierzy elementów zawiera wartość pojedynczej cechy ukrytej dla wszystkich elementów. Weźmy na przykład system rekomendacji filmów. Każda kolumna w macierz elementów odpowiada jednemu filmowi. Utajone sygnały mogą reprezentować gatunki lub być trudniejsze do zinterpretowania które obejmują złożone interakcje między gatunkami, gwiazdami wieku filmu lub innych czynników.

Macierz elementów ma taką samą liczbę kolumn jak miejsce docelowe która jest obliczana na czynniki pierwsze. Jeśli np. system rekomendacji filmów ocenia 10 tys. tytułów, ma 10 tys. kolumn.

items

#recsystems

W systemie rekomendacji jednostki, które co zaleca system. Na przykład filmy to produkty rekomendowane przez sklep z filmami, a książki to produkty rekomendowane przez księgarnię.

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modeluwagi i odchylenia podczas szkoleń. Wielkość wsadu określa, ile przykładów model przetwarza w ramach jednej iteracji. Przykład: jeśli wielkość wsadu to 20, model przetworzy 20 przykładów wcześniej dostosować parametry.

Podczas trenowania sieci neuronowej pojedyncza iteracja obejmuje 2 przebiegi:

  1. Przekazywanie dalej w celu oceny straty w jednej wsadzie.
  2. Przejście wsteczne (backpropagation) w celu dostosowania parametrów modelu na podstawie utraty i tempa uczenia się.

J

JAX

Tablicowa biblioteka obliczeniowa łącząca XLA (Accelerated Linear Algebra) i automatyczne różnicowanie w przypadku wydajnych obliczeń numerycznych. JAX udostępnia prosty i wydajny interfejs API do pisania przyspieszonego kodu numerycznego za pomocą składanych transformacji. JAX zapewnia takie funkcje jak:

  • grad (automatyczne zróżnicowanie)
  • jit (kompilacja w sam raz)
  • vmap (automatyczna wektoryzacja lub grupowanie)
  • pmap (paralelizacja)

JAX to język do wyrażania i komponowania przekształceń kodu numerycznego, analogiczny do biblioteki NumPy w Pythonie, ale o znacznie szerszym zakresie. (Biblioteka .numpy w języku JAX jest funkcjonalnie odpowiednikiem, ale całkowicie przeredagowaną wersję biblioteki Pythona NumPy).

Biblioteka JAX szczególnie dobrze nadaje się do przyspieszania wielu zadań związanych z uczeniem maszynowym poprzez przekształcanie modeli i danych w postać odpowiednią do równoległości w układzie GPU i TPU chipów akceleratora.

Flax, Optax, Pax i wiele innych które są oparte na infrastrukturze JAX.

K

Keras

popularny interfejs API do uczenia maszynowego w Pythonie, Keras działa na kilku platformach deep learning, w tym na TensorFlow, gdzie jest dostępny jako tf.keras.

Kernel Support Vector Machines (KSVM)

Algorytm klasyfikacji, który stara się maksymalizować margines między klasami pozytywnymiklasami negatywnymi przez mapowanie wektorów danych wejściowych na przestrzeń o większej wymiarowości. Rozważmy na przykład klasyfikację. w którym wejściowy zbiór danych ma sto funkcji. Aby zmaksymalizować margines między klasami pozytywnymi i ujemnymi, KSVM może wewnętrznie mapować te cechy w przestrzeni o milionie wymiarów. KSVM używa funkcji utraty o nazwie hinge loss.

keypoints

#image

Współrzędne konkretnych cech na zdjęciu. Na przykład w przypadku adresu rozpoznawania obrazów, który wyróżnia z gatunków kwiatowych, najważniejsze informacje mogą stanowić centralny punkt każdego płatka, łodygę pręcik i tak dalej.

krzyżowa walidacja krzyżowa

Algorytm przewidujący zdolność modelu do generalizacji na nowe dane. Symbol k w części krzyżowej odnosi się do liczba równych grup, na które dzielisz przykłady zbioru danych; czyli trenujesz i przetestować swój model k razy. W każdej rundzie szkolenia i testów inna grupa jest zbiorem testowym, a pozostałe grupy stają się źródłem trenowania ustawiony. Po k okrążeniach trenowania i testowania obliczasz średnią i odchylenie standardowe wybranych danych testowych.

Załóżmy na przykład, że Twój zbiór danych składa się ze 120 przykładów. Dalej załóżmy, ustawiasz k na 4. Dlatego po losowaniu przykładów dzielisz zbiór danych na 4 równe grupy po 30 przykładów i przeprowadzasz 4 okrążenia treningu i testowania:

zbiór danych podzielony na 4 równe grupy przykładów; W pierwszym etapie 3 pierwsze grupy służą do trenowania, a ostatnia – do testowania. W rundzie 2 pierwsze 2 grupy i ostatnia
          grupy są używane do trenowania, a trzecia grupa jest używana do
          i testowania. W rundzie 3 pierwsza i 2 ostatnie grupy
          używana jest trenowanie, a druga grupa – do testowania.
          W 4. kolu pierwsza grupa jest używana do testowania, a ostatnie 3 grupy są używane do trenowania.

Na przykład błąd średniokwadratowy (MSE) może być najbardziej przydatnym wskaźnikiem w przypadku modelu regresji liniowej. Dlatego obliczyłby średnią i odchylenie standardowe MSE ze wszystkich czterech rund.

średnie k

#clustering

Popularny algorytm zagnieżdżonego podziału, który grupował przykłady w ramach uczenia się nienadzorowanego. Algorytm k-średnich wykonuje te czynności:

  • Metoda iteracyjna określa najlepsze k punktów środkowych (zwanych centroidami).
  • Przypisuje każdy przykład do najbliższego centroidu. Te przykłady są najbliżej ten sam centroid należy do tej samej grupy.

Algorytm k-średnich wybiera lokalizacje centroidów, aby zminimalizować kwadrat odległości od każdego przykładu do najbliższego centroidu.

Weźmy na przykład taki wykres przedstawiający wysokość psa i jego szerokość:

Wykres kartezjański z kilkunastoma punktami danych.

Jeśli k=3, algorytm k-średniów określi trzy centroidy. Każdy przykład jest przypisany do najbliższego centroidu, co daje 3 grupy:

Ten sam wykres kartezjański co na ilustracji powyżej, ale z dodanymi trzema środkami ciężkości.
          Poprzednie punkty danych są grupowane w 3 odrębne grupy, z których każda reprezentuje punkty danych najbliższe danemu centroidowi.

Załóżmy, że producent chce określić idealne rozmiary małych, średnich i dużych swetrów dla psów. Trzy centroidy określają średnią wysokości i średniej szerokości każdego psa w tej grupie. Dlatego producent powinien określić rozmiary swetrów na podstawie tych trzech centroidów. Pamiętaj, że centroid klastra zwykle nie jest jego przykładem.

Poprzednie ilustracje pokazują algorytm k-średnich w przypadku przykładów z tylko dwoma cechami (wysokość i szerokość). Pamiętaj, że k-średnie mogą grupować przykłady w wielu funkcjach.

k-mediana

#clustering

Algorytm grupowania ściśle powiązany z parametrami k-średnie. praktyczna różnica między nimi jest taka:

  • W metodzie k-średnich centroidy są określane przez minimalizowanie sumy kwadratów odległości między kandydatem na centroid a każdym z jego przykładów.
  • W k-medianie centroidy są określane przez zminimalizowanie sumy wartości odległość między kandydującym obiektem centroidu a każdym jego przykładem.

Pamiętaj, że definicje odległości są też inne:

  • k-średnia opiera się na Odległość euklidesowa od centroidu. (W dwóch wymiarach wartość euklidesowa odległość oznacza użycie twierdzenia Pitagorasa do obliczenia przeciwprostokątną). Na przykład odległość k-średnich między (2,2) a (5,-2) wynosi:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • K-mediana opiera się na odległości Manhattana od centroida do przykładu. Ta odległość to suma bezwzględnych różnic w każdym wymiarze. Na przykład k-mediana odległość między (2,2) a (5,-2) to:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularyzacja L0

#fundamentals

Typ regularyzacji, która nakłada kary na łączną liczbę niezerowych wag w modelu. Na przykład model o 11 wagach innych niż zero otrzymałaby karę więcej niż w przypadku podobnego modelu o 10 wagach innych niż zero.

Regularyzacja L0 jest czasami nazywana regulacją normy L0.

Straty L1

#fundamentals

Funkcja strat, która oblicza bezwzględną wartość różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Oto na przykład obliczenie utraty L1partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu Wartość prognozowana przez model Wartość bezwzględna delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = strata L1

Strata L1 jest mniej wrażliwa na wartości wyizolowane niż strata L2.

Średni bezwzględny błąd to średnia utrata informacji L1 na przykład.

Regularyzacja L1

#fundamentals

Typ regularyzacji, która nakłada kary na wagi proporcjonalnie do ich sumy wartości bezwzględnych. Regularyzacja L1 pomaga zwiększać wagę nieistotnych elementów lub prawie nieistotne, aby dokładnie 0. Cecha o wadze 0 jest skutecznie usuwana z modelu.

Porównaj z L2 regularyzacją.

Strata L2

#fundamentals

Funkcja straty, która oblicza kwadrat różnicy między rzeczywistymi wartościami label i wartości prognozowane przez model. Oto na przykład obliczenie strat L2 dla partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu Prognozowana wartość modelu Kwadrat delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2

Z powodu kwadratów strata L2 zwiększa wpływ wartości odstające: Oznacza to, że strata L2 reaguje silniej na złe prognozy niż strata L1. Na przykład strata L1 dla poprzedniej partii będzie 8, a nie 16. Zwróć uwagę, że 9 z 16 wyników to wartości odstające.

Modele regresji zwykle używają funkcji utraty L2 jako funkcji utraty.

Błąd średniokwadratowy to średnia wartość Strata L2 na przykład. Strata kwadratowa to inna nazwa straty L2.

Regularyzacja L2

#fundamentals

Rodzaj regularizacji, który powoduje nałożenie kary. wagi proporcjonalnie do sumy ich kwadratów. Regularyzacja L2 pomaga zbliżyć wagi wartości odstających (czyli te o wysokich dodatnich lub niskich ujemnych wartościach) do 0, ale nie doprowadzi ich do dokładnie tej wartości. Cechy o wartościach bardzo bliskich 0 pozostają w modelu ale nie wpływają zbytnio na prognozę modelu.

Regularyzacja L2 zawsze poprawia uogólnianie modele liniowe.

Porównaj z regularyzacją L1.

etykieta

#fundamentals

W nadzorowanych systemach uczących się „odbierz” lub „wynik” w przykładzie.

Każdy oznaczony przykład składa się z co najmniej 1 cechy i etykiety. Na przykład w folderze Spam wykrywania w zbiorze danych do wykrywania treści, etykieta miałaby prawdopodobnie wartość „spam” lub „nie spam”. W zbiorze danych „deszczownica” etykieta może być wartością deszcz, który padał w danym okresie.

przykład z etykietami

#fundamentals

Przykład zawierający co najmniej jedną cechęetykietę. Na przykład w tabeli poniżej znajdują się 3 oznaczone przykłady z modelu wyceny domu, z których każdy ma 3 cechy i 1 etykietę:

Liczba sypialni Liczba łazienek Wiek domowy Cena domu (etykieta)
3 2 15 345 000 PLN
2 1 72 179 000 PLN
4 2 34 392 000 PLN

W przypadku nadzorowanych systemów uczących się modele trenują na przykładach oznaczonych etykietami i generują prognozy Przykłady bez etykiet.

Przykład oznaczony kontrastem z przykładami bez etykiet.

wyciek etykiety

Błąd w projekcie modelu, w którym funkcja jest pośrednikiem label. Rozważ na przykład model dwuklasowej klasyfikacji, który przewiduje, czy potencjalny klient kupi dany produkt. Załóżmy, że jedna z cech modelu jest wartością logiczną o nazwie SpokeToCustomerAgent Załóżmy też, że klient klienta jest tylko przypisany po zakupie przez potencjalnego klienta usługi. Podczas trenowania model szybko nauczy się kojarzyć SpokeToCustomerAgent z etykietą.

lambda

#fundamentals

Synonim stawki legalizacji.

Lambda to termin przeciążony. Skupiamy się na tym haśle definicji w ramach regularizacji.

LaMDA (Language Model for Dialogue Applications)

#language

Oparta na Transformerze duży model językowy opracowany przez Google i wytrenowany na duży zbiór danych dialogowych, który może generować realistyczne odpowiedzi konwersacyjne.

LaMDA: przełomowa rozmowa znajdziesz ogólny opis.

punkty orientacyjne

#image

Synonim punktów kluczowych.

model językowy

#language

Model, który szacuje prawdopodobieństwo wystąpienia tokena lub sekwencji tokenów w dłuższej sekwencji tokenów.

duży model językowy

#language

Minimalnie model językowy o bardzo dużej liczbie parametrów. Nieformalnie: dowolny model językowy oparty na Transformerze, np. Gemini lub GPT.

przestrzeń ukryta

#language

Synonim przestrzeni wektorów dystrybucyjnych.

warstwa

#fundamentals

Zbiór neuronów sieci neuronowej. Oto 3 najczęstsze typy warstw:

Na przykład na ilustracji poniżej przedstawiono sieć neuronowa jedną warstwę wejściową, dwie warstwy ukryte i jedną warstwę wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwsza ukryta warstwa składa się z 3 neuronów, a druga – z 2 neuronów. Warstwa wyjściowa składa się z jednego węzła.

TensorFlow warstwy to też funkcje Pythona, które przyjmują jako dane wejściowe tensory i inne tensory jako dane wyjściowe.

Layers API (tf.layers)

#TensorFlow

Interfejs TensorFlow API do tworzenia deep sieci neuronowej jako kompozycję warstw. Interfejs Warstwy API pozwala tworzyć typy warstw, takie jak:

Interfejs Layers API stosuje konwencje interfejsu Keras. Oznacza to, że oprócz innego prefiksu wszystkie funkcje w interfejsie Warstwy API mają takie same imiona i nazwiska i podpisy jak ich odpowiedniki w Keraście warstw API.

liść

#df

Dowolny punkt końcowy w drzewie decyzji. W przeciwieństwie do warunku element nie wykonuje testu. Możliwy jest raczej liść. Liść jest też węzłem końcowym ścieżki wnioskowania.

Na przykład ten schemat decyzyjny zawiera 3 liście:

Drzewo decyzyjne z 2 warunkami prowadzącymi do 3 wierzchołków

Narzędzie do analizowania interpretowalności (LIT)

Wizualne, interaktywne narzędzie do rozumienia modeli i wizualizacji danych.

Możesz użyć oprogramowania LIT typu open source, interpretować modele ani wizualizować tekstu, obrazu i obrazu, dane w formie tabeli.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która określa zjawisko gradientu. jak silnie dostosować wagi i uprzedzenia dla każdego iteracja. Na przykład szybkość uczenia się 0,3 będzie wpływać na wagi i uświadczenia trzykrotnie silniej niż szybkość uczenia się 0,1.

Tempo uczenia się to kluczowy hiperparametr. Jeśli ustawisz zbyt niskie tempo uczenia się, trenowanie zajmie za długo. Jeśli ustawisz zbyt wysoką szybkość uczenia się, metoda gradientu prostego często ma problemy z osiągnięciem konwergencji.

regresja najmniejszych kwadratów

Model regresji liniowej wytrenowany przez minimalizację L2 Utrata.

jednostajne

#fundamentals

Relacja między co najmniej 2 zmiennymi, którą można przedstawić wyłącznie przez dodawanie i mnożenie.

Wykres zależności liniowej jest linią.

Przeciwieństwem są nonlinear.

model liniowy

#fundamentals

Model, który przypisuje jedną wagę każdemu feature do prognozowania. (Modele liniowe uwzględniają też uprzedzenia). Natomiast relacja między cechami a prognozami w modelach głębokich jest zazwyczaj nieliniowa.

Modele liniowe są zwykle łatwiejsze do wytrenowania i bardziej zrozumiałe niż modele głębokie. Pamiętaj jednak: modele głębokie mogą uczyć się złożonych relacji między cechami.

Regresja liniowaregresja logistyczna to 2 typy modeli liniowych.

regresja liniowa

#fundamentals

Typ modelu systemów uczących się, w którym spełnione są oba te warunki:

  • Model jest liniowy.
  • Prognoza jest wartością zmiennoprzecinkową. (jest to część dotycząca regresji w ramach regresji liniowej).

Porównaj regresję liniową z regresją logistyczną. Porównaj regresję z klasyfikacją.

LIT

Skrót od operatora narzędzie do analizowania interpretowalności (LIT), które wcześniej nazywało się narzędziem do interpretowalności języka.

LLM

#language
#generativeAI

Skrót od large model Language (duży model językowy).

Oceny LLM (oceny)

#language
#generativeAI

Zestaw danych i testów porównawczych do oceny skuteczności dużych modeli językowych (LLM). Mówiąc ogólnie, Oceny LLM:

  • Pomagać badaczom w określaniu obszarów, w których modele LLM wymagają poprawy.
  • Są przydatne do porównywania różnych modeli LLM i identyfikowania najlepszego danego zadania.
  • pomagać w zapewnieniu bezpieczeństwa i moralności korzystania z modeli LLM.

regresja logistyczna

#fundamentals

Typ modelu regresji, który prognozuje prawdopodobieństwo. Modele regresji logistycznej mają te cechy:

  • Etykieta jest kategorialna. Termin „regresja logistyczna” zwykle odnosi się do binarnej regresji logistycznej, czyli modelu, który oblicza prawdopodobieństwa dla etykiet o 2 możliwych wartościach. Mniej popularny wariant, wielomianowa regresja logistyczna, oblicza prawdopodobieństwa dla etykiet z więcej niż 2 możliwymi wartościami.
  • Funkcja utraty podczas trenowania to logarytmiczna utrata. (Wiele jednostek utraty logów można umieścić równolegle dla etykiet z więcej niż dwiema możliwymi wartościami).
  • Model ma architekturę liniową, a nie głęboką sieć neuronowa. Pozostała część tej definicji dotyczy jednak również głębokich modeli, które przewidują prawdopodobieństwa dla etykiet kategorycznych.

Rozważmy na przykład model regresji logistycznej, który oblicza prawdopodobieństwo, że podany e-mail jest spamem lub nie jest spamem. Podczas wnioskowania załóżmy, że model przewiduje 0,72. Dlatego model szacuje:

  • 72% prawdopodobieństwa, że e-mail będzie spamem
  • 28% prawdopodobieństwo, że e-mail nie jest spamem.

Model regresji logistycznej wykorzystuje tę architekturę dwuetapową:

  1. Model generuje nieprzetworzoną prognozę (y') przez zastosowanie funkcji liniowej cech wejściowych.
  2. Model używa tej nieprzetworzonej prognozy jako danych wejściowych funkcja sigmoidalna, która konwertuje nieprzetworzoną dla prognozy na wartość z zakresu od 0 do 1 wyłącznie.

Podobnie jak każdy model regresji, model regresji logistycznej prognozuje liczbę. Jednak ta liczba zwykle staje się częścią klasyfikacji binarnej model w następujący sposób:

  • Jeśli prognozowana liczba jest większa niż próg klasyfikacji, model klasyfikacji binarnej prognozuje klasę pozytywną.
  • Jeśli prognozowana liczba jest mniejsza niż próg klasyfikacji, model klasyfikacji binarnej prognozuje klasę ujemną.

logit

Wektor nieprzetworzonych (nieznormalizowanych) prognoz, które klasyfikuje model jest generowany, który jest zwykle przekazywany do funkcji normalizacji. Jeśli model wykrywa klasyfikację wieloklasową logiki stają się zwykle danymi wejściowymi dla Funkcja softmax. Następnie funkcja softmax generuje wektor (znormalizowanych) prawdopodobieństw z jedną wartością dla każdej możliwej klasy.

Logarytmiczna funkcja straty

#fundamentals

Funkcja utraty używana w binarnej regresji logistycznej.

log-odds

#fundamentals

Logarytm prawdopodobieństwa wystąpienia danego zdarzenia.

Długa pamięć krótkotrwała (LSTM)

#seq

Typ komórki w sieci neuronowej z pamięcią rekurencyjną, która służy do przetwarzania sekwencji danych w takich zastosowaniach jak rozpoznawanie pisma ręcznego, tłumaczenie maszynowe i dodawanie podpisów do obrazów. Oprogramowanie LSTM dotyczy problemu z gradientem, który występuje, gdy trenowanie członków RNN ze względu na długie sekwencje danych dzięki utrzymaniu historii stan pamięci wewnętrznej na podstawie nowych danych wejściowych i kontekstu z poprzednich komórek w RNN.

LoRA

#language
#generativeAI

Skrót od terminu Low-Rank Adaptability.

przegrana

#fundamentals

Podczas treningu modelu nadzorowanego mierzy się, jak daleko prognoza modelu odbiega od etykiety.

Funkcja utraty oblicza utratę.

agregator strat

Typ algorytmu uczenia maszynowego, który poprawia wydajność modelu. przez połączenie prognoz wielu modeli na podstawie tych danych do stworzenia pojedynczej prognozy. W rezultacie agregator strat może zmniejszyć wariancję prognoz i poprawić ich dokładność.

krzywa utraty

#fundamentals

Wykres straty jako funkcji liczby iteracji. Na wykresie poniżej widać typowy przebieg funkcji utraty:

Kartezyjski wykres strat i iteracji treningowych, przedstawiający
          gwałtowny spadek utraty danych w pierwszych iteracjach, po którym następuje stopniowy spadek
          spadek, a potem płaski spadek podczas ostatnich iteracji.

Krzywe strat mogą pomóc w określeniu, kiedy model zbiera dane lub nadmiernie dopasowuje się.

Krzywe straty mogą wykreślać wszystkie te typy strat:

Zobacz też krzywą generalizacji.

funkcja utraty

#fundamentals

Podczas trenowania lub testowania funkcja matematyczna, która oblicza stratę na partii przykładów. Funkcja straty zwraca mniejszą stratę w przypadku modeli, które dobrze przewidują, niż w przypadku modeli, które źle przewidują.

Celem trenowania jest zazwyczaj zminimalizowanie utraty funkcji „powrót karetki”.

Istnieje wiele różnych rodzajów funkcji strat. Wybierz odpowiednią stratę dla rodzaju tworzonego modelu. Na przykład:

powierzchnia straty

Wykres przedstawiający stosunek wagi do wagi. Efekt gradientu ma na celu aby określić wagę, dla której powierzchnia straty wynosi lokalne minimum.

Dostosowanie niskiego rankingu (LoRA)

#language
#generativeAI

Techniczne zagadnienia dotyczące parametrów dotyczące dokładnego dostrojenia, które polega na „zamrożeniu” wstępnie wytrenowanych wag modelu (aby nie można ich było już modyfikować), a następnie wstawianiu do modelu małego zestawu wag do trenowania. Ten zbiór trenowanych wag (zwany też „macierzami aktualizacji”) jest znacznie mniejszy niż model podstawowy, a co za tym idzie, jego trenowanie przebiega znacznie szybciej.

LoRA zapewnia te korzyści:

  • Poprawia jakość prognoz modelu w domenie, w której stosowane jest dostrajanie.
  • Dostrajanie odbywa się szybciej niż w przypadku technik wymagających dostrajania wszystkich .
  • Obniża koszty obliczeniowe wnioskowania, włączając równoczesne udostępnianie wielu wyspecjalizowanych modeli o tej samej bazie model atrybucji.

LSTM

#seq

Skrót od Long Short-Term Memory.

M

systemy uczące się

#fundamentals

Program lub system, który szkoli model na podstawie danych wejściowych. Wytrenowany model może tworzyć przydatne prognozy na podstawie nowych (wcześniej nieużywanych) danych pochodzących z tego samego rozkładu co dane użyte do trenowania modelu.

Uczenie maszynowe odnosi się też do dziedziny nauki związanej z tymi programami lub systemami.

klasa większości

#fundamentals

Więcej informacji zawiera sekcja opisująca typowe błędy. Przykład: dla zbioru danych zawierającego 99% etykiet negatywnych i 1% pozytywnych, etykiety negatywne są większością.

Wskaż kontrast z klasą mniejszości.

Proces decyzyjny Markowa (MDP)

#rl

Wykres przedstawiający model decyzyjny, w którym (lub działań), by poruszać się po sekwencji stwierdza przy założeniu, że Blokady właściwości Markova. W nauczaniu wzmacniającym te przejścia między stanami zwracają liczbową nagrodę.

Właściwość Markowa

#rl

Właściwość niektórych środowisk, w których przejścia między stanami są całkowicie określane przez informacje zawarte w bieżącym stanie i działaniu agenta.

zamaskowany model językowy

#language

Model językowy, który prognozuje prawdopodobieństwo tokeny kandydujące, aby uzupełnić puste pola w sekwencji. Na przykład plik zamaskowany model językowy może obliczać prawdopodobieństwo dla słów kandydatów możesz zastąpić podkreślenie w następującym zdaniu:

____ w kapeluszu wróciła.

W literaturze zwykle używany jest ciąg „MASK” zamiast podkreślenia. Na przykład:

„MASK” wrócił do kapelusza.

Większość współczesnych modeli językowych maskowanych działa dwukierunkowo.

matplotlib

Biblioteka open source do tworzenia wykresów 2D w języku Python. matplotlib ułatwia wizualizację różnych aspektów uczenia maszynowego.

rozkład macierzy,

#recsystems

W matematyce mechanizm znajdowania macierz, których iloczyn skalarny jest przybliżeniem do macierzy docelowej.

W systemach rekomendacji tablica docelowych danych często zawiera oceny elementów przez użytkowników. Na przykład docelowa tablica dla systemu rekomendacji filmów może wyglądać tak: dodatnie liczby całkowite to oceny użytkowników, a 0 oznacza, że użytkownik nie ocenił filmu:

  Casablanca Historia Filadelfii Czarna Pantera Wonder Woman Pulp fiction
Użytkownik 1 5,0 3,0 0,0 2,0 0,0
Użytkownik 2 4.0 0,0 0,0 1,0 5,0
Użytkownik 3 3,0 1,0 4.0 5,0 0,0

System rekomendacji filmów ma przewidywać oceny użytkowników w przypadku filmów bez oceny. Na przykład: czy Użytkownik 1 lubi Czarną Panterę?

Jednym z podejść do systemów rekomendacji jest użycie czynnika macierzowego do wygenerowania tych 2 macierzy:

Na przykład za pomocą rozkładu na 3 użytkowników i 5 elementów może zwrócić następującą macierz użytkowników i tablicę elementów:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Punktowy iloczyn macierzy użytkowników i macierzy elementów daje macierz rekomendacji, która zawiera nie tylko oryginalne oceny użytkowników, ale także prognozy dotyczące filmów, których dany użytkownik nie widział. Użytkownik 1 ocenił film Casablanca na 5,0. Produkt dot. odpowiadający tej komórce w macierz rekomendacji powinien wynosić około 5,0. W tym przypadku jest to:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Co ważniejsze, czy użytkownik 1 polubi film Czarna Pantera? Iloczyn skalarny odpowiadająca pierwszemu wierszowi, a trzecia kolumna daje prognozowany ocena 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Rozkład macierzy zwykle daje macierz użytkowników i macierz elementów, które razem są znacznie bardziej zwarte niż macierz docelowa.

Średni błąd bezwzględny (MAE)

Średnia utrata na przykładzie, gdy używana jest strategia L1. Oblicz średni błąd bezwzględny w ten sposób:

  1. Oblicz stratę L1 dla wsadu.
  2. Podziel stratę L1 przez liczbę przykładów w partii.

Weźmy np. obliczenie straty L1 na tę partię pięciu przykładów:

Rzeczywista wartość przykładu Prognozowana wartość modelu Strata (różnica między rzeczywistą a prognozowaną)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = strata L1

Zatem strata L1 wynosi 8, a liczba przykładów to 5. Średni błąd bezwzględny wynosi więc:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Średni bezwzględny błąd kontrastu z błędem średniokwadratowymśrednią kwadratową błędów.

Średnia kwadratowa błędu (MSE)

Średnia utrata na przykładzie, gdy używana jest utrata L2. Oblicz błąd średni kwadrat w ten sposób:

  1. Oblicz straty L2 dla partii.
  2. Podziel stratę L2 przez liczbę przykładów w grupie.

Weźmy na przykład stratę w tej partii składającej się z 5 przykładów:

Rzeczywista wartość Prognoza modelu Strata Strata kwadratowa
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = strata L2

W związku z tym błąd średniokwadratowy to:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Błąd średniokwadratowy to popularny optymalizator, zwłaszcza w przypadku regresji liniowej.

Średni kwadrat kontrastu z Średni błąd bezwzględny oraz Średnia kwadratowa błędów równania.

TensorFlow Playground używa średniej kwadratowej błędów do obliczania wartości utraty.

sieć typu mesh

#TensorFlow
#GoogleCloud

W programowaniu równoległym z wykorzystaniem uczenia maszynowego termin związany z przypisywaniem danych i modelu do chipów TPU oraz definiowaniem sposobu ich dzielenia lub replikowania.

Sieć to termin, który może oznaczać:

  • Fizyczny układ układów TPU.
  • Abstrakcyjny konstrukt logiczny do mapowania danych i modelu na TPU elementów.

W obu przypadkach siatka jest określana jako kształt.

metanauka

#language

Podzbiór systemów uczących się, które wykrywają lub ulepszają algorytm uczenia się. System metanauki może też dążyć do wytrenowania modelu, aby szybko uczyć się nowego zadania na podstawie niewielkiej ilości danych lub doświadczenia zdobytego podczas wykonywania poprzednich zadań. Algorytmy metalearningu zwykle dążą do:

  • Poznawaj lub ulepszaj ręcznie opracowane funkcje (takie jak inicjator lub optymalizatora).
  • zwiększyć wydajność przetwarzania danych i przetwarzania danych.
  • Poprawia ogólność.

Metanauka jest powiązana z nauką typu few-shot.

wskaźnik

#TensorFlow

Statystyka, na której Ci zależy.

Cel to dane, które system uczących się próbuje zoptymalizować.

Metrics API (tf.metrics)

Interfejs TensorFlow API do oceny modeli. Na przykład tf.metrics.accuracyokreśla, jak często prognozy modelu zgadzają się z etykietami.

minizbiorcza

#fundamentals

Mały, losowo wybrany podzbiór partii przetworzonej w jednej iteracji. Rozmiar grupy to zwykle od 10 do 1000 przykładów.

Załóżmy na przykład, że cały zbiór treningowy (pełna wsad) obejmuje 1000 przykładów. Załóżmy też, że rozmiar partii każdej minipartii wynosi 20. Dlatego w każdej iteracji określamy stratę dla 20 losowych przykładów spośród 1000 i odpowiednio dostosowujemy wagiuśrednione wartości.

Znacznie efektywniej obliczysz stratę w przypadku małych partii niż w przypadku wszystkich przykładów w całej partii.

minizbiorczy spadek stochastyczny z gradientem

Algorytm gradientu prostego, który używa minipartii. Inaczej mówiąc, stochastyczny gradient z minipartiami szacuje gradient na podstawie małego podzbioru danych treningowych. Zwykłe zjawisko gradientu stochastycznego używa małe grupy 1 sztuk.

minimalna strata

Funkcja straty dla generatywne sieci kontradyktoryjne, na podstawie entropii krzyżowej między rozkładem generowanych i prawdziwych danych.

Wartość Minimax straty jest używana w pierwszego raportu, który opisuje i generatywne sieci kontradyktoryjne.

klasa mniejszości

#fundamentals

Rzadziej używana etykieta w zbiór danych o niezbalansowaniu klasy. Przykład: dla zbioru danych zawierającego 99% etykiet negatywnych i 1% pozytywnych, etykiety dodatnie to klasa mniejszości.

Porównaj z klasą większości.

połączenie ekspertów

#language
#generativeAI

Schemat zwiększania wydajności sieci neuronowych przez używając tylko podzbioru parametrów (nazywanych ekspertem) do przetwarzania danego tokena lub przykładu wejściowego. O sieć bramkowa przekierowuje każdy token do wprowadzania danych lub przykład do odpowiednich ekspertów.

Szczegółowe informacje można znaleźć w tych artykułach:

ML

Skrót od systemów uczących się.

MMIT

#language
#image
#generativeAI

Skrót od multimodalny dostosowany do instrukcji.

MNIST,

#image

zbiór danych w domenie publicznej, skompilowany przez firmy LeCun, Cortes i Burges, zawierający 60 000 obrazów,z których każdy pokazuje, jak człowiek napisał określone cyfrę od 0 do 9. Każdy obraz jest przechowywany jako tablica liczb całkowitych 28 x 28, gdzie każda liczba całkowita to wartość w skali szarości z zakresu od 0 do 255 włącznie.

MNIST to kanoniczny zbiór danych dla systemów uczących się, często używany do testowania nowych systemów uczących się. Więcej informacji: w bazie odręcznych cyfr (MNIST).

modalność

#language

Ogólna kategoria danych. Przykładowo liczby, tekst, obrazy, filmy i dźwięk to 5 różnych modalności.

model

#fundamentals

Ogólnie rzecz biorąc, każda konstrukcja matematyczna, która przetwarza dane wejściowe i zwraca dane wyjściowe. Inaczej mówiąc, model to zbiór parametrów i struktury jest niezbędna do generowania prognoz. W nadzorowanym uczeniu maszynowym model otrzymuje jako dane wejściowe przykład, a jako dane wyjściowe wyprowadza prognozę. W ramach nadzorowanych systemów uczących się modele się nieco różnią. Na przykład:

  • Model regresji liniowej składa się ze zbioru wag. i uprzedzenia.
  • Model sieci neuronowej składa się z tych elementów:
    • zestaw ukrytych warstw, z których każda zawiera co najmniej neuron;
    • Wagi i uprzedzenia związane z każdym neuronem.
  • Model drzewa decyzji składa się z tych elementów:
    • Kształt drzewa, czyli wzór, w jakim warunki i liście są ze sobą połączone.
    • Warunki i liście.

Możesz zapisać model, przywrócić go lub utworzyć jego kopie.

Nienadzorowane systemy uczące się generuje modele, zwykle funkcję, która może zmapować przykład danych wejściowych najbardziej odpowiedni klaster.

pojemność modelu

Złożoność problemów, których model może się uczyć. Im bardziej złożone tym większy może być model. Zdolność modelu do generowania trafnych prognoz zwykle rośnie wraz z liczbą parametrów modelu. Nieformalną definicję pojemności klasyfikatora znajdziesz w sekcji Wymiar VC.

kaskadowe łączenie modeli

#generativeAI

System, który wybiera idealny model do konkretnego zapytania o wyznaczanie wniosków.

Wyobraź sobie grupę modeli, od bardzo dużych (mnóstwo modeli parameters) na znacznie mniejsze (znacznie mniej parametrów). Bardzo duże modele zużywają więcej zasobów obliczeniowych na etapie wywołania niż mniejsze modele. Jednak bardzo duży mogą zwykle wnioskować bardziej złożone żądania niż mniejsze. Modele kaskadowe określają złożoność zapytania wnioskowania, a następnie wybierają odpowiedni model do wykonania wnioskowania. Głównym powodem stosowania kaskadowego uruchamiania modeli jest obniżenie kosztów wnioskowania przez wybieranie zazwyczaj mniejszych modeli i wybieranie większego modelu tylko w przypadku bardziej złożonych zapytań.

Załóżmy, że mały model działa na telefonie, a większa wersja tego modelu działa na zdalnym serwerze. Dobre kaskadowe stosowanie modeli zmniejsza koszty i opóźnienia, ponieważ umożliwia mniejszym modelom obsługę prostych żądań i wywoływanie modelu zdalnego tylko w przypadku złożonych żądań.

Zobacz też model routera.

równoległość modelu

#language

Sposób skalowania treningu lub wnioskowania, który polega na umieszczeniu różnych części jednego modelu na różnych urządzeniach. Modelowanie równoległe umożliwia tworzenie modeli, które są zbyt duże, aby zmieścić się na jednym urządzeniu.

Aby wdrożyć równoległość modelu, system zwykle wykonuje te czynności:

  1. Fragmenty (dzielenie) modelu na mniejsze części.
  2. Rozdziela trenowanie tych mniejszych części na wiele procesorów. Każdy procesor trenuje inną część modelu.
  3. Łączy wyniki w celu utworzenia jednego modelu.

Równoległość modelu spowalnia trenowanie.

Zobacz też równoległość danych.

model routera

#generativeAI

Algorytm, który określa idealny model dla wnioskowania w kaskadowym modelu atrybucji. Przekaźnik modeli to zwykle model systemów uczących się, który stopniowo uczy się, jak wybrać najlepszy model dla danego wejścia. Model routera może jednak czasami być prostszym algorytmem, który nie wykorzystuje uczenia maszynowego.

trenowanie modelu

Proces wyboru najlepszego modelu.

Wykorzystanie chwili

zaawansowany algorytm przesuwania w dół, który wymaga etapu uczenia się. nie tylko pochodnej pochodnej w bieżącym kroku, ale również pochodnych bezpośrednio po nim. Wykorzystanie chwili wymaga wykładniczo ważona średnia ruchoma gradientów w czasie, analogicznie do pędu w fizyce. Momentum czasami zapobiega utkwiczeniu się w lokalnym minimum.

MOE

#language
#image
#generativeAI

Skrót od mixture of experts.

klasyfikacja wieloklasowa

#fundamentals

W przypadku uczenia nadzorowanego problem klasyfikacji, w którym zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą należeć do jednej z tych trzech klas:

  • Irys setosa
  • Iris virginica
  • Iris versicolor

Model wytrenowany na zbiorze danych Iris, który prognozuje typ kwiatu na podstawie nowych przykładów, wykonuje klasyfikację wieloklasową.

Z kolei problemy z klasyfikacją rozróżniają dokładnie dwa rodzaje danych. to binarne modele klasyfikacji. Na przykład model e-maila, który prognozuje spam lub nie spam, jest modelem klasyfikacji binarnej.

W problemach z klasteringiem klasyfikacja wieloklasowa odnosi się do więcej niż 2 klas.

wieloklasowa regresja logistyczna

Użyj regresji logistycznej w Zadania z klasyfikacją wieloklasową.

wielogłowa autouwaga

#language

Rozszerzenie samouczenia, które stosuje mechanizm samouczenia wielokrotnie w przypadku każdej pozycji w sekwencji wejściowej.

Transformery wprowadziły wielogłowe mechanizmy samouczenia.

model multimodalny

#language

Model, którego dane wejściowe lub wyjściowe obejmują więcej niż 1 modalność. Weźmy na przykład model, który bierze zarówno obraz i podpis tekstowy (2 modalności) jako funkcje, zwraca wynik wskazujący stopień dopasowania podpisu tekstowego do obrazu. Dane wejściowe tego modelu są multimodalne, a dane wyjściowe – unimodalne.

multimodalne dostosowane do instrukcji

#language

model dostosowany do instrukcji, który może przetwarzać dane wejściowe inne niż tekst, np. obrazy, filmy i dźwięk.

klasyfikacja wielomianowa

Synonim klasyfikacji wieloklasowej.

regresja wielomianowa

Synonim dla wieloklasowa regresja logistyczna.

wielozadaniowość

To technika systemów uczących się, w której pojedynczy model jest wytrenowanych do wykonywania wielu zadań.

Modele wielozadaniowe są tworzone przez trenowanie na danych, które są odpowiednie dla i wykonywać inne zadania. Dzięki temu model może nauczyć się udostępniać informacji ze wszystkich zadań, co pomaga modelowi efektywniej się uczyć.

Model wytrenowany pod kątem wielu zadań często wykazywał lepsze możliwości uogólniania i lepiej radzi sobie z różnymi typami danych.

N

pułapka NaN,

Gdy jedna liczba w modelu staje się NaN podczas trenowania, co powoduje, że wiele lub wszystkie pozostałe liczby w modelu a ostatecznie do bycia NaN.

NaN to skrót od Not a Number.

rozumienie języka naturalnego

#language

Określanie zamiarów użytkownika na podstawie tego, co wpisał lub powiedział. Na przykład wyszukiwarka korzysta z rozumienia języka naturalnego, aby określić, czego szuka użytkownik, na podstawie tego, co użytkownik wpisał lub powiedział.

klasa negatywna

#fundamentals

W klasyfikacji binarnej 1 klasa jest określanych jako pozytywne, a drugie – ujemnych. Klasa pozytywna to rzecz lub zdarzenie, które model testuje, a klasa negatywna to inna możliwość. Na przykład:

  • Ocena negatywna w teście medycznym może oznaczać, że to nie guz.
  • Klasa negatywna w klasyfikatorze e-maili może być oznaczona jako „nie spam”.

Porównaj z klasą wyników pozytywnych.

próbkowanie negatywne

Synonim próbkowania kandydatów.

Neural Architecture Search (NAS)

Technika automatycznego projektowania architektury sieci neuronowej. Algorytmy NAS mogą zmniejszyć ilość czas i zasoby potrzebne do wytrenowania sieci neuronowej.

NAS zazwyczaj używa:

  • Przestrzeń wyszukiwania, która jest zbiorem możliwych architektur.
  • Funkcja dopasowania, która jest miarą tego, jak dobrze dana architektura radzi sobie z danym zadaniem.

Algorytmy NAS często zaczynają się od niewielkiego zestawu możliwych architektur i stopniowo poszerzać zakres wyszukiwania, w miarę jak algorytm uczy się więcej są skuteczne. Funkcja fitness opiera się zwykle na wydajności architektury w zbiorze treningowym, a algorytm jest są zwykle trenowane z użyciem zdobywania przez wzmacnianie.

Algorytmy NAS okazały się skuteczne w znajdowaniu wydajnych architektur do różnych zadań, w tym klasyfikacji obrazów, klasyfikacji tekstu i tłumaczenia maszynowego.

sieć neuronowa

#fundamentals

Model zawierający co najmniej 1 ukrytą warstwę. Głęboka sieć neuronowa to rodzaj sieci neuronowej zawierającej więcej niż jedną warstwę ukrytą. Na przykład ten diagram pokazuje głęboką sieć neuronową zawierającą 2 ukryte warstwy.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami w następnej warstwie. Na przykład na poprzednim diagramie widać, że każdy z 3 neuronów w pierwszej ukrytej warstwie łączą się oddzielnie z 2 neuronami drugą ukrytą warstwę.

Sieci neuronowe wdrażane na komputerach są czasami nazywane sztucznymi sieciami neuronowymi, aby odróżnić je od sieci neuronowych występujących w mózgu i innych układach nerwowych.

Niektóre sieci neuronowe mogą naśladować bardzo złożone relacje nieliniowe między różnymi cechami i etykietą.

Zobacz też splotową sieć neuronowa oraz powracającej sieci neuronowej.

neuron

#fundamentals

W systemach uczących się: odrębna jednostka w ukrytej warstwie. sieci neuronowej. Każdy neuron wykonuje tę dwuetapową czynność:

  1. Oblicza sumę ważoną wartości wejściowych pomnożonych przez przez odpowiednią wagę.
  2. Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacyjnej.

Neuron w pierwszej ukrytej warstwie przyjmuje dane wejściowe z wartości cech w warstwie wejściowej. Neuron w dowolnej ukrytej warstwie poza nią pierwszy przyjmuje dane wejściowe z neuronów w poprzedniej ukrytej warstwie. Na przykład neuron na 2. warstwie ukrytej przyjmuje dane wejściowe od neuronów na 1. warstwie ukrytej.

Na ilustracji poniżej zaznaczono 2 neurony i ich wejścia.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową. Wyróżniono 2 neurony: jeden na pierwszej warstwie ukrytej i jeden na drugiej warstwie ukrytej. Zaznaczony neuron na pierwszej warstwie ukrytej otrzymuje dane wejściowe z obu funkcji na warstwie wejściowej. Wyróżniony neuron na 2. ukrytej warstwie otrzymuje dane wejściowe od każdego z 3 neuronów na 1. ukrytej warstwie.

Neuron w sieci neuronowej naśladuje działanie neuronów w mózgu i innych częściach układu nerwowego.

N-gram

#seq
#language

Uporządkowana sekwencja N słów. Na przykład truly madly to 2-gram. Kolejność wyrazów ma znaczenie, więc madly truly to inny 2-gram niż truly madly.

N Nazwa(y) tego typu N-gramu Przykłady
2 bigram lub 2-gram go, go to, eat lunch, eat dinner
3 trygram lub 3-gram zjedzły za dużo, trzy ślepe myszy, oto kolejne dzwonki
4 4-gram walk in the park, dust in the wind, the boy ate lentils

rozumienia wielu języków naturalnych; modele korzystają z Ngramów do przewidywania następnego słowa, które użytkownik wpisze lub powiedzmy. Załóżmy na przykład, że użytkownik wpisał three blind (3 niewidome). Model NLU oparty na trygramach prawdopodobnie przewidywałby, że użytkownik wpisze wtedy myszy.

Kontrastuj N-gramy z teczką słów, która jest nieuporządkowanym zbiorem słów.

NLU

#language

Skrót od rozumienia języka naturalnego.

węzeł (drzewo decyzyjne)

#df

W drzewie decyzji dowolny stan lub liść.

Drzewo decyzyjne z 2 warunkami i 3 listkami.

węzeł (sieć neuronowa)

#fundamentals

Neuronukrytej warstwie.

węzeł (wykres TensorFlow)

#TensorFlow

Operacja w grafie TensorFlow.

szum

Mówiąc ogólnie, wszystko, co zaciemnia sygnał w zbiorze danych. Szum mogą być wprowadzane do danych na różne sposoby. Na przykład:

  • Weryfikatorzy popełniają błędy przy oznaczaniu.
  • Ludzie i urządzenia mogą nieprawidłowo rejestrować wartości cech lub pomijać je.

niebinarny warunek

#df

Warunek obejmujący więcej niż 2 możliwe wyniki. Na przykład ten warunek niebinarny zawiera 3 możliwe wyniki:

Warunek (number_of_legs = ?), który prowadzi do trzech możliwych
          wyniki. Jeden wynik (number_of_legs = 8) prowadzi do liścia o nazwie pająk. Drugi wynik (number_of_legs = 4) prowadzi do
          liście o nazwie „pies”. Trzeci wynik (number_of_legs = 2) prowadzi do
          liście o nazwie pingwin.

nieliniowe

#fundamentals

Relacja między co najmniej 2 zmiennymi, której nie można przedstawić wyłącznie przez dodawanie i mnożenie. Relacja liniowa może być przedstawiona za pomocą linii, zależność nonlinear jest reprezentowana jako linia. Przeanalizujmy na przykład 2 modele, z którymi każdy się odnosi z jedną cechę na jedną etykietę. Model po lewej stronie jest liniowy a model po prawej stronie jest nieliniowy:

Dwa działki. Jeden wykres jest linią, więc jest to zależność liniowa.
          Drugi wykres jest krzywą, więc jest to zależność nieliniowa.

błąd braku odpowiedzi

#fairness

Zobacz Błąd doboru.

niestacjonarny

#fundamentals

Cecha, której wartości zmieniają się w przypadku co najmniej 1 wymiaru, zwykle czasu. Rozważmy na przykład te przykłady niestacjonarności:

  • Liczba kostiumów kąpielowych sprzedawanych w danym sklepie różni się w zależności od pory roku.
  • Ilość konkretnych owoców zebranych w konkretnym regionie wynosi 0 przez większą część roku, ale jest duża przez krótki okres.
  • Z powodu zmian klimatu średnie temperatury roczne się zmieniają.

Przeciwieństwem jest stacjonarność.

normalizacja

#fundamentals

Ogólnie rzecz biorąc, jest to proces konwertowania rzeczywistego zakresu wartości zmiennej na standardowy zakres wartości, np.:

  • -1 do +1
  • Od 0 do 1
  • Z-wyniki (w przybliżeniu od -3 do +3)

Załóżmy na przykład, że rzeczywisty zakres wartości danej cechy wynosi od 800 do 2400. W ramach tworzenia cech możesz znormalizować rzeczywiste wartości do standardowego zakresu, np. -1 do +1.

Normalizacja jest częstym zadaniem w ramach inżynierii cech. Modele zwykle trenują szybciej (i tworzyć lepsze prognozy), gdy każda funkcja liczbowa w funkcji wektor cech ma mniej więcej taki sam zakres.

Więcej informacji znajdziesz w module „Praca z danymi liczbowymi” z Kursu intensywnego na temat uczenia maszynowego. Zapoznaj się też z sekcją Normalizacja wyniku Z.

wykrywanie nowości

Proces ustalania, czy nowy (nowy) przykład pochodzi z tego samego rozkładu prawdopodobieństwa co zbiór treningowy. Innymi słowy, po przeszkoleniu na zbiorze treningowym wykrywanie nowości określa, czy nowy przykład (podczas wnioskowania lub dodatkowego szkolenia) jest odstępstwem.

Przeciwieństwem są wykrywanie wyników odstających.

dane liczbowe

#fundamentals

Funkcje reprezentowane w postaci liczb całkowitych lub liczb rzeczywistych. Na przykład model wyceny domu prawdopodobnie przedstawia wielkość domu (w stopach kwadratowych lub metrach kwadratowych) jako dane liczbowe. Przedstawienie cechy jako danych liczbowych wskazuje, że wartości tej cechy mają matematyczny związek z etykietą. To oznacza, że liczba metrów kwadratowych domu zbudowana jest na podstawie matematyczny związek z wartością domu.

Nie wszystkie dane całkowite powinny być reprezentowane jako dane liczbowe. Przykład: kody pocztowe w niektórych częściach świata są liczbami całkowitymi. jednak, całkowita liczba pocztowa W modelach kody nie powinny być przedstawiane w postaci danych liczbowych. To dlatego, że kod pocztowy 20000 nie jest dwa (lub o połowę) wyższy niż kod pocztowy 10000. Mimo że różne kody pocztowe wiążą się z różnymi nieruchomości, nie możemy założyć, że wartości nieruchomości podane w kodzie pocztowym Wartość 20 000 w przypadku kodu pocztowego 10 000 ma 2 razy większą wartość niż nieruchomości. Kody pocztowe powinny być przedstawiane jako dane kategorialne .

Cechy liczbowe są czasami nazywane funkcje ciągłe.

NumPy

biblioteka matematyczna open source który zapewnia wydajne operacje na tablicach w Pythonie. pandas opiera się na NumPy.

O

cel

Wskaźnik, który algorytm próbuje zoptymalizować.

funkcja celu

Wzór matematyczny lub dane, które model ma zoptymalizować. Na przykład funkcja celu w regresji liniowej to zwykle średnia kwadratowa błędu. Dlatego podczas trenowania regresji liniowej, trenowanie ma na celu zminimalizowanie średniej kwadratowej straty.

W niektórych przypadkach celem jest zmaksymalizowanie funkcji celu. Jeśli na przykład funkcją celu jest dokładność, celem jest aby zmaksymalizować dokładność.

Zobacz też strata.

warunek skośny

#df

W drzewie decyzji condition, który obejmuje więcej niż jeden funkcja. Jeśli na przykład wysokość i szerokość są obiektami, załóżmy, że jest to warunek skośny:

  height > width

Porównaj z warunkiem dopasowanym do osi.

offline

#fundamentals

Synonim statycznej.

wnioskowanie offline

#fundamentals

Proces generowania grupy prognoz przez model a następnie buforować (zapisywać) te prognozy. Aplikacje mogą wtedy korzystać z wywnioskowanej prognozy z pamięci podręcznej zamiast ponownie uruchamiać model.

Rozważmy na przykład model, który generuje lokalne prognozy pogody. (prognozy) co 4 godziny. Po uruchomieniu każdego modelu system zapisuje w pamięci podręcznej wszystkie lokalne prognozy pogody. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Wnioskowanie offline nazywane jest też wnioskowaniem statycznym.

Porównaj z inferencją online.

kodowanie one-hot

#fundamentals

Przedstawianie danych kategorialnych jako wektora, w którym:

  • Jeden element ma wartość 1.
  • Wszystkie pozostałe elementy mają wartość 0.

Kodowanie jednoelementowe jest często używane do reprezentowania ciągów znaków lub identyfikatorów, które mają skończony zbiór możliwych wartości. Załóżmy na przykład, że dana cecha kategorialna o nazwie Scandinavia ma 5 możliwych wartości:

  • „Dania”
  • „Szwecja”
  • „Norwegia”
  • „Finlandia”
  • „Islandia”

Jednokrotne kodowanie może reprezentować każdą z tych 5 wartości w następujący sposób:

country Wektor
„Dania” 1 0 0 0 0
„Szwecja” 0 1 0 0 0
„Norwegia” 0 0 1 0 0
„Finlandia” 0 0 0 1 0
„Islandia” 0 0 0 0 1

Dzięki kodowaniu „jedno gorące” model może uczyć się różnych połączeń w każdym z 5 krajów.

Przedstawianie cechy jako danych liczbowych to alternatywa dla kodowania 1-hot. Niestety reprezentowanie krajów skandynawskich za pomocą liczb nie jest dobrym pomysłem. Weź pod uwagę tę postać liczbową:

  • „Dania” wynosi 0
  • „Sweden” to 1
  • „Norwegia” to 2
  • „Finlandia” to 3
  • „Islandia” to 4

W przypadku kodowania liczbowego model interpretuje liczby w postaci liczbowej i próbuje się na nich uczyć. Jednak w Islandii nie jest 2 razy więcej (albo o połowę mniej) Tak jak w Norwegii, wyciągnie z niego dziwne wnioski.

nauka jednorazowa

Uczenie maszynowe, często stosowane do klasyfikacji obiektów, które uczą skuteczne klasyfikatory na podstawie pojedynczego przykładu treningowego.

Zobacz też uczenie „few-shot”uczenie „zero-shot”.

prompty „one-shot”

#language
#generativeAI

prompt zawierający jeden przykład pokazujący, jak duży model językowy powinien odpowiadać. Na przykład poniższy prompt zawiera jeden przykład pokazujący dużemu modelowi językowemu, jak powinien odpowiedzieć na zapytanie.

Elementy jednego promptu Uwagi
Jaka jest oficjalna waluta w wybranym kraju? Pytanie, na które chcesz uzyskać odpowiedź od modelu LLM.
Francja: EUR Przykład:
Indie: Faktyczne zapytanie.

Wskaż podobieństwa i różnice między promptami jedno-strzałowymi z następującymi terminami:

jeden na wszystkich

#fundamentals

W przypadku problemu klasyfikacji N klas funkcja zawierające N osobne klasyfikatory binarne – jeden klasyfikator binarny dla każdego możliwego wyniku. Na przykład model klasyfikujący przykłady zwierzęce, roślinne lub mineralne, rozwiązanie uniwersalne pozwoliłoby tych 3 osobnych klasyfikatorów binarnych:

  • zwierzę kontra nie-zwierzę
  • warzywa a nie-warzywa
  • mineral versus not mineral

online

#fundamentals

Synonim terminu dynamic.

wnioskowanie online

#fundamentals

generowanie prognoz na żądanie, Przykład: załóżmy, że aplikacja przekazuje dane wejściowe do modelu i wysyła żądanie z prognozą. System korzystający z wnioskowania online odpowiada na żądanie, uruchamiając model (i zwracając prognozę do aplikacji).

W przeciwieństwie do offline inference.

operacja (operacja)

#TensorFlow

W TensorFlow: każda procedura, która tworzy, manipuluje lub niszczy Tensor. Na przykład mnożenie macierzy to operacja, która przyjmuje 2 tensory jako dane wejściowe i generuje 1 tensor jako dane wyjściowe.

Optax

Biblioteka do przetwarzania i optymalizacji gradientów w JAX. Optax ułatwia badania, udostępniając elementy składowe, które można łączyć na różne sposoby, aby optymalizować modele parametryczne, takie jak głębokie sieci neuronowe. Inne cele to:

  • udostępnianie czytelnych, dobrze przetestowanych i wydajnych implementacji podstawowych komponentów.
  • Większa produktywność dzięki możliwości łączenia składników o niskiej zawartości niestandardowych optymalizatorów (lub innych komponentów przetwarzania gradientu).
  • Przyspieszanie wdrażania nowych pomysłów przez ułatwianie każdemu co możesz opublikować.

optimizer

Konkretna implementacja algorytmu spadku wzdłuż gradientu. Popularne optymalizatory to:

  • AdaGrad, czyli metoda gradientu prostego z dopasowaniem.
  • Adam oznacza ADAptive od Momentum.

błąd jednorodności grupy obcej

#fairness

skłonność do postrzegania członków grupy obcej jako bardziej podobnych do siebie niż członków grupy własnej podczas porównywania postaw, wartości, cech osobowości i innych cech. Grupa oznacza osoby, z którymi regularnie się kontaktujesz. out-group odnosi się do osób, z którymi nie kontaktujesz się regularnie. Jeśli utworzysz zbiór danych, prosząc użytkowników o podanie atrybutów a poza nią te cechy mogą być mniej niuanse i bardziej stereotypowe. niż atrybuty, które uczestnicy podają dla osób w swojej grupie.

Na przykład Liliputanie mogą szczegółowo opisywać domy innych Liliputan, podając niewielkie różnice w stylach architektonicznych, oknach, drzwiach i rozmiarach. Jednak ci sami Liliputanie mogą po prostu oświadczyć, że wszyscy Brobdingnagowie mieszkają w identycznych domach.

Błąd jednorodności grupy obcej jest formą błędu uogólnienia.

Zobacz też uprzedzenia w grupie.

wykrywanie wyników odstających,

Proces identyfikowania elementów odstającychzbiorze danych szkoleniowych.

W odróżnieniu od wykrywania nowości.

nietypowych danych

wartości odbiegające od większości pozostałych wartości, W uczeniu maszynowym każdy są nietypowe:

  • Dane wejściowe, których wartości są większe niż mniej więcej 3 odchylenia standardowe od średniej.
  • Wagi o wysokich wartościach bezwzględnych.
  • Przewidywane wartości są stosunkowo daleko od rzeczywistych wartości.

Załóżmy na przykład, że widget-price jest cechą określonego modelu. Załóżmy, że średnia widget-price to 7 euro z odchyleniem standardowym w wysokości 1 euro. Przykłady produktów zawierających widget-price o wartości 12 euro lub 2 euro zostałyby uznane za odstające, ponieważ każda z tych cen jest pięć odchyleń standardowych od średniej.

Wyjątki są często spowodowane literówkami lub innymi błędami wprowadzania danych. W innych przypadkach wartości odstające nie są błędami. W szakramie wartości odbiegające od średniej o 5 odchyleń standardowych są rzadkie, ale nie są niemożliwe.

Wartości odstające często powodują problemy podczas trenowania modelu. Odcięcie wartości odstających to jeden ze sposobów zarządzania wartościami odstającymi.

ocena bezpośrednia

#df

Mechanizm oceny jakości lasu decyzji polegający na testowaniu każdego drzewa decyzji na przykładach nie użytych podczas trenowania tego drzewa decyzji. Na przykład na poniższym diagramie widać, że system trenuje każde drzewo decyzyjne na około 2/3 przykładów, a potem ocenia je na podstawie pozostałej 1/3 przykładów.

Las decyzyjny składający się z 3 drzew decyzyjnych.
          Jedno drzewo decyzyjne trenuje 2/3 przykładów
          a pozostałą jedną trzecią wykorzystuje do oceny OOB.
          Drugie drzewo decyzyjne jest trenowane na 2/3 innych przykładów niż poprzednie drzewo decyzyjne, a następnie używa innej 1/3 przykładów do oceny poza zakresem niż poprzednie drzewo decyzyjne.

Takie podejście jest wydajną i zachowawczą metodą obliczeniową, w przybliżeniu mechanizmu weryfikacji krzyżowej. W weryfikacji krzyżowej trenowany jest 1 model na każdą rundę weryfikacji krzyżowej (Na przykład 10 modeli jest trenowanych na 10-krotnej weryfikacji krzyżowej). W przypadku oceny OOB trenowany jest jeden model. Ponieważ bagaż pomija część danych z każdego drzewa podczas trenowania, ocena OOB może wykorzystać aby uzyskać przybliżoną weryfikację krzyżową.

warstwa wyjściowa

#fundamentals

„Ostateczny” warstwa sieci neuronowej. Warstwy wyjściowe zawierają prognozę.

Ilustracja poniżej przedstawia małą głęboką sieć neuronową z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 warstwami ukrytymi i 1
          warstwę wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwsza ukryta warstwa składa się z 3 neuronów, a druga – z 2 neuronów. Warstwa wyjściowa składa się z pojedynczego węzła.

nadmierne dopasowanie

#fundamentals

Tworzenie modelu, który jest tak dopasowany do danych treningowych, że nie jest w stanie generować prawidłowych prognoz na podstawie nowych danych.

Regulizacja może ograniczyć nadmierne dopasowanie. Trenowanie na dużym i zróżnicowanym zbiorze treningowym może też zmniejszyć nadmierne dopasowanie.

nadmierne próbkowanie

Ponowne wykorzystanie przykładów klasy mniejszości w zbiorze danych o nierównowadze klas, aby aby stworzyć bardziej zrównoważony zestaw treningowy.

Weźmy na przykład klasyfikację binarną problem, w którym stosunek klasy większości do klasa mniejszości to 5000:1. Jeśli zbiór danych zawiera milion przykładów, zbiór danych zawiera tylko około 200 przykładów klasy mniejszości, które mogą może być zbyt mało przykładów, aby trenowanie było skuteczne. Aby przezwyciężyć ten problem, może zawyżać próbkowanie (ponownie wykorzystać) tych 200 przykładów wielokrotnie, co może skutkować wystarczającą ilość przykładów do wykorzystania podczas trenowania.

Uważaj na nadmierne dopasowanie, gdy nadpróbkowaniem.

Przeciwieństwem jest niedostateczne próbkowanie.

P

spakowane dane

Metoda bardziej efektywnego przechowywania danych.

Dane skompresowane są przechowywane w formacie skompresowanym lub w inny sposób, który umożliwia szybszy dostęp do danych. Zapakowane dane minimalizują ilość pamięci i przetwarzanie wymagane do uzyskania do nich dostępu, co prowadzi do szybszego trenowania i skuteczniejszego wnioskowania modelu.

Dane spakowane są często używane w przypadku innych metod, takich jak: rozszerzaniem danych, regularizację, co jeszcze bardziej poprawia skuteczność modeli.

pandy

#fundamentals

Interfejs API do analizy danych ukierunkowanej na kolumny, zbudowany na bazie biblioteki numpy. Wiele platform uczenia maszynowego, w tym TensorFlow, obsługuje struktury danych pandas jako dane wejściowe. Zobacz dokumentacja pandas .

parametr

#fundamentals

wagibłędy, których model uczy się podczas treningu. Na przykład w przypadku modelu regresji liniowej parametry to współczynnik błędu (b) i wszystkie wagi (w1, w2 itd.) w formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

hiperparametr to wartości, które Ty (lub usługa dostrajania hiperparametrów) do modelu. Przykładem hiperparametru jest tempo uczenia się.

dostrajanie zapewniające wydajność parametrów

#language
#generativeAI

Zestaw technik dostrajania dużego wstępnie wytrenowanego modelu językowego (PLM) w bardziej efektywny sposób niż pełne dostrajanie. Wydajne pod względem parametrów dostrajanie zwykle dostosowuje znacznie mniej parametrów niż pełne ale zwykle generuje duży model językowy, który wydajnie jak również duży model językowy utworzony z pełnych i optymalizacji.

Porównaj dostrajanie ekonomiczne w zakresie:

Dostrajanie z uwzględnieniem wydajności parametrów to także dostrajanie z uwzględnieniem wydajności parametrów.

Serwer parametrów (PS)

#TensorFlow

Zadanie, które śledzi parametry modelu w rozproszone ustawienie.

aktualizacja parametru

Operacja dostosowywania parametrów modelu podczas trenowania, zwykle w ramach jednej iteracji gradient gradientowy.

pochodna cząstkowa

Pochodna, w której wszystkie zmienne oprócz jednej są uznawane za stałą. Na przykład pochodna cząstkowa funkcji f(x, y) względem x to pochodna funkcji f rozpatrywanej jako funkcji od x (czyli przy stałej wartości y). Częściowa pochodna funkcji f względem x skupia się tylko na zmianach x i ignoruje wszystkie inne zmienne w równaniu.

efekt udziału

#fairness

Synonim uprzedzeń w postaci braku odpowiedzi. Zobacz Błąd doboru.

strategia partycjonowania

Algorytm, według którego zmienne są dzielone między serwery parametrów.

Pax

Platforma programistyczna przeznaczona do trenowania dużych modeli sieci neuronowych, które obejmują wiele układów akceleratora TPU slice lub podów.

Pax korzysta z platformy Flax, która jest oparta na platformie JAX.

Diagram pokazujący pozycję Pax w składniku oprogramowania.
          Usługa Pax powstała na bazie JAX. Pax składa się z 3 warstw. Dolna warstwa zawiera TensorStore i Lan.
          Warstwa środkowa zawiera Optax i Flaxformer. Na szczyt
          warstwa zawiera bibliotekę modelowania Praxis. Skrzypce zbudowano
          ponad Pax.

perceptron

System (sprzęt lub oprogramowanie), który przyjmuje co najmniej jedną wartość wejściową uruchamia funkcję na ważonej sumie danych wejściowych i oblicza jedną wartość wyjściową. W systemach uczących się funkcja jest zwykle nieliniowa, np. ReLU, sigmoid lub tanh. Na przykład ten perceptron korzysta z funkcji sigmoidalnej do przetwarzania 3 wartości wejściowych:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Na poniższej ilustracji perceptron pobiera trzy dane wejściowe, z których każde jest zmodyfikowana przez wagę przed wejściem do perceptronu:

Perceptron, który przyjmuje 3 wejścia, z których każde jest mnożone przez osobne współczynniki. Perceptron generuje jedną wartość.

Perceptrony to neurony sieci neuronowych.

występ

Termin o wielu znaczeniach:

  • Standardowe znaczenie w inżynierii oprogramowania. Po prostu: jak szybko Czy to oprogramowanie działa?
  • znaczenie w uczeniu maszynowym. W tym przypadku skuteczność odpowiada na pytanie: „Jak dokładny jest ten model?”. To znaczy, Jak dobre są prognozy modelu?

znaczenie zmiennej permutacji

#df

Typ znaczenia zmiennej, który ocenia wzrost błędu prognozy modelu po permutacji wartości cechy. Permutacyjna ważność zmiennej jest miarą niezależną od modelu.

zakłopotanie

Jedna miara tego, jak dobrze model wykonuje swoje zadanie. Załóżmy na przykład, że Twoim zadaniem jest odczytanie kilku pierwszych liter słowa, które użytkownik wpisują na klawiaturze telefonu, oraz podanie listy możliwych słów do dokończenia. Błąd (P) dla tego zadania to przybliżona liczba przypuszczenia, które musisz zaoferować, aby Twoja lista zawierała które użytkownik próbuje wpisać.

Złożoność jest powiązana z entropią krzyżową w ten sposób:

$$P= 2^{-\text{cross entropy}}$$

potok

Infrastruktura związana z algorytmem systemów uczących się. Potok obejmuje zbieranie danych, umieszczanie ich w plikach danych treningowych trenowanie co najmniej jednego modelu i eksportowanie modeli do środowiska produkcyjnego.

potokowanie

#language

Forma równoległości modelu, w której model Przetwarzanie dzieli się na kolejne etapy, a każdy z nich jest realizowany na innym urządzeniu. Podczas przetwarzania jednej partii przez jeden etap poprzedni etap może pracować nad kolejną partią.

Zobacz też trenowanie etapowe.

pjit

Funkcja JAX, która dzieli kod na fragmenty do wykonania na wielu urządzeniach przyspieszających. Użytkownik przekazuje funkcję do pjit, która zwraca funkcję o identycznej semantyce, ale skompilowaną do obliczeń XLA, które są wykonywane na wielu urządzeniach (takich jak procesory graficzne lub rdzenie TPU).

pjit umożliwia użytkownikom dzielenie obliczeń bez ich ponownego zapisywania za pomocą partycjonowania SPMD.

W marcu 2023 r. pjit zostało połączone z jit. Więcej informacji znajdziesz w artykule Rozproszone tablice i automatyczna paralelizacja.

PLM

#language
#generativeAI

Skrót od wytrenowanego modelu językowego.

pmap

Funkcja JAX, która wykonuje kopie funkcji wejściowej na wielu urządzeniach sprzętowych (procesorach, kartach graficznych lub procesorach TPU) z różnymi wartościami wejściowymi. pmap korzysta z SPMD.

zasada

#rl

W uczeniu się przez wzmacnianie agent korzysta z mapowania probabilistycznego stanów na działania.

wspólnego korzystania z zasobów,

#image

Redukcja macierzy (lub macierz) utworzonych przez wcześniejszy warstw convolacyjną do mniejszej macierzy. Zbiorcze łączenie zwykle polega na przyjęciu maksymalnej lub średniej wartości w obszarze zbiorczym. Na przykład załóżmy, że mamy taka macierz 3 x 3:

Macierz 3 x 3: [[5,3,1], [8,2,5], [9,4,3]].

Operacja łączenia, podobnie jak operacja splotowa, dzieli tę wartość na wycinki, a następnie przesuwa tę splotową operację, kroków. Na przykład załóżmy, że operacja grupowania dzieli splotową macierz na wycinki 2 x 2 z krokiem 1 x 1. Jak widać na diagramie poniżej, występują 4 operacje łączenia. Załóżmy, że każda operacja zgrupowania wybiera maksymalną wartość 4 elementów w danym przekroju:

Macierz wejściowa to 3 x 3 z wartościami: [[5,3,1], [8,2,5], [9,4,3]].
          Lewostronna podmacierz 2 x 2 macierzy wejściowej ma postać [[5,3], [8,2]], więc operacja zliczania lewym górnym rogu daje wartość 8 (czyli maksimum z 5, 3, 8 i 2). Podmatryca 2 x 2 w prawym górnym rogu danych wejściowych
          macierz to [[3,1], [2,5]], więc operacja łączenia w prawym górnym rogu generuje
          wartość 5. Lewo-doły macierz podrzędna o wymiarach 2 × 2 ma postać [[8,2], [9,4]], więc operacja zliczania w lewym dolnym rogu zwraca wartość 9. Prawy dolny podciąg 2 x 2 macierzy wejściowej to [[2,5], [4,3]], więc operacja zliczania w prawym dolnym rogu zwraca wartość 5. Podsumowując, operacja łączenia generuje macierz 2 x 2
          [[8,5], [9,5]].

Grupowanie pomaga egzekwować niewariancję translacyjną w tabeli danych wejściowych.

Zbiory danych w przypadku aplikacji do przetwarzania obrazu są bardziej formalnie nazywane zbiorami danych przestrzennych. Aplikacje wykorzystujące ciągi czasowe zwykle nazywają się agregacją tymczasową. Mniej formalnie nazywane jest „podpróbkowaniem” lub „downsamplingiem”.

kodowanie pozycjonujące

#language

Technika polegająca na dodawaniu informacji o pozycji tokena w sekwencji do jego ujęcia. Modele transformatorów korzystają z pozycjonowania w kodowaniu, aby lepiej zrozumieć zależności między różnymi częściami kolejne wartości.

Typowa implementacja kodowania pozycyjnego używa funkcji sinusoidalnej. (Częstotliwość i amplituda funkcji sinusoidalnej są określone na podstawie pozycji tokena w sekwencji). Ta technika który pozwala modelowi Transformer nauczyć się uczestniczyć w różnych częściach na podstawie ich pozycji.

klasa wyników pozytywnych

#fundamentals

Zajęcia, których dotyczy test.

Na przykład klasa pozytywna w modelu dotyczącym raka może być „guz”. Pozytywną klasą w klasyfikatorze e-mail może być „spam”.

Ustaw kontrast z klasą ujemną.

przetwarzanie końcowe

#fairness
#fundamentals

Dostosowywanie danych wyjściowych modelu po jego uruchomieniu. Przetwarzanie wsteczne można wykorzystać do egzekwowania ograniczeń sprawiedliwości bez modyfikowania samych modeli.

Można na przykład zastosować przetwarzanie do klasyfikatora binarnego ustalając próg klasyfikacji w taki sposób, równość szans jest utrzymana; dla niektórych atrybutów, sprawdzając, czy prawdziwie pozytywny współczynnik dodatni jest taka sama dla wszystkich wartości tego atrybutu.

PR AUC (obszar pod krzywą PR)

Obszar pod interpolacją krzywą precyzji i czułości uzyskaną na wykresie. (czułość, precyzja) dla różnych wartości próg klasyfikacji. W zależności od sposobu w przypadku jego obliczeń PR AUC może być odpowiednikiem średnia precyzji modelu.

Praxis

Podstawowa, wydajna biblioteka ML w ramach Pax. Praxis jest często czyli „bibliotekę warstw”.

Praxis zawiera nie tylko definicje klasy Layer, ale też większość jej komponentów pomocniczych, w tym:

Praxis zawiera definicje klasy Model.

precyzja

dane dla modeli klasyfikacji, które odpowiadają następujące pytanie:

Gdy model przewidział klasę pozytywną, Jaki procent prognoz był poprawny?

Oto formuła:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

gdzie:

  • Prawdziwy pozytywny wynik oznacza, że model prawidłowo przewidział klasę pozytywną.
  • Wynik fałszywie pozytywny oznacza, że model pomylonie przewidział klasę pozytywną.

Załóżmy na przykład, że model dokonał 200 pozytywnych prognoz. Z tych 200 pozytywnych prognoz:

  • 150 osób było wynikiem prawdziwie pozytywnych.
  • 50 wyników to wynik fałszywie pozytywnych.

W tym przypadku:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Zbadaj dokładność i czułość.

Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane dane.

krzywej precyzji i czułości

Krzywa dokładności i czułości w różnych miejscach progi klasyfikacji.

prognoza

#fundamentals

Dane wyjściowe modelu. Na przykład:

  • Prognoza modelu klasyfikacji binarnej to albo klasa pozytywna, albo negatywna.
  • Prognoza modelu klasyfikacji wieloklasowej to jedna klasa.
  • Prognoza modelu regresji liniowej jest liczbą.

efekt prognozy

Wartość wskazująca, jak daleko oddalona jest średnia wartość prognozy pochodzą ze średniej wartości etykiet w zbiorze danych.

Nie należy mylić tego pojęcia z terminem „bias” w modelach uczenia maszynowego ani z uprzedzeniami w zakresie etyki i sprawiedliwości.

predykcyjne systemy uczące się

dowolny standardowy („klasyczny”) system uczenia maszynowego;

Termin prognostyczne uczenie maszynowe nie ma formalnej definicji. Termin ten odróżnia kategorię systemów ML, ale nie na podstawie: generatywnej AI.

parzystość prognozowana

#fairness

Wskaźnik obiektywności, który sprawdza, czy: dla danego klasyfikatora, współczynniki dokładności są równoważne w rozważanych podgrupach.

Na przykład model, który przewiduje przyjęcie na studia, spełnia warunek równości prognoz dla narodowości, jeśli jego współczynnik dokładności jest taki sam w przypadku Lilliputów i Brobdingnagijczyków.

Paryfikacja prognozowana jest też nazywana parzystością stawek prognozowanych.

Patrz sekcja „Obiektywe definicje” Explained” (sekcja 3.2.1). znajdziesz bardziej szczegółowe informacje na temat predykcyjnej parzystości.

parytet stawek prognozowanych

#fairness

Inna nazwa spójności prognozowanej.

wstępne przetwarzanie

#fairness
Przetwarzanie danych przed ich wykorzystaniem do trenowania modelu. Przetwarzanie wstępne może być tak proste jak usuwanie z korpusu tekstów w języku angielskim słów, które nie występują w słowniku angielskim, lub tak złożone jak ponowne wyrażanie punktów danych w sposób, który eliminuje jak najwięcej atrybutów skorelowanych z wrażliwymi atrybutami. Wstępne przetwarzanie może pomóc w spełnieniu ograniczeń związanych z uczciwością.

wytrenowany model

#language
#image
#generativeAI

Modele lub komponenty modelu (takie jak embedding vector), które zostały już wytrenowane. Czasami przekazujesz wytrenowane wektory dystrybucyjne do sieci neuronowej. Czasami model będzie trenować wektory embeddingu samodzielnie, zamiast polegać na wytrenowanych wcześniej wektorach.

Termin wytrenowany model językowy odnosi się do dużego modelu językowego, który został poddany wstępnemu trenowaniu.

przed treningiem

#language
#image
#generativeAI

Wstępne trenowanie modelu na dużym zbiorze danych. Niektóre wytrenowane wstępnie modele są niezgrabnymi olbrzymami i zwykle trzeba je dopracować, przeprowadzając dodatkowe szkolenie. Na przykład eksperci od ML mogą wstępnie wytrenować duży model językowy na podstawie ogromnego zbioru tekstów, takiego jak wszystkie strony w języku angielskim w Wikipedii. Po wstępnym trenowaniu model może zostać dopracowany za pomocą jednej z tych technik:

wcześniejsze przekonanie

Twoje przekonania na temat danych przed rozpoczęciem ich trenowania. Na przykład regularyzacja L2 opiera się na wcześniejsze przekonanie, że wagi powinny być małe i normalnie rozkład około zera.

model regresji prawdopodobnej

Model regresji, który wykorzystuje nie tylko wagi dla każdej cechy, ale też niepewność tych wag. Model regresji probabilistycznej generuje prognozę i niepewność tej prognozy. Na przykład plik model regresji prawdopodobnej może dać prognozę 325 z odchylenie standardowe wynoszące 12. Więcej informacji o regresji prawdopodobnej , patrz ten artykuł o Colab tensorflow.org.

funkcja gęstości prawdopodobieństwa

Funkcja, która określa częstotliwość próbek danych mających dokładnie dla konkretnej wartości. Gdy wartości zbioru danych są ciągłą zmiennoprzecinkową – dopasowanie ścisłe rzadko występuje. Jednak integracja prawdopodobieństwa funkcja gęstości od wartości x do wartości y zwraca oczekiwaną częstotliwość próbek danych od x do y.

Rozważmy na przykład rozkład normalny o średniej 200 i odchyleniu standardowym 30. Aby określić oczekiwaną częstotliwość próbek danych w zakresie od 211,4 do 218,7, możesz zintegrować funkcję gęstości prawdopodobieństwa dla rozkładu normalnego w zakresie od 211,4 do 218,7.

prompt

#language
#generativeAI

dowolny tekst wprowadzony jako dane wejściowe do dużego modelu językowego, aby model zachowywał się w określony sposób; Prompty mogą być krótkie wyrażenie lub dowolną długość (np. cały tekst powieści). Prompty dzielą się na kilka kategorii, m.in. te wymienione w tabeli poniżej:

Kategoria promptu Przykład Uwagi
Pytanie Jak szybko potrafi latać gołąb?
Instrukcja Napisz zabawny wiersz o arbitrażu. Prompt z prośbą o zrobienie czegoś przez duży model językowy.
Przykład Przetłumacz kod Markdown na HTML. Na przykład:
Markdown: * element listy
HTML: <ul> <li>element listy</li> </ul>
Pierwsze zdanie w tym przykładowym promptie to instrukcja. Pozostała część promptu to przykład.
Rola Wyjaśnij, dlaczego w przypadku doktoratu z fizyki warto stosować w szkoleniu systemów uczących się zstępowanie gradientu. Pierwsza część zdania to instrukcja, a wyrażenie „doktorat z fizyki” to część dotycząca roli.
Częściowe dane wejściowe dla modelu Premier Wielkiej Brytanii mieszka w: Częściowy prompt dla danych wejściowych może nagle się zakończyć (jak w tym przykładzie) lub kończyć podkreśleniem.

Model generatywnej AI może odpowiedzieć na prompt za pomocą tekstu, kod, obrazy, umieszczanie na stronie, filmy... prawie wszystko.

nauka oparta na promptach,

#language
#generativeAI

Umiejętność niektórych modeli, która umożliwia im dostosowanie ich działania w odpowiedzi na dowolny tekst (prompty). W typowym modelu uczenia się opartym na promptach duży model językowy odpowiada na prompt przez podczas generowania tekstu. Załóżmy na przykład, że użytkownik wpisuje ten prompt:

Opisz trzecią zasadę dynamiki Newtona.

Model zdolny do uczenia się na podstawie promptów nie został specjalnie wytrenowany tak, aby udzielać odpowiedzi poprzedniego promptu. Model „zna” wiele faktów z fizyki, wiele o ogólnych regułach językowych i wiele o tym, co stanowi ogólnie przydatne odpowiedzi. Ta wiedza wystarczy, aby udzielić (miejmy nadzieję) przydatnej odpowiedzi. Dodatkowa opinia człowieka („Ta odpowiedź była zbyt skomplikowana” lub „Co to jest reakcja?”) umożliwia niektórym systemom uczenia się opartym na promptach stopniowe zwiększają przydatność ich odpowiedzi.

projektowanie promptów

#language
#generativeAI

Synonim wyrażenia inżynieria promptów.

techniki tworzenia promptów

#language
#generativeAI

Sztuka tworzenia promptów, które wywołują pożądane odpowiedzi dużych modeli językowych. Ludzie wykonują prompt i inżynierią. Pisanie dobrze sformatowanych promptów jest kluczowe, aby uzyskać przydatne odpowiedzi od dużego modelu językowego. Projektowanie promptów zależy od wielu czynników, w tym:

Zobacz Wprowadzenie do projektowania promptów , aby dowiedzieć się więcej o tworzeniu pomocnych promptów.

Projektowanie promptów to synonim inżynierii promptów.

dostrajanie promptów

#language
#generativeAI

Mechanizm efektywnego dostrajania parametrów który uczy się „prefiksu” który system dodaje na początku rzeczywisty prompt.

Jedną z wariantów dostrajania promptów (czasami nazywanych dostrajaniem prefiksów) jest na początku każdej warstwy. Większość ustawień prompta dodaje tylko prefiks do warstwy wejściowej.

etykiety serwera proxy

#fundamentals

Dane używane do określania przybliżonych etykiet, które nie są bezpośrednio dostępne w zbiorze danych.

Załóżmy na przykład, że musisz wytrenować model do prognozowania, poziom stresu. Zbiór danych zawiera wiele funkcji prognozowanych, ale nie zawiera etykiety poziom stresu. Nieustraszony, wybierasz „wypadki w miejscu pracy” jako etykietę zastępczą dla poziomu stresu. W końcu pracownicy pod wpływem silnego stresu mają więcej wypadków niż pracownicy zachowujący spokój. Czy tak? Może wypadki przy pracy faktycznie wzrastają i maleją z różnych powodów.

Drugi przykład: zakładamy, że chcesz, aby etykietą logiczną w przypadku Twojego zbioru danych była wartość czy pada deszcz?, ale Twój zbiór danych nie zawiera danych o opadach. Jeśli dostępnych zdjęć, możesz stworzyć zdjęcia ludzi, z parasolami jako etykietką, czy pada? Czy to odpowiednia etykieta zastępcza? Możliwe, ale w niektórych kulturach ludzie częściej będą nosić parasole chroniące przed słońcem niż deszcz.

Etykiety zastępcze są często niedoskonałe. Jeśli to możliwe, wybieraj etykiety rzeczywiste zamiast etykiet zastępczych. Jeśli jednak nie ma etykiety, wybierz etykietę zastępczą bardzo ostrożnie, wybierając tę, która jest najmniej zła.

proxy (atrybuty wrażliwe)

#fairness
Atrybut używany jako zastępczy atrybut atrybut poufny. Na przykład kod pocztowy tej osoby może być używany jako źródło dochodów tej osoby, rasy czy przynależności etnicznej.

funkcja czysta

Funkcja, której dane wyjściowe są oparte wyłącznie na danych wejściowych i nie ma strony efekty. W szczególności funkcja czysta nie używa ani nie zmienia żadnego stanu globalnego, takiego jak zawartość pliku czy wartość zmiennej poza funkcją.

Czystych funkcji można używać do tworzenia kodu bezpiecznego w wątkach, podczas fragmentowania kodu model w wielu układy akceleratora.

Metody przekształcenia funkcji JAX wymagają że funkcje wejściowe są zwykłymi funkcjami.

P

Funkcja Q

#rl

We uczeniu przez wzmacnianie funkcja, która prognozuje oczekiwany zwrot z przyjęcia action w state, a następnie postępuj zgodnie z danymi zasadami.

Funkcja Q jest też nazywana funkcją wartości stanu działania.

Q-learning

#rl

W uczeniu przez wzmacnianie algorytm, który zezwala na użycie agenta aby poznać optymalną funkcję Q proces decyzyjny Markowa, Równanie Bellmana. Proces decyzyjny Markowa modeluje otoczenie.

kwantyl

Każdy zasobnik w grupowaniu według kwantyli.

zasobnik kwantylowy

Rozprowadzanie wartości cech w zasośnikach tak, aby każda z nich zawierała taką samą (lub prawie taką samą) liczbę przykładów. Na przykład na rysunku poniżej 44 punkty są podzielone na 4 grupy, z których każda zawiera 11 punktów. Aby każdy z zasobników na rysunku zawierał tę samą liczbę punktów, niektóre z nich obejmują różne zakresy wartości osi X.

44 punkty danych podzielone na 4 grupy po 11 punktów każda.
          Chociaż każdy zasobnik zawiera taką samą liczbę punktów danych, niektóre zasobniki zawierają szerszy zakres wartości cech niż inne.

kwantyzacja

Przeciążone hasło, którego można użyć na dowolny z tych sposobów:

  • Wdrożenie zbiorników kwantyli dla określonej cechy.
  • Przekształcanie danych w zera i jedynki w celu szybszego przechowywania, trenowania i wyciągania wniosków. Dane logiczne są mniej podatne na szum i błędy niż inne formaty, dlatego kwantyzacja może poprawić poprawność modelu. Techniki kwantowania obejmują zaokrąglanie, obcinanie i binowanie.
  • Zmniejsz liczbę bitów używanych do przechowywania parametrów modelu. Załóżmy, że parametry modelu są przechowywane jako 32-bitowe liczby zmiennoprzecinkowe. Kwantyzowanie konwertuje te parametry z 32 bitów na 4, 8 lub 16 bitów. Kwantyzacja zmniejsza :

    • Wykorzystanie procesora, pamięci, dysku i sieci
    • Czas do określenia prognozy
    • Zużycie energii

    Kwantyzacja czasami jednak obniża dokładność modelu i generowanie prognoz.

kolejka

#TensorFlow

Operation TensorFlow, która implementuje dane kolejki do jego struktury. Zwykle używany podczas I/O.

R

RAG

#fundamentals

Skrót od generowanie rozszerzonego wyszukiwania z wykorzystaniem pobierania.

las losowy

#df

Zbiór drzew decyzyjnych, w których każde drzewo decyzyjne jest trenowane z użyciem określonego losowego szumu, takiego jak bagging.

Lasy losowe to rodzaj lasu decyzji.

zasada losowa

#rl

Podczas uczenia przez wzmacnianie zasadę, która określa action losowo.

ranking

Rodzaj nadzorowanego uczenia się, którego celem jest uporządkowanie listy elementów.

ranga (liczba całkowita)

Pozycja porządkowa klasy w problemie uczenia maszynowego, który kategoryzuje klasy od najwyższej do najniższej. Może to być na przykład ranking zachowań system może klasyfikować nagrody dla psa od najwyższej wartości (stek) do jarmuż (zwiędły jarmuż).

Pozycja (Tensor)

#TensorFlow

Liczba wymiarów w tensorze. Przykład: skalarny ma pozycję 0, wektor ma pozycję 1, a macierz – pozycję 2.

Nie mylić z kolejnością (porządkiem).

oceniający

#fundamentals

Osoba, która dostarcza etykiet do przykładów. „Annotator” to inna nazwa oceniającego.

wycofanie

Dane dotyczące modeli klasyfikacji, które odpowiadają na to pytanie:

Gdy dane podstawowe to klasa pozytywna, jaki odsetek prognoz model poprawnie zidentyfikował jako klasę pozytywną?

Oto formuła:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

gdzie:

  • Prawdziwy pozytywny wynik oznacza, że model prawidłowo przewidział klasę pozytywną.
  • Fałszywie negatywny oznacza, że model pomyłkowo przewidział klasę negatywną.

Załóżmy na przykład, że model wygenerował 200 prognoz na przykładach, dla których ground truth to klasa pozytywna. Z tych 200 prognoz:

  • 180 osób było wynikiem prawdziwie pozytywnych.
  • 20 z nich to wyniki fałszywie negatywne.

W tym przypadku:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Zobacz Klasyfikacja: dokładność, czułość, precyzja i podobne elementy dane .

system rekomendacji

#recsystems

System, który wybiera dla każdego użytkownika stosunkowo mały zestaw pożądanych items z dużego korpusu. Na przykład system rekomendacji może polecić 2 filmy: spośród 100 000 filmów,wybierając Casablanca, The Philadelphia Story dla 1 użytkownika, a Wonder Woman i Czarna Pantera. System rekomendacji filmów może w oparciu o takie czynniki jak:

  • Filmy ocenione lub obejrzane przez podobnych użytkowników.
  • Gatunek, reżyserzy, aktorzy, grupa docelowa...

Wyprostowana jednostka liniowa (ReLU)

#fundamentals

funkcję aktywacji o takim działaniu:

  • Jeśli dane wejściowe mają wartość ujemną lub zero, wynik wynosi 0.
  • Jeśli dane wejściowe są dodatnie, wynik jest równy wartości wejściowej.

Na przykład:

  • Jeśli wartość wejściowa to -3, wynik to 0.
  • Jeśli dane wejściowe to +3, wynik to 3,0.

Oto fabuła ReLU:

Wykres kartezjański składający się z dwóch wierszy. Pierwszy wiersz zawiera stałą
          wartość y 0, wzdłuż osi X, od -nieskończoność, 0 do 0,-0.
          Druga linia zaczyna się od 0,0. Nachylenie tej linii to +1, więc
          od 0,0 do +nieskończoności.

ReLU to bardzo popularna funkcja aktywacyjna. Pomimo prostego działania ReLU nadal umożliwia sieci neuronowej uczenie się nonlinear. zależności między funkcjami a etykietą.

nawracająca sieć neuronowa

#seq

Sieć neuronowa celowo obsługująca wiele gdzie części każdego uruchomienia są przesyłane do następnego uruchomienia. Dokładniej, warstwy ukryte z poprzedniego uruchomienia dostarczają części danych wejściowych do tej samej warstwy ukrytej w następnym uruchomieniu. Sieci neuronowe rekurencyjne są szczególnie przydatne do oceny sekwencji, ponieważ ich ukryte warstwy mogą uczyć się na podstawie poprzednich uruchomień sieci neuronowej na wcześniejszych częściach sekwencji.

Na przykład na rysunku poniżej widać powtarzającą się sieć neuronowa, która jest realizowany cztery razy. Zwróć uwagę, że wartości zapamiętane w ukrytych warstwach z pierwsze uruchomienie staje się częścią danych wejściowych tych samych ukrytych warstw w przy drugim uruchomieniu. Podobnie wartości zapamiętane w ukrytej warstwie drugie uruchomienie stają się częścią danych wejściowych tej samej ukrytej warstwy w trzeci bieg. W ten sposób powracająca sieć neuronowa stopniowo trenuje i przewiduje znaczenie całego ciągu, a nie tylko jego znaczenia z poszczególnych słów.

Numer RNN, który uruchamia się 4 razy, aby przetworzyć 4 słowa wpisane.

model regresji

#fundamentals

Nieformalnie model generujący prognozę liczbową. (W przeciwieństwie do tego model klasyfikacji generuje klasę, prediction.) Poniżej znajdują się na przykład wszystkie modele regresji:

  • Model, który prognozuje wartość konkretnej domu,np. 423 tys. euro.
  • Model, który prognozuje długość życia danego drzewa, np. 23,2 roku.
  • Model prognozujący ilość deszczu, który spadnie w określonym mieście w ciągu następnych 6 godzin, np.0,18 cala.

Dostępne są 2 popularne typy modeli regresji:

  • Regresja liniowa, która znajduje linię, która najlepiej dopasowuje wartości etykiet do cech.
  • Regresja logistyczna, która generuje prawdopodobieństwo z przedziału od 0,0 do 1,0, które system zwykle mapuje na prognozę klasy.

Nie każdy model, który generuje prognozy liczbowe, jest modelem regresji. W niektórych przypadkach prognoza liczbowa to tak naprawdę model klasyfikacji, który ma nazwy klas w postaci liczb. Na przykład model, który prognozuje liczbowy kod pocztowy, jest modelem klasyfikacji, a nie regresji.

regularyzacja

#fundamentals

Każdy mechanizm, który zmniejsza nadmierne dopasowanie. Popularne typy regularyzacji:

Regularyzację można też zdefiniować jako karę za złożoność modelu.

współczynnik regularyzacji

#fundamentals

Liczba, która określa względne znaczenie regularizacji podczas trenowania. Promowanie częstotliwość regularyzacji zmniejsza nadmierne dopasowanie, ale może zmniejszają moc prognozowania modelu. Z kolei zmniejszenie lub pominięcie współczynnika regularyzacji zwiększa ryzyko przetrenowania.

uczenie się przez wzmacnianie

#rl

Rodzina algorytmów, które uczą się optymalnych zasad, których cel jest maksymalizacja zwrotu podczas interakcji środowisko. Na przykład główną nagrodą w większości gier jest zwycięstwo. Systemy uczenia się przez wzmacnianie mogą stać się ekspertami w zaawansowanych grach, oceniając sekwencje poprzednich ruchów, które doprowadziły do zwycięstwa, oraz sekwencje, które doprowadziły do porażki.

Uczenie się przez wzmacnianie na podstawie opinii użytkowników (RLHF)

#generativeAI
#rl

Korzystanie z opinii weryfikatorów do ulepszania jakości odpowiedzi modelu. Na przykład mechanizm RLHF może prosić użytkowników o ocena jakości odpowiedzi modelu za pomocą emotikonów 👍 lub 👎. System może następnie dostosować swoje przyszłe odpowiedzi na podstawie tych informacji zwrotnych.

ReLU

#fundamentals

Skrót od Rectified Linear Unit.

bufor powtórki

#rl

W algorytmach podobnych do DQN pamięć używana przez agenta do przechowywania zmian stanu na potrzeby użycia powtórka treści.

replika

kopię zestawu treningowego lub modelu, zwykle na innym komputerze. System może na przykład używać tej strategii implementowania paralelizmu danych:

  1. umieszczać kopie istniejącego modelu na wielu maszynach.
  2. Wyślij do każdej repliki różne podzbiory zbioru danych treningowego.
  3. Agreguj aktualizacje parametrów.

efekt potwierdzenia

#fairness

Fakt, że częstotliwość, z jaką użytkownicy piszą o działaniach, wyniki lub właściwości nie odzwierciedlają ich rzeczywistego świata częstotliwości lub stopień, w jakim właściwość jest charakterystyczna klasy jednostek. Odchylenie w zakresie raportowania może wpływać na kompozycję danych, na których uczą się systemy uczące się.

Na przykład w książkach słowo śmiech jest bardziej powszechne niż oddech. Model uczenia maszynowego, który szacuje względną częstotliwość śmiechu i oddychania w korpusie książek, prawdopodobnie ustali, że śmiech jest częstszy niż oddychanie.

reprezentacja

Proces mapowania danych na użyteczne funkcje.

ponowne ustalanie rankingu

#recsystems

Ostatni etap systemu rekomendacji, podczas którego elementy z oceniami mogą zostać ponownie ocenione według innego algorytmu (zwykle innego niż uczenie maszynowe). Ponowne ustalanie rankingu polega na ocenie listy elementów wygenerowanej w etap określania wartości, w którym podejmowane są takie działania jak:

  • usuwanie elementów, które użytkownik już kupił;
  • Zwiększanie wyniku nowszych produktów.

generowanie rozszerzone przez pobieranie (RAG)

#fundamentals

Technika polepszania jakości danych wyjściowych dużego modelu językowego (LLM) poprzez powiązanie ich ze źródłami wiedzy wyodrębnionymi po wytrenowaniu modelu. RAG zwiększa dokładność odpowiedzi LLM, zapewniając trenowanemu modelowi dostęp do informacji pobranych z zaufanych baz wiedzy lub dokumentów.

Oto częste powody, dla których warto korzystać z generowania rozszerzonego przez wyszukiwanie:

  • zwiększenie dokładności faktograficznej odpowiedzi generowanych przez model;
  • Zapewnienie modelowi dostępu do wiedzy, na której nie został trenowany.
  • Zmiana wiedzy wykorzystywanej przez model.
  • Umożliwienie modelowi cytowania źródeł.

Załóżmy na przykład, że aplikacja do chemii korzysta z interfejsu PaLM API do generowania podsumowań dotyczących zapytań użytkowników. Gdy backend aplikacji otrzyma zapytanie, wykona te czynności:

  1. Wyszukuje („pobiera”) dane pasujące do zapytania użytkownika.
  2. Dołącza („rozszerza”) odpowiednie dane chemiczne do zapytania użytkownika.
  3. Instrukcja dla LLM, aby utworzyć podsumowanie na podstawie dołączonych danych.

powrót

#rl

W uczeniu ze wzmocnieniem, przy założeniu określonej polityki i stanu, zwrot to suma wszystkich nagród, które agent oczekuje otrzymać, gdy będzie przestrzegać polityki od stanu do końca sesji. Agent uwzględnia opóźniony charakter oczekiwanych nagród, obniżając ich ceny. w zależności od zmian stanu wymaganych do otrzymania nagrody.

Jeśli więc współczynnik rabatu wynosi \(\gamma\), a  \(r_0, \ldots, r_{N}\) oznacza nagrody do końca odcinka, to obliczenie zwrotu wygląda tak:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

nagrody

#rl

W uczeniu się przez wzmocnienie jest to wynik liczbowy wykonania działaniastanie określonym przez środowisko.

regularyzacja grzebieni

Synonim regularyzacji L2. Termin Regularizowanie grzbietu jest częściej używane w czystych statystykach. kontekstów, a L2 regularyzacja jest używana częściej w uczeniu maszynowym.

RNN

#seq

Skrót oznaczający powracające sieci neuronowe.

Krzywa ROC (charakterystyka operacyjna odbiornika)

#fundamentals

wykres współczynnika prawdziwie dodatniego w porównaniu z współczynnik wyników fałszywie pozytywnych dla różnych progi klasyfikacji w formacie binarnym. klasyfikacja danych.

Kształt krzywej ROC sugeruje zdolność modelu klasyfikacji binarnej aby oddzielić klasy pozytywne od negatywnych. Załóżmy na przykład, że że model klasyfikacji binarnej idealnie oddziela wszystkie wartości ujemne ze wszystkich klas pozytywnych:

Linia liczb z 8 pozytywnymi przykładami po prawej stronie i 7 ujemnymi po lewej.

Krzywa charakterystyki ROC poprzedniego modelu wygląda tak:

Krzywa charakterystyki operacyjnej odbiornika (ROC). Oś X oznacza współczynnik fałszywie pozytywnych, a oś Y.
          współczynnik prawdziwie pozytywnych. Krzywa ma odwrócony kształt L. Krzywa
          zaczyna się od (0,0,0,0) i przechodzi bezpośrednio do (0,0,1,0). Następnie krzywa
          zmienia się z (0,0,1,0) na (1,0,1.0).

Dla porównania na ilustracji poniżej przedstawiono nieprzetworzoną regresję logistyczną. strasznego modelu, który nie potrafi oddzielić klas negatywnych od pozytywnej klasy,

Linia liczbowa z pozytywnymi przykładami i negatywnymi klasami
          całkowicie pomieszanymi.

Krzywa charakterystyki ROC w tym modelu wygląda tak:

Krzywa ROC, która jest w istocie linią prostą od punktu (0,0) do punktu (1,1).

W prawdziwym życiu większość modeli klasyfikacji binarnej w pewnym stopniu oddziela klasy pozytywne i negatywne, ale zwykle nie w idealny sposób. Dlatego typowa krzywa ROC znajduje się gdzieś pomiędzy tymi dwoma skrajnościami:

Krzywa charakterystyki operacyjnej odbiornika (ROC). Oś X to współczynnik wyników fałszywie pozytywnych, a oś Y – współczynnik wyników prawdziwie pozytywnych. Krzywa ROC jest przybliżeniem wstrząśniętego łuku przechodzącego przez kierunki kompasu od zachodu do północy.

Punkt na krzywej ROC najbliższy (0,0, 1,0) teoretycznie identyfikuje idealnego progu klasyfikacji. Istnieje jednak kilka innych rzeczywistych problemów, wpływają na wybór idealnego progu klasyfikacji. Może na przykład okazać się, że fałszywie wyniki negatywne są znacznie bardziej uciążliwe niż fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC w pojedynczą wartość zmiennoprzecinkową.

prośba o rolę

#language
#generativeAI

Opcjonalna część prośby, która określa docelowych odbiorców. dla odpowiedzi modelu generatywnej AI. Bez roli duży model językowy podaje odpowiedź, która może, ale nie musi być przydatna za osobę zadającą pytania. Po wyświetleniu komunikatu o roli, obsługę dużego języka model może odpowiedzieć w sposób, który jest bardziej odpowiedni i pomocny dla konkretnej grupy odbiorców. Na przykład w tych promptach pogrubiliśmy fragmenty dotyczące ról:

  • Streść ten artykuł dla osoby z doktoratem z ekonomii.
  • Opisz, jak działają pływy dziecku w wieku 10 lat.
  • Wyjaśnij kryzys finansowy z 2008 r. Mów jak do małego dziecka, lub golden retrievera.

poziom główny

#df

Węzeł początkowy (pierwszy warunek) w drzewie decyzyjnym. Zgodnie z zasadą na diagramach węzeł główny znajduje się u góry drzewa decyzyjnego. Na przykład:

Drzewo decyzyjne z 2 warunkami i 3 liśćmi. Warunek początkowy (x > 2) to pierwiastek.

katalog główny

#TensorFlow

Wskazany przez Ciebie katalog do hostowania podkatalogów TensorFlow plików punktów kontrolnych i zdarzeń wielu modeli.

Średnia kwadratowa błędów (RMSE)

#fundamentals

Pierwiastek kwadratowy z średniego kwadratu błędu.

niewariancja obrotowa

#image

W przypadku problemu klasyfikacji obrazów chodzi o zdolność algorytmu do prawidłowej klasyfikacji obrazów nawet wtedy, gdy zmienia się ich orientacja. Przykład: ale algorytm rozpoznaje rakietę tenisową niezależnie od tego, czy jest skierowana do góry, bokiem lub w dół. Pamiętaj, że odporność na obrót nie zawsze jest pożądana. Na przykład odwrócona cyfra 9 nie powinna być klasyfikowana jako cyfra 9.

Zobacz też niezmienność w translacjiniezmienność w skali.

R-kwadrat

dane regresji wskazujące, jak duże zmiany Etykieta odpowiada pojedynczemu obiektowi lub zbiorowi cech. R kwadrat to wartość z zakresu od 0 do 1, którą można zinterpretować w następujący sposób:

  • Wartość R-kwadrat równa 0 oznacza, że żadna z wariacji etykiety nie jest spowodowana zbiorem cech.
  • Wartość R kwadrat o wartości 1 oznacza, że wszystkie zmiany w etykiecie są spowodowane do zbioru cech.
  • R kwadrat z zakresu od 0 do 1 wskazuje stopień, w jakim można przewidzieć na podstawie konkretnego obiektu lub zbioru cech. Na przykład R kwadrat o wartości 0,10 oznacza, że 10 procent wariancji wynika z zestawu cech, wartość R kwadrat 0,20 oznacza, 20% wynika z zestawu funkcji i tak dalej.

R-kwadrat to kwadrat współczynnika korelacji Pearsona między wartościami prognozowanymi przez model a danymi podstawowymi (ground truth).

S

błąd próbkowania

#fairness

Zobacz Błąd doboru.

próbkowanie z wymianą,

#df

Metoda wybierania elementów z zestawu elementów kandydujących, w której ten sam element może zostać wybrany kilka razy. Wyrażenie „z zastąpieniem” oznacza, że po każdym wyborze wybrany element wraca do puli elementów kandydujących. Metoda odwrotna, próbkowanie bez zastępowania, oznacza, że element kandydujący można wybrać tylko raz.

Weźmy na przykład taki zestaw owocowy:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Załóżmy, że system losowo wybiera fig jako pierwszy element. Jeśli używasz próbkowania z wymianą, system wybiera drugi element z tego zbioru:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Tak. Ten zestaw jest taki sam jak wcześniej, więc system może potencjalnie jeszcze raz wybierz fig.

Jeśli używasz próbkowania bez zastępowania, wybranej próbki nie można wybrać ponownie. Jeśli na przykład system losowo wybierze fig jako za pierwszą próbkę, potem fig nie będzie można wybrać ponownie. Dlatego system wybiera drugą próbkę z tego (zmniejszonego) zbioru:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Zalecany format do zapisywania i przywracania modeli TensorFlow. SavedModel to neutralny językowo format serializacji, który umożliwia systemom i narzędziom wyższego poziomu tworzenie, używanie i przekształcanie modeli TensorFlow.

Szczegółowe informacje znajdziesz w rozdziale dotyczącym zapisywania i przywracania danych w przewodniku dla programistów TensorFlow.

Ekonomiczna

#TensorFlow

Obiekt TensorFlow odpowiedzialnego za zapisywanie punktów kontrolnych modelu.

wartość skalarna

Pojedyncza liczba lub pojedynczy ciąg znaków, który może być przedstawiony jako tensor o rank 0. Na przykład: każdy z nich tworzy w TensorFlow po 1 wskaźniku skalarnym:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

skalowanie

Dowolna transformacja matematyczna lub technika, która zmienia zakres wartości etykiety lub funkcji. Niektóre formy skalowania są bardzo przydatne do przekształcania danych, np. normalizacji.

Typowe formy skalowania przydatne w uczeniu maszynowym to:

  • wykorzystującą funkcję odejmowania i skalowania liniowego, przez dzielenie, aby zastąpić pierwotną wartość liczbą z zakresu od -1 do +1 lub pomiędzy 0 a 1.
  • skalowanie logarytmiczne, które zastępuje pierwotną wartość wartością dla logarytmu.
  • Z-score normalization, która zastępuje pierwotną wartość wartością zmiennoprzecinkową reprezentującą liczbę odchyleń standardowych od średniej tej cechy.

scikit-learn

popularna platforma systemów uczących się open source, scikit-learn.org.

ocena

#recsystems

Element systemu rekomendacji, który podaje wartość lub ranking każdego elementu utworzonego przez generowanie kandydatów.

błąd doboru

#fairness

Błędy w wnioskach wywnioskowanych na podstawie danych próbnych z powodu procesu selekcji, który powoduje systematyczne różnice między próbami obserwowanymi w danych a tymi, których nie obserwowano. Wyróżniamy te formy dyskryminacji doboru:

  • odchylenia zasięgu: populacja w zbiorze danych nie dopasowują się do populacji, którą tworzy model systemów uczących się i generowanie prognoz.
  • Błąd próbkowania: dane z grupy docelowej nie są zbierane w sposób losowy.
  • Błąd związany z brakiem odpowiedzi (nazywany też stroną ze względu na udział): użytkownicy niektóre grupy rezygnacji z ankiet w innym stopniu niż rezygnacje z ankiet do innych grup.

Załóżmy na przykład, że tworzysz model systemów uczących się, który prognozuje, którzy lubią oglądać film. Aby zebrać dane do trenowania, rozdajesz ankietę wszystkim osobom w pierwszym rzędzie w kinie, w filmie. Na pierwszy rzut oka może się wydawać, że jest to rozsądny sposób zbierania zbioru danych, ale ta forma zbierania danych może wprowadzać następujące rodzaje błędów doboru:

  • błędy związane z zasięgiem: ze względu na to, że próba pochodzi od osób, które zdecydowały się obejrzeć film, przewidywania modelu mogą nie dotyczyć osób, które nie wyraziły jeszcze zainteresowania tym filmem.
  • błędy doboru próby: zamiast losowo wybrać osoby z wybranej populacji (wszystkich widzów w kinie), wybrano tylko osoby z pierwszego rzędu. Możliwe, że ludzie siedzący osób z pierwszego rzędu było bardziej zainteresowane filmem niż ci z innych wierszach.
  • stronniczość nieodpowiadających: ogólnie rzecz biorąc, osoby o mocnych poglądach chętniej odpowiadają na ankiety opcjonalne niż osoby o słabszych poglądach. Ankieta dotycząca filmu jest opcjonalna, częściej tworzą dystrybucja bimodalna niż normalny (w kształcie dzwonka).

samoutrzymanie (zwana też warstwą samoobsługi)

#language

Warstwa sieci neuronowej, która przekształca sekwencję wektory dystrybucyjne (np. wektory dystrybucyjne token) w inną sekwencję wektorów dystrybucyjnych. Każde uczenie w sekwencji wyjściowej jest tworzone przez integrację informacji z elementów sekwencji wejściowej za pomocą mechanizmu uczenia z uwzględnieniem uwagi.

Część ja samouwagi odnosi się do sekwencji uwzględniającej a nie do innego kontekstu. Samouwaga jest jednym z głównych elementów składowych Transformerów i korzysta z terminologii wyszukiwania w słowniku, takiej jak „zapytanie”, „klucz” i „wartość”.

Warstwę samouczenia rozpoczyna sekwencja reprezentacji wejściowych, po jednej dla każdego słowa. Wprowadzana reprezentacja słowa może być prosta wektora dystrybucyjnego. Dla każdego słowa w sekwencji wejściowej funkcja sieci określa trafność słowa do każdego elementu w całej sekwencji słowa kluczowe. Wyniki trafności określają stopień reprezentacji konkretnego słowa uwzględnia reprezentacje innych słów.

Weźmy na przykład to zdanie:

Zwierzę nie mogło przejść przez ulicę, ponieważ było zbyt zmęczone.

Ilustracja poniżej (z artykułu Transformer: nowatorska architektura sieci neuronowych na potrzeby rozumienia języka) przedstawia wzór uwagi warstwy samouczenia w przypadku zaimka to. Im ciemniejszy jest dany wiersz, tym większy wkład ma on w reprezentację:

Następujące zdanie pojawia się dwukrotnie: zwierzę nie przekroczyło
          bo była zbyt zmęczona. Linie łączą zaimka „it” w jednym zdaniu z 5 tokenami (The, animal, street, it, and
          the period) w drugim zdaniu.  Granica między zaimkiem „it” a słowem „animal” jest wyraźna.

Warstwa samouważności wyróżnia słowa, które są związane z tym hasłem. W tym przypadkiem, warstwa uważności nauczyła się wyróżniać słowa, które może przypisując najwyższą wagę zwierzętom.

W przypadku sekwencji n tokenów transformacja samouczenia działa n razy, po jednym razie na każdą pozycję w sekwencji.

Zapoznaj się też z konceptem uwagisamouwagi na wielu głowach.

uczenie nienadzorowane

Rodzina technik służących do konwertowania problemu uczenia nadzorowanego na problem nadzorowanego uczenia maszynowego poprzez tworzenie zastępczych etykiet na podstawie nieoznaczonych przykładów.

Niektóre modele oparte na Transformerze, takie jak BERT, używają do samodzielnej nauki.

Trening z samokontrolą to metoda uczenia częściowo nadzorowanego.

samoszkolenie

Wariant samokontrolowanego uczenia się, który jest szczególnie przydatny, gdy spełnione są wszystkie te warunki:

Samotrenowanie polega na powtarzaniu tych 2 kroków, aż model przestaje się poprawiać:

  1. za pomocą nadzorowanych systemów uczących się, wytrenować model na przykładach z etykietami.
  2. Użyj modelu utworzonego w kroku 1 do wygenerowania prognoz (etykiet) w nieoznaczonych etykietami, przenosząc te z dużą pewnością przykłady oznaczone etykietą z prognozowaną etykietą.

Zwróć uwagę, że każda iteracja kroku 2 dodaje więcej oznaczonych przykładów trenowanie.

uczenie częściowo nadzorowane

Trenowanie modelu na danych, w których niektóre przykłady treningowe mają etykiety, a inne nie. Jedną z metod w uczeniu częściowo nadzorowanym jest wnioskowanie etykiet dla: przykłady bez etykiet, a następnie trenować na wywnioskowanych etykietach w celu utworzenia nowego model atrybucji. Uczenie półnadzorowane może być przydatne, jeśli etykiety są drogie w uzyskaniu, ale przykładów bez etykiet jest pod dostatkiem.

Trenowanie samodzielnie to jedna z technik przeznaczonych dla uczniów systemów uczących się.

atrybut wrażliwy

#fairness
To atrybut człowieka, który może być brany pod uwagę ze względów prawnych, ze względów etycznych, społecznych lub osobistych.

analiza nastawienia

#language

Korzystanie z algorytmów statystycznych lub systemów uczących się do określania ogólnego nastawienia grupy (pozytywnego lub negatywnego) wobec usługi, produktu, organizacji lub tematu. Na przykład użycie rozumienie języka naturalnego, algorytm może przeprowadzić analizę nastawienia na podstawie informacji tekstowych od kierunku studiów uniwersyteckich w celu określenia stopnia, ogólnie ocenili ten kurs lub nie.

model sekwencji

#seq

Model, którego dane wejściowe mają zależność sekwencyjną. Na przykład przewidywanie następnego filmu na podstawie sekwencji wcześniej obejrzanych filmów.

zadanie sekwencja-sekwencja

#language

Zadanie, które konwertuje sekwencję wejściową tokenów na dane wyjściowe z sekwencją tokenów. Na przykład 2 popularne rodzaje zadań sekwencyjnych to:

  • Tłumacze:
    • Przykładowa sekwencja wejściowa: „Kocham Cię”.
    • Przykładowa sekwencja danych wyjściowych: „Je t'aime”.
  • Odpowiadanie na pytania:
    • Przykładowa sekwencja danych wejściowych: „Czy potrzebuję samochodu w Nowym Jorku?”
    • Przykładowa sekwencja wyjściowa: „Nie. Zostań w domu”.

porcja

Proces udostępniania wytrenowanego modelu w celu generowania prognoz za pomocą wywnioskowania online lub wywnioskowania offline.

shape (Tensor)

Liczba elementów w każdej płaszczyźnie tensora. Kształt jest przedstawiony jako lista liczb całkowitych. Na przykład ten dwuwymiarowy tensor ma kształt [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow używa formatu wierszowego (w stylu C) do reprezentowania kolejności wymiarów, dlatego kształt w TensorFlow to [3,4], a nie [4,3]. Innymi słowy, w dwuwymiarowym systemie TensorFlow Tensor kształt wynosi [liczba wierszy, liczba kolumn].

Kształt statyczny to kształt tensora, który jest znany w momencie kompilacji.

Kształt dynamiczny jest nieznany w momencie kompilacji i dlatego zależy od danych w czasie wykonywania. Ten tensor może być reprezentowany w TensorFlow za pomocą wymiaru zastępczego, jak w przypadku [3, ?].

fragment

#TensorFlow
#GoogleCloud

Logiczne podziały zbioru danych treningowych lub modelu. Zwykle niektóre procesy tworzą fragmenty, dzieląc je przykłady lub parametry, do których (zwykle) w odpowiednich rozmiarach. Każdy fragment jest następnie przypisywany do innej maszyny.

Fragmentacja modelu jest nazywana równoległością modelu. fragmentację danych nosi nazwę równoległości danych.

kurczenie się

#df

Hiperparametrwzmacnianiu gradientu, który kontroluje nadmierne dopasowanie. Zmniejszenie w wzmacnianiu gradientem jest analogiczne do tempa uczenia sięspadku wzdłuż gradientu. Skurcz to wartość dziesiętna z zakresu od 0,0 do 1,0. Niższa wartość kurczenia ogranicza dopasowanie niż większa wartość kurczenia.

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „ściska” wartość wejściową do ograniczonego zakresu, zwykle 0 do 1 lub -1 do +1. Oznacza to, że można przekazać dowolną liczbę (dwa, milion, do sigmoidy, a wynik będzie nadal ograniczony zakres. Schemat funkcji aktywacji sigmoidalnej wygląda tak:

Dwowymiarowa krzywa z wartościami x w zakresie od -nieskończoności do +dodatnich, a wartościami y w zakresie od prawie 0 do prawie 1. Gdy x to 0, y to 0,5. Nachylenie krzywej jest zawsze dodatnie, przy czym największe nachylenie występuje przy wartości 0,05, a nachylenie stopniowo maleje wraz ze wzrostem bezwzględnej wartości x.

Funkcja sigmoidalna ma kilka zastosowań w systemach uczących się, m.in.:

miara podobieństwa

#clustering

W algorytmach zagnieżdżonego klusterowania jest to dane służące do określania, na ile podobne (czyli podobne) są 2 dowolne przykłady.

pojedynczy program / wiele danych (SPMD)

Technika równoległości, w której to samo obliczenia są wykonywane na różnych danych wejściowych równolegle na różnych urządzeniach. Celem SPMD jest szybsze uzyskiwanie wyników. Jest to najczęstszy styl programowania równoległego.

niezmienność rozmiaru

#image

W przypadku zadania z klasyfikacją obrazów zdolność algorytmu klasyfikowania obrazów nawet wtedy, gdy ich rozmiar się zmieni. Na przykład algorytm nadal może rozpoznać kota, niezależnie od tego, czy zajmuje on 2 mln pikseli, czy 200 tys. pikseli. Pamiętaj, że nawet najlepsze Algorytmy klasyfikacji obrazów wciąż mają praktyczne ograniczenia dotyczące niezmienności rozmiaru. Na przykład algorytm (lub człowiek) prawdopodobnie nie sklasyfikuje prawidłowo zużywający zaledwie 20 pikseli.

Zobacz też niezmienność translacji oraz niewariancja rotacyjna.

szkicowanie

#clustering

W przypadku nienadzorowanych systemów uczących się kategoria algorytmów przeprowadzających wstępną analizę podobieństwa na przykładach. Algorytmy szkicowania używają funkcji haszującej wrażliwej na lokalizację do identyfikowania punktów, które są prawdopodobnie podobne, a następnie grupowania ich w worki.

Szkicowanie zmniejsza liczbę obliczeń wymaganych do obliczenia podobieństwa w przypadku dużych zbiorów danych. Zamiast obliczać podobieństwo każdej pary przykładów w zbiorze danych, obliczamy podobieństwo tylko dla każdej pary punktów w każdym zbiorze.

Pomiń gram

#language

n-gram, który może pomijać (czyli „przeskakiwać”) słowa z pierwotnego kontekstu, co oznacza, że słowa N niekoniecznie muszą być pierwotnie sąsiadujące. Więcej a dokładnie „k-skip-n-gram” to n-gram, dla którego może zostały pominięte.

Na przykład „szybki brązowy lis” ma takie 2 gramy:

  • „the quick”
  • „szybki brązowy”
  • „brown fox”

„1-skip-2-gram” to para słów, między którymi jest maksymalnie 1 słowo. Dlatego wyrażenie „szybka brązowa lisica” ma następujące 2-gramy z 1 przeskokiem:

  • „brązowy”
  • „quick fox”

Poza tym wszystkie 2 gramy to 1 pomijanie/2 g, ponieważ mniej jedno słowo może zostać pominięte.

Skip-gramy są przydatne do zrozumienia szerszego kontekstu danego słowa. W tym przykładzie: „lis” było bezpośrednio powiązane ze słowem „szybkie” w zbiorze 1 pomijać 2 gramy, ale nie w zestawie 2 gramów.

Pomijanie gramów – pomoc w trenowaniu modele umieszczania słów.

funkcja softmax

#fundamentals

Funkcja, która określa prawdopodobieństwo dla każdej możliwej klasy w argumencie model klasyfikacji wieloklasowej. prawdopodobieństwa dają sumę dokładnie 1,0. Na przykład w tabeli poniżej widać, jak softmax rozkłada różne prawdopodobieństwa:

Obraz jest... Probability,
pies 0,85
kot 0,13
koń 0,02

Softmax jest też nazywany pełnym softmaxem.

Przeciwieństwem jest próbkowanie kandydatów.

dostosowanie promptów,

#language
#generativeAI

Technika dostosowywania dużego modelu językowego do konkretnego zadania bez korzystania z wielu zasobów w ramach dokładnego dostrajania. Zamiast ponownego trenowania wszystkich wag w modelu, dostrajanie za pomocą promptów miękkich automatycznie dostosowuje prompt, aby osiągnąć ten sam cel.

Po otrzymaniu promptu tekstowego dostrajanie dosłownego promptu zwykle dołącza do promptu dodatkowe wektory dystrybucyjne tokenów i używa przez propagację wsteczną, aby zoptymalizować dane wejściowe.

„Twardy” prompt zawiera tokeny zamiast ich zaszyfrowanych wersji.

cecha rozproszona

#language
#fundamentals

feature, którego wartości mają głównie zero lub są puste. Na przykład cecha zawierająca jedną wartość 1 i milion wartości 0 jest rzadka. Natomiast obiekt gęsty ma wartości, które nie są zerowe ani puste.

W systemach uczących się zaskakująca liczba funkcji to rzadkie funkcje. Funkcje kategorialne są zwykle rzadkie. Na przykład z 300 możliwych gatunków drzew w lesie pojedynczy przykład może zidentyfikować tylko klon. Lub spośród milionów filmów dostępnych w bibliotece, jeden przykład może wskazać tylko „Casablanca”.

W modelu zazwyczaj są przedstawiane rozproszone cechy, kodowanie jedno- gorące. Jeśli kodowanie jednobitowe jest duże, możesz umieścić na nim warstwę zanurzeniową, aby zwiększyć wydajność.

reprezentacja rozproszona

#language
#fundamentals

Przechowywanie w obiekcie rozproszonym tylko pozycji elementów innych niż zero.

Załóżmy na przykład, że zmienna jakościowa o nazwie species identyfikuje 36 gatunków drzew w danym lesie. Zakładamy więc, że każdy przykład wskazuje tylko jeden gatunek.

W każdym przykładzie gatunek drzewa można reprezentować za pomocą wektora typu one-hot. Wektor jednoelementowy zawierałby 1 element 1 (reprezentujący dany gatunek drzewa w tym przykładzie) i 35 elementów 0 (reprezentujących 35 gatunków drzew nie w tym przykładzie). Reprezentacja jednoelementowa maple może wyglądać tak:

Wektor, w którym pozycje od 0 do 23 mają wartość 0, pozycję
          24 zawiera wartość 1, a pozycje od 25 do 35 – wartość 0.

Ewentualnie rozproszona reprezentacja określałaby po prostu pozycję konkretnego gatunku. Jeśli maple znajduje się w pozycji 24, to reprezentacja rozproszona w maple będzie po prostu:

24

Zwróć uwagę, że reprezentacja rozproszona jest znacznie bardziej zwięzła niż danych „jedno gorące”. reprezentacja.

wektor rzadki

#fundamentals

Wektor, którego wartości są w większości równe 0. Zobacz też rozproszone cechę i różnorodność.

rozproszenie

Liczba elementów w wektorze lub macierzy ustawionych na 0 (lub null) podzielona przez łączną liczbę elementów w tym wektorze lub macierzy. Przykład: rozpatrujemy macierz 100-elementową, w której 98 komórek zawiera zero. Obliczanie rzadkości przebiega w ten sposób:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Spójność cech odnosi się do spójności wektora cech, a spójność modelu – do spójności wag modelu.

agregacja przestrzenna

#image

Zobacz pooling.

podział : fragment

#df

W drzewie decyzyjnym inna nazwa warunku.

rozdzielacz

#df

Podczas trenowania drzewa decyzji rutyna (i algorytm) odpowiedzialnej za wyszukiwanie condition w każdym węźle.

SPMD

Skrót od pojedynczy program / wiele danych.

utrata kwadratowa zawiasu

Kwadrat utraty zawiasu. Kwadratowy brak zawiasu skutkuje nałożeniem kary są większe niż w przypadku zwykłej utraty zawiasu.

strata kwadratowa

#fundamentals

Synonim L2 straty.

trening etapowy

#language

Taktyka trenowania modelu w sekwencji odrębnych etapów. Celem może być przyspieszenie procesu trenowania lub poprawa jakości modelu.

Oto ilustracja metody progresywnego nakładania:

  • Etap 1 obejmuje 3 ukryte warstwy, etap 2 – 6, oraz Etap 3 obejmuje 12 ukrytych warstw.
  • Etap 2 zaczyna trenowanie z ciężarami nauczonymi w 3 ukrytych warstwach Etapu 1. Etap 3 rozpoczyna się od uczenia się wag wyuczonych na 6 ukrytych warstwach w etapie 2.

Trzy etapy oznaczone jako „Etap 1”, „2” i „3”.
          Każdy etap zawiera inną liczbę warstw: etap 1 zawiera 3 warstwy, etap 2 zawiera 6 warstw, a etap 3 zawiera 12 warstw.
          Trzy warstwy z etapu 1 stają się pierwszymi 3 warstwami etapu 2.
          Podobnie 6 warstw z etapu 2 stanie się pierwszymi 6 warstwami
          Etap 3.

Zobacz też przetwarzanie w sekwencji.

stan

#rl

W uczeniu przez wzmocnienie wartości parametrów, które opisują bieżącą sytuację konfiguracji środowiska używanego przez agenta do wybierz działanie.

funkcja wartości stanowego działania

#rl

Synonim terminu funkcja Q.

statyczne

#fundamentals

coś, co jest wykonywane raz, a nie stale; Hasła statyczny i offline to synonimy. Poniżej znajdziesz typowe przypadki użycia plików statycznych i offline w systemach uczących się. nauka:

  • model statyczny (lub model offline) to model wytrenowany raz, a potem nie były używane od jakiegoś czasu.
  • Trenowanie statyczne (lub trenowanie offline) to proces trenowania modelu statycznego.
  • Wnioskowanie statyczne (lub wnioskowanie offline) to proces, w którym model generuje zbiorczy zestaw prognoz naraz.

Przeciwieństwem są dynamiczne.

wnioskowanie statyczne

#fundamentals

Synonim offline inference.

stacjonarność

#fundamentals

Cecha, której wartości nie zmieniają się w żadnym lub kilku wymiarach, zwykle w czasie. Na przykład cecha, której wartości w 2021 r. wyglądają mniej więcej tak samo, 2023 r. – stacjonarność eksponatów.

W praktyce bardzo niewiele cech jest stacjonarnych. Funkcje równomierne synonimy stabilności (takiej jak poziom morza) zmiany w czasie.

W odróżnieniu od niestacjonarności.

kroku

Podaj w przód i w tył w jednej grupie.

Więcej informacji znajdziesz w sekcji o propagacji wstecznej. podczas przechodzenia do przodu i do tyłu.

wielkość kroku

Synonim tempa uczenia się.

gradient stochastyczny (SGD)

#fundamentals

Algorytm schodziny, w którym rozmiar partii wynosi 1. Innymi słowy, SGD trenuje na jednego przykładu wybranego równomiernie losowo ze zestawu treningowego.

stride

#image

W operacji splotowej lub puli delta każdego wymiaru dla kolejnej serii wycinków danych wejściowych. Na przykład ta animacja pokazuje krok (1,1) podczas operacji konwolucji. Dlatego następny fragment danych wejściowych zaczyna się o jedną pozycję w prawo od poprzedniego. Gdy operacja dotrze do prawej krawędzi, następny wycinek będzie w lewo, ale o jedną pozycję w dół.

Wejście: macierz 5 x 5 i filtr convolucyjny 3 x 3. Ponieważ
     krok wynosi (1,1), filtr splotowy zostanie zastosowany 9 razy. Pierwszy
     wycinek splotowy ocenia lewą górną podmacierz 3x3 danych wejściowych
     lub macierz. Drugi wycinek ocenia obszar pośrodku górnego 3 x 3
     pod macierz. Trzeci slice konwolucyjny oblicza macierz podrzędną 3 × 3 w prawym górnym rogu.  Czwarty wycinek analizuje lewośrodkową podmacierz 3 x 3.
     Piąty wycinek ocenia środkową podmacierz 3 x 3. Szósty kawałek
     ocenia podmacierz 3 x 3 w prawym środkowym rogu. Siódmy wycinek ocenia
     lewej podmacie 3 x 3 w lewym dolnym rogu.  Ósmy wycinek ocenia środkową dolną submacierz 3 x 3. Dziewiąty wycinek wyznacza obszar 3 x 3 przy prawym dolnym rogu
     pod macierz.

Poprzedni przykład przedstawia dwuwymiarowy krok. Jeśli wejściowa matryca jest trójwymiarowa, krok będzie też trójwymiarowy.

minimalizacja ryzyka strukturalnego (SRM)

algorytm, który równoważy 2 cele:

  • potrzeba stworzenia modelu o największej trafności (np. o najmniejszym współczynniku utraty).
  • Potrzeba możliwie najprostszych modeli (np. regularyzacja).

Na przykład funkcja, która minimalizuje stratę i regularyzację na zbiorze treningowym, jest algorytmem minimalizacji ryzyka strukturalnego.

Przeciwieństwem jest empiryczna minimalizacja ryzyka.

podpróbkowanie

#image

Zobacz pooling.

token podsłowa

#language

W modelach językowych token, który jest podłańcucha wyrazu, który może stanowić całe słowo.

Na przykład słowo takie jak „wymieniaj” można podzielić na „elementy”, (słowo kluczowe) i „ize” (sufiks), z których każdy jest reprezentowany przez własną token. Podzielenie nietypowych słów na takie, nazywane podsłowami, pozwala modeli językowych do operowania na bardziej powszechnych częściach składowych słowa takich jak prefiksy i sufiksy.

Z drugiej strony, częste słowa, takie jak „going”, mogą nie być dzielone i reprezentowane przez pojedynczy element.

podsumowanie

#TensorFlow

W TensorFlow wartość lub zbiór wartości obliczonych w konkretnym step – zwykle używany do śledzenia danych modelu podczas trenowania.

uczenie maszynowe nadzorowane

#fundamentals

Wytrenowanie modelu z zakresu funkcji i ich odpowiednie etykiety. Uczenie nadzorowane jest podobne do uczenia się danego tematu przez studiowanie zestawu pytań i odpowiednich odpowiedzi. Po opanowaniu mapowania między pytaniami odpowiedzi, uczeń może następnie odpowiedzieć na nowe (nigdy wcześniej niewidziane) pytań na ten sam temat.

Porównaj z systemami uczącymi się bez nadzoru.

funkcja syntetyczna

#fundamentals

Cecha, która nie występuje w śród danych wejściowych, ale jest tworzona na podstawie co najmniej 1 z nich. Metody tworzenia cech syntetycznych należy uwzględnić następujące elementy:

  • Grupowanie obiektu ciągłego do przedziałów zakresu.
  • Utworzenie różnych cech.
  • Mnożenie (lub dzielenie) jednej wartości cechy przez wartości innych cech lub samo w sobie. Jeśli na przykład a i b są cechami wejściowymi, to Oto przykłady funkcji syntetycznych:
    • ab
    • a2
  • Zastosuj funkcję transcendentalną do wartości cechy. Jeśli na przykład c jest cechą wejściową, to następujące przykłady funkcji syntetycznych:
    • sin(c)
    • ln(c)

Cechy utworzone przez normalizację lub skalowanie nie są uważane za cechy syntetyczne.

T

T5

#language

Model transferu wiedzy z tekstu na tekst wprowadzone przez AI od Google w 2020 roku. T5 to model kodera-dekodera oparty na Architektura Transformer wytrenowana na bardzo dużym w gromadzeniu danych. Świetnie sprawdza się w różnych zadaniach związanych z przetwarzaniem języka naturalnego, takich jak generowanie tekstu, tłumaczenie języków i odpowiadanie na pytania w sposób konwersacyjny.

Nazwa T5 pochodzi od liter T w funkcji „Transformer przesyłania tekstu na tekst”.

T5X

#language

Platforma open source uczenia maszynowego, która służy do tworzenia i trenownia modeli przetwarzania języka naturalnego (NLP) na dużą skalę. T5 jest zaimplementowany w bazie kodu T5X (która jest (stworzona w formatach JAX i Flax).

tabelaryczny Q-learning

#rl

W ramach uczenia przez wzmacnianie naukę Q-learning wykorzystującą tabelę do przechowywania Funkcje Q dla każdej kombinacji funkcji state i action.

cel

Synonim etykiety.

sieć docelowa

#rl

uczeniu głębokim Q-learning jest to sieć neuronowa, która jest stabilną przybliżeniem głównej sieci neuronowej. Główna sieć neuronowa implementuje albo funkcję Q, albo zasady. Następnie możesz trenować główną sieć na podstawie wartości Q przewidywanych przez sieć docelową. Dzięki temu zapobiegasz pętli sprzężenia zwrotnego, która występuje, gdy główna sieć uczy się na podstawie wartości Q, które sama przewiduje. Dzięki temu zwiększysz stabilność treningu.

działanie

Problem, który można rozwiązać za pomocą technik uczenia maszynowego, takich jak:

temperatura

#language
#image
#generativeAI

parametr nadrzędny, który kontroluje stopień losowości danych wyjściowych modelu. Wyższe temperatury powodują bardziej losowe wyniki, a niższe – mniej losowe.

Wybór najlepszej temperatury zależy od konkretnego zastosowania i preferowanych właściwości wyników modelu. Na przykład: mogą zwiększyć temperaturę podczas tworzenia aplikacji, aby wygenerować kreacje. I na odwrót, prawdopodobnie obniżysz temperaturę podczas tworzenia modelu, który klasyfikuje obrazy lub tekst, aby poprawić dokładności i spójności modelu.

W przypadku funkcji softmax często używa się temperatury.

dane czasowe

Dane zarejestrowane w różnych punktach w czasie. Na przykład dane o sprzedaży płaszczy zimowych zarejestrowane w poszczególnych dniach roku stanowią dane czasowe.

Tensor

#TensorFlow

Podstawowa struktura danych w programach TensorFlow. Tensory są wielowymiarowe (gdzie N może być bardzo duże) struktury danych, najczęściej skalary, wektory lub macierzy. Elementy tensora mogą zawierać wartości całkowite, zmiennoprzecinkowe lub ciągi znaków.

TensorBoard

#TensorFlow

Panel, który wyświetla podsumowania zapisane podczas wykonywania co najmniej jednego programu TensorFlow.

TensorFlow

#TensorFlow

Rozproszona platforma systemów uczących się na dużą skalę. Termin ten odnosi się też do podstawowej warstwy interfejsu API w zestawie TensorFlow, która obsługuje ogólne obliczenia na wykresach przepływu danych.

TensorFlow jest używany przede wszystkim w systemach uczących się, ale możesz też używać TensorFlow do zadań innych niż ML, które wymagają obliczeń liczbowych z użyciem oraz wykresy przepływu danych.

TensorFlow Playground

#TensorFlow

Program, który pokazuje, jak różne Model wpływu hiperparametrów (głównie sieci neuronowych). Wejdź na stronę http://playground.tensorflow.org , aby eksperymentować z TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Platforma do wdrażania wytrenowanych modeli w produkcji.

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Specjalistyczny układ scalony (ASIC) optymalizujący wydajność zadań systemów uczących się. Te kody ASIC są wdrożone jako kilka układów TPU na urządzeniu TPU.

Poziom tensora

#TensorFlow

Zobacz rank (Tensor).

Kształt tensora

#TensorFlow

Liczba elementów w Tensor w różnych wymiarach. Na przykład Tensor w [5, 10] ma kształt 5 w jednym wymiarze, a 10 w innej.

Rozmiar tensora

#TensorFlow

Łączna liczba elementów skalarnych, które zawiera Tensor. Na przykład plik [5, 10] Tensor ma rozmiar 50.

TensorStore

Biblioteka do efektywnego czytania w dużych, wielowymiarowych tablicach.

warunek zakończenia,

#rl

W nauce ze wzmocnieniem warunki, które określają, kiedy kończy się etap, takie jak osiągnięcie przez agenta określonego stanu lub przekroczenie progowego poziomu liczby przejść między stanami. Na przykład w grze kółko i krzyżyk (znanej też jako kółko i krzyżyk) rozgrywka kończy się, gdy gracz zaznaczy 3 kolejne pola lub gdy zaznaczy wszystkie pola.

test

#df

W drzewie decyzyjnym inna nazwa warunku.

strata testowa

#fundamentals

Dane przedstawiające utratę funkcji celu modelu na zbiorze testowym. Tworząc model, zazwyczaj starają się zminimalizować stratę testów. Dzieje się tak, ponieważ niski wskaźnik utraty w trakcie testu jest silniejszym sygnałem jakości niż niski wskaźnik utraty w trakcie treningu czy niski wskaźnik utraty w trakcie walidacji.

Czasami duża luka między utratą testów a utratą trenowania lub utratą walidacji sugeruje, że trzeba zwiększyć częstotliwość regularyzacji.

zbiór testowy

Podzbiór zbioru danych zarezerwowany na potrzeby testowania wytrenowanego modelu.

Zwykle należy podzielić przykłady w zbiorze danych na 3 poniższe: różne podzbiory:

Każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie powinien należeć jednocześnie do zbioru treningowego i do zbioru testowego.

Zbiór treningowy i zbiór walidacyjny są ściśle powiązane z trenowaniem modelu. Zbiór testowy jest tylko pośrednio powiązany z trenowaniem, strata testu jest wskaźnikiem mniej tendencyjnym i wyższej jakości niż utratę trenowania lub utraty walidacji.

rozpiętość tekstu

#language

Zakres indeksu tablicy powiązany z określonym podzbiorem ciągu tekstowego. Na przykład słowo good w ciągu znaków w języku Python s="Be good now" zajmuje zakres tekstu od 3 do 6.

tf.Example

#TensorFlow

Standard bufor protokołu do opisywania danych wejściowych na potrzeby trenowania lub wnioskowania modelu systemów uczących się.

tf.keras

#TensorFlow

Implementacja usługi Keras zintegrowana z TensorFlow.

próg (dla drzew decyzyjnych)

#df

W warunku dopasowanym do osi porównywana jest wartość atrybutu. Na przykład 75 to wartość progowa w tym warunku:

grade >= 75

analiza ciągów czasowych

#clustering

Podobszar systemów uczących się i statystyk, który analizuje danych tymczasowych. Wiele typów problemów z uczenia maszynowego wymaga analizy szeregów czasowych, w tym klasyfikacji, grupowania, prognozowania i wykrywania anomalii. Możesz na przykład użyć analizy szeregów czasowych, aby prognozować przyszłe sprzedaż płaszczy zimowych według miesięcy na podstawie historycznych danych o sprzedaży.

interwał czasowy

#seq

Jeden „wycofany” komórki w powracającej sieci neuronowej. Na przykład na rysunku poniżej widać 3 momenty w czasie (oznaczone indeksami t-1, t i t+1):

3 etapy czasowe w powtarzającej się sieci neuronowej. Dane wyjściowe funkcji
          pierwszy krok staje się danymi wejściowymi do drugiego kroku czasu. Dane wyjściowe drugiego kroku czasowego stają się wejściem dla trzeciego kroku czasowego.

token

#language

W modelu językowym jest to jednostka atomowa, i wykonywać prognozy. Tokenem jest zwykle :

  • słowa – na przykład wyrażenie „psy lubią koty” składa się z 3 tokenów słownych: „psy”, „lubią” i „koty”.
  • znaku – na przykład wyrażenie „bike fish” składa się z 9 znaków. (Pamiętaj, że puste miejsce jest liczone jako jeden z tokenów).
  • podsłowach – w których pojedyncze słowo może być pojedynczym tokenem lub wieloma tokenami. Podsłowo składa się z rdzenia, prefiksu lub sufiksu. Na przykład model językowy, który używa podsłow jako tokenów, może traktować słowo „psy” jako 2 tokeny (podstawowe słowo „pies” i przyrostek liczby mnogiej „y”). Ta sama model językowy może wyświetlać pojedyncze słowo „wysoki” jako dwa podsłowa ( słowo główne „wysoki” i sufiks „er”).

W domenach innych niż modele językowe tokeny mogą reprezentować inne rodzaje jednostek atomowych. Na przykład w przypadku widzenia komputerowego tokenem może być podzbiór obrazu.

wieża

Komponent głębokiej sieci neuronowej, który jest sam w sobie głęboką siecią neuronową. W niektórych przypadkach każdy komponent odczytuje dane z niezależnego źródła danych i te komponenty pozostaną niezależne, dopóki ich dane nie zostaną połączone na ostatnim poziomie. W innych przypadkach (np. encoder i decoder wiele Transformerów), wieże mają połączenia międzysieciowe i otwierać przed sobą nawzajem.

TPU

#TensorFlow
#GoogleCloud

Skrót od Tensor Processing Unit.

Układ scalony TPU

#TensorFlow
#GoogleCloud

Programowalny akcelerator do obliczeń algebraicznych liniowych z pamięcią o wysokiej przepustowości na chipie, zoptymalizowany pod kątem zadań związanych z systemami uczącymi się. Na urządzeniu TPU wdrożonych jest wiele układów TPU.

Urządzenie TPU

#TensorFlow
#GoogleCloud

Płytka drukowana (PCB) z wieloma układami TPU, interfejsami sieci o dużej przepustowości i sprzętem do chłodzenia systemu.

Główny TPU

#TensorFlow
#GoogleCloud

Centralny proces koordynacji działający na komputerze hosta, który wysyła i odbiera dane, wyniki, programy, informacje o wydajności i stanie systemu do procesów TPU. Głównym elementem TPU zarządza również konfiguracja i wyłączenia urządzeń TPU.

Węzeł TPU

#TensorFlow
#GoogleCloud

Zasób TPU w Google Cloud z określonym Typ TPU. Węzeł TPU łączy się z Sieć VPC z pełnorzędnej sieci VPC. Węzły TPU to zasoby zdefiniowane w interfejsie Cloud TPU API.

pod TPU

#TensorFlow
#GoogleCloud

Określona konfiguracja urządzeń TPU w centrum danych Google. Wszystkie urządzenia w podzie TPU są połączone ze sobą za pomocą dedykowanej sieci o wysokiej przepustowości. Pod TPU to największa konfiguracja Urządzenia TPU dostępne w określonej wersji TPU.

Zasób TPU

#TensorFlow
#GoogleCloud

Element TPU w Google Cloud, który tworzysz, nim zarządzasz lub z niego korzystasz. Na przykład węzły TPU i typy TPU to zasoby TPU.

Wycinek TPU

#TensorFlow
#GoogleCloud

Wycinek TPU to ułamkowa część urządzeń TPU w podzie TPU. Wszystkie urządzenia w wycinku TPU są połączone ze sobą za pomocą dedykowanej sieci o wysokiej przepustowości.

Typ TPU

#TensorFlow
#GoogleCloud

Konfiguracja co najmniej 1 urządzenia TPU z określoną wersją sprzętową TPU. Typ TPU wybierasz podczas tworzenia węzła TPU w Google Cloud. Przykład: v2-8 Typ TPU to jedno urządzenie TPU v2 z 8 rdzeniami. Typ v3-2048 TPU ma 256 urządzeń TPU v3 połączonych w sieci i łącznie 2048 rdzeni. Typy TPU to zasoby zdefiniowane w Cloud TPU API.

Zasób roboczy TPU

#TensorFlow
#GoogleCloud

Proces, który działa na komputerze hosta i wykonuje programy systemów uczących się na urządzeniach TPU.

szkolenie

#fundamentals

Proces określania optymalnych parametrów (wag i uprzedzeń) modelu. Podczas trenowania system odczytuje przykłady i stopniowo dostosowuje parametry. W szkoleniu wykorzystywane są poszczególne w dowolnym miejscu – od kilku do miliardów razy.

strata podczas trenowania

#fundamentals

Dane przedstawiające stratę modelu podczas konkretnej iteracji treningu. Na przykład załóżmy, że funkcja utraty to średni kwadrat błędu. Być może utrata trenowania (średnia) Kwadratowy błąd) dla dziesiątej iteracji wynosi 2,2, a utrata trenowania dla dziesiąta iteracja to 1,9.

Krzywa strat przedstawia straty podczas trenowania w zależności od liczby iteracji. Krzywa strat zawiera następujące wskazówki dotyczące trenowania:

  • Spadek wskazuje, że model się poprawia.
  • Stwierdzenie w górę oznacza, że model się pogarsza.
  • Płaski spadek oznacza, że model osiągnął konwergencję.

Na przykład taka krzywa strat do pewnego stopnia wyidealizacji programy:

  • Ostry spadek podczas początkowych iteracji, co oznacza, że szybkiego ulepszania modelu.
  • stopniowo spłaszczający się (ale nadal skierowany w dół) spadek aż do końca trenowania, co oznacza dalsze polepszanie modelu w trochę wolniejszym tempie niż podczas początkowych iteracji;
  • Płaski spadek pod koniec treningu, który sugeruje konwergencję.

Wykres strat trenowania i iteracji. Ta krzywa utraty zaczyna się
     ze stromym spadkiem. Nachylenie stopniowo spłaszcza się do momentu
     nachylenie wynosi zero.

Strata na etapie treningu jest ważna, ale warto też zapoznać się z generalizacją.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między wydajnością modelu w okresie trenowania i skuteczności tego samego modelu w trakcie wyświetlania.

zbiór treningowy

#fundamentals

Podzbiór zbioru danych używany do trenowania modelu.

Zazwyczaj przykłady w zbiorze danych są dzielone na 3 z tych elementów: różne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie może należeć zarówno do zbioru treningowego, jak i do zbioru do weryfikacji.

trajektoria

#rl

W nauce ze wzmocnieniem sekwencja tupli reprezentujących sekwencję przejść stanu agenta, w których każda tupla odpowiada stanowi, działaniu, nagradzeniu i następnemu stanowi w przypadku danego przejścia stanu.

nauczanie transferowe

Przenoszenie informacji z jednego zadania systemów uczących się do innego. Na przykład w przypadku uczenia wielozadaniowego jeden model rozwiązuje wiele zadań, np. model szczegółowy, który ma różne węzły wyjściowe różne zadania. Przekazywanie wiedzy może wymagać przekazywania wiedzy od rozwiązania prostszego zadania do bardziej złożonego. przenoszenia wiedzy z zadania, w którym jest więcej danych, do takiego, w którym jest mniej danych.

Większość systemów uczących się rozwiązuje jedno zadanie. Przenoszenie systemów uczących się krok w kierunku sztucznej inteligencji, w którym pojedynczy program może rozwiązać wielu zadań.

Transformator

#language

Architektura sieci neuronowej opracowana w Google, opiera się na mechanizmach skupienia się, sekwencja wektorów dystrybucyjnych wejściowych w sekwencję danych wyjściowych wektory dystrybucyjne bez splotów lub powracające sieci neuronowe. Sieć Transformer można traktować jako zestaw warstw samouczenia.

Transformator może zawierać:

Koderek przekształca sekwencję zaszyfrowanych danych w nową sekwencję o tej samej długości. Koder składa się z N identycznych warstw, z których każda zawiera dwie i warstwy podrzędne. Te 2 podwarstwy są stosowane w każdej pozycji sekwencji embeddingu wejściowego, przekształcając każdy element sekwencji w nowy embedding. Pierwsza warstwa podrzędna kodera gromadzi informacje z całego regionu sekwencji wejściowej. Druga podwarstwa kodera przekształca zagregowane informacje w embedding wyjściowy.

Dekoder przekształca sekwencję wektorów dystrybucyjnych wejściowych w sekwencję wektorów dystrybucyjnych, które mogą mieć inną długość. Dekoder zawiera też N identycznych warstw z trzema warstwami podrzędnymi, z których dwie są podobne do i warstw podrzędnych kodera. Trzeci podwarstw decodera pobiera dane wyjściowe z enkodera i za pomocą mechanizmu samouczenia zbiera z nich informacje.

W poście na blogu Transformer: nowatorska architektura sieci neuronowych na potrzeby rozumienia języka znajdziesz dobre wprowadzenie do transformacji.

niezmienniczość w przełożeniu

#image

W przypadku problemu klasyfikacji obrazów chodzi o zdolność algorytmu do prawidłowej klasyfikacji obrazów nawet wtedy, gdy pozycja obiektów na obrazie ulega zmianie. Na przykład algorytm nadal potrafi wykryć psa, niezależnie od tego, czy znajduje się on na środku klatki lub na jej lewym końcu.

Zobacz też niewariancję rozmiaru oraz niewariancja rotacyjna.

trygram

#seq
#language

N-gram, w którym N=3.

prawdziwie negatywny (TN)

#fundamentals

Przykład, w którym model prawidłowo prognozuje klasę negatywną. Model zakłada na przykład, że konkretny e-mail nie jest spamem, który naprawdę jest nie są spamem.

prawdziwie pozytywny (TP).

#fundamentals

Przykład, w którym model prawidłowo prognozuje klasę pozytywną. Na przykład model wnioskuje, że dana wiadomość e-mail jest spamem, i faktycznie jest to spam.

współczynnik prawdziwie pozytywnych (TPR)

#fundamentals

Synonim terminu recall. Czyli:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Współczynnik prawdziwie pozytywnych to oś Y na krzywej ROC.

U

nieświadomość (w przypadku atrybutu wrażliwego)

#fairness

Jeśli atrybuty o charakterze kontrowersyjnym są ale nie są uwzględniane w danych treningowych. Atrybuty wrażliwe są często skorelowane z innymi atrybutami danych, dlatego model trenowany bez uwzględnienia atrybutu wrażliwego może nadal mieć nieproporcjonalny wpływ na ten atrybut lub naruszać inne ograniczenia dotyczące sprawiedliwości.

niedopasowanie

#fundamentals

wygenerowanie modelu o słabych zdolnościach prognostycznych, ponieważ nie uchwycił on w pełni złożoności danych treningowych; Wiele problemów mogą powodować niedopasowanie, w tym:

niedopróbkowanie

Usuwanie przykładów z klasy większości w zbiorze danych z nierównowagą klas w celu utworzenia bardziej zrównoważonego zbioru danych treningowych.

Weźmy na przykład zbiór danych, w którym stosunek klasy większości do klasa mniejszości to 20:1. Aby opanować te zajęcia możesz utworzyć zbiór treningowy obejmujący wszystkie mniejszości ale tylko dziesiątą z klas większości, co spowodowałoby utworzyć współczynnik klasy zbioru treningowego 2:1. Z powodu niedostatecznego próbkowania zrównoważony zbiór treningowy może wygenerować lepszy model. Z drugiej strony bardziej zrównoważony zbiór treningowy może zawierać za mało przykładów, aby wytrenować skuteczny model.

Porównaj z przeskalowaniem.

jednokierunkowa

#language

System oceniający tylko tekst, który postępuje przed docelowym fragmentem tekstu. System dwukierunkowy analizuje zarówno tekst poprzedzający, jak i następujący wybrany fragment tekstu. Więcej informacji znajdziesz w sekcji Dwukierunkowe.

jednokierunkowy model językowy

#language

Model językowy, który opiera swoje prawdopodobieństwa tylko na tokenach pojawiających się przed, a nie po tokenach docelowych. W przeciwieństwie do dwukierunkowej modelu językowego.

przykład bez etykiety

#fundamentals

Przykład, który zawiera funkcje, ale nie zawiera etykiety. Na przykład w tabeli poniżej znajdują się 3 beznazwane przykłady z modelu wyceny domu, z których każdy zawiera 3 cechy, ale nie ma wartości domu:

Liczba sypialni Liczba łazienek Wiek domu
3 2 15
2 1 72
4 2 34

nadzorowanym uczeniu maszynowym modele są trenowane na przykładach z oznacznikami i wydają prognozy na podstawie przykładów bez oznaczeń.

W przypadku częściowo nadzorowanych i uczenie się nienadzorowane, podczas trenowania są używane przykłady bez etykiet.

Porównaj przykład bez etykiety z przykładem z etykietą.

nienadzorowane systemy uczące się

#clustering
#fundamentals

Wytrenowanie modelu do znajdowania wzorców w zbiorze danych, zwykle zbiór danych bez etykiet.

Najczęstszym zastosowaniem uczenia maszynowego nienadzorowanego jest zgrupowanie danych w grupy podobnych przykładów. Na przykład algorytm uczenia maszynowego bez nadzoru może grupować utwory na podstawie różnych właściwości muzyki. Uzyskane klastry mogą stać się danymi wejściowymi dla innych algorytmów uczenia maszynowego (np. dla usługi rekomendacji muzycznej). Grupowanie może pomóc, gdy brakuje przydatnych etykiet lub brakuje ich. Na przykład w domenach takich jak przeciwdziałanie nadużyciom i oszustwom klastry mogą pomóc a ludzie lepiej rozumieją dane.

Przeciwieństwem są nadzorowane systemy uczące się.

modelowanie wzrostu

Technika modelowania, powszechnie stosowana w marketingu, która modeluje „efekt przyczynowy” (znany też jako „wzrost wpływu”) „interwencji” na „osobę”. Poniżej przedstawiamy dwa przykłady:

  • Lekarze mogą używać modelowania wzrostu do przewidywania zmniejszenia śmiertelności (skutek przyczynowy) zabiegu medycznego (leczenia) w zależności od wieku i historii medycznej pacjenta (osoby).
  • Marketerzy mogą używać modelowania wzrostu, aby przewidywać wzrost prawdopodobieństwa zakupu (skutek przyczynowy) dzięki reklamie (interwencji) skierowanej do osoby (osoby fizycznej).

Modelowanie wzrostu różni się od klasyfikacji lub regresji tym, że w modelowaniu wzrostu zawsze brakuje niektórych etykiet (np. połowy etykiet w eksperymentach binarnych). Na przykład pacjent może otrzymać leczenie lub nie. dlatego możemy jedynie obserwować, czy pacjent wyzdrowieje nie naprawi się tylko w jednej z tych dwóch sytuacji (ale nigdy w obu). Główną zaletą modelu wzrostu jest to, że może generować prognozy dotyczące nieobserwowanej sytuacji (hipotezy przeciwstawnej) i wykorzystywać je do obliczania efektu przyczynowego.

zwiększanie wagi

Przypisanie wagi klasie zmniejszonego próbkowania równej współczynnikowi, o który zmniejszono próbkowanie.

tablica użytkowników

#recsystems

W systemach rekomendacji wektor zanurzeniowy jest generowany przez faktoryzację macierzy, która zawiera ukryte sygnały dotyczące preferencji użytkowników. Każdy wiersz macierzy użytkownika zawiera informacje o względnej sile różnych ukrytych sygnałów w przypadku pojedynczego użytkownika. Weźmy na przykład system rekomendacji filmów. W tym systemie utajone sygnały w tablicy użytkowników mogą reprezentować zainteresowania poszczególnych użytkowników związanych z konkretnymi gatunkami lub mogą być trudniejsze do zinterpretowania, złożone interakcje między wieloma czynnikami.

Macierz użytkowników zawiera po 1 kolumnie na każdą funkcję utajnioną i dla każdego użytkownika. Oznacza to, że macierz użytkowników ma taką samą liczbę wierszy jak macierz docelowa, która jest czynnikiem. Jeśli np. system rekomendacji filmów ma 1 000 000 użytkowników, matryca użytkowników będzie miała 1 000 000 wierszy.

V

walidacja

#fundamentals

Wstępna ocena jakości modelu. Podczas walidacji sprawdzana jest jakość prognoz modelu na podstawie zbioru danych do walidacji.

Zestaw do weryfikacji różni się od zestawu treningowego, pomaga chronić przed nadmiernym dopasowaniem.

Ocena modelu pod kątem zestawu walidacji może być taka pierwszej rundy testowania i oceny modelu w porównaniu z test set to druga runda testów.

utrata walidacji

#fundamentals

Dane przedstawiające stratę modelu na zbiorze testowym w określonej iteracji trenowania.

Zobacz też krzywą uogólnienia.

zestaw do weryfikacji

#fundamentals

Podzbiór zbioru danych, na którym przeprowadzana jest wstępna ocena wytrenowanego modelu. Zazwyczaj trenowany model ocenia się na zestawie walidacyjnym kilka razy, zanim oceni się go na zestawie testowym.

Tradycyjnie przykłady w zbiorze danych dzieli się na 3 odrębne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednej podzbiorów. Na przykład jeden przykład nie powinien należeć do zarówno w zbiorze treningowym, jak i w zbiorze walidacyjnym.

przypisywanie wartości

Proces zastępowania brakującej wartości akceptowalnym zamiennikiem. Jeśli brakuje wartości, możesz odrzucić cały przykład lub w celu ocalenia przykładu.

Wyobraź sobie na przykład zbiór danych zawierający atrybuty temperature, które mają być rejestrowane co godzinę. Jednak odczyt temperatury był niedostępny w określonym dniu. Oto fragment zbioru danych:

Sygnatura czasowa Temperatura
1680561000 10
1680564600 12
1680568200 brak
1680571800 20
1680575400 21
1680579000 21

System może usunąć brakujący przykład lub podać brakujące i wynosi 12, 16, 18 lub 20 stopni, w zależności od algorytmu określania wartości.

problem z znikającym gradientem

#seq

tendencji do gradientów wczesnych ukrytych warstw. niektórych głębokich sieci neuronowych, zaskakująco płasko (nisko). Coraz mniejsze gradienty powodują coraz mniejsze zmiany wag w węzłach głębokiej sieci neuronowej, co prowadzi do niewielkiego lub żadnego uczenia się. Modele, które mają problem z znikającym gradientem, stają się trudne lub niemożliwe do wytrenowania. Długa pamięć krótkotrwała rozwiązuje ten problem.

Porównaj z problemem eksplodującego gradientu.

wagi zmiennych

#df

Zestaw wyników, który wskazuje względne znaczenie poszczególnych cech dla modelu.

Rozważ na przykład drzewo decyzyjne, które szacuje ceny domów. Załóżmy, że w tym drzewie decyzyjnym są wykorzystywane trzy rozmiar, wiek i styl. Jeśli zestaw zmiennych ważności dla tych 3 cech został obliczony jako {rozmiar=5,8, wiek=2,5, styl=4,7}, to rozmiar jest ważniejszy dla drzewa decyzji niż wiek lub styl.

Istnieją różne wskaźniki znaczenia zmiennych, które mogą informować ekspertów ds. ML o różnych aspektach modeli.

wariacyjny autokoder (VAE)

#language

Typ autokodera, który wykorzystuje rozbieżność. między danymi wejściowymi a wyjściowymi w celu wygenerowania zmodyfikowanych wersji danych wejściowych. Autoencodery wariancyjne są przydatne w przypadku generatywnej AI.

VAE opiera się na wnioskowaniu wariancjalnym, czyli metodzie szacowania parametrów modelu prawdopodobieństwa.

wektor

Bardzo obciążony termin, którego znaczenie różni się w zależności od dziedziny matematyki i nauki. W uczeniu maszynowym wektor ma 2 właściwości:

  • Typ danych: wektory w uczeniu maszynowym zwykle zawierają liczby zmiennoprzecinkowe.
  • Liczba elementów: długość wektora lub jego wymiar.

Weźmy na przykład wektory cech, które zawierają 8 liczb zmiennoprzecinkowych. Ten wektor cech ma długość lub wymiar równy 8. Pamiętaj, że wektory uczenia maszynowego często mają ogromną liczbę wymiarów.

W postaci wektorów można przedstawiać wiele różnych rodzajów informacji. Na przykład:

  • Każde położenie na powierzchni Ziemi może być reprezentowane jako wektor dwuwymiarowy, w którym jeden wymiar to szerokość geograficzna, a drugi – długość geograficzna.
  • Obecne ceny 500 akcji można przedstawić jako wektor 500-wymiarowy.
  • Można przedstawić rozkład prawdopodobieństwa na skończonej liczbie klas jako wektor. Na przykład system wieloklasowej klasyfikacji, który przewiduje jeden z 3 kolorów wyjściowych (czerwony, zielony lub żółty), może zwrócić wektor (0.3, 0.2, 0.5) o znaczeniu P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Wektory można łączyć, dzięki czemu różne media mogą być reprezentowane jako pojedynczy wektor. Niektóre modele działają bezpośrednio konkatenacji wielu jednorazowych kodów kodowania.

Wyspecjalizowane procesory, takie jak TPU, są zoptymalizowane pod kątem wydajności. matematyczne operacje na wektorach.

Wektor jest tendencją rankingu 1.

W

Strata Wassersteina

Jedna z funkcji utraty powszechnie stosowanych w generatywnej sieci antagonistycznej, oparta na odległości Earth Mover między dystrybucją wygenerowanych danych a rzeczywistymi danymi.

waga

#fundamentals

Wartość, którą model mnoży przez inną wartość. Trenowanie to proces określania idealnych wag modelu, a wyciąganie wniosków to proces wykorzystywania tych wag do prognozowania.

Ważona metoda najmniejszych kwadratów (WALS)

#recsystems

Algorytm minimalizujący funkcję celu podczas rozkładania macierzy w systemów rekomendacji, uwzględnianie brakujących przykładów. WALS minimalizuje ważone wartości błąd do kwadratu między pierwotną macierą a odbudową przez naprzemiennego poprawiania rozkładu wierszy na czynniki i rozkładania kolumn. Każdą z tych optymalizacji można rozwiązać przez użycie najmniejszych kwadratów optymalizację wypukłą. Więcej informacji: kurs dotyczący systemów Recommendations Systems.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez ich wagi. Załóżmy na przykład, że odpowiednie dane wejściowe składają się z tych elementów:

wartość wejściowa waga wejściowa
2 –1,3
-1 0,6
3 0,4

Suma ważona wygląda więc tak:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Suma ważona jest argumentem wejściowym funkcji funkcji aktywacji.

model szeroki

Model liniowy, który zwykle zawiera wiele rzadkich cech wejściowych. Nazywamy go „szeroki”, ponieważ jest to specjalny typ sieci neuronowej z dużą liczbą wejść, które łączą się bezpośrednio z węzłem wyjściowym. Modele szerokie są często łatwiejsze do debugowania i zbadania niż modele precyzyjne. Chociaż modele szerokie nie mogą wyrażać nieliniowości za pomocą ukrytych warstw, mogą używać przekształceń takich jak krzyżowanie cech i dzielenie na przedziały, aby modelować nieliniowości na różne sposoby.

Porównaj z modelem głębokiego uczenia.

szerokość

Liczba neuronów w określonej warstwie sieci neuronowej.

mądrość tłumu

#df

Zasada, że uśrednianie opinii lub szacunków dużej grupy osób („grupy”) często przynosi zaskakująco dobre wyniki. Rozważmy na przykład grę, w której użytkownicy zgadują liczbę żelki zapakowane do dużego słoika. Chociaż większość odgadnięcia będą niedokładne, średnia ze wszystkich odgadyń została empirycznie pokazały się zaskakująco zbliżone do rzeczywistej liczby z galaretką w słoiku.

Ensembles to oprogramowanie, które wykorzystuje mądrość tłumu. Nawet jeśli poszczególne modele generują bardzo niedokładne prognozy, uśrednianie prognoz wielu modeli często daje zaskakująco dobre wyniki. Na przykład, chociaż dana osoba drzewo decyzji może generować złe prognozy, Decyzja lasu często generuje bardzo dobre prognozy.

umieszczanie słów

#language

Reprezentowanie każdego słowa w zbiorze słów za pomocą wektora zanurzeniowego, czyli reprezentowanie każdego słowa za pomocą wektora wartości zmiennoprzecinkowych z zakresu od 0,0 do 1,0. Słowa z podobnymi znaczenie przedstawia bardziej podobnie niż słowa o innym znaczeniu. Na przykład marchew, seler i ogórki mają względnie które znacznie różnią się od reprezentacji samolot, okulary przeciwsłoneczne i pasta do zębów.

X

XLA (Przyspieszona algebra liniowa)

Kompilator open source dla systemów uczących się do procesorów graficznych, procesorów i akceleratorów ML.

Kompilator XLA pobiera modele z popularnych platform ML, takich jak PyTorch TensorFlow i JAX oraz je optymalizuje do wydajnego działania na różnych platformach sprzętowych, Procesory graficzne, procesory i akceleratory ML.

Z

uczenie się „zero-shot”

Rodzaj szkolenia poświęconego systemów uczących się, w którym model wyznacza prognozę dla zadania na których nie był jeszcze trenowany. Innymi słowy, model nie otrzymała żadnych przykładów do trenowania specyficznych dla danego zadania, ale otrzymał pytanie aby wywnioskować dla tego zadania.

prompt typu zero-shot

#language
#generativeAI

Prompt, który nie zawiera przykładu, w jaki sposób chcesz uzyskać duży model językowy do odpowiadania. Na przykład:

Elementy jednego promptu Uwagi
Jaka jest oficjalna waluta w wybranym kraju? Pytanie, na które chcesz uzyskać odpowiedź od modelu LLM.
Indie: Faktyczne zapytanie.

Duży model językowy może odpowiedzieć:

  • Rupia
  • INR
  • Rupia indyjska
  • Rupia
  • rupia indyjska,

Wszystkie odpowiedzi są prawidłowe, ale możesz preferować określony format.

Wskaż podobieństwa i różnice między promptami typu zero-shot:

Normalizacja wyniku Z

#fundamentals

Technika skalowania, która zastępuje feature o wartości zmiennoprzecinkowej, która reprezentuje liczbę odchyleń standardowych od średniej danej cechy. Weźmy na przykład cechę o średniej 800 i odchyleniu standardowym 100. W tabeli poniżej pokazujemy, jak normalizacja wyniku Z zmapuje nieprzetworzoną wartość na wynik Z:

Wartość nieprzetworzona Wynik Z
800 0
950 +1,5
575 -2,25

Model uczenia maszynowego trenuje następnie na wyniku Z dla danej cechy zamiast nieprzetworzonych wartości.