Słowniczek systemów uczących się

W tym glosariuszu znajdziesz ogólne terminy związane z systemami uczącymi się oraz charakterystycznych dla TensorFlow.

A

ablacja

Technika oceny znaczenia cech lub komponent przez tymczasowe usunięcie go z modelu. Ty to ponownie wytrenować model bez tej funkcji lub tego komponentu, a jeśli ponownie wytrenowany model osiąga znacznie gorsze wyniki, usunięta funkcja lub komponent były prawdopodobnie są ważne.

Na przykład załóżmy, że trenujesz model klasyfikacji na 10 funkcjach i uzyskać precyzję na poziomie 88%, zestaw testowy. Sprawdzanie ważności Możesz ponownie wytrenować model przy użyciu funkcje zabezpieczeń. Jeśli ponownie wytrenowany model osiąga znacznie gorszą skuteczność (na przykład precyzji wynoszącej 55%), usunięta funkcja była prawdopodobnie ważna. I odwrotnie: Jeśli ponownie wytrenowany model ma taką samą skuteczność, to prawdopodobnie niezbyt ważne.

Ablacja może również pomóc określić znaczenie:

  • większe komponenty, np. cały podsystem większego systemu ML.
  • procesy lub techniki, np. etap wstępnego przetwarzania danych

W obu przypadkach można obserwować, jak zmienia się wydajność systemu (lub nie zmienia się) po usunięciu komponentu.

Testy A/B

Statystyczny sposób porównywania dwóch (lub więcej) technik – A, i B. A to zazwyczaj istniejąca technika, a B to nowa technika. Testy A/B pozwalają nie tylko ustalić, która metoda jest skuteczniejsza ale także to, czy różnica jest istotna statystycznie.

Testy A/B polegają zwykle na porównaniu jednego danych za pomocą 2 metod: na przykład jak dokładność modelu wypada dla dwóch? ? Testy A/B pozwalają też porównać dowolną skończoną liczbę danych.

układ akceleratora

#GoogleCloud

Kategoria specjalistycznych komponentów sprzętowych zaprojektowanych do do obliczeń potrzebnych w algorytmach deep learning.

Układy akceleratora (w skrócie akceleratory) mogą znacznie zwiększenie szybkości i wydajności zadań trenowania oraz wnioskowania niż zwykły procesor. Są idealne do trenowania sieci neuronowych i podobnych zadań wymagających dużej mocy obliczeniowej.

Przykłady układów akceleratora:

  • Jednostki Tensor Processing Unit (TPU) od Google ze specjalnym sprzętem do deep learningu.
  • Procesory graficzne NVIDIA, które chociaż początkowo były zaprojektowane do przetwarzania grafiki, mają umożliwiać równoległe przetwarzanie, co może znacznie zwiększyć szybkość przetwarzania.

dokładność

#fundamentals

Liczba poprawnych prognoz przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który dokonał 40 poprawnych prognoz i 10 błędnych prognozy będą miały dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja plików binarnych zawiera konkretne nazwy dla różnych kategorii prawidłowych prognoz i niepoprawnych prognoz. Wzór dokładności klasyfikacji binarnej jest taki:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

Porównaj dokładność z precision recall.

działanie

#rl

W przypadku uczenia przez wzmacnianie mechanizm, za pomocą którego agent przejścia między stanami klasy środowisko. Agent wybiera działanie za pomocą zasadami.

funkcja aktywacji

#fundamentals

Funkcja, która umożliwia sieciom neuronowym uczenie się nonlinear (złożone) relacje między obiektami; i etykietę.

Do popularnych funkcji aktywacyjnych należą:

Wykresy funkcji aktywacyjnych nigdy nie są pojedynczymi liniami prostymi. Na przykład wykres funkcji aktywacji ReLU składa się z: dwie proste linie:

Wykres kartezjański składający się z dwóch wierszy. Pierwszy wiersz zawiera stałą
          wartość y 0, wzdłuż osi X, od -nieskończoność, 0 do 0,-0.
          Druga linia zaczyna się od 0,0. Nachylenie tej linii to +1, więc
          od 0,0 do +nieskończoności.

Schemat funkcji aktywacji sigmoidalnej wygląda tak:

Dwuwymiarowy, zakrzywiony wykres z wartościami x obejmującymi domenę
          -nieskończoność do +dodatnia, podczas gdy wartości y obejmują zakres niemal od 0 do
          prawie 1. Gdy x to 0, y to 0,5. Nachylenie krzywej jest zawsze
          dodatnia, o najwyższym nachyleniu na poziomie 0,0,5 i stopniowo malejącym
          wraz ze wzrostem wartości bezwzględnej x.

aktywna nauka

Podejście szkoleniowe, w którym algorytm wybiera część danych, z których się uczy. Aktywna nauka jest szczególnie przydatny, gdy przykłady oznaczone etykietami są rzadkie lub kosztowne. Zamiast na ślepo szukać zróżnicowanych jest szereg oznaczonych przykładów, aktywny algorytm uczenia się wybiórczo konkretnego zakresu przykładów potrzebnych do nauki.

AdaGrad

zaawansowany algorytm przesuwania w dół, który zmienia skalę gradientów każdego parametru, co daje każdemu parametrowi niezależnego tempa uczenia się. Pełne wyjaśnienie znajdziesz w materiałach na temat tym artykule AdaGrad.

agent

#rl

W przypadku uczenia przez wzmacnianie encja, która korzysta z policy, aby zmaksymalizować oczekiwany zwrot uzyskiwany przejścia między stanami środowisko.

Ogólnie agent to oprogramowanie, które samodzielnie planuje i wykonuje seria działań dążących do osiągnięcia celu, z możliwością przystosowania się do zmian w jego otoczeniu. Na przykład agent oparty na LLM może użyć funkcji LLM do opracowania planu, a nie stosowania zasad uczenia przez wzmacnianie.

grupowanie aglomeracyjne

#clustering

Zapoznaj się z informacjami na temat grupowania hierarchicznego.

wykrywanie anomalii

Proces identyfikowania wyjątków odstających. Na przykład, jeśli średnia dla danej cechy wynosi 100, a odchylenie standardowe wynosi 10, wtedy wykrywanie anomalii powinno oznaczyć wartość 200 jako podejrzaną.

AR

Skrót od terminu rzeczywistość rozszerzona.

powierzchnia pod krzywą PR

Zapoznaj się z sekcją PR AUC (obszar pod krzywą PR).

powierzchnia pod krzywą ROC

Patrz AUC (obszar pod krzywą ROC).

sztuczna inteligencja

To nieludzki mechanizm, który demonstruje szeroki zakres rozwiązywania problemów. kreatywność i elastyczność. Na przykład program prezentujący sztuczne na podstawie ogólnej inteligencji potrafi tłumaczyć tekst, skomponować symfonie oraz doskonalić w grach, które nie zostały jeszcze wynalezione.

sztuczna inteligencja

#fundamentals

Program lub model nieprzeznaczony dla ludzi, który potrafi rozwiązać złożone zadania. Na przykład program lub model do tłumaczenia tekstu, a także program lub model, Identyfikuje choroby na podstawie zdjęć radiologicznych. Oba te schorzenia wykazują sztuczną inteligencję.

Formalnie systemy uczące się to podobszar sztuczny, i analizę. Jednak w ostatnich latach niektóre organizacje zaczęły korzystać czyli sztuczna inteligencja i systemy uczące się zamiennie.

uwaga

#language

Mechanizm stosowany w sieci neuronowej, który wskazuje, znaczenie konkretnego słowa lub jego części. Uwaga kompresuje ilość informacji, których model potrzebuje, aby przewidzieć następny token/słowo. Typowy mechanizm uwagi może składać się suma ważona na zbiorze danych wejściowych, gdzie waga poszczególnych danych wejściowych jest obliczana przez inną część dzięki sieci neuronowej.

Przeczytaj też artykuły o samodzielnej koncentracji i wielofunkcyjnego skupienia, czyli elementów składowych Transformerów.

atrybut

#fairness

Synonim słowa funkcja.

W obiektywności uczenia maszynowego atrybuty często odnoszą się do na cechy fizyczne.

próbkowanie atrybutów

#df

Taktyka trenowania lasu decyzji, w którym każdy Drzewo decyzji uwzględnia tylko losowy podzbiór możliwych funkcje podczas poznawania stanu. Ogólnie dla każdego z nich próbkowany jest inny podzbiór cech węzeł. Natomiast podczas trenowania drzewa decyzyjnego bez próbkowania atrybutów brane są pod uwagę wszystkie możliwe cechy dla każdego węzła.

AUC (obszar pod krzywą ROC)

#fundamentals

Liczba z zakresu od 0,0 do 1,0 oznaczająca Model klasyfikacji plików binarnych możliwość oddzielić klasy pozytywne od klas negatywnych. Im wartość AUC jest bliższa wartości 1,0, tym większa zdolność modelu do rozdzielenia i lekcji.

Na przykład ta ilustracja przedstawia model klasyfikatora oddzielających klasy pozytywne (zielone owale) od klas negatywnych (fioletowe prostokąty). Ten nierealistycznie idealny model ma AUC wynoszące 1,0:

Linia liczbowa z 8 przykładami dodatnimi po jednej stronie oraz
          9 negatywnych przykładów po drugiej stronie.

I na odwrót: ilustracja poniżej pokazuje wyniki zastosowania klasyfikatora. który generuje wyniki losowe. Ten model ma wartość AUC wynoszącą 0,5:

Linia liczbowa z 6 przykładami dodatnimi i 6 ujemnymi.
          w kolejności przykładów: dodatnia, ujemna,
          pozytywne, negatywne, pozytywne, negatywne, pozytywne, negatywne, pozytywne
          negatywną, dodatnią, negatywną.

Tak, poprzedni model ma wartość AUC wynoszącą 0,5, a nie 0,0.

Większość modeli znajduje się gdzieś pomiędzy tymi dwoma skrajnościami. Na przykład plik poniższy model oddziela nieco wartości dodatnie od negatywnych, dlatego ma wartość AUC mieszczącą się w zakresie od 0,5 do 1,0:

Linia liczbowa z 6 przykładami dodatnimi i 6 ujemnymi.
          Sekwencja przykładów jest ujemna, ujemna, ujemna, ujemna,
          pozytywny, negatywny, pozytywny, pozytywny, negatywny, pozytywny, pozytywny
          pozytywnym.

AUC ignoruje każdą ustawioną wartość próg klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi klasyfikacji.

rzeczywistość rozszerzona

#image

Technologia, która nakłada obraz wygenerowany komputerowo na obraz ze światem rzeczywistym, oferując widok złożony.

autokoder

#language
#image

System, który uczy się wyodrębniać najważniejsze informacje z dane wejściowe. Automatyczne kodery to połączenie kodera dekodera. Autokodery opierają się na tym dwuetapowym procesie:

  1. Koder mapuje dane wejściowe na (zwykle) stratny, mniej-wymiarowy (pośredni).
  2. Dekoder kompiluje stratną wersję pierwotnych danych wejściowych przez mapowanie format niższy niż oryginalny, format wprowadzania.

Autokodery są w pełni trenowane, ponieważ dekoder próbuje zrekonstruować oryginalne dane wejściowe z formatu pośredniego kodera jak najczęściej. Format pośredni jest mniejszy (mniejszy wymiar) niż w formacie oryginalnym, autokoder jest wymuszany aby dowiedzieć się, jakie informacje wejściowe są niezbędne, a dane wyjściowe nie będą będą całkowicie identyczne z danymi wejściowymi.

Na przykład:

  • Jeśli dane wejściowe mają postać graficzną, niedokładna kopia będzie podobna do oryginalną, ale nieco zmodyfikowaną grafikę. Być może kopia niedokładna usuwa szum z oryginalnej grafiki lub wypełnia brakujące piksele.
  • Jeśli danymi wejściowymi jest tekst, autokoder wygeneruje nowy tekst, imituje (ale nie jest identyczny) oryginalny tekst.

Zobacz też automatyczne kodery zmiennoprzecinkowe.

efekt automatyzacji

#fairness

Gdy osoba decyzyjna preferuje rekomendacje automatyczne do procesu decyzyjnego w przypadku informacji zainicjowanych bez automatyzacji, gdy automatyczny system decyzyjny popełnia błędy.

AutoML

Każdy zautomatyzowany proces tworzenia systemów uczących się. modeli. AutoML może automatycznie wykonywać takie zadania jak:

  • Wyszukaj najbardziej odpowiedni model.
  • Dostosuj hiperparametry.
  • Przygotowanie danych (w tym skuteczności inżynierii cech).
  • wdrożyć utworzony model,

AutoML przydaje się badaczom danych, ponieważ pozwala zaoszczędzić czas wysiłek w tworzenie potoków systemów uczących się i usprawnienie prognozowania dokładności. Ta metoda jest też przydatna dla osób, które nie są ekspertami, ponieważ komplikują i zadania uczenia maszynowego łatwiej dostępne.

model autoregresywny

#language
#image
#generativeAI

Model, który szacuje prognozę na podstawie swojego wcześniejszego i generowanie prognoz. Na przykład automatycznie regresywne modele językowe przewidują kolejne token na podstawie wcześniej przewidywanych tokenów. Wszystkie modele oparte na Transformer duże modele językowe są automatycznie regresywne.

W przeciwieństwie do tego modele obrazów oparte na GAN zwykle nie są autoregresywne. ponieważ generują obraz w pojedynczym przejściu do przodu, a nie iteracyjnie kroków. Jednak niektóre modele generowania obrazów automatycznie regresywne, ponieważ krok po kroku generują obraz.

strata usługi pomocniczej

Funkcja straty – używana w połączeniu z funkcją Model sieci neuronowej funkcję utraty danych, która pomaga przyspieszyć trenowanie podczas w przypadku wczesnych iteracji, gdy wagi są zainicjowane losowo.

Funkcje utraty pomocniczej przekazują skuteczne gradienty. do wcześniejszych warstw. Ułatwia to zgodność podczas trenowania przez rozwiązanie problemu z znikaniem gradientu.

średnia precyzja

Dane służące do podsumowania skuteczności sekwencji wyników uporządkowanych według rankingu. Średnia precyzja jest obliczana na podstawie średniej wartości precision dla każdego trafnego wyniku (każdy wynik lista rankingowa, na której czułość zwiększa się w stosunku do poprzedniego wyniku).

Zobacz też Obszar pod krzywą PR.

warunek wyrównany do osi

#df

W drzewie decyzji warunek który obejmuje tylko jedną funkcję. Na przykład, jeśli pole jest cechą, to taki warunek jest dopasowany do osi:

area > 200

Różnica z warunkem skośnym.

B

wsteczne propagacja

#fundamentals

Algorytm implementujący gradient gradientowy w sieci neuronowych.

Trenowanie sieci neuronowej wymaga wielu iteracji. takiego cyklu dwuprzebiegowego:

  1. W trakcie przebiegu do przodu system przetwarza grupę obejmującą przykłady generowania prognoz. System porównuje do każdej wartości atrybutu label. Różnica między w przypadku prognozy, a wartością etykiety będzie strata. System agreguje straty dla wszystkich przykładów, aby obliczyć łączną wartość dla bieżącego wsadu.
  2. Podczas przebiegu wstecznego (propagacji wstecznej) system zmniejsza straty o by dostosować wagę wszystkich neuronów warstwy ukryte.

Sieci neuronowe często zawierają wiele neuronów w wielu ukrytych warstwach. Każdy z tych neuronów przyczynia się do całkowitej utraty danych na różne sposoby. Propagacja wsteczna określa, czy zwiększyć czy zmniejszyć wagę dla konkretnych neuronów.

Tempo uczenia się to mnożnik, który kontroluje stopień, o jaki każde przejście wstecz zwiększa lub zmniejsza każdą wagę. Duże tempo uczenia się będzie zwiększać lub zmniejszać każdą wagę więcej niż małe tempo uczenia się.

W ramach rachunku rachunkowego przez propagację wsteczną implementuje się reguła łańcucha. na podstawie rachunku różniczkowego. Oznacza to, że przez propagację wsteczną oblicza częściową pochodną błędu z wartością w odniesieniu do każdego parametru.

Wiele lat temu osoby zajmujące się systemami uczącymi się musiały pisać kod, aby wdrożyć propagację wsteczną. Nowoczesne interfejsy API systemów uczących się, takie jak TensorFlow, wdrażają propagację wsteczną. Uff...

bagaż

#df

Sposób trenowania zespołu, w którym każdy składnikowy model trenuje na losowym podzbiorze trenowania spróbkowane z zastąpieniem. Na przykład losowy las to zbiór drzewa decyzyjne wytrenowane w zakresie bagażu.

Termin bagaż to skrót od bootstrap agging.

torba słów

#language

reprezentację słów w wyrażeniu lub pasażu; niezależnie od kolejności. Na przykład torba słów reprezentuje te 3 wyrażenia w identyczny sposób:

  • pies podskakuje
  • skaczący pies
  • pies skaczący

Każde słowo jest mapowane na indeks w rozproszonym wektorze, gdzie wektor ma indeks każdego słowa w słowniku. Przykład: wyrażenie pies skacze jest mapowane na wektor cech o wartości innej niż zero. wartości w trzech indeksach odpowiadających słowom , pies oraz skoki. Wartość inna niż 0 może być dowolną z tych wartości:

  • 1 oznacza obecność słowa.
  • Liczba wystąpień słowa w torbie. Przykład: jeśli wyrażenie brzmi: kasztanowy pies to pies z kasztanowym futrem, wtedy oba Hasła kasztanowy i pies są przedstawiane jako 2, a pozostałe słowa – są reprezentowane jako 1.
  • Inna wartość, np. logarytm liczby razy jakieś słowo pojawi się w torbie.

bazowa

Model używany jako punkt odniesienia przy porównywaniu (zwykle jest on bardziej złożony). Na przykład plik model regresji logistycznej może służyć jako dobrą bazą bazową dla modelu szczegółowego.

W przypadku konkretnego problemu wartość bazowa pomaga programistom modeli minimalną oczekiwaną wydajność, jaką nowy model musi osiągnąć w przypadku modelu 3D.

wsad

#fundamentals

Zbiór przykładów używanych w jednym trenowaniu. iteracja. Rozmiar wsadu określa liczbę przykładów w wsad.

Wyjaśnienie związku grupy z grupą znajdziesz w sekcji epoka. epoki.

wnioskowanie wsadowe

#TensorFlow
#GoogleCloud

Proces wnioskowania na podstawie wielu danych przykłady bez etykiet podzielone na mniejsze podzbiory („wsady”).

Wnioskowanie wsadowe pozwala korzystać z funkcji równoległości układów akceleratora. Oznacza to, że wiele akceleratorów może jednocześnie wnioskować na podstawie różnych partii elementów bez etykiet gwałtownie zwiększa się liczba zastosowań na sekundę.

normalizacja wsadowa

Normalizowanie danych wejściowych lub wyjściowych funkcji aktywacyjnych w ukrytą warstwę. Normalizacja wsadowa może zapewnić następujące korzyści:

wielkość wsadu

#fundamentals

Liczba przykładów w grupie. Jeśli na przykład rozmiar wsadu to 100, model przetwarza 100 przykładów na powtarzanie.

Oto popularne strategie dotyczące wielkości wsadu:

  • Stochastic Gradient Descent (SGD), gdzie rozmiar wsadu wynosi 1.
  • Pełny wsad, w którym rozmiar wsadu to liczba przykładów w całej training set (zestaw treningowy). Jeśli na przykład zbiór treningowy zawiera milion przykładów, wielkość wsadu będzie wynosić milion przykłady. Strategia polegająca na przesyłaniu całego pliku jest zwykle mało efektywna.
  • minizbiorczy, w którym rozmiar wsadu wynosi zazwyczaj pomiędzy 10 i 1000. Najskuteczniejszą strategią jest zwykle przesyłanie małej ilości danych jednocześnie.

Bayesowskie sieci neuronowe

Prawdopodobna sieć neuronowa odpowiadająca za: niepewności w wagach i danych wyjściowych. Standardowa sieć neuronowa model regresji zwykle prognozuje wartość skalarną; na przykład model standardowy przewiduje cenę domu, z 853 000. Bayesowskie sieć neuronowa przewiduje natomiast rozkład wartości; Na przykład model Bayesa przewiduje cenę domu na poziomie 853 000, odchylenie standardowe wynoszące 67 200.

Bayesowskie sieci neuronowe opierają się Bayesa Twierdzenie do obliczania niepewności wag i prognoz. Bayesowski neuronowy przydaje się, gdy trzeba ocenić niepewność, na przykład powiązanych z farmaceutykami. Bayesowskie sieci neuronowe również mogą pomóc i zapobiegaj nadmiernym dopasowaniu.

Optymalizacja bayesowska

model regresji prawdopodobnej, to metoda optymalizacji kosztownej obliczeń funkcji celu przez optymalizację funkcji zastępczej który określa ilościowo niepewność z użyciem techniki Bayesa. Od Optymalizacja Bayesa jest bardzo kosztowna, a zwykle jest wykorzystywana kosztowne do oceny zadania o niewielkiej liczbie parametrów, wybierając hiperparametry.

Równanie Bellmana

#rl

W uczeniu przez wzmacnianie następujące cechy są spełnione przez optymalny Funkcja Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Stosują je algorytmy uczenia przez wzmacnianie Tożsamość na potrzeby tworzenia Q-learning za pomocą tej reguły aktualizacji:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Równanie Bellmana ma nie tylko zastosowanie wzmacniania, ale też pomaga programowania dynamicznego. Zobacz Wpis w Wikipedii dotyczący równania Bellmana

BERT (koder dwukierunkowy prezentacje z przekształceń)

#language

Architektura modelu do reprezentacji tekstu. Przeszkolony model BERT może być częścią większego modelu klasyfikacji tekstu lub i innych zadaniach ML.

BERT ma następujące cechy:

Warianty modelu BERT obejmują:

.

Zobacz Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Przetwarzam aby dowiedzieć się więcej o modelu BERT.

uprzedzenia (etyka/sprawiedliwość)

#fairness
#fundamentals

1. Tworzenie stereotypów, uprzedzenia lub faworyzowanie pewnych rzeczy, ludzi lub grup nad innymi. Te uprzedzenia mogą wpływać na zbieranie interpretacji danych, projektu systemu oraz sposobu interakcji użytkowników z systemem. Do form tego rodzaju uprzedzeń należą:

2. Błąd systematyczny wywołany w wyniku procedury próbkowania lub raportowania. Do form tego rodzaju uprzedzeń należą:

Nie należy mylić z terminem uprzedzeń w modelach systemów uczących się. czy odchylenia prognozy.

uprzedzenia (matematyka) lub termin „uprzedzenia”

#fundamentals

Przechwycenie lub przesunięcie od punktu początkowego. Odchylenie to parametr w systemów uczących się, które są symbolizowane przez :

  • B
  • ty0

Na przykład odchylenie to symbol b w tym wzorze:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W prostej, dwuwymiarowej linii odchylenie oznacza po prostu „punkt przecięcia z osią y”. Na przykład odchylenie linii na ilustracji poniżej wynosi 2.

Wykres prostej z nachyleniem 0,5 i punktu przecięcia osi y 2.

Istnieje tendencyjność, ponieważ nie wszystkie modele zaczynają się od punktu początkowego (0,0). Przykład: Załóżmy, że wstęp do parku rozrywki kosztuje 2 EUR i dodatkowo 0,5 euro za każdą godzinę pobytu klienta. Dlatego model mapujący łączny koszt ma odchylenie do 2, ponieważ najniższy koszt to 2 euro.

Uprzedzeń nie należy mylić z uprzedzeniami w kwestiach etyki i uczciwości czy odchylenia prognozy.

dwukierunkowa

#language

Termin używany do opisania systemu oceniającego tekst, który następuje i śledzi docelową sekcję tekstu. Natomiast tylko system jednokierunkowy ocenia tekst, który wyprzedza docelowy fragment tekstu.

Rozważmy na przykład model językowy z maskowaniem, który musi określać prawdopodobieństwo dla słów lub słów reprezentujących podkreślenie w następujące pytanie:

Jaka jest _____ z Tobą?

Jednokierunkowy model językowy musiałby opierać się tylko na prawdopodobieństwach w kontekście zawartym w wyrażeniach „Co”, „jest” i „co”. W przeciwieństwie do tego: dwukierunkowy model językowy może też uzyskać kontekst dzięki słowu „z” i „Ty”, co może pomóc modelowi w generowaniu lepszych prognoz.

dwukierunkowy model językowy

#language

Model językowy, który określa prawdopodobieństwo, że dany token jest obecny w danej lokalizacji we fragmencie tekstu na podstawie poprzedni i następny tekst.

bigram

#seq
#language

N-gram, w którym N=2.

klasyfikacja binarna

#fundamentals

Typ zadania klasyfikacji, które prognozuje jedną z dwóch wzajemnie wykluczających się klas:

Na przykład te 2 modele systemów uczących się osiągają skuteczność: klasyfikacja binarna:

  • Model określający, czy e-maile spam (klasa pozytywna) lub not spam (klasa negatywna).
  • Model oceniający objawy medyczne w celu określenia, czy dana osoba cierpi na określoną chorobę (klasę pozytywną) lub jej nie ma; choroba (klasa negatywna).

Przeciwieństwem są klasyfikacje wieloklasowe.

Zobacz też regresję logiczną oraz próg klasyfikacji.

warunek binarny

#df

W drzewie decyzji warunek który ma tylko 2 możliwe wyniki – zwykle tak lub nie. Na przykład taki warunek binarny:

temperature >= 100

Ustaw kontrast z warunkem niebinarnym.

Binning

Synonim słowa grupowanie.

BLEU (Bilingual Evaluation Understudy)

#language

Wynik od 0,0 do 1,0 włącznie, który wskazuje jakość tłumaczenia między 2 językami ludzkimi (np. angielskim i rosyjskim). A BLEU Wynik 1,0 oznacza tłumaczenie perfekcyjne; Wynik BLEU równy 0,0 wskazuje kiepskie tłumaczenie.

wzmocnienie

To technika uczenia maszynowego, która iteracyjnie łączy zestaw prostych niezbyt dokładne klasyfikatory (nazywane „słabymi” klasyfikatorami) w klasyfikatora o wysokiej dokładności (klasyfikator o silnej dokładności) przez uaktualnianie przykładów, na które jest obecnie stosowany model. błędnej klasyfikacji.

ramka ograniczająca

#image

Na obrazie współrzędne (x, y) prostokąta wokół obszaru np. pies na poniższej ilustracji.

Zdjęcie psa siedzącego na sofie. Zielona ramka ograniczająca
          ze współrzędnymi w lewym górnym rogu (275, 1271) i prawym dolnym rogu
          współrzędne (2954, 2761) opisują ciało psa

transmisja

Rozszerzanie kształtu operandu w operacji matematycznej do wymiarów zgodnych z tą operację. Przykład: algebra liniowa wymaga, aby te dwa operandy w operacji dodawania macierzy muszą mieć jednakowe wymiary. Nie można dodać macierzy kształtów (m, n) do wektora o długości n. Transmisja włącza tę operację przez wirtualnie rozszerzając wektor o długości n do macierzy kształtu (m, n) przez powielanie tych samych wartości w dół każdej kolumny.

Na przykład, biorąc pod uwagę poniższe definicje, algebra liniowa zabrania A+B, ponieważ A i B mają różne wymiary:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Jednak transmisja umożliwia wykonanie operacji A+B przez wirtualne rozwinięcie obszaru B do:

 [[2, 2, 2],
  [2, 2, 2]]

A+B jest teraz prawidłową operacją:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Zobacz opis tej funkcji transmisja w NumPy, aby uzyskać więcej informacji.

skategoryzowanie w przedziałach

#fundamentals

Konwersja pojedynczej cech na wiele funkcji binarnych nazywane zasobnikami lub pojemnikami, zwykle na podstawie zakresu wartości. Przecięty obiekt to zwykle cechy ciągłej.

Na przykład zamiast przedstawiać temperaturę jako ciągłym obiektem zmiennoprzecinkowym, można skracać zakresy temperatur w oddzielnych segmentach, takich jak:

  • <= 10 stopni Celsjusza będzie „zimno” zasobnika.
  • Od 11 do 24 stopni Celsjusza to temperatura umiarkowana zasobnika.
  • >= 25 stopni Celsjusza będzie „ciepłe” zasobnika.

Model będzie traktować każdą wartość w tym samym zasobniku jednakowo. Dla: na przykład wartości 13 i 22 są w zasobniku dla temperamentu, więc wartości model traktuje obie wartości jednakowo.

C

warstwa kalibracyjna

korektę po prognozowaniu, zwykle w celu uwzględnienia odchylenia prognozy. Skorygowane prognozy oraz prawdopodobieństwa powinny być zgodne z rozkładem zaobserwowanego zbioru etykiet.

generacja kandydatów

#recsystems

Początkowy zestaw rekomendacji wybrany przez systemem rekomendacji. Weź na przykład pod uwagę która oferuje 100 000 książek. Faza generowania kandydatów tworzy czyli znacznie krótszej listy książek odpowiednich dla konkretnego użytkownika, np. 500. Ale nawet jeśli 500 książek to za dużo, aby polecić użytkownikowi. Kolejne, droższe poszczególnych etapów systemu rekomendacji (takich jak punktacja czy ponowne pozycjonowanie) pozwala zredukować te 500 do znacznie mniejszej, przydatniejszy zestaw rekomendacji.

próbkowanie kandydujące

Optymalizacja w czasie trenowania, która oblicza prawdopodobieństwo dla wszystkich pozytywnych, np. softmax, ale tylko w przypadku losowego próbek etykiet negatywnych. Weźmy przykład oznaczony etykietą beagle i dog, próbkowanie kandydujące oblicza przewidywane prawdopodobieństwa i odpowiadające im hasła dotyczące straty dla:

  • beagle,
  • pies
  • losowy podzbiór pozostałych klas negatywnych (np. cat, lizak czy płot).

Chodzi o to, że klasy negatywne mogą uczyć się na rzadziej wzmocnienie negatywne, klasy pozytywne zawsze są pozytywne jest to zauważalne empirycznie.

Dobór kandydatów jest bardziej wydajny pod względem obliczeń niż algorytmy trenowania które obliczają prognozy dla wszystkich klas negatywnych, zwłaszcza gdy jest bardzo duża liczba klas negatywnych.

dane kategorialne

#fundamentals

Funkcje mające określony zestaw możliwych wartości. Przykład: uznajemy obiekt kategoryczny o nazwie traffic-light-state, który może być może mieć jedną z trzech możliwych wartości:

  • red
  • yellow
  • green

Dzięki temu, że traffic-light-state jest cechą kategoryczną, model może nauczyć się różny wpływ usług red, green i yellow na zachowanie kierowcy.

Czasem nazywane cechami kategorialnymi poszczególnych funkcji.

Przeciwieństwem są dane liczbowe.

przyczynowy model językowy

#language

Synonim jednokierunkowego modelu językowego.

Zobacz dwukierunkowy model językowy, aby: kontrastują różne podejścia kierunkowe w modelowaniu językowym.

centroid

#clustering

Środek klastra określony za pomocą wartości k-średnich lub algorytm k-mediana. Jeśli na przykład k to 3, algorytm k-średni lub k-mediany znajduje 3 centroidy.

grupowanie oparte na centroidach

#clustering

Kategoria algorytmów grupowania, które porządkują dane w niehierarchiczne klastry. Zmienna k-średnie jest najpopularniejszą algorytm grupowania oparty na centroidach.

kontrast z grupowaniem hierarchicznym; za pomocą algorytmów.

wykorzystanie w prompcie łańcucha myśli

#language
#generativeAI

To technika promptów, która umożliwia dużym modelem językowym (LLM) do wyjaśnienia krok po kroku. Przyjrzyjmy się temu przykładowi: zwrócić szczególną uwagę na drugie zdanie:

Ile ciężarów g-my wystąpi w samochodzie, którego wartość mieści się w zakresie od 0 do 60 mil na godzinę w 7 sekundach? W odpowiedzi pokaż wszystkie odpowiednie obliczenia.

Odpowiedź LLM prawdopodobnie:

  • Pokaż sekwencję wzorów fizycznych, dołączając wartości 0, 60 i 7 w odpowiednich miejscach.
  • Wyjaśnij, dlaczego wybrał te formuły i co oznaczają poszczególne zmienne.

Podpowiedzi typu „łańcuch myśli” wymuszają na LLM wykonywanie wszystkich obliczeń, co może doprowadzić do lepszej odpowiedzi. Dodatkowo, łańcuch myśli pozwala użytkownikowi zbadać kroki LLM w celu określenia, czy ta odpowiedź jest nie sensowna.

czat

#language
#generativeAI

Zawartość toczącego się dialogu z systemem ML, zwykle dużym modelu językowym. poprzednią interakcję na czacie; (wpisany tekst i odpowiedzi dużego modelu językowego) stają się w kontekście kolejnych części czatu.

Czatbot to aplikacja dużego modelu językowego.

punkt kontroli

Dane, które przechwytują stan parametrów modelu, podczas trenowania lub po jego zakończeniu. Na przykład podczas trenowania możesz:

  1. Przerwij trenowanie, świadomie lub z powodu pewnych błędów.
  2. Przechwyć punkt kontrolny.
  3. Później ponownie załaduj punkt kontrolny, prawdopodobnie na innym sprzęcie.
  4. Rozpocznij trenowanie od nowa.
.

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Na przykład:

Model klasyfikacji służy do prognozowania klasy. Model regresji prognozuje natomiast a nie klasą.

model klasyfikacji

#fundamentals

Model, którego prognoza to class. Poniżej znajdują się na przykład wszystkie modele klasyfikacji:

  • Model, który prognozuje język zdania wejściowego (francuski? Hiszpański? włoskim?).
  • Model, który prognozuje gatunki drzew (klon? Dąb? Baobab?).
  • Model, który prognozuje klasę pozytywną lub negatywną dla określonej klasy schorzenia.

Z kolei modele regresji prognozują liczby. a nie na zajęciach.

Dwa najczęstsze typy modeli klasyfikacji to:

próg klasyfikacji

#fundamentals

W klasyfikacji binarnej para klucz-wartość liczba z zakresu od 0 do 1, która konwertuje na nieprzetworzone dane wyjściowe model regresji logistycznej w prognozę klasy pozytywnej. lub klasa negatywnych. Pamiętaj, że próg klasyfikacji to wartość wybrana przez człowieka, a nie wartość wybrana przez trenowanie modelu.

Model regresji logistycznej zwraca nieprzetworzoną wartość z zakresu od 0 do 1. Następnie:

  • Jeśli ta nieprzetworzona wartość jest przekraczająca próg klasyfikacji, jest prognozowana klasa pozytywna.
  • Jeśli ta nieprzetworzona wartość jest niższa od progu klasyfikacji, jest prognozowana klasa ujemna.

Załóżmy na przykład, że próg klasyfikacji wynosi 0,8. Jeśli nieprzetworzona wartość wynosi 0,9, model przewiduje klasę pozytywną. Jeśli pierwotna wartość to 0,7, model prognozuje klasę ujemną.

Wybór progu klasyfikacji w dużym stopniu wpływa na liczbę fałszywie pozytywnych i fałszywie negatywne.

zbiór danych o niezrównoważonym klasie

#fundamentals

Zbiór danych do zadania z klasyfikacją, w którym łączna liczba etykiet poszczególnych klas znacznie się różnią. Weźmy na przykład zbiór danych klasyfikacji binarnej, w którym dwie etykiety są podzielone w taki sposób:

  • 1 000 000 etykiet negatywnych
  • 10 etykiet pozytywnych

Stosunek etykiet ujemnych do pozytywnych wynosi 100 000 do 1, więc ten to zbiór danych niezbalansowany według klasy.

W przeciwieństwie do tego poniższy zbiór danych nie jest równoważony w klasie, ponieważ stosunek etykiet negatywnych do etykiet pozytywnych jest względnie bliski 1:

  • 517 etykiet negatywnych
  • 483 etykiety pozytywne

Wieloklasowe zbiory danych też mogą być nierównoważone w stosunku do klas. Na przykład: Zbiór danych klasyfikacji wieloklasowej jest również niezgodny z klasą, ponieważ jedna etykieta zawiera znacznie więcej przykładów niż 2 pozostałe:

  • 1 000 000 etykiet z klasą „zielona”
  • 200 etykiet z klasą „fioletowy”
  • 350 etykiet z klasą „pomarańczowy”

Zobacz też entropia i klasa większości, i klasa mniejszości.

przycinanie

#fundamentals

Technika radzenia sobie z wynikami odstającymi przez wykonanie jeden lub oba z tych elementów:

  • Zmniejszanie wartości parametru feature, które są większe od wartości maksymalnej do tego maksymalnego progu.
  • Rosnące wartości cech, które nie przekraczają progu minimalnego minimalnego progu.

Załóżmy na przykład, że mniej niż 0,5% wartości danej cechy przypada na spoza zakresu 40–60. W takim przypadku możesz wykonać te czynności:

  • Przytnij wszystkie wartości powyżej 60 (próg maksymalny), aby dokładnie ustawić 60.
  • Przytnij wszystkie wartości poniżej 40 (minimalny próg), aby dokładnie ustawić 40.

Wartości odstające mogą uszkodzić modele, czasami powodując wagi mogą się przepełnić podczas trenowania. Niektóre wyjątki mogą się też drastycznie zepsuć takie jak dokładność. Przycinanie to powszechna technika ograniczania szkody.

Siły przycinania gradientu wartości gradientu w wyznaczonym zakresie podczas trenowania.

Cloud TPU

#TensorFlow
#GoogleCloud

Specjalny akcelerator sprzętowy przeznaczony do przyspieszania działania maszyn do systemów uczących się w Google Cloud.

grupowanie

#clustering

Grupowanie powiązanych przykładów, zwłaszcza w okresie uczenie nienadzorowane. Gdy wszystkie przykłady są zgrupowane, człowiek może opcjonalnie nadać znaczenie każdemu klastrowi.

Istnieje wiele algorytmów grupowania. Na przykład k-średnie algorytm grupuje przykłady na podstawie ich bliskości centroid, jak na tym schemacie:

Dwuwymiarowy wykres, na którym oś X jest oznaczona jako szerokość drzewa,
          Oś Y jest oznaczona etykietą „Wysokość drzewa”. Wykres zawiera dwa
          centroidów i kilkudziesięciu punktów danych. Punkty danych są następujące:
          klasyfikowane na podstawie ich odległości. Oznacza to, że punkty danych
          najbliżej jednego centroidu są klasyfikowane jako klaster 1, a te
          które jest najbliżej drugiego centroidu, są klasyfikowane jako klaster 2.

Naukowiec może następnie przeanalizować klastry i na przykład oznacz grupę 1 jako „drzewa karłowate” i klastry 2 jako „pełnowymiarowe drzewa”.

Rozważmy kolejny przykład algorytm grupowania oparty na odległość od punktu środkowego, którą przedstawiono w następujący sposób:

Dziesiątki punktów danych są rozmieszczone na koncentrycznych okręgach,
          takie jak otwory na środku tarczy. Najbardziej wewnętrzny pierścień
          punktów danych jest sklasyfikowanych jako klaster 1, środkowy pierścień
          jest klasyfikowany jako klaster 2, a najbardziej zewnętrzny pierścień jako
          klaster 3.

współadaptacja

Gdy neurony przewidują wzorce w danych treningowych, opierając się niemal wyłącznie na wyjściach konkretnych innych neuronów, zamiast polegać całej sieci. Kiedy wzorce, które powodują współadaptację nie występują w danych walidacyjnych, współadaptacja powoduje nadmierne dopasowanie. Regularizowanie porzuceń ogranicza współadaptację bo rezygnacja sprawia, że neurony nie mogą polegać wyłącznie na konkretnych, innych neuronach.

filtrowanie podczas współpracy

#recsystems

prognozowanie zainteresowań jednego użytkownika, na podstawie zainteresowań wielu innych użytkowników. Wspólne filtrowanie jest często wykorzystywany w systemach rekomendacji.

dryf koncepcji

Przesunięcie w relacji między cechami a etykietą. Dryf koncepcji z czasem obniża jakość modelu.

Podczas trenowania model uczy się relacji między cechami ich etykiety w zbiorze treningowym. Jeśli etykiety w zbiorze treningowym są dobrych serwerów proxy dla rzeczywistego świata, to model powinien być dobrym prawdziwych prognoz. Jednak ze względu na dryf koncepcji model prognozy z czasem stają się coraz gorsze.

Weźmy na przykład klasyfikację binarną model, który prognozuje, czy dany model samochodu jest „oszczędny na spalanie”. Funkcje mogą obejmować:

  • masa samochodu
  • kompresja silnika
  • typ transmisji

gdy etykieta jest:

  • oszczędne spalanie
  • spalanie

Jednak koncepcja „samochodu o niskim zużyciu paliwa” trzyma zmian. Model samochodu oznaczony jako oszczędny na zużycie paliwa w 1994 roku prawie na pewno mieć etykietę nieoszczędne paliwo w 2024 r. Model cierpiący z powodu dryfu koncepcji i generują z czasem mniej trafne i mniej przydatne prognozy.

Wskaż podobieństwa i różnice między niestacjonarnością.

stan

#df

W drzewie decyzyjnych dowolny węzeł, który ocenia wyrażenie. Na przykład ta część drzewo decyzyjne zawiera 2 warunki:

Drzewo decyzyjne złożone z 2 warunków: (x > 0) oraz
          (y > 0).

Warunek jest też nazywany podziałem lub testem.

Stan kontrastu: liść.

Zobacz także:

konfabulacja

#language

Synonim słowa halucynacje.

Konfabulacja jest prawdopodobnie lepszym terminem pod względem technicznym niż halucynacje. Jednak najpierw zyskały na popularności.

konfiguracja

proces przypisywania początkowych wartości właściwości używanych do trenowania modelu, w tym:

W projektach systemów uczących się konfigurację można skonfigurować za pomocą specjalnej lub za pomocą bibliotek konfiguracji takich jak:

efekt potwierdzenia

#fairness

Skłonność do wyszukiwania, interpretowania, przychylenia się i przypominania informacji potwierdzania własnych przekonań lub hipotezy. Programiści systemów uczących się mogą w sposób niezamierzony zbierać informacje lub oznaczać etykietami w sposób, który wpływa na wyniki wspierające istniejące przekonania. Tendencyjność potwierdzenia to forma uprzedzenia.

Błąd eksperymentowania to forma stronniczości potwierdzenia, w którym eksperymentator kontynuuje trenowanie modeli, dopóki nie potwierdzenie hipotezy.

tablica pomyłek

#fundamentals

Tabela NxN podsumowująca liczbę poprawnych i nieprawidłowych prognoz opracowany przez model klasyfikacji. Rozważmy na przykład poniższą tablicę pomyłek dla Model klasyfikacji binarnej:

Guz (prognozowany) Inny niż tumor (prognozowany)
Guz (ground truth) 18 (TP) 1 (FN)
Inne niż tumor (ground truth) 6 (FP) 452 (TN)

Poprzednia tablica pomyłek wygląda tak:

  • Z 19 prognoz, w przypadku których dane podstawowe to Tumor, model poprawnie sklasyfikował 18, a nieprawidłowo sklasyfikował 1.
  • Spośród 458 prognoz, w przypadku których dane podstawowe były oparte na danych innych niż Tumor, model poprawnie sklasyfikowanych 452 i błędnie 6.

Tablica pomyłek dla klasyfikacji wieloklasowej może pomóc w określeniu wzorców błędów. Weźmy na przykład taką tablicę pomyłek dla klasy 3 wieloklasowy model klasyfikacji, który kategoryzuje 3 różne typy tęczówki. (Virginica, Versicolor i Setosa). W czasach, gdy danymi podstawowymi była Wirginia, tablica pomyłek wskazuje, że model z większym prawdopodobieństwem pomyli się ustaw prognozę Versicolor niż Setosa:

  Setosa (przewidywane) Versicolor (prognozana) Virginica (prognoza)
Setosa (ground truth) 88 12 0
Versicolor (ground truth) 6 141 7
Virginica (ground truth), 2 27 109

Kolejny przykład to tablica pomyłek pokazująca, że model wytrenowany rozpoznawalność odręcznych cyfr zwykle błędnie ocenia 9 zamiast 4, lub błędnie określono 1 zamiast 7.

Tablice pomyłek zawierają wystarczającą ilość informacji do obliczenia różne dane o skuteczności, w tym dokładność; i czułość.

analiza składniowa

#language

Dzielenie zdania na mniejsze struktury gramatyczne („składniki”). Kolejna część systemu ML, np. modelu rozumienia języka naturalnego, może przeanalizować składniki składowe łatwiej niż oryginalne zdanie. Przykład: pomyśl o tym zdaniu:

Moja znajoma adoptowała dwa koty.

Parser okręgu wyborczego może podzielić to zdanie na następujące dwa składniki:

  • Mój przyjaciel to rzeczownik.
  • adoptowane dwa koty to czasownik.

Składniki te można następnie podzielić na mniejsze składniki. Na przykład wyrażenie z czasownikiem

adoptowała dwa koty

można podzielić na te kategorie:

  • adopted to czasownik.
  • dwa koty to kolejne wyrażenie rzeczownikowe.

osadzanie kontekstowe

#language
#generativeAI

Umieszczanie, które jest bliskie „zrozumienia” słowa i wyrażenia w sposób, który umożliwi rodzimym użytkownikom języka. Język oparty na kontekście wektory dystrybucyjne mogą zrozumieć złożoną składnię, semantykę i kontekst.

Weź pod uwagę na przykład reprezentacje właściwościowe z angielskiego słowa cow. Starsze wektory dystrybucyjne np. word2vec, może oznaczać polski takie jak odległość w obszarze umieszczanym. od krowy do byka jest podobna do odległości od ewe (sama owca) do Ram (samiec owcy) lub kobieta na mężczyznę. Język oparty na kontekście reprezentacje właściwościowe mogą pójść o krok dalej, wiedząc, że użytkownicy anglojęzyczni czasami swobodnie używaj słowa krowa zamiast krowy lub byka.

okno kontekstu

#language
#generativeAI

Liczba tokenów, które model może przetworzyć w danym okresie. komunikat. Im większe okno kontekstu, tym więcej informacji model może wykorzystać, aby uzyskać spójne i spójne odpowiedzi do promptu.

cecha ciągła

#fundamentals

funkcję zmiennoprzecinkową o nieskończonym zakresie możliwych; takie jak temperatura czy waga.

Skontrastuj się z funkcjami dyskretnymi.

dobór wygodny

Wykorzystanie zbioru danych, które nie zostały zebrane naukowo, do szybkiego wykonania eksperymentów. Później konieczne będzie przejście na model zebrany naukowo w gromadzeniu danych.

zbieżność

#fundamentals

stan, w którym wartości strat zmieniają się bardzo niewiele lub nie po wszystkich iteracjach. Na przykład: krzywa strat sugeruje zbieżność przy około 700 iteracjach:

Wykres kartezjański. Oś X to strata. Oś Y to liczba trenowania
          powtórzenia. Strata jest bardzo duża w pierwszych iteracjach, ale
          gwałtownie spada. Po około 100 iteracjach strata pozostaje
          malejąco, ale znacznie wolniej. Po około 700 iteracjach
          straty pozostają na stałym poziomie.

Model dochodzi do konwertowania, gdy dodatkowe trenowanie nie wystarcza i ulepszyć model.

W przypadku deep learning wartości strat czasami utrzymują się na stałym poziomie lub przez wiele iteracji, aż w końcu maleje. W długim okresie wartości stałych strat, możesz tymczasowo mieć fałszywe poczucie zbieżności.

Zobacz też Wcześniejsze zatrzymywanie.

funkcja wypukła

Funkcja, w której region nad wykresem funkcji jest zestaw wypukły. Prototypowa funkcja wypukła to ma kształt litery U. Na przykład: to wszystkie funkcje wypukłe:

Krzywe w kształcie litery U, każda z jednym minimalnym punktem.

W przeciwieństwie do tego ta funkcja nie jest wypukła. Zwróć uwagę, że funkcja obszar nad wykresem nie jest zestawem wypukłym:

Krzywa w kształcie litery W z 2 różnymi lokalnymi punktami minimalnymi.

Funkcja ściśle wypukła ma dokładnie jeden lokalny punkt minimalny, który jest także globalnym punktem minimalnym. Klasyczne funkcje w kształcie litery U funkcji ściśle wypukłych. Niektóre funkcje wypukłe (np. linie proste) nie mają kształtu U.

optymalizacja wypukła

Metody matematyczne, takie jak: gradient gradientowy, by znaleźć wartość minimalną funkcji wypukłej. Wiele badań nad systemami uczącymi się skupia się na formułowaniu różnych jako konwencjonalnych problemów optymalizacyjnych i do częstszego rozwiązywania tych problemów i wydajną pracę.

Szczegółowe informacje można znaleźć na stronach Boyda i Vandenberghego, Convex Optymalizacja.

zestaw wypukły

Podzbiór przestrzeni euklidesowej takiej, że linia narysowana między dowolnymi dwoma punktami na wykresie cały podzbiór. Na przykład te dwa poniższe elementy kształty to zestawy wypukłe:

Jedna ilustracja prostokąta. Kolejna ilustracja owalu.

W przeciwieństwie do tego następujące 2 kształty nie są zestawami wypukłymi:

Jedna ilustracja przedstawiająca wykres kołowy z brakującym wycinkiem.
          Inna ilustracja przedstawiająca nieregularny wielokąt.

splot

#image

W matematyce w codziennym zabieganiu jest to połączenie dwóch funkcji. W maszynie w uczeniu się, splot łączy splotowe filtr i tablica wejściowa do trenowania ciężarów.

Termin „konwolucja” w systemach uczących się jest często odnoszące się do operacji splotowej, czy warstwę splotową.

Bez splotów algorytm systemów uczących się musiałby nauczyć się osobną wagę dla każdej komórki w dużym tensorze. Przykład: trenowanie algorytmu systemów uczących się na obrazach o rozdzielczości 2K x 2 KM wymagałoby 4 mln oddzielnych wag. Dzięki splotom systemy uczące się znajdzie tylko wagi dla każdej komórki w filtr skonwolucyjny, znacząco zmniejszając pamięci niezbędną do wytrenowania modelu. Gdy filtr splotowy jest jest po prostu powielany w komórkach, w wyniku czego każda jest mnożona za pomocą filtra.

filtr splotowy

#image

Jeden z 2 aktorów operacji splotowej. (Drugi aktor wycinkiem macierzy wejściowej). Filtr splotowy to macierz, w której tej samej rankingu co matryca wejściowa, ale o mniejszym kształcie. Na przykład przy macierzy wejściowej 28 x 28 filtrem może być dowolna macierz 2D mniejszy niż 28 x 28.

Podczas manipulacji fotograficznej wszystkie komórki w filtrze splotowym są zwykle ma stały wzorzec zer i jedynek. W przypadku systemów uczących się filtry splotowe są zazwyczaj zapoczątkowane losowymi liczbami, a po ich zastosowaniu funkcji pociągi sieci, które są idealne.

warstwa splotowa

#image

Warstwa głębokiej sieci neuronowej, w której filtr skonwolucyjny przekazuje dane wejściowe. lub macierz. Na przykład: filtr skonwolucyjny:

Macierz 3 x 3 z tymi wartościami: [[0,1,0], [1,0;1], [0,1,0]]

Ta animacja pokazuje splotową warstwę składającą się z 9 operacji splotowych obejmujących macierz wejściową 5x5. Zwróć uwagę, że każdy operacja splotowa działa na innym wycinku macierzy wejściowej 3 x 3. Powstała macierz 3 x 3 (po prawej) składa się z wyników operacje splotowe:

Animacja pokazująca 2 macierze. Pierwsza macierz to
          macierz: [[128,97,53,201,198], [35,22,25,200,195],
          [37 24,28 197 182], [33 28,92 195 179], [31 40 100 192 177]].
          Druga macierz to macierz 3 x 3:
          [[181 303 618], [115 338 605], [169 351 560]].
          Drugą macierz oblicza się, stosując splot
          filtr [[0, 1, 0], [1, 0, 1], [0, 1, 0]] do
          podzbiorów 3x3 macierzy 5x5.

splotowa sieć neuronowa

#image

Sieć neuronowa, w której co najmniej 1 warstwa jest warstwa splotowa. Typowy splot Sieć neuronowa składa się z kilku kombinacji następujących warstw:

Konwolucyjne sieci neuronowe osiągnęły wielki sukces w określonych rodzajach takich jak rozpoznawanie obrazów.

operacja splotowa

#image

Następujący dwuetapowe działanie matematyczne:

  1. Mnożenie przez element filtr splotowy i wycinek macierzy wejściowej. (Wycinek macierzy wejściowej ma tę samą pozycję jako filtr splotowy).
  2. Suma wszystkich wartości w wynikowej macierzy iloczynów.

Na przykład użyj tej macierzy wejściowej 5 x 5:

macierz 5 x 5: [[128,97,53,201,198], [35,22,25,200,195],
          [37 24,28 197 182], [33 28,92 195 179], [31 40 100 192 177]].

Wyobraźmy sobie teraz następujący filtr splotowy 2 x 2:

macierz 2 x 2: [[1, 0], [0, 1]]

Każda operacja splotowa obejmuje pojedynczy wycinek 2x2 macierzy wejściowej. Na przykład załóżmy, że używamy wycinka 2x2 w miejscu w lewym górnym rogu macierzy wejściowej. Operacja splotowa na ten wycinek wygląda tak:

Stosuję filtr splotowy [[1, 0], [0, 1]] w lewym górnym rogu
          2x2 macierzy wejściowej, czyli [[128,97], [35,22]].
          Filtr splotowy pozostawia wartości 128 i 22 niezmienione, ale zera
          97 i 35. W efekcie operacja splotu daje
          wartość 150 (128+22).

Warstwa splotowa składa się splotowe operacje, z których każda działa na innym wycinku, macierzy wejściowej.

koszt

Synonim słowa strata.

wspólne szkolenie

Metoda uczenia częściowo nadzorowanego szczególnie przydatne, gdy spełnione są wszystkie poniższe warunki:

Zasadniczo wspólne trenowanie wzmacnia sygnały niezależne w celu uzyskania silniejszego sygnału. Weźmy np. model klasyfikacji, który klasyfikuje poszczególne używane samochody jako Dobre lub Złe. Jeden zestaw funkcje prognostyczne mogą koncentrować się na danych zbiorczych, takich jak rok, marka i model samochodu; inny zestaw funkcji predykcyjnych może się skupiać historię jazdy poprzedniego właściciela i historię konserwacji samochodu.

Artykuł na temat wspólnego szkolenia to Łączenie danych oznaczonych etykietami i bez etykiet z Wspólne szkolenie prowadzone przez Blum i Mitchell.

kontrfaktyczna uczciwość

#fairness

Wskaźnik obiektywności, który sprawdza, czy klasyfikator daje taki sam efekt u jednej osoby, jak u innej osoby. który jest identyczny z pierwszym, oprócz jednego lub kilku atrybuty poufne. Ocena klasyfikatora kontrfaktyczna obiektywność to jedna ze metod znajdowania potencjalnych źródeł i rozpoznawać możliwe uprzedzenia w modelu.

Zobacz „Kiedy światy zderzają się: integrowanie różnych kontrfaktów Założenia dotyczące obiektywności” zawierają bardziej szczegółowe omówienie kontrfaktu i obiektywności.

efekt pokrycia

#fairness

Zobacz Błąd doboru.

rozkwit

#language

Zdanie lub wyrażenie o niejednoznacznym znaczeniu. Kwitnące kwitnące drzewa są poważnym problemem w środowisku naturalnym rozumienia języków. Na przykład nagłówek Czerwona taśma trzymająca wieżowiec to ponieważ model NLU mógł dosłownie zinterpretować nagłówek lub przekonująco.

krytyk

#rl

Synonim wyrażenia Deep Q-Network.

entropia krzyżowa

Uogólnienie pojęcia Log Loss: Problemy z klasyfikacją wieloklasową. Entropia krzyżowa określa ilościowo różnicę między dwoma rozkładami prawdopodobieństwa. Zobacz też złożoność.

weryfikacja krzyżowa

Mechanizm szacowania, jak dobrze model mógłby uogólnić nowych danych, testując model dla co najmniej 1 niepokrywających się podzbiorów danych z zestawu treningowego.

funkcja rozkładu skumulowanego (CDF)

Funkcja, która definiuje częstotliwość próbek mniejszych lub równych wartość docelową. Weźmy na przykład normalny rozkład wartości ciągłych. CDF informuje, że około 50% próbek powinno być mniejsze lub równe do średniej oraz że około 84% próbek powinno być mniejsze lub równe do jednego odchylenia standardowego powyżej średniej.

D

analiza danych

Uzyskanie zrozumienia danych przez analizę próbek, pomiarów, i wizualizacji. Analiza danych może być szczególnie przydatna, gdy zbiór danych zostaje odebrany przed utworzeniem pierwszego modelu. Istotne jest również zrozumienie eksperymentów i debugowania problemów w systemie.

rozszerzanie danych

#image

Sztuczne zwiększanie zasięgu i liczby szkolenia – przykłady przekształcając istniejące przykłady do utworzenia dodatkowych przykładów. Przykład: Załóżmy, że jednym z Twoich features, ale w zbiorze danych nie zawierają wystarczającą liczbę przykładów obrazów, aby model mógł nauczyć się przydatnych powiązań. Najlepiej, gdyby były one wystarczające, obrazy oznaczone etykietami do zbioru danych, umożliwiają jego prawidłowe trenowanie. Jeśli nie jest to możliwe, uzupełnienie danych mogą obracać, rozciągać i odbijać każdy obraz, aby uzyskać wiele wariantów oryginalne zdjęcie i zebranie wystarczającej ilości danych z etykietami, dzięki czemu mogą być szkolenia internetowego.

[struktura] DataFrame

#fundamentals

Popularny typ danych panda do reprezentowania zbiorów danych w pamięci.

DataFrame przypomina tabelę lub arkusz kalkulacyjny. Każda kolumna argumentu element DataFrame ma nazwę (nagłówek), a każdy wiersz jest identyfikowany przez tag niepowtarzalny numer.

Każda kolumna w DataFrame ma strukturę podobną do tablicy 2D, z tą różnicą, że każdej kolumnie można przypisać własny typ danych.

Zobacz też oficjalnego Informacje na temat pandas.DataFrame

równoległość danych

Sposób skalowania trenowania lub wnioskowania który powiela cały model urządzeń, a następnie przekazuje podzbiór danych wejściowych do każdego z nich. Równoległość danych umożliwia trenowanie i wnioskowanie na bardzo dużych rozmiary wsadów, jednak równoległość danych wymaga, model musi być wystarczająco mały, aby zmieścił się na każdym urządzeniu.

Równoległość danych zwykle przyspiesza trenowanie i wnioskowanie.

Zobacz też artykuł Równoległość modelu.

zbiór danych lub zbiór danych

#fundamentals

Zbiór nieprzetworzonych danych, zwykle (ale nie wyłącznie) zorganizowany w jednym miejscu w tych formatach:

  • arkusz kalkulacyjny
  • plik w formacie CSV (wartości rozdzielone przecinkami);

Interfejs Dataset API (tf.data)

#TensorFlow

Ogólny interfejs API TensorFlow do odczytu danych na przykład do postaci wymaganej przez algorytm systemów uczących się. Obiekt tf.data.Dataset reprezentuje sekwencję elementów, w których każdy element zawiera co najmniej 1 obiekt Tensor. tf.data.Iterator zapewnia dostęp do elementów Dataset.

Szczegółowe informacje o interfejsie Dataset API znajdziesz tutaj: tf.data: tworzenie potoków wejściowych TensorFlow w przewodniku po TensorFlow dla programistów.

granica decyzji

Separator między zajęcia opanowane przez model w klasa binarna lub Problemy z klasyfikacją wieloklasową. Przykład: tej ilustracji przedstawiającej problem z klasyfikacją binarną. granica decyzji to granica między pomarańczową klasą klasa niebieska:

Dobrze zdefiniowana granica między klasą a drugą.

las decyzji

#df

Model utworzony na podstawie wielu drzew decyzyjnych. Las decyzyjny tworzy prognozy, agregując prognozy i drzewa decyzyjne. Do popularnych typów lasów decyzyjnych należą: losowe lasy i drzewa z motywem gradientu.

próg decyzji

Synonim progu klasyfikacji.

schemat decyzyjny

#df

Nadzorowany model uczenia się składający się ze zbioru warunki i liście uporządkowane hierarchicznie. Oto przykładowe schematy decyzyjne:

Drzewo decyzyjne złożone z 4 ułożonych warunków
          hierarchicznie, co daje pięć liści.

dekoder

#language

Ogólnie rzecz biorąc, każdy system ML, który konwertuje z przetworzonych, gęstych lub na bardziej surową, rozproszoną lub zewnętrzną reprezentację.

Dekodery są często składnikami większego modelu, który często sparowany z koderem.

W zadaniach sekwencyjnych dekoder rozpoczyna się od wewnętrznego stanu wygenerowanego przez koder w celu przewidywania następnego kolejne wartości.

Definicję dekodera w obrębie znajdziesz w artykule Transformer. o architekturze Transformer.

model głęboki

#fundamentals

Sieć neuronowa zawierająca więcej niż 1 ukrytą warstwę.

Model głęboki nazywany jest też głęboką siecią neuronowa.

Porównaj z modelem szerokim.

głęboka sieć neuronowa

Synonim modelu głębokiego.

Sieć Deep Q (DQN)

#rl

W Q-learning głęboka sieć neuronowa który prognozuje funkcje Q.

Critic to synonim sieci Deep Q-Network.

parytet demograficzny

#fairness

Wskaźnik obiektywności, który jest sprawdzany, jeśli wyniki klasyfikacji modelu nie zależą od z atrybutem poufnym.

Na przykład, jeśli do danej kategorii należą na Uniwersytecie Glubbdubdrib, parytet demograficzną jest możliwy, jeśli wartość procentowa przyjętych Liliputów jest taki sam jak odsetek rasy Brobdingnagians przyjęte, niezależnie od tego, czy dana grupa jest średnio bardziej kwalifikowana niż z drugiego.

Porównaj szanse wyrównane i równe szanse, wyniki klasyfikacji są zbiorcze w zależności od atrybutów wrażliwych, ale nie pozwalają na klasyfikację w przypadku etykiety ground truth, aby korzystać z atrybutów poufnych. Zobacz „Atak dyskryminacji przy użyciu inteligentnych systemów uczących się”. kompromisów związanych z optymalizacją pod kątem parytetu demograficznego.

odszumianie

#language

Powszechne podejście do samonadzorowanego uczenia się gdzie:

  1. Szum jest sztucznie dodawany do zbioru danych.
  2. Model próbuje usunąć te szumy.

Wyciszanie szumów umożliwia uczenie się na podstawie przykładów bez etykiet. Pierwotny zbiór danych służy jako docelowy lub label i zaszumione dane.

Niektóre zamaskowane modele językowe używają funkcji wyciszania szumów w następujący sposób:

  1. Szum jest sztucznie dodawany do zdania bez etykiety przez maskowanie części tokeny.
  2. Model próbuje przewidzieć oryginalne tokeny.

cecha zwarta

#fundamentals

Cecha, w której większość lub wszystkie wartości mają wartość inną niż 0, zwykle Tensor dla wartości zmiennoprzecinkowych. Na przykład: Tensor, który ma 10 elementów, jest gęsty, bo 9 jego wartości jest różna od zera:

8 3 7 5 2 4 0 4 9 6

Różnica w stosunku do funkcji rozproszonej.

gęsta warstwa

Synonim w pełni połączonej warstwy.

głębokość

#fundamentals

Suma tych elementów w sieci neuronowej:

Na przykład sieć neuronowa z 5 ukrytymi warstwami i 1 warstwą wyjściową ma głębokość 6.

Zwróć uwagę, że warstwa wejściowa nie głębię wpływu.

splotowa sieć neuronowa głęboko separacyjna (sepCNN)

#image

splotowej sieci neuronowej, architektura oparta na Incepcja, ale moduły incepcyjne są zastępowane sekcjami, które można szczegółowo rozdzielać. splotów. Inna nazwa to Xception.

Splot głęboko możliwy do rozdzielenia (również w skrócie splot możliwy do rozdzielenia) dzieli standardową splot 3D na 2 osobne operacje splotu które są bardziej wydajne w obliczeniach: po pierwsze: głęboką splot, o głębokości 1 (n × n × 1), a potem z splotem punktowym, o długości i szerokości 1 (1 x 1 x n).

Więcej informacji na ten temat znajdziesz w artykule Xception: Deep learning with Depthwise Separable. Sploty.

etykieta derywowana

Synonim etykiety serwera proxy.

urządzenie

#TensorFlow
#GoogleCloud

Przeciążone hasło z tymi 2 możliwymi definicjami:

  1. Kategoria sprzętu, który może uruchamiać sesję TensorFlow, to Procesory, GPU i TPU.
  2. Podczas trenowania modelu ML na elementach akceleratora (GPU lub TPU) – część układu, która faktycznie manipuluje tensory i umieszczone obiekty. Urządzenie korzysta z układów akceleratora. Z kolei gospodarz zwykle działa na CPU.

prywatność różnicowa

W systemach uczących się podejście anonimizacji do ochrony danych wrażliwych (na przykład danych osobowych danej osoby) zawartych w modelu training set nie jest ujawniany. Takie podejście zapewnia że model nie uczy się ani nie pamięta dla jednej osoby. Jest to osiągane przez próbkowanie i dodawanie szumu podczas modelu. trenowania do ukrywania poszczególnych punktów danych, co zmniejsza ryzyko ujawnienia poufne dane treningowe.

Prywatność różnicowa jest też wykorzystywana poza systemami uczącymi się. Przykład: badacze danych czasami używają prywatności różnicowej, prywatności przy obliczaniu statystyk użytkowania usług dla różnych grup demograficznych.

redukcja wymiarów

Zmniejszanie liczby wymiarów używanych do reprezentowania konkretnej cechy w wektorze cech, zwykle przez do wektora umieszczania.

wymiary

Przeciążone hasło mające dowolną z tych definicji:

  • Liczba poziomów współrzędnych w Tensor. Przykład:

    • Wartość skalarna ma zerowy rozmiar; na przykład ["Hello"].
    • Wektor ma jeden wymiar; na przykład [3, 5, 7, 11].
    • Macierz ma dwa wymiary. na przykład [[2, 4, 18], [5, 7, 14]].

    Możesz jednoznacznie określić konkretną komórkę w jednowymiarowym wektorze z jedną współrzędną; potrzebujesz dwóch współrzędnych, aby jednoznacznie określić w dwuwymiarowej macierzy.

  • Liczba wpisów w wektorze cech.

  • Liczba elementów w warstwie osadzonej.

prompty bezpośrednie

#language
#generativeAI

Synonim promptów typu „zero-shot”.

cecha dyskretna

#fundamentals

Cechę ze skończonym zestawem możliwych wartości. Przykład: cecha, której wartościami może być tylko animal, vegetable lub mineral, jest cecha dyskretna (lub kategorialna).

kontrastuje z funkcją ciągłą;

model dyskryminacyjny

Model, który prognozuje etykiety na podstawie zestawu więcej funkcji. Bardziej formalnie modele dyskryminacyjne definiują prawdopodobieństwo warunkowe danych wyjściowych z uwzględnieniem funkcji i weights; czyli:

p(output | features, weights)

Na przykład model oceniający, czy e-mail z funkcji jest spamem jest model dyskryminacyjny.

Zdecydowana większość nadzorowanych modeli uczenia się, w tym klasyfikacja i regresji, są modelami dyskryminacyjnymi.

Różnica z modelem generatywnym.

dyskryminator

System określający, czy przykłady są prawdziwe czy fałszywe.

Z kolei podsystem w ramach kontrowersyjnego generatywnego , która określa, czy przykłady utworzone przez generator są prawdziwe lub fałszywe.

zróżnicowany wpływ

#fairness

Podejmowanie decyzji dotyczących ludzi, które mają wpływ na różne populacje w nieproporcjonalnych proporcjach. Zwykle odnosi się to do sytuacji gdzie algorytmiczny proces decyzyjny szkodzi lub przynosi korzyści; pewnych podgrup.

Na przykład załóżmy, że algorytm określający możliwość ubiegania się o kredyt hipoteczny jest bardziej prawdopodobne jako „nieodpowiednie” jeśli ich adres pocztowy zawiera kodu pocztowego. Jeśli wielkie liliputacje z dużym prawdopodobieństwem z tym kodem pocztowym niż w przypadku Lilliputians, algorytm może mieć zróżnicowany wpływ.

Skontrastuj różnorodne traktowanie, która skupia się na rozbieżnościach wynikających z cech podgrup stanowią konkretne dane wejściowe w algorytmicznym procesie decyzyjnym.

leczenie zróżnicowane

#fairness

Dzielenie na czynniki na czynniki pierwsze atrybuty poufne w algorytmiczny proces decyzyjny, tak aby różne podgrupy jest traktowanych inaczej.

Rozważmy na przykład algorytm, który określa liliputów do uzyskania kredytu hipotecznego na podstawie danych, które podają we wniosku o kredyt. Jeśli algorytm używa parametru przynależność Lilliputiana do wielkiego Endu lub Little-Endianu może oznaczać, stosujące zróżnicowanie traktowania w tym wymiarze.

Kontrast z zróżnicowanym wpływem, który koncentruje się na na rozbieżności w społecznym wpływie decyzji opartych na algorytmach na podgrupy. niezależnie od tego, czy te podgrupy są danymi wejściowymi dla modelu.

oczyszczanie

#generativeAI

Proces redukcji rozmiaru 1 modelu (nazywany nauczyciel) na mniejszy model (nazywany uczniem), który jak najwierniej formułować prognozy oryginalnego modelu. Oczyszczanie jest przydatny, ponieważ mniejszy model ma dwie główne zalety model (nauczyciel):

  • Szybszy czas wnioskowania
  • Mniejsze zużycie pamięci i energii

Jednak prognozy uczniów zwykle nie są tak dobre, jak na podstawie prognoz nauczyciela.

Oczyszczanie trenuje model ucznia, aby zminimalizować funkcji straty na podstawie różnicy między wynikami w przypadku prognoz modeli uczniów i nauczycieli.

Porównaj oczyszczanie z następującymi hasłami:

distribution

częstotliwość i zakres różnych wartości danej wartości feature lub label. Rozkład określa prawdopodobieństwo, że określona wartość jest prawdopodobna.

Na ilustracji poniżej przedstawiono histogramy z 2 różnych rozkładów:

  • Po lewej: rozkład bogactwa według prawa władzy i liczba ludzi w poszukiwaniu tego bogactwa.
  • Po prawej: normalny rozkład wzrostu w porównaniu z liczbą osób dla osób o tym wzroście.

Dwa histogramy. Jeden histogram pokazuje rozkład prawa mocy z
          na osi x, a także o bogactwo ludzi na osi x
          osi Y. Większość ludzi ma bardzo niewiele majątku,
          o mnóstwo bogactwa. Drugi histogram pokazuje rozkład normalny
          z wysokością na osi X i liczbą osób o tym wzroście
          na osi Y. Większość ludzi znajduje się w pobliżu środka.

Zrozumienie poszczególnych cech i rozkładu etykiet pomoże Ci określić, jak aby normalizować wartości i wykrywać wartości odstające.

Wyrażenie out of Distribution (brak dystrybucji) odnosi się do wartości, która nie pojawia się w tagu lub jest bardzo rzadki. Na przykład obraz planety Saturna byłby taki są uznawane za nieuwzględnione w dystrybucji w zbiorze danych składających się z obrazów przedstawiających koty.

grupowanie niezgodne

#clustering

Zapoznaj się z informacjami na temat grupowania hierarchicznego.

Downsampling

#image

Przeciążone hasło, które może mieć jedno z tych znaczenia:

  • Zmniejszenie ilości informacji w funkcji w aby skuteczniej wytrenować model. Przykład: przed wytrenowaniem modelu rozpoznawania obrazów przez zmniejszenie próbkowania do formatu z niższą rozdzielczością.
  • Trenowanie na nieproporcjonalnie niskim odsetku nadreprezentowanych class w celu ulepszenia trenowania modelu w klasach niedostatecznie reprezentowanych. Na przykład w przypadku klasyniezbalansowanej modele zwykle dowiadują się wielu większości i za mało na temat klasa mniejszości. Pomocne jest zmniejszanie próbkowania zrównoważyć intensywność trenowania na klasach większości i mniejszości.

DQN

#rl

Skrót od Deep Q-Network.

regularyzacja porzuceń

Forma regularizacji przydatna w trenowaniu. sieci neuronowych. Regularyzacja porzuceń usuwa losowy wybór stałej liczby jednostek w sieci dla pojedynczego kroku gradientu. Im więcej jednostek zostało utraconych, tym silniejsza regularyzacji. Jest to analogiczne do trenowania sieci do emulacji. to gwałtownie duży zespół mniejszych sieci. Szczegółowe informacje znajdziesz tu Porzucenie: prosty sposób na uniknięcie występowania sieci neuronowych Nadmierne dopasowanie.

dynamiczny

#fundamentals

Coś robionego często lub na bieżąco. W systemach uczących się terminy dynamiczny i online to synonimy. Poniżej znajdziesz typowe zastosowania dynamicznych i online w przypadku systemów uczących się nauka:

  • Model dynamiczny (inaczej online) to model, która jest regularnie lub stale trenowana.
  • Szkolenie dynamiczne (lub szkolenie online) to proces trenowania. często lub stale.
  • Wnioskowanie dynamiczne (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

Model, który jest często (nawet ciągły) i ponownie wytrenowali. Model dynamiczny uczy się przez całe życie które nieustannie dostosowuje się do zmieniających się danych. Model dynamiczny jest też nazywany modelu online.

Różnica z modelem statycznym.

E

szybkie wykonanie

#TensorFlow

Środowisko programistyczne TensorFlow, w którym działa należy uruchomić natychmiast. Natomiast operacje wywoływane w argumencie wykonywanie wykresu nie są uruchamiane, dopóki nie zostaną wyraźnie oceniono. Szybkie wykonanie to imperatywnego interfejsu. jak w większości języków programowania. Programy wykonawcze są znacznie łatwiejsze do debugowania niż programy do wykonywania grafów.

wcześniejsze zatrzymanie

#fundamentals

Metoda regularizacji, która obejmuje kończenie trenowanie przed zakończeniem treningu. maleje. W ramach wczesnego zatrzymywania celowo zatrzymujesz trenowanie modelu gdy utrata zbioru danych do weryfikacji zaczyna się increase; czyli gdy uogólnianiem skuteczności pogarsza się;

odległość od Ziemi (EMD)

Miara względnego podobieństwa 2 dystrybucji. Im mniejsza odległość, tym bardziej zbliżone są rozkłady.

edytuj odległość

#language

Pomiar podobieństwa dwóch ciągów tekstowych. W uczeniu maszynowym edytowanie odległości jest przydatne, ponieważ Compute i efektywny sposób porównywania dwóch ciągów, o których wiadomo, podobnych lub znajdować ciągi podobne do danego ciągu.

Istnieje kilka definicji odległości służącej do edycji, a każda z nich zawiera inny ciąg znaków operacji. Na przykład parametr Odległość w Levenshtein uwzględnia najmniejszą liczbę operacji usuwania, wstawiania i zastępowania.

Na przykład odległość Levenshteina między słowami „serce” i „rzutki” wynosi 3, ponieważ następujące 3 zmiany to najmniejsze zmiany, które zmieniają słowo na inne:

  1. serce → deart (zastąp literę „h” przez „d”)
  2. deart → dart (usuń „e”)
  3. dart → rzutki (wstaw „s”)

Zapis Einsum

Skuteczny zapis opisujący, jak mają być dzielone tendencje łącznie. Tensory są łączone przez mnożenie pierwiastków danego tensora przez elementy tego tensora, a następnie sumując iloczyny. W notacji Einsum osie każdego tensora są wskazywane za pomocą symboli, przy czym te zmienia się kolejność tych samych symboli, aby określić kształt nowego tensora wynikowego.

NumPy to typowa implementacja Einsum.

warstwa wektorowa

#language
#fundamentals

Specjalną warstwą ukrytą, która trenuje na wielowymiarowa funkcja kategoryczna, stopniowo uczyć się wektora wektora dystrybucyjnego dla niższych wymiarów. An warstwa wektora dystrybucyjnego umożliwia sieci neuronowej lepsze trenowanie wydajniej niż trenowanie na wysokich wymiarach cechach kategorialnych.

Na przykład na Ziemi obecnie obsługiwanych jest około 73 000 gatunków drzew. Załóżmy, że gatunek drzewa jest cechą na Twoim modelu, więc model warstwa wejściowa zawiera jeden gorący wektor 73 000, . Wartość baobab zostałaby przedstawiona w ten sposób:

Tablica 73 000 elementów. Pierwsze 6232 elementy zawierają wartość
     0. Następny element zawiera wartość 1. Ostatnie 66 767 elementów składa się z
     wartość zero.

Tablica z 73 000 elementów jest bardzo długa. Jeśli nie dodasz warstwy osadzania trenowanie będzie bardzo czasochłonne, mnożenia przez 72 999 zer. Być może wybierzesz warstwę osadzania, z 12 wymiarów. W efekcie warstwa osadzania będzie stopniowo uczyć się nowego wektora dystrybucyjnego dla każdego gatunku drzewa.

W niektórych sytuacjach szyfrowanie jest rozsądnym rozwiązaniem. do warstwy osadzonej.

przestrzeń wektorowa

#language

Przestrzeń wektorowa w wymiarze D obejmująca do przestrzeni wektorowej. W idealnym przypadku przestrzeń umieszczania zawiera konstrukcja przynosząca istotne wyniki matematyczne; np. w idealnej przestrzeni wektora dystrybucyjnego przy dodawaniu i odejmowaniu wektorów dystrybucyjnych i rozwiązuj zadania związane z analogią słowną.

iloczyn punktowy. jest miarą ich podobieństwa.

wektor dystrybucyjny

#language

Ogólnie rzecz biorąc, tablica liczb zmiennoprzecinkowych pobieranych z dowolnej ukryta warstwa, która opisuje dane wejściowe do tej ukrytej warstwy. Często wektorem dystrybucyjnym jest tablica liczb zmiennoprzecinkowych wytrenowanych w i warstwy wektora dystrybucyjnego. Na przykład załóżmy, że warstwa osadzona musi nauczyć się wektora dystrybucyjnego dla każdego z 73 000 gatunków drzew na Ziemi. Być może Następująca tablica to wektor reprezentacji drzewa baobabu:

Tablica 12 elementów, z których każdy zawiera liczbę zmiennoprzecinkową
          pomiędzy 0,0 a 1,0.

Wektor dystrybucyjny nie jest grupą liczb losowych. Warstwa wektorowa Określa te wartości przez trenowanie, podobnie jak sieć neuronowa uczy się innych ciężarów podczas trenowania. Każdy element argumentu tablica to ocena powiązana z jakąś cechą gatunku drzewa. Który reprezentuje wybrane gatunki drzew jest cechą charakterystyczną? To bardzo trudne co człowiek może określić.

Niezwykła matematyczna część wektora dystrybucyjnego jest podobna elementy mają podobne zestawy liczb zmiennoprzecinkowych. Na przykład podobne mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż odmiennych gatunków drzew. Sekwoja i sekwoje to pokrewne gatunki drzew, więc otrzymają one bardziej podobny zestaw liczb zmiennoprzecinkowych niż sekwoje i palm kokosowych. Liczby w wektorze dystrybucyjnym są zmieniane przy każdym trenowaniu modelu, nawet jeśli ten z identycznym wpisywaniem.

empiryczna funkcja skumulowanego rozkładu (eCDF lub EDF)

Funkcja rozkładu skumulowanego na podstawie pomiarów empirycznych z rzeczywistego zbioru danych. Wartość klucza w dowolnym punkcie na osi x stanowi odsetek obserwacji zbiór danych, które są mniejsze od określonej wartości lub jej równe.

empiryczna minimalizacja ryzyka (ERM)

Wybierz funkcję, która minimalizuje straty w zbiorze treningowym. Kontrast dzięki minimalizacji ryzyka strukturalnego.

koder

#language

Ogólnie rzecz biorąc, każdy system ML, który konwertuje z nieprzetworzonych, rozproszonych lub zewnętrznych do bardziej przetworzonej, gęstszej lub bardziej wewnętrznej.

Kodery są często składnikami większego modelu, który często sparowany z dekoderem. Niektóre Transformery parować kodery z dekoderami, chociaż inne Transformatory korzystają tylko z nich lub tylko dekodera.

Niektóre systemy wykorzystują dane wyjściowe kodera jako danych wejściowych do klasyfikacji lub w sieci regresji.

W zadaniach sekwencyjnych koder pobiera sekwencję wejściową i zwraca stan wewnętrzny (wektor). Następnie funkcja Na podstawie tego stanu wewnętrznego dekoder przewiduje następną sekwencję.

Definicję kodera znajdziesz w artykule Transformer (w języku angielskim). o architekturze Transformer.

zespół

Zbiór modeli wytrenowanych niezależnie, których prognozy są uśrednione lub zagregowane. W wielu przypadkach zestaw daje lepsze wrażenia, niż w przypadku pojedynczego modelu. Na przykład plik random Forest to zespół złożony z wielu drzewa decyzyjne. Pamiętaj, że nie wszystkie lasy decyzji to zespoły.

entropia

#df

W teoria informacji, opis nieprzewidywalności prawdopodobieństwa zgodnie z rozkładem. Entropia jest też zdefiniowana jako informacje zawarte w każdym przykładzie. Dystrybucja zawiera najwyższa możliwa entropia, gdy wszystkie wartości zmiennej losowej są z równym prawdopodobieństwem.

Entropia zbioru z dwiema możliwymi wartościami „0” i „1” (na przykład etykiet w zadaniu klasyfikacji binarnej) ma następującą formułę:

H = -p log p - q log q = -p log p - (1-p) * log (1-p) .

gdzie:

  • H oznacza entropię.
  • p to ułamek liczby „1”. przykłady.
  • q to ułamek liczby „0” przykłady. Pamiętaj, że q = (1 – p).
  • log to zwykle log2. W tym przypadku entropia rozmiar jest niższy.

Załóżmy na przykład, że:

  • 100 przykładów zawiera wartość „1”
  • 300 przykładów zawiera wartość „0”

W związku z tym wartość entropii wynosi:

  • P = 0,25
  • Q = 0,75
  • H = (-0,25)log2(0,25) – (0,75)log2(0,75) = 0,81 bitu na przykład

Idealnie zrównoważony zestaw (np. 200 „0” i 200 „1”). ma na przykład entropię równą 1,0 bitu. W miarę jak zestaw niezrównoważony, jej entropia przesuwa się w kierunku 0,0.

W drzewach decyzyjnych entropia pomaga wyznaczać zdobywania informacji, aby pomóc dzielnik wybierz warunki podczas rozwoju drzewa decyzyjnego dotyczącego klasyfikacji.

Porównaj entropię z:

Entropia jest często nazywana entropią Shannona.

środowisko

#rl

W uczeniu przez wzmacnianie świata, w którym znajduje się agent i pozwala agentowi obserwować stan danego świata. Przykład: reprezentowany świat może być grą w szachy albo światem fizycznym, takim jak lub labirynt. Gdy agent zastosuje działanie do środowiska, środowisko przechodzi między stanami.

odcinek

#rl

Podczas uczenia się przez wzmacnianie każda z powtarzanych prób agent poznaje środowisko.

początek epoki : epoka

#fundamentals

Pełny bilet treningowy na cały zestaw treningowy. w taki sposób, aby każdy przykład został przetworzony raz.

Epoka reprezentuje N/rozmiar wsadu iteracje trenowania, gdzie N jest łączną liczbę przykładów.

Załóżmy na przykład, że:

  • Zbiór danych zawiera 1000 przykładów.
  • Wielkość wsadu to 50 przykładów.

Dlatego pojedyncza epoka wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

zasady zachłanne epsilon

#rl

W przypadku uczenia przez wzmacnianie zasad, które są zgodne zasada losowa z prawdopodobieństwem ypsilon lub wartością W przeciwnym razie zasadą zachłanności. Jeśli na przykład wartość ypsilon to 0,9, wówczas w 90% przypadków zasada jest losowa, a zasada jest zachłanna zasady w 10% przypadków.

W kolejnych odcinkach algorytm obniża wartość ypsilon w kolejności zamiast zachłannego chwytania się zasad. Według gdy agent zmienia zasady, najpierw losowo analizuje środowisko a następnie zachłannie wykorzystuje wyniki eksploracji losowej.

równość szans

#fairness

Wskaźnik obiektywności do oceny, czy model jest prognozowanie oczekiwanego wyniku równie dobrze dla wszystkich wartości atrybut poufny. Innymi słowy, jeśli pożądanym wynikiem modelu jest klasa pozytywna, celem powinno być, aby prawdziwie pozytywny współczynnik dodatni był taki sam dla wszystkich grup.

Równość możliwości jest związana z wyrównaniem szans, który wymaga, aby zarówno współczynniki prawdziwie dodatnie, współczynnik wyników fałszywie pozytywnych jest taki sam we wszystkich grupach.

Załóżmy, że Uniwersytet Glubbdubdrib akceptuje zarówno liliputów, jak i brobdingnagiów do rygorystycznego programu matematycznego. Liliputowie szkoły średnie oferują program nauczania matematyki, a znaczna większość uczniów kwalifikacji do programu uniwersyteckiego. Brobdingnagians w szkołach średnich w ogóle nie oferują zajęć z matematyki, przez co znacznie mniej uczniów zakwalifikował się do programu. Równość możliwości jest spełniony w przypadku preferowanej etykiety „admitted” (zaakceptowano) w odniesieniu do narodowości (Lilliputian lub Brobdingnagian), jeśli kwalifikowani uczniowie z równym prawdopodobieństwem zostaną przyjęte, niezależnie od tego, To liliput czy plemię Brobdingnag.

Załóżmy na przykład, że do Uniwersytetu Glubbdubdrib, dlatego decyzje o przyjęciu do programu są podejmowane w następujący sposób:

Tabela 1. Kandydaci na stanowiska liliputów (90% to kwalifikowani uczestnicy)

  Zakwalifikowany Niezakwalifikowany
Zaakceptowano 45 3
Odrzucono 45 7
Łącznie 90 10
Odsetek zakwalifikowanych uczestników: 45/90 = 50%
Odsetek odrzuconych uczniów, którzy nie spełniają wymagań: 7/10 = 70%
Łączny odsetek przyjętych studentów w Liliputiach: (45 + 3)/100 = 48%

 

Tabela 2. Kandydaci do Izby Reprezentantów (10% zakwalifikowanych):

  Zakwalifikowany Niezakwalifikowany
Zaakceptowano 5 9
Odrzucono 5 81
Łącznie 10 90
Odsetek zakwalifikowanych uczestników: 5/10 = 50%
Odsetek odrzuconych uczniów, którzy nie spełniają wymagań: 81/90 = 90%
Łączny odsetek przyjętych studentów z Brobdingnagian: (5 + 9)/100 = 14%

Poprzednie przykłady spełniają wymagania równości możliwości przy akceptacji ponieważ wykwalifikowani liliputowie i artyści z Brobdingnagi mają 50% szans na przyjęcie do programu.

Chociaż jest zaspokaja równość możliwości, 2 wskaźniki obiektywności niezadowolony(a):

  • spójność demograficzna: liliputowie Rodzaje brobdingnagich są przyjmowane na uniwersytet według różnych stawek. Przyjmuje do niego 48% studentów, ale tylko 14% Przyjmowani są studenci z Brobdingnagów.
  • wyrównane szanse: kwalifikowany liliputian i studenci Brobdingnagian mają takie same szanse na przyjęcie z dodatkowym ograniczeniem, na jakie narażają się liliputowie Obaj Brobdingnagiers mają jednakowe szanse na odrzucenie zadowolonych klientów. Osoby pozbawione kwalifikacji mają 70% współczynnik odrzuceń, Brak zakwalifikowanych uczestników ma 90% współczynnik odrzuceń.

Zobacz „Równość „Możliwość w nauczaniu nadzorowanym”, aby dowiedzieć się więcej. czyli równość szans. Zobacz też „Atak dyskryminacji przy użyciu inteligentnych systemów uczących się”. Rozważanie kompromisów przy optymalizacji pod kątem równości szans.

wyrównane szanse

#fairness

Wskaźnik obiektywności, który pozwala ocenić, czy model prognozuje wyniki w równym stopniu w przypadku wszystkich wartości atrybutu poufnego z atrybutami zarówno w odniesieniu do klasy pozytywnej, jak i klasa wykluczające, a nie tylko jedna z nich. . Inaczej mówiąc, współczynnik prawdziwie dodatni i współczynnik wyników fałszywie negatywnych powinny być takie same w przypadku wszystkich grup.

Szanse wyrównane są związane z równouprawnienie szans, który skupia się tylko na dotyczące odsetka błędów dla jednej klasy (pozytywnej lub ujemnej).

Załóżmy na przykład, że Uniwersytet w Glubbdubdrib akceptuje zarówno liliputów, jak i Brobdingnagians rygorystycznego programu matematycznego. Liliputowie dodatkowa szkoły oferują obszerny program zajęć z matematyki, a znaczna większość i studenci są kwalifikowani do programu uniwersyteckiego. Brobdingnagians dodatkowa w ogóle nie oferują lekcji z matematyki, więc znacznie mniej że ich uczniowie są kwalifikowani. Szanse wyrównane są spełnione, pod warunkiem że żadne niezależnie od tego, czy wnioskodawca jest liliputianem, czy też brobdingnagiem, którzy są kwalifikowani, z takim samym prawdopodobieństwem zostaną przyjęte do programu, a jeśli się nie spełnią, równie duże prawdopodobieństwo, że zostaną odrzucone.

Załóżmy, że do Glubbdubdrib jest 100 liliputów i 100 brobdingnagiów Uniwersytety i procesy rekrutacyjne są podejmowane w następujący sposób:

Tabela 3. Kandydaci na stanowiska liliputów (90% to kwalifikowani uczestnicy)

  Zakwalifikowany Niezakwalifikowany
Zaakceptowano 45 2
Odrzucono 45 8
Łącznie 90 10
Odsetek zakwalifikowanych uczestników: 45/90 = 50%
Odsetek odrzuconych uczniów, którzy nie spełniają wymagań: 8/10 = 80%
Łączny odsetek przyjętych studentów w Liliputiach: (45 + 2)/100 = 47%

 

Tabela 4. Kandydaci do Izby Reprezentantów (10% zakwalifikowanych):

  Zakwalifikowany Niezakwalifikowany
Zaakceptowano 5 18
Odrzucono 5 72
Łącznie 10 90
Odsetek zakwalifikowanych uczestników: 5/10 = 50%
Odsetek odrzuconych uczniów, którzy nie spełniają wymagań: 72/90 = 80%
Łączny odsetek przyjętych studentów z Brobdingnagian: (5+18)/100 = 23%

Wyrównane szanse są spełnione, ponieważ wykwalifikowani liliputowie i brobdingnagia uczniowie mają 50% szans na przyjęcie do programu, a liliputowie mają 50% a brobdingnagian ma 80% szans na odrzucenie.

Szanse wyrównane są oficjalnie zdefiniowane w „Równość „Możliwość w ramach uczenia nadzorowanego”: „predyktor spełnia wymagania wyrównane w odniesieniu do do chronionego atrybutu A i wyniku Y, jeśli ® i A są niezależne, warunkowo na Y”.

estymator

#TensorFlow

Wycofany interfejs TensorFlow API. Zamiast tego użyj pliku tf.keras. estymatorów.

oceny

#language
#generativeAI

Używany głównie jako skrót od LLM evaluations. Ogólnie evals to skrót nazwy dowolnej formy oceny.

ocena

#language
#generativeAI

Proces pomiaru jakości modelu lub porównywania różnych modeli i otwierać przed sobą nawzajem.

Do oceny nadzorowanych systemów uczących się model, zwykle ocenia się go na podstawie zestawu do walidacji i zestaw testowy. Ocena LLM zwykle obejmują też szerszą ocenę jakości i bezpieczeństwa.

przykład

#fundamentals

Wartości w jednym wierszu cech i prawdopodobnie etykietę. Przykłady w: nauczanie nadzorowane dzieli się na 2 grupy: kategorie ogólne:

  • Przykład oznaczony etykietą zawiera co najmniej 1 funkcję i etykietę. Przykłady oznaczone etykietami są używane podczas trenowania.
  • Przykład bez etykiety składa się z jednego elementu lub więcej funkcji, ale bez etykiety. Podczas wnioskowania używane są przykłady bez etykiet.

Załóżmy, że trenujesz model do określenia wpływu warunków pogodowych na wynikach sprawdzianów uczniów. Oto 3 przykłady oznaczone etykietami:

Funkcje Etykieta
Temperatura wilgotność, Ciśnienie Wynik testu
15 47 998 Dobry
19 34 1020 Świetna
18 92 1012 Niska

Oto 3 przykłady bez etykiet:

Temperatura wilgotność, Ciśnienie  
12 62 1014  
21 47 1017  
19 41 1021  

Wiersz zbioru danych jest zwykle nieprzetworzonym źródłem przykładu. Oznacza to zazwyczaj, że przykład składa się zwykle z podzbioru kolumn w zbioru danych. Cechy z przykładu mogą też obejmować funkcje syntetyczne, takie jak: krzyżówki cech.

ponowne odtworzenie doświadczenia

#rl

W uczeniu przez wzmacnianie to technika DQN używana do ograniczyć korelacje czasowe w danych treningowych. Agent przechowuje przejścia stanu w buforze ponownego odtwarzania, a następnie przykładowe przejścia z bufora ponownego odtwarzania do utworzenia danych treningowych.

efekt eksperymentu

#fairness

Zobacz odchylenie potwierdzenia.

problem z wybuchowym gradientem

#seq

tendencji do gradientów w głębokich sieci neuronowych (zwłaszcza powracających sieci neuronowych), zaskakująco strome (wysokie). Ostre gradienty często powodują bardzo duże zmiany do wag każdego węzła w do głębokiej sieci neuronowej.

Modele, w których występuje problem z eksplodującą gradientem, stają się trudne. lub że trenowanie jest niemożliwe. Przycinanie gradientu mogą zminimalizować ten problem.

Porównaj problem ze znikającym gradientem.

F

K1

Pełny zakres dane klasyfikacji binarnej, które: zależy zarówno od precyzji, jak i czułości. Oto wzór:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Na przykład na podstawie tych elementów:

  • precyzja = 0,6
  • czułość = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Gdy precyzja i czułość są dość podobne (jak w poprzednim przykładzie), F1 jest bliskie swojej średniej. Gdy precyzja i czułość różnią się znacznie, F1 jest bliższe niższej wartości. Na przykład:

  • precyzja = 0,9
  • czułość = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

ograniczenie obiektywności

#fairness
Stosowanie ograniczenia do algorytmu w celu zapewnienia co najmniej 1 definicji i obiektywności. Przykłady ograniczeń związanych z obiektywnością:

wskaźnik obiektywności

#fairness

Matematyczna definicja „uczciwości” wymiernej skuteczności. Niektóre często używane wskaźniki obiektywności:

Wiele wskaźników obiektywności wzajemnie się wyklucza. zobacz niezgodność wskaźników obiektywności.

fałszywie negatywny (FN)

#fundamentals

Przykład, w którym model błędnie prognozuje wartość negative class (klasa wykluczające). Na przykład model przewiduje, że konkretny e-mail nie jest spamem, (klasa ujemna), ale ten e-mail to w rzeczywistości spam.

współczynnik wyników fałszywie negatywnych

Odsetek rzeczywistych pozytywnych przykładów, w których model popełnił błąd przewidział klasę negatywną. Ta formuła oblicza wartość fałsz współczynnik ujemny:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

fałszywie dodatni (FP)

#fundamentals

Przykład, w którym model błędnie prognozuje wartość pozytywnej klasy. Na przykład model przewiduje, że konkretny e-mail zawiera spam (klasa pozytywna), ale e-mail nie jest spamem.

współczynnik wyników fałszywie pozytywnych (FPR)

#fundamentals

Odsetek rzeczywistych przykładów negatywnych, w których model popełnił błąd przewidzieliśmy klasę pozytywną. Ta formuła oblicza wartość fałsz współczynnik dodatni:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie pozytywnych to oś X na krzywej ROC.

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa dla modelu systemów uczących się. Przykład obejmuje co najmniej jedną cechę. Załóżmy na przykład, że trenujesz model do określania wpływu warunków pogodowych na wyniki testów uczniów. W tabeli poniżej znajdziesz 3 przykłady, z których każdy zawiera 3 funkcje i 1 etykietę:

Funkcje Etykieta
Temperatura wilgotność, Ciśnienie Wynik testu
15 47 998 92
19 34 1020 84
18 92 1012 87

Różnica za pomocą atrybutu etykieta.

krzyżówka

#fundamentals

Funkcje syntetyczne utworzone przez „krzyżowanie” funkcji kategorialnych lub pogrupowanych.

Weźmy np. „prognozowanie nastroju” model, który reprezentuje w jednym z czterech zasobników:

  • freezing
  • chilly
  • temperate
  • warm

I przedstawia prędkość wiatru w jednym z 3 rodzajów:

  • still
  • light
  • windy

Bez krzyżów cech model liniowy trenuje niezależnie na każdym poprzedzających 7 różnych zasobników. Model trenuje na przykład freezing niezależnie od trenowania, na przykład windy

Można również utworzyć krzyżową cechę, prędkość wiatru. Ta funkcja syntetyczna miałaby 12 możliwych wyników wartości:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dzięki krzyżom cech model może nauczyć się różnic nastrojów od freezing-windy do freezing-still dnia.

Jeśli utworzysz obiekt syntetyczny z dwóch cech, z których każda ma wiele w różnych zasobnikach, wynikowy krzyż cech będzie miał ogromną liczbę możliwych kombinacji. Na przykład, jeśli jedna cecha ma 1000 zasobników, druga cecha ma 2000 zasobników, wynikowy krzyż cech ma 2 000 000 zasobników.

Formalnie krzyż to Iloczyn kartezjański.

Krzywe cech są używane głównie w modelach liniowych i rzadko są używane za pomocą sieci neuronowych.

ekstrakcja wyróżników

#fundamentals
#TensorFlow

Proces, który obejmuje te kroki:

  1. określać, które funkcje mogą być przydatne; podczas trenowania modelu.
  2. Konwersja nieprzetworzonych danych ze zbioru danych do efektywnych wersji tych funkcji.

Możesz np. uznać, że słowo temperature może być przydatne funkcji. Następnie możesz poeksperymentować z grupowaniem. aby zoptymalizować to, czego model może się uczyć na podstawie różnych zakresów temperature.

Inżynieria cech jest czasami nazywana inżynierią cech wyodrębnianie cech lub featurizacja.

wyodrębnianie cech

Przeciążone hasło mające jedną z tych definicji:

znaczenie cech

#df

Synonim zmiennej ważności.

zbiór cech

#fundamentals

grupę funkcji używanych przez systemy uczące się; model trenuje na nich. Na przykład kod pocztowy, rozmiar nieruchomości i stan obiektu mogą stanowią prosty zestaw funkcji modelu prognozującego ceny nieruchomości.

specyfikacja funkcji

#TensorFlow

Opisuje informacje wymagane do wyodrębnienia danych funkcji. z bufora protokołu tf.Example. Ponieważ tf.Przykładowy bufor protokołu to tylko kontener na dane, który musisz określić następujące:

  • dane do wyodrębnienia (czyli klucze do funkcji),
  • typ danych (np. liczba zmiennoprzecinkowa lub int).
  • długość (stała lub zmienna),

wektor cech

#fundamentals

Tablica wartości feature tworzących przykład. Wektor cech jest wprowadzany podczas trenowania i w trakcie wnioskowania. Na przykład wektor cech modelu z 2 odrębnymi cechami może wyglądać tak:

[0.92, 0.56]

4 warstwy: warstwa wejściowa, dwie warstwy ukryte i 1 warstwa wyjściowa.
          Warstwa wejściowa zawiera dwa węzły, w tym jeden z wartością
          0,92, a drugiej o wartości 0,56.

Każdy przykład dostarcza inne wartości wektora cech, więc funkcja w następnym przykładzie może wyglądać tak:

[0.73, 0.49]

Inżynieria cech określa, jak przedstawić w wektorze cech. Na przykład w przypadku funkcji binarnej kategorialnej funkcji pięć możliwych wartości może być reprezentowanych przez kodowanie jedno- gorące. W tym przypadku część argumentu wektor cech w danym przykładzie składałby się z czterech zer i pojedynczy 1,0 w trzeciej pozycji, jak niżej:

[0.0, 0.0, 1.0, 0.0, 0.0]

W kolejnym przykładzie załóżmy, że Twój model składa się z 3 cech:

  • funkcję kategoryczną z pięcioma możliwymi wartościami reprezentowanymi przez kodowanie jeden-gotowe, na przykład: [0.0, 1.0, 0.0, 0.0, 0.0]
  • kolejną cechę kategoryczną binarną, której reprezentowane są 3 możliwe wartości w ramach kodowania jeden-gorącego; na przykład: [0.0, 0.0, 1.0]
  • obiekt zmiennoprzecinkowy, na przykład: 8.3.

W tym przypadku wektor cech w każdym przykładzie będzie przedstawiony o dziewięć wartości. Biorąc pod uwagę przykładowe wartości z poprzedniej listy, wektor cech to:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

featurizacja

procesu wyodrębniania cech ze źródła danych wejściowych; takich jak dokumenty lub filmy, i odwzorowanie tych cech na wektor cech.

Niektórzy eksperci w dziedzinie systemów uczących się używają terminu featuryzacja jako synonimu inżynierii cech lub wyodrębnianie cech.

sfederowane uczenie się

Podejście do rozproszonych systemów uczących się, które trenuje modele systemów uczących się wykorzystujące zdecentralizowane przykłady na urządzeniach takich jak smartfony. W ramach sfederowanego uczenia się bieżący model pobiera podzbiór urządzeń z centralnego serwera koordynacyjnego. Urządzenia używają zapisanych przykładów na tych urządzeniach w celu ulepszenia modelu. Następnie urządzenia przesyłają dane ulepszanie modelu (ale nie przykłady treningowe) w celu koordynowania, serwera, gdzie są one agregowane z innymi aktualizacjami, by zapewnić model globalny. Po zagregowaniu model aktualizuje model obliczany przez urządzenia już nie są potrzebne i można je odrzucić.

Ponieważ przykłady treningowe nie są nigdy przesyłane, sfederowane uczenie się jest zgodne z zasady ochrony prywatności, czyli ukierunkowanie na zbieranie danych i minimalizację danych.

Więcej informacji o sfederowanym uczeniu się znajdziesz zobacz ten samouczek.

pętla informacji zwrotnych

#fundamentals

W uczeniu maszynowym to sytuacja, w której prognozy modelu wpływają na dla tego samego lub innego modelu. Na przykład model, poleca filmy, co wpłynie na to, jakie filmy oglądają widzowie, wpływać na kolejne modele rekomendacji filmów.

sieć neuronowa (FFN)

Sieć neuronowa bez połączeń cyklicznych ani rekurencyjnych. Przykład: tradycyjnych głębokich sieci neuronowych i przekazywanych sieci neuronowych. Porównaj z nawracającymi zaburzeniami neuronowymi sieci, które są cykliczne.

nauka jednorazowa

Uczenie maszynowe, często stosowane do klasyfikacji obiektów, stworzonym z myślą o trenowaniu skutecznych klasyfikatorów na podstawie przykładów treningowych.

Zobacz też naukę jeden-shot oraz naukę „zero-shot”.

prompty „few-shot”

#language
#generativeAI

Prompt zawierający więcej niż 1 przykład („kilka”) pokazując, jak duży model językowy powinien zareagować. Na przykład ten długi prompt zawiera dwa Przykłady odpowiedzi na zapytanie przez duży model językowy (LLM).

Elementy jednego promptu Uwagi
Jaka jest oficjalna waluta w danym kraju? Pytanie, na które ma odpowiedzieć LLM.
Francja: EUR Przykład:
Wielka Brytania: GBP Kolejny przykład.
Indie: Faktyczne zapytanie.

Krótkie prompty pozwalają zwykle uzyskać lepsze wyniki niż promptów typu „zero-shot”, jedno-razowe prompty. Jednak prompty typu „few-shot” wymaga dłuższego promptu.

prompty typu „few-shot” to forma nauki „few-shot”. stosowane w nauce opartej na promptach.

Skrzypce

#language

Biblioteka konfiguracji skoncentrowana na Pythonie, która ustawia wartości funkcji i klas bez inwazyjnego kodu i infrastruktury. W przypadku Pax i innych baz kodu systemów uczących się te funkcje oraz klasy reprezentują modele i szkolenia. hiperparametrów.

Skrzypce zakłada, że bazy kodu systemów uczących się są zwykle podzielone na:

  • Kod biblioteczny, który definiuje warstwy i optymalizatory.
  • Zbiór danych „glue” który wywołuje biblioteki i przewody.

Fiddle przechwytuje strukturę wywołania kodu glue w elemencie nieocenionym lub zmiennej postaci.

dostrajanie

#language
#image
#generativeAI

Druga karnet szkoleniowy dotyczący konkretnego zadania wykonany na już wytrenowanego modelu, aby doprecyzować jego parametry do konkretnego przypadku użycia. Na przykład pełna sekwencja trenowania dla niektórych dużych modeli językowych wygląda tak:

  1. Przed trenowaniem: wytrenuj duży model językowy na dużym ogólnym zbiorze danych. np. wszystkich stron Wikipedii w języku angielskim.
  2. Dostrajanie: wytrenuj już wytrenowany model do wykonania określonego zadania. np. odpowiadania na pytania medyczne. Dostrajanie zwykle obejmuje lub tysiące przykładów koncentrujących się na konkretnym zadaniu.

Innym przykładem jest pełna sekwencja trenowania dużego modelu obrazu. następujące:

  1. Przed trenowaniem: wytrenuj duży model obrazu na dużym obrazie ogólnym takich jak wszystkie obrazy w witrynie Wikimedia Commons.
  2. Dostrajanie: wytrenuj już wytrenowany model do wykonania określonego zadania. np. przez generowanie obrazów orek.

Dostrajanie może obejmować dowolną kombinację tych strategii:

  • Zmodyfikowanie wszystkich wytrenowanych modeli parametry. Czasami nazywa się to pełnym dostrajaniem.
  • Zmodyfikowanie tylko niektórych istniejących parametrów wytrenowanego modelu (zwykle warstwy najbliższe warstwie wyjściowej), a inne istniejące parametry nie zmieniają się (zwykle warstwy najbliżej warstwy wejściowej). Zobacz dostrajania i optymalizowania pod kątem wydajności.
  • Dodawanie większej liczby warstw, zazwyczaj na istniejących warstwach znajdujących się najbliżej warstwę wyjściową.

Dostrajanie to forma nauki transferowej. W związku z tym do dostrajania może być używana inna funkcja straty lub inny model. niż używany do trenowania wytrenowanego modelu. Możesz na przykład: dostrajać wytrenowany duży model obrazów w celu wygenerowania modelu regresji, zwraca liczbę ptaków na obrazie wejściowym.

Porównaj dostrajanie z zastosowaniem tych haseł:

Len

#language

Wydajny oprogramowanie typu open source biblioteka dla deep learning oparte na technologii JAX. Len zapewnia funkcje do szkoleń sieci neuronowych, a także do oceny ich skuteczności.

Flaxformer

#language

Transformer – oprogramowanie open source biblioteka, stworzono w oparciu o Flax i został zaprojektowany głównie z myślą o przetwarzaniu języka naturalnego i badania multimodalne.

bramka zapomniana

#seq

Część pamięci krótkoterminowej która reguluje przepływ informacji przez komórkę. Bramy zapomnienia zachowują kontekst, decydując, które informacje mają zostać odrzucone ze stanu komórki.

pełny softmax

Synonim wyrażenia softmax.

Przeciwieństwem jest próbkowanie kandydatów.

w pełni połączona warstwa

Warstwa ukryta, w której każdy węzeł jest połączony z każdym węzłem w kolejnej warstwie ukrytej.

W pełni połączona warstwa nazywana jest też gęstą warstwą.

przekształcenie funkcji

Funkcja, która przyjmuje funkcję jako dane wejściowe i zwraca funkcję przekształconą jako dane wyjściowe. W JAX używane są przekształcenia funkcji.

G

GAN

Skrót od generative adversarial)

uogólnianie

#fundamentals

Zdolność modelu do generowania poprawnych prognoz na nowych, wcześniej niewyświetlonych danych. Model, który może uogólniać, jest przeciwieństwem modelu, który jest zbyt dopasowany.

Gemini

#language
#image
#generativeAI

Ekosystem obejmujący najbardziej zaawansowaną sztuczną inteligencję Google. Elementy tego ekosystemu uwzględnij:

  • różne modele Gemini;
  • Interaktywny interfejs konwersacyjny modelu Gemini. Użytkownicy wpisują prompty, a Gemini na nie odpowiada.
  • różne interfejsy API Gemini.
  • różne usługi biznesowe oparte na modelach Gemini; np. Gemini dla Google Cloud
.

Modele Gemini

#language
#image
#generativeAI

Opracowany przez Google najnowocześniejszy model Transformer modele multimodalne, Modele Gemini są szczególnie zaprojektowany z myślą o integracji z agentami.

Użytkownicy mogą wchodzić w interakcje z modelami Gemini na różne sposoby, w tym przez: interaktywnego interfejsu dialogowego i pakietów SDK.

krzywa uogólniania

#fundamentals

Wykres przedstawiający utraty trenowania i utrata walidacji jako funkcja liczby iteracji.

Krzywa uogólniania może pomóc w wykrywaniu nadmiernego dopasowania. Na przykład: krzywa uogólnienia sugeruje nadmierne dopasowanie, ponieważ utrata walidacji ostatecznie staje się znacznie większa niż utrata trenowania.

Wykres kartezjański, w którym oś Y jest oznaczona jako utrata, a oś X
          jest oznaczony etykietą. Pojawią się 2 działki. Jeden wykres przedstawia
          trenowanie, a drugie – utratę walidacji.
          Obydwa fabuły zaczynają się podobnie, ale w końcu przegrana
          są znacznie mniejsze niż straty walidacji.

uogólniony model liniowy

Uogólnienie regresji metodą najmniejszych kwadratów modeli opartych na gaussowski szumu, do innego modele oparte na innych rodzajach szumu, takich jak: Szum Poissona lub szum kategoryczny. Przykłady uogólnionych modeli liniowych:

Parametry uogólnionego modelu liniowego można znaleźć za pomocą optymalizację wypukłą.

Uogólnione modele liniowe mają te właściwości:

  • Średnia prognoza optymalnego modelu regresji metodą najmniejszych kwadratów to jest równa średniej etykiecie danych treningowych.
  • Średnie prawdopodobieństwo prognozowane przez optymalną regresję logistyczną model jest równy średniej etykiecie danych treningowych.

Możliwości uogólnionego modelu liniowego są ograniczone przez jego cechy. Nie podoba mi się głębokiego, uogólniony model liniowy nie może „uczyć się nowych funkcji”.

generatywna sieć kontrowersyjna (GAN)

System do tworzenia nowych danych, w którym generator tworzy a dyskryminator określa, czy są prawidłowe lub nieprawidłowe.

generatywna AI

#language
#image
#generativeAI

Rozwijające się pole transformacyjne bez formalnej definicji. Jednak większość ekspertów zgadza się, że modele generatywnej AI mogą tworzyć („generować”) treści, która jest:

  • Złożone
  • spójne
  • oryginał

Na przykład model generatywnej AI może tworzyć zaawansowane wypracowania lub grafiki.

niektóre wcześniejsze technologie, w tym LSTMs. i RNN, mogą też generować spójną treścią. Niektórzy eksperci traktują te wcześniejsze technologie jako generatywnej AI, podczas gdy inni uważają, że prawdziwa generatywna AI wymaga niż te wcześniejsze technologie.

Przeciwieństwem są systemy uczące się predykcyjne.

model generatywny

Mówiąc w praktyce, model, który wykonuje jedną z tych czynności:

  • Tworzy (generuje) nowe przykłady ze zbioru danych treningowych. Na przykład model generatywny może tworzyć poezję po wytrenowaniu. na zbiorze wierszy Część generatora w pliku sieć kontradyktoryjnych danych generatywnych do tej kategorii.
  • Określa prawdopodobieństwo, że nowy przykład pochodzi z zbiór treningowych lub została utworzona za pomocą tego samego mechanizmu, który utworzył do zbioru treningowego. Na przykład po trenowaniu zbioru danych zawierającego angielskie zdania, model generatywny może określać prawdopodobieństwo, że nowe dane wejściowe są prawidłowym zdaniem w języku angielskim.

Model generatywny może teoretycznie rozróżnić rozkład przykładów czy konkretnych cech zbioru danych. Czyli:

p(examples)

Modele uczenia nienadzorowanego są generatywne.

Przedstaw kontrast z modelami dyskryminacyjnymi.

generator

Podsystem w ramach kontrowersyjnego generatywnego sieć który tworzy nowe przykłady.

Porównaj z modelem dyskryminacyjnym.

nieczystość ginie

#df

Dane podobne do entropii. Rozdzielacze użyj do utworzenia wartości pochodzących z zanieczyszczenia gini lub entropii warunki klasyfikacji drzewa decyzyjne. Zysk informacji pochodzi z entropii. Nie istnieje powszechnie akceptowany termin równoważny dla danych wywodzących się z zanieczyszczenia giniego; te dane bez nazwy są jednak równie ważne, uzyskać cenne informacje.

Nieczystość giniego jest również nazywana wskaźnikiem ginie lub po prostu gini.

golden zbiór danych

Zbiór ręcznie wybranych danych, które rejestrują dane podstawowe. Zespoły mogą używać jednego lub większej liczby złotych zbiorów danych do oceny jakości modelu.

Niektóre złote zbiory danych rejestrują różne subdomeny danych podstawowych. Przykład: złoty zbiór danych do klasyfikacji obrazów może rejestrować warunki oświetleniowe, i rozdzielczość obrazu.

GPT (wytrenowany generatywny transformer)

#language

Rodzina produktów opartych na Transformer dużych modeli językowych opracowanych przez OpenAI.

Warianty GPT można stosować w wielu modalnościach, takich jak:

  • generowanie obrazów (np. ImageGPT)
  • generowanie tekstu na obraz (na przykład DALL-E).

gradient

Wektor pochodnych cząstkowych w odniesieniu do wszystkich zmiennych niezależnych. W uczeniu maszynowym gradient jest wektor pochodnych częściowych funkcji modelu. Punkty gradientu w kierunku najbardziej stromego podejścia.

akumulacja gradientu

Technika propagacji wstecznej, która aktualizuje parametry tylko raz na epokę, a nie raz na całą epokę. i iteracji. Po przetworzeniu każdej minizbiorczej gradientu funkcja akumulacji aktualizuje bieżącą łączną liczbę gradientów. Następnie, po w ramach przetwarzania ostatniej minigrupy w epoce, system na koniec aktualizuje się parametry na podstawie sumy wszystkich zmian gradientu.

Akumulacja gradientów jest przydatna, gdy rozmiar grupy to bardzo duża w porównaniu z ilością dostępnej pamięci do trenowania. Gdy pamięć jest problemem, naturalną tendencją jest zmniejszanie wielkości wsadu. Jednak zmniejszenie rozmiaru wsadu przy normalnej propagacji wstecznej zwiększa się liczbę aktualizacji parametrów. Akumulacja gradientem włącza model aby uniknąć problemów z pamięcią, ale nadal wydajnie trenować.

drzewa decyzyjne z wzmocnieniem gradientu (GBT),

#df

Rodzaj lasu decyzji, w którym:

wzmocnienie gradientu

#df

Algorytm trenowania, w którym słabe modele są trenowane iteracyjnie Poprawa jakości (zmniejszenie utraty) solidnego modelu. Przykład: Słabym modelem może być liniowy lub mały model drzewa decyzyjnego. Silny model staje się sumą wszystkich wytrenowanych wcześniej słabych modeli.

W najprostszej formie wzmocnienia gradientem przy każdej iteracji słaby model jest trenowany tak, aby prognozował gradient straty silnego modelu. Następnie funkcja silny model jest aktualizowany przez odjęcie przewidywanego gradientu, podobnie jak w przypadku opadania gradientowego.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

gdzie:

  • $F_{0}$ to początkowy solidny model.
  • Kolejnym solidnym modelem jest $F_{i+1}$.
  • $F_{i}$ to obecny solidny model.
  • $\xi$ to wartość z zakresu od 0,0 do 1,0 nazywana skurczem, co jest analogiczne do tempo uczenia się w opadanie gradientowe.
  • $f_{i}$ to słaby model wytrenowany do przewidywania gradientu straty $F_{i}$.

Współczesne odmiany wzmocnienia gradientowego obejmują również drugą pochodną (Hessja) straty w obliczeniach.

Drzewa decyzyjne są powszechnie używane jako słabe modele wzmocnienia gradientu. Zobacz drzewa decyzyjne z ulepszoną jakością gradientu.

przycinanie gradientu

#seq

Powszechnie stosowany mechanizm łagodzenia problem z naturalnym gradientem. ograniczanie (przycinanie) maksymalnej wartości gradientów podczas używania funkcji opadanie gradientowe, by wytrenować model.

opadanie gradientowe

#fundamentals

Technika matematyczna do zminimalizowania strat. Spadek gradientowy koryguje iteracyjnie wagi i uprzedzenia, stopniowo znajdują najlepsze kombinacje w celu zminimalizowania strat.

Metoda gradientowa jest starsza – znacznie, znacznie starsza niż systemy uczące się.

wykres

#TensorFlow

Specyfikacja obliczeń w TensorFlow. Węzły na wykresie przedstawiają operacje. Krawędzie są kierowane i reprezentują zaliczoną wartość operacji (Tensor) jako do innej operacji. Używaj TensorBoard – wizualizację grafu.

wykonanie grafu

#TensorFlow

Środowisko programistyczne TensorFlow, w którym program najpierw tworzy wykres, a następnie wykonuje cały wykres lub jego część. Wykres to domyślny tryb wykonywania w TensorFlow 1.x.

Przeciwieństwem jest wykonanie z zaangażowaniem.

niechętne zasady

#rl

W przypadku uczenia przez wzmacnianie zasada, która zawsze wybiera działanie przynoszące największy oczekiwany zwrot.

dane podstawowe

#fundamentals

Reality show.

Rzecz, która faktycznie się wydarzyła.

Weźmy na przykład klasyfikację binarną model, który prognozuje, czy uczeń na pierwszym roku studiów muszą zakończyć 13 lat. Dane podstawowe tego modelu to tego, czy nie że uczeń ukończył szkołę w ciągu 6 lat.

efekt udziału grupy

#fairness

Założenie, że prawdziwość jednostki jest też prawdą dla wszystkich w tej grupie. Skutki tendencyjności atrybucji grupowej mogą się pogłębiać, jeśli próbkowanie dogodne jest używany do zbierania danych. W niereprezentatywnej próbie atrybucje które nie odzwierciedlają rzeczywistości.

Zobacz też odchylenie jednorodności poza grupą i uprzedzenia w grupie.

H

halucynacje

#language

Tworzenie wiarygodnie pozornych, ale niepoprawnych merytorycznie treści generatywnej AI, który rzekomo tworzy o tym, co prawdziwa prawda. Na przykład generatywny model AI twierdzi, że Barack Obama zmarł w 1865 roku. jest hallucynacyjny.

wyliczanie skrótu

W uczeniu maszynowym mechanizm grupowania danych kategorialnych, zwłaszcza gdy liczba kategorii jest duża, ale liczba kategorii, które faktycznie się pojawiają, jest dość mała.

Na przykład na Ziemi rosną około 73 000 gatunków drzew. Możesz reprezentują każdy z 73 000 gatunków drzew w 73 000 osobnych kategorii zasobników. Z drugiej strony, jeśli pojawią się tylko 200 gatunków drzew można podzielić gatunki drzew na dane za pomocą haszowania, Może 500 zasobników.

Jeden zasobnik może zawierać wiele gatunków drzew. Na przykład: może umieścić baobab i klon czerwony – dwa genetycznie różne w tym samym zasobniku. Mimo to szyfrowanie to nadal dobry sposób zmapować duże zbiory kategorialne na wybraną liczbę zasobników. Szyfrowanie zmienia cecha kategorialna o dużej liczbie możliwych wartości w postaci mniejsza liczbę wartości dzięki grupowaniu wartości w w deterministyczny sposób.

heurystyka

Proste i szybkie rozwiązanie problemu. Przykład: „Dzięki metodzie heurystycznej osiągnęliśmy dokładność na poziomie 86%. Gdy przeszliśmy na dzięki głębokiej sieci neuronowej, dokładność wzrosła nawet o 98%”.

warstwa ukryta

#fundamentals

Warstwa w sieci neuronowej między warstwy wejściowej (cechy) oraz warstwa wyjściowa (prognoza). Każda ukryta warstwa składa się z co najmniej jednego neuronu. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy: pierwszy ma 3 neurony, a drugi 2:

Cztery warstwy. Pierwsza warstwa to warstwa wejściowa zawierająca dwie
          funkcje zabezpieczeń. Druga warstwa to ukryta warstwa zawierająca 3 elementy,
          neuronów. Trzecia warstwa to ukryta warstwa zawierająca dwie
          neuronów. Czwarta warstwa to warstwa wyjściowa. Każda cecha
          ma trzy krawędzie, z których każda wskazuje inny neuron
          w drugiej warstwie. Każdy z neuronów w drugiej warstwie
          ma dwie krawędzie, z których każda wskazuje inny neuron
          w trzeciej warstwie. Każdy neuron w trzeciej warstwie zawiera
          i po jednej krawędzi, z których każda wskazuje warstwę wyjściową.

Głęboka sieć neuronowa zawiera więcej niż jeden warstwa ukryta. Na przykład poprzednia ilustracja przedstawia głębokie połączenie neuronowe ponieważ model zawiera dwie ukryte warstwy.

grupowanie hierarchiczne

#clustering

Kategoria algorytmów grupowania, które tworzą drzewo klastrów. Grupowanie hierarchiczne dobrze sprawdza się w przypadku danych hierarchicznych, takich jak botaniczne taksonomie. Istnieją 2 rodzaje hierarchii: algorytmy grupowania:

  • Grupowanie agregacyjne polega na tym, że najpierw przypisujemy każdy przykład do własnego klastra. iteracyjnie scala najbliższe klastry, aby utworzyć drzewo.
  • Grupowanie dywizyjne najpierw grupuje wszystkie przykłady w 1 klaster, a następnie iteracyjnie dzieli klaster na drzewo hierarchiczne.

Przeciwieństwem są grupowanie oparte na centroidach.

utrata zawiasu

Rodzina funkcji strat dla funkcji klasyfikacji, której celem jest znalezienie granica decyzji jak najbardziej oddalona z każdego przykładu treningowego, w ten sposób maksymalizując odstęp między przykładami a granicą. Maszyny wirtualne korzystają z utraty zawiasów (lub powiązanej funkcji, takiej jak kwadrat straty zawiasu). W przypadku klasyfikacji binarnej funkcja utraty zawiasów jest zdefiniowane w ten sposób:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

gdzie y oznacza etykietę prawdziwą, czyli -1 lub +1, a y' to nieprzetworzony wynik. modelu klasyfikatora:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W efekcie wykres utraconych zawiasów w porównaniu z postacią (y * y) wygląda tak:

Wykres kartezjański składający się z 2 połączonych ze sobą fragmentów liniowych. Pierwszy
          segment linii zaczyna się w miejscu (-3, 4) i kończy się w (1, 0). Drugi wiersz
          segment zaczyna się od (1, 0) i trwa nieskończoność z nachyleniem
          z 0.

uprzedzenia historyczne

#fairness

Rodzaj uprzedzeń, który istnieje już na świecie i ma które stały się dostępne w zbiorze danych. Uprzedzenia często odzwierciedlają istniejące stereotypy kulturowe, nierówności demograficzne oraz uprzedzenia wobec pewnych grup społecznych.

Weźmy np. model klasyfikacji, który prognozuje, czy osoba ubiegająca się o kredyt nie spłaci kredytu, który był trenowanych na historycznych danych o wierzytelności kredytowej z lat 80. ubiegłego wieku od lokalnych banków w dwóch dla różnych społeczności. jeśli w przeszłości kandydaci ze Społeczności A byli 6 razy więcej prawdopodobieństwo spłaty kredytów niż wnioskodawcy ze Wspólnoty B. mogą poznać uprzedzenia historyczne, które zmniejszą prawdopodobieństwo, że model będzie zatwierdzanie kredytów we Wspólnocie A, nawet jeśli historyczne warunki wyższe stawki domyślne w tej społeczności przestały mieć znaczenie.

dane wstrzymane

Przykłady: celowe niewykorzystane („wstrzymane”) podczas szkolenia. zbiór danych do walidacji oraz testowy zbiór danych to przykłady danych wstrzymania. Dane o wstrzymaniu pomaga ocenić zdolność modelu do uogólniania danych innych niż na których trenowano. Utrata oczekiwania na czas oczekiwania zapewnia oszacowania straty w niewidocznym zbiorze danych niż utrata na w zbiorze treningowym.

host

#TensorFlow
#GoogleCloud

Podczas trenowania modelu ML na elementach akceleratora (GPU lub TPU), część systemu, która kontroluje oba te elementy:

  • Ogólny przepływ kodu.
  • Wyodrębnianie i przekształcanie potoku wejściowego.

Host zazwyczaj działa na procesorze, a nie na akceleratorze. device manipuluje tensorami układy akceleratora.

hiperparametr

#fundamentals

Zmienne używane przez Ciebie lub usługę dostrajania hiperparametrów może się dostosować podczas kolejnych etapów trenowania modelu. Przykład: szybkość uczenia się jest hiperparametrem. Możesz ustaw tempo uczenia się na 0,01 przed jedną sesją treningową. Jeśli że 0,01 to za wysoka wartość, możesz ustawić ustaw współczynnik na 0,003 dla kolejnej sesji szkoleniowej.

Parametry to natomiast różne wagi i uprzedzenia, które model uczy się podczas trenowania.

hiperlane

Granica, która dzieli pokój na 2 podprzestrzenie. Na przykład linia to w dwóch wymiarach, a płaszczyzna jest hiperlane w trzech wymiarach. Najczęściej w przypadku uczenia maszynowego hiperlane to granica, która oddziela wielkowymiarową przestrzeń. Użycie maszyn wektorowych obsługujących jądra do oddzielania klas pozytywnych od ujemnych, często w bardzo wielkowymiarową przestrzeń.

I

i.i.d.

Skrót oznaczający dystrybucję niezależną i identycznie.

rozpoznawanie obrazów

#image

Proces, który klasyfikuje obiekty, wzorce lub pojęcia na obrazie. Rozpoznawanie obrazów jest też nazywane klasyfikacją obrazów.

Więcej informacji: ML Practicum: Image Classification.

niezrównoważony zbiór danych

Synonim zbioru danych o nierównowadze klas.

nieświadome uprzedzenia

#fairness

Automatyczne tworzenie skojarzeń lub założeń na podstawie czyjegoś umysłu i wspomnień. Nieświadome uprzedzenia mogą wpływać na:

  • Jak dane są zbierane i klasyfikowane.
  • Jak są projektowane i rozwijane systemy uczące się.

Gdy na przykład tworzysz klasyfikator do identyfikowania zdjęć ślubnych, inżynier może wykorzystać obecność na zdjęciu obecności białej sukni jako elementu elementu. Białe sukienki były jednak zwyczajem tylko w niektórych epokach, w określonych kulturach.

Zobacz też odchylenie potwierdzenia.

przypisywanie udziału w konwersji

Skrót w postaci metody określania wartości.

niezgodność wskaźników obiektywności

#fairness

Przekonanie, że niektóre pojęcia uczciwości są wzajemnie niezgodne nie mogą być spełnione jednocześnie. Dzięki temu nie istnieje jeden uniwersalne dane do oceny obiektywności. które można zastosować w przypadku wszystkich problemów z ML.

Może to wydawać się zniechęcające, ale niezgodność wskaźników obiektywności nie oznacza, że wysiłki związane z uczciwością są bezcelowe. Zamiast tego sugeruje że sprawiedliwość musi być definiowana kontekstowo w przypadku danego problemu ML, aby zapobiec szkodom w odpowiednich przypadkach użycia.

Patrz sekcja „Na (brak) możliwości obiektywności”, aby zapoznać się z bardziej szczegółowymi informacjami na ten temat.

uczenie się w kontekście

#language
#generativeAI

Synonim promptów typu „few-shot”.

są rozkładane niezależnie i identycznie (np.)

#fundamentals

Dane pobrane z rozkładu, który się nie zmienia, i gdzie każda wartość nie zależą od wartości, które zostały wcześniej narysowane. Identyfikator to gaz idealny maszyny uczenie się – przydatny, ale prawie nigdy nie znaleziony konstrukt matematyczny w świecie rzeczywistym. Na przykład rozkład użytkowników na stronę internetową mogą być i.i.d. w krótkim okresie, oznacza to, że rozkład w tym krótkim okresie, a wizyta jednej osoby jest zwykle niezależnie od wizyty innego użytkownika. Jeśli jednak rozszerzysz przedział czasu, mogą pojawić się sezonowe różnice w liczbie użytkowników strony.

Zobacz też artykuł o niestacjonarności.

obiektywność indywidualna

#fairness

Wskaźnik obiektywności, który sprawdza, czy podobne osoby zostały sklasyfikowane podobnie jak w przyszłości. Akademia Brobdingnagian może np. chcieć dostosować sprawiedliwej sytuacji, przez co 2 uczniów z tymi samymi ocenami i ustandaryzowane wyniki testów mają takie samo szanse na przyjęcie do programu.

Pamiętaj, że sprawiedliwość indywidualna zależy w całości od tego, jak zdefiniujesz „podobieństwo”. (w tym przypadku oceny i wyniki testów). Możesz ryzykować nowe problemy związane z obiektywnością, jeśli wskaźnik podobieństwa nie uwzględnia ważnych informacje (takie jak rygorystyczny program nauczania).

Zobacz „Obiektywność przez” Awareness, aby zapoznać się z bardziej szczegółowymi informacjami na ten temat.

wnioskowanie

#fundamentals

W uczeniu maszynowym proces prognozowania z zastosowaniem wytrenowanego modelu do przykładów bez etykiet.

Wnioskowanie ma w statystykach nieco inne znaczenie. Zobacz Więcej informacji znajdziesz w artykule o wnioskowaniu statystycznym w Wikipedii.

ścieżka wnioskowania

#df

W drzewie decyzji podczas wnioskowania trasa konkretnego przykładu z root do innych warunków, które kończą się ciągiem liść. W poniższym drzewie decyzyjnym wymiar grubsze strzałki wskazują ścieżkę wnioskowania dla przykładu z następującym wartości cech:

  • x = 7
  • y = 12
  • Z = -3

Ścieżka wnioskowania na ilustracji poniżej przebiega przez trzy przed dotarciem do liścia (Zeta).

Drzewo decyzyjne złożone z 4 warunków i 5 liści.
          Warunek pierwiastka to (x > 0). Odpowiedź brzmi Tak,
          ścieżka wnioskowania biegnie od pierwiastka do następnego warunku (y > 0).
          Ponieważ odpowiedź brzmi „Tak, ścieżka wnioskowania” przechodzi do funkcji
          następny warunek (z > 0). Ponieważ odpowiedź brzmi „Nie”, ścieżka wnioskowania
          dociera do węzła końcowego, którym jest liść (Zeta).

Trzy grube strzałki wskazują ścieżkę wnioskowania.

zdobycie informacji

#df

W kategorii Decyzje lasy różnica między entropii węzła i ważonej (według liczby przykładów) sumę entropii jego węzłów podrzędnych. Entropia węzła jest entropią w tym węźle.

Weźmy na przykład te wartości entropii:

  • entropia węzła nadrzędnego = 0,6
  • entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
  • entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1

40% przykładów znajduje się w jednym węźle podrzędnym, a 60% w węźle. innego węzła podrzędnego. Dlatego:

  • ważona suma entropii węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Uzyskanie informacji jest więc takie:

  • wzrost informacji = entropia węzła nadrzędnego - ważona suma entropii węzłów podrzędnych
  • wzmocnienie informacji = 0,6 - 0,14 = 0,46

Większość rozdzielaczy ma na celu tworzenie warunków które zapewniają maksymalne korzyści.

efekt w grupie

#fairness

Pokazanie stronniczości własnej grupy lub własnych cech. Jeśli testerzy lub oceniający to znajomi dewelopera systemów uczących się, rodziny lub współpracowników, uprzedzenia w grupie mogą unieważnić testy produktów lub zbioru danych.

Tendencyjność w grupie to forma grupowy efekt atrybucji. Zobacz też dyskretne podejście do jednorodności poza grupą.

generator danych wejściowych

Mechanizm, za pomocą którego dane są wczytywane do sieci neuronowej.

Generator danych wejściowych można traktować jako komponent odpowiedzialny za przetwarzanie nieprzetworzone dane do tensorów, które są powtarzane w celu wygenerowania wsadów trenowanie, ocenę i wnioskowanie.

warstwa wejściowa

#fundamentals

Warstwa sieci neuronowej, która zawiera wektor cech. Oznacza to, że warstwa wejściowa zawiera przykłady szkoleń lub wnioskowania. Na przykład warstwa wejściowa w tym Sieć neuronowa składa się z 2 elementów:

4 warstwy: warstwa wejściowa, dwie warstwy ukryte i warstwa wyjściowa.

stan w zestawie

#df

W drzewie decyzji warunek który sprawdza obecność jednego elementu w zestawie. Oto przykładowy warunek w zestawie:

  house-style in [tudor, colonial, cape]

Podczas wnioskowania, jeśli wartość cech w stylu domu wynosi tudor, colonial lub cape, ten warunek przyjmuje wartość Tak. Jeśli wartość obiektu w stylu domu jest inna (np. ranch), ten warunek przyjmuje wartość Nie.

Określone warunki pozwalają zwykle na tworzenie bardziej skutecznych drzew decyzyjnych niż w których testują funkcje kodowane jednym gorąco.

instancja

Synonim wyrażenia przykład.

dostrajanie instrukcji

#generativeAI

Forma dostrajania, która poprawia Zdolność modelu generatywnej AI do śledzenia za instrukcje. Dostrajanie instrukcji obejmuje trenowanie modelu na serii promptów, zwykle obejmujących szeroki zakres wiele różnych zadań. Powstały w ten sposób model dostrojony do instrukcji generować przydatne odpowiedzi na prompty typu „zero-shot”, do różnych zadań.

Porównaj z:

interpretowalność

#fundamentals

Umiejętność wyjaśnienia lub przedstawienia rozumowania modelu ML w zrozumiałe dla człowieka.

Na przykład większość modeli regresji liniowej zrozumiałe. (Wystarczy wziąć pod uwagę wytrenowane ciężary dla każdego feature.) Lasy decyzyjne są też bardzo czytelne. Niektóre modele wymagają zaawansowanej wizualizacji, aby była interpretowalna.

Za pomocą Narzędzie do interpretowalności (LIT) na potrzeby interpretowania modeli ML.

umowa międzyocenowa

Pomiar częstotliwości, z jaką weryfikatorzy zgadzają się podczas wykonywania zadania. Jeśli oceniający się nie zgadzają, konieczne może być ulepszenie instrukcji dotyczących zadania. Czasami nazywana jest też umową międzyautorami adnotacji. niezawodności Google, Zobacz też Cohena kappa, To jedna z najpopularniejszych metod pomiaru umów między uczestnikami umów.

przecięcie zbiorów (IoU)

#image

Przecięcie dwóch zbiorów podzielone przez ich sumę. W systemach uczących się funkcji wykrywania obrazów, IoU służy do pomiaru dokładności modelu przewidywanej ramki ograniczającej w odniesieniu do ramki ograniczającej ground-truth. W tym przypadku współczynnik IoU dla tych dwóch pól to stosunek obszaru nakładającego się do całkowitej powierzchni, jego wartość mieści się w zakresie od 0 (brak nakładania się prognozowanej ramki ograniczającej i danych podstawowych ramka ograniczająca) na 1 (przewidywana ramka ograniczająca i ramka ograniczająca dane podstawowe (ground truth) te same współrzędne).

Oto przykład:

  • Prognozowana ramka ograniczająca (współrzędne ograniczające miejsce, w którym model (rysunek znajduje się na stoliku nocnym) jest zaznaczony na fioletowo.
  • Ramka ograniczająca dane podstawowe (ground truth), czyli współrzędne określające miejsce, tabeli na obrazie) jest zaznaczone na zielono.

Obraz Van Gogha w sypialni Vincenta w Arles, na którym znajdują się
          Stoliki ograniczające stoliki przy łóżku. Dane podstawowe
          ramka ograniczająca (w kolorze zielonym) idealnie opisuje stół nocny. 
          przewidywana ramka ograniczająca (w kolorze fioletowym) jest przesunięta o 50% w dół i w prawo
          ramki ograniczającej dane podstawowe (ground truth), obejmuje prawą dolną ćwiartkę
          podczas nocnego stolika, ale przegapia resztę stołu.

W tym przypadku przecięcie ramek ograniczających na potrzeby prognozowania i danych podstawowych (na dole po lewej) wynosi 1 i suma ramek ograniczających prognozy i dane podstawowe (ground truth) (poniżej po prawej stronie) wynoszą 7, więc współczynnik IoU to \(\frac{1}{7}\).

Taki sam obraz jak powyżej, ale każda ramka ograniczająca jest podzielona na cztery części.
          ćwiartki. W prawym dolnym rogu
znajduje się siedem
          kwadrant ramki ograniczającej dane podstawowe (ground truth) i lewego górnego rogu
          kwadrant przewidywanej ramki ograniczającej nakłada się na siebie. Ten
          nakładająca się sekcja (zaznaczona na zielono) przedstawia
          i ma powierzchnię 1. Taki sam obraz jak powyżej, ale każda ramka ograniczająca jest podzielona na cztery części.
          ćwiartki. W prawym dolnym rogu
znajduje się siedem
          kwadrant ramki ograniczającej dane podstawowe (ground truth) i lewego górnego rogu
          kwadrant przewidywanej ramki ograniczającej nakłada się na siebie.
          Całe wnętrze otoczone obiema ramkami ograniczającymi
          (zaznaczone na zielono) oznacza sumę i zawiera
          czyli obszar 7.

IoU

Skrót oznaczający przecięcie nad sumą.

macierz elementów

#recsystems

W systemach rekomendacji macierz wektorów dystrybucyjnych wygenerowanych przez rozkład macierzy z ukrytymi sygnałami dotyczącymi każdego elementu. Każdy wiersz macierzy elementów zawiera wartość pojedynczego utajonego dla wszystkich elementów. Weźmy na przykład system rekomendacji filmów. Każda kolumna matrycy elementów oznacza jeden film. Utajone sygnały mogą reprezentować gatunki lub być trudniejsze do zinterpretowania które obejmują złożone interakcje między gatunkami, gwiazdami wieku filmu lub innych czynników.

Macierz elementów ma taką samą liczbę kolumn jak miejsce docelowe która jest obliczana na czynniki pierwsze. Na przykład dla filmu system rekomendacji oceniający 10 000 tytułów filmów, macierz elementów będzie zawierać 10 000 kolumn.

items

#recsystems

W systemie rekomendacji jednostki, które co zaleca system. Na przykład filmy to produkty dostępne w sklepie z filmami. polecane przez księgarnię, natomiast książki to produkty polecane przez księgarnię.

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modeluwagi i odchylenia podczas szkoleń. Rozmiar grupy określa liczbę przykładów, które model przetwarza w ramach jednej iteracji. Przykład: jeśli wielkość wsadu to 20, model przetworzy 20 przykładów wcześniej dostosować parametry.

podczas trenowania sieci neuronowej, pojedyncza iteracja; obejmuje 2 karty:

  1. Przekazywanie dalej w celu oceny straty w jednej wsadzie.
  2. przebieg wsteczny (propagacja wsteczna), aby dostosować parametry modelu na podstawie utraty i tempa uczenia się.

J

JAX

Tablicowa biblioteka obliczeniowa łącząca XLA (Accelerated Linear Algebra) i automatyczne różnicowanie w przypadku wydajnych obliczeń numerycznych. JAX zapewnia prosty i wydajny Interfejs API do tworzenia przyspieszonego kodu liczbowego z przekształceniami kompozycyjnymi. JAX udostępnia takie funkcje jak:

  • grad (automatyczne rozróżnianie)
  • jit (kompilacja w sam raz)
  • vmap (automatyczna wektoryzacja lub grupowanie)
  • pmap (równoległe)

JAX to język wyrażania i tworzenia przekształceń liczbowych w postaci kodu analogicznego – ale znacznie większego – do NumPy języka Python bibliotece. (Biblioteka .numpy w języku JAX jest funkcjonalnie odpowiednikiem, ale całkowicie przeredagowaną wersję biblioteki Pythona NumPy).

JAX szczególnie dobrze nadaje się do przyspieszenia wielu zadań związanych z systemami uczącymi się. Przekształcanie modeli i danych w formę nadającą się do równoległości w GPU i układach akceleratora w GPU i TPU.

Flax, Optax, Pax i wiele innych które są oparte na infrastrukturze JAX.

K

Keras

Popularny interfejs API systemów uczących się w języku Python. Keras działa na kilka platform deep learning, w tym TensorFlow, dostępne jako tf.keras.

Maszyny wektorowe obsługujące jądra (KSVM)

Algorytm klasyfikacji mający na celu zmaksymalizowanie marży między pozytywne nastawienie, klasy ujemne przez mapowanie wektorów danych wejściowych w przestrzeń przestrzenną. Rozważmy na przykład klasyfikację. w którym wejściowy zbiór danych ma sto funkcji. Aby zmaksymalizować marżę między z klasą dodatnią i negatywną, KSVM może wewnętrznie zmapować te cechy w milionowej przestrzeni. Serwery KSVM używają funkcji utraty o nazwie utraty zawiasu.

najważniejsze punkty

#image

Współrzędne konkretnych cech na zdjęciu. Na przykład w przypadku adresu rozpoznawania obrazów, który wyróżnia z gatunków kwiatowych, najważniejsze informacje mogą być centralnym punktem każdego płatka, łodygą pręcik i tak dalej.

krzyżowa walidacja krzyżowa

Algorytm do prognozowania zdolności modelu uogólnij na podstawie nowych danych. Symbol k w części krzyżowej odnosi się do liczba równych grup, na które dzielisz przykłady zbioru danych; czyli trenujesz i przetestować swój model k razy. W każdej rundzie szkolenia i testów inna grupa jest zbiorem testowym, a pozostałe grupy stają się źródłem trenowania ustawiony. Po k rundy trenowania i testów oblicza się średnią i odchylenie standardowe wybranych danych testowych.

Załóżmy na przykład, że Twój zbiór danych składa się ze 120 przykładów. Dalej załóżmy, ustawiasz k na 4. Dlatego po przetasowaniu przykładów dzielisz zbiór danych na 4 równe grupy po 30 przykładów i prowadzisz 4 przykłady szkolenia i testy:

Zbiór danych podzielony na 4 równe grupy przykładów. W rundzie 1
          pierwsze 3 grupy są używane do trenowania, a ostatnia –
          jest używany do testowania. W rundzie 2 pierwsze 2 grupy i ostatnia
          grupy są używane do trenowania, a trzecia grupa jest używana do
          i testowania. W rundzie 3 pierwsza i 2 ostatnie grupy
          używana jest trenowanie, a druga grupa – do testowania.
          W rundzie 4 pierwsza grupa służy do testowania, a ostatnia
          do trenowania służą 3 grupy.

Na przykład błąd średniokwadratowy (MSE) może są najbardziej znaczącymi danymi dla modelu regresji liniowej. Dlatego obliczyłby średnią i odchylenie standardowe MSE ze wszystkich czterech rund.

średnie k

#clustering

popularny algorytm grupowania, który grupuje przykłady; w uczeniu nienadzorowanym. Algorytm k-średnich działa w taki sposób:

  • Iteracyjne określanie najlepszych punktów środkowych k (znane takich jak centroidy).
  • Przypisuje każdy przykład do najbliższego centroidu. Te przykłady są najbliżej ten sam centroid należy do tej samej grupy.

Algorytm k-średni wybiera lokalizacje centroidów, by zminimalizować kwadrat odległości od każdego przykładu do jego najbliższego środka masywności.

Weźmy na przykład taki wykres przedstawiający wysokość psa i jego szerokość:

Wykres kartezjański z kilkunastoma punktami danych.

Jeśli k=3, algorytm k-średniów określi trzy centroidy. Każdy przykład jest przypisany do najbliższego centroidu, co daje 3 grupy:

Ten sam wykres kartezjański jak na poprzedniej ilustracji, z wyjątkiem
          po dodaniu trzech centroidów.
          Poprzednie punkty danych są podzielone na 3 odrębne grupy:
          gdzie każda grupa reprezentuje punkty danych najbliższe określonej
          centroid.

Załóżmy, że producent chce określić idealne rozmiary dla małych, średnie i duże swetry dla psów. Trzy centroidy określają średnią wysokości i średniej szerokości każdego psa w tej grupie. Producent powinieneś kierować swetry na te 3 centroidy. Pamiętaj, że centroid klastra zwykle nie jest jego przykładem.

Poprzednie ilustracje przedstawiają k-średnie w przykładach z tylko dwie cechy (wysokość i szerokość). Pamiętaj, że k-średnie mogą grupować przykłady w wielu funkcjach.

mediana k

#clustering

Algorytm grupowania ściśle powiązany z parametrami k-średnie. praktyczna różnica między nimi jest taka:

  • W k-średnich centroidy są określane przez zminimalizowanie sumy wartości kwadraty odległości między kandydującym obiektem do centroidu a każdą z wartości i jej przykładach.
  • W k-medianie centroidy są określane przez zminimalizowanie sumy wartości odległość między kandydującym obiektem centroidu a każdym jego przykładem.

Pamiętaj, że definicje odległości są też inne:

  • k-średnia opiera się na Odległość euklidesowa od centroidu. (W dwóch wymiarach wartość euklidesowa odległość oznacza użycie twierdzenia Pitagorasa do obliczenia przeciwprostokątną). Na przykład wartość k-oznacza odległość między (2,2) oraz (5,-2) to:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-mediana zależy od odległości od Manhattanu od centroidu do przykładu. Ta odległość jest sumą bezwzględne delta każdego wymiaru. Na przykład k-mediana odległość między (2,2) a (5,-2) to:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularyzacja L0

#fundamentals

Rodzaj regularizacji, nakłada karę na łączną liczbę wag innych niż zero w modelu. Na przykład model o 11 wagach innych niż zero otrzymałaby karę więcej niż w przypadku podobnego modelu o 10 wagach innych niż zero.

Regularyzacja L0 jest czasami nazywana regulacją normy L0.

Strata L1

#fundamentals

Funkcja straty, która oblicza wartość bezwzględną różnicy między rzeczywistymi wartościami label i wartości prognozowane przez model. Przykład: obliczanie straty L1 dla grupy składającej się z 5 przykłady:

Rzeczywista wartość przykładu Prognozowana wartość modelu Wartość bezwzględna delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = strata L1

Utrata L1 jest mniej wrażliwa na wartości odstające niż L2 strata.

Średni błąd bezwzględny to średnia wartość. Strata L1 na przykład.

Regularyzacja L1

#fundamentals

Rodzaj regularizacji, który powoduje nałożenie kary. wagi proporcjonalne do sumy wartości bezwzględnej wag. Regularyzacja L1 pomaga zwiększać wagę nieistotnych elementów lub prawie nieistotne, aby dokładnie 0. Funkcja z: waga równa 0 zostaje skutecznie usunięta z modelu.

Różnica z L2 regularyzacją.

Strata L2

#fundamentals

Funkcja straty, która oblicza kwadrat różnicy między rzeczywistymi wartościami label i wartości prognozowane przez model. Przykład: obliczanie straty L2 dla grupy składającej się z 5 przykłady:

Rzeczywista wartość przykładu Prognozowana wartość modelu Kwadrat delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = strata L2

Z powodu kwadratów strata L2 zwiększa wpływ wartości odstające: Oznacza to, że strata L2 reaguje silniej na błędne prognozy niż L1 strata. Na przykład strata L1 dla poprzedniej partii będzie 8, a nie 16. Zwróć uwagę, że w jednym miejscu 9 z 16 wyników.

Modele regresji zwykle używają utraty L2 .

Błąd średniokwadratowy to średnia wartość Strata L2 na przykład. Utrata kwadratowa to inna nazwa straty L2.

Regularyzacja L2

#fundamentals

Rodzaj regularizacji, który powoduje nałożenie kary. wagi proporcjonalnie do sumy ich kwadratów. Regularyzacja L2 pomaga osiągać odstające wagi (te z wysokimi lub niskimi wartościami ujemnymi) bliskimi 0, ale nie do 0. Cechy o wartościach bardzo bliskich 0 pozostają w modelu ale nie wpływają zbytnio na prognozę modelu.

Regularyzacja L2 zawsze poprawia uogólnianie modele liniowe.

Różnica z L1 regularyzacją.

etykieta

#fundamentals

W nadzorowanych systemach uczących się „odbierz” lub „wynik” w przykładzie.

Każdy przykład oznaczony etykietą zawiera co najmniej jeden element funkcje i etykietę. Na przykład w folderze Spam wykrywania w zbiorze danych do wykrywania treści, etykieta miałaby prawdopodobnie wartość „spam” lub „nie spam”. W zbiorze danych „deszczownica” etykieta może być wartością deszcz, który padał w danym okresie.

przykład z etykietami

#fundamentals

Przykład zawierający co najmniej 1 funkcję oraz label. Na przykład w tabeli poniżej podano 3 z nich: oznaczone etykietami przykłady z modelu wyceny domu, z których każda zawiera 3 cechy i 1 etykieta:

Liczba sypialni Liczba łazienek Wiek domowy Cena domu (etykieta)
3 2 15 345 000 PLN
2 1 72 179 000 PLN
4 2 34 392 000 PLN

W przypadku nadzorowanych systemów uczących się modele trenują na przykładach oznaczonych etykietami i generują prognozy przykłady bez etykiet.

Przykład oznaczony kontrastem z przykładami bez etykiet.

wyciek etykiet

Błąd w projekcie modelu, w którym funkcja jest pośrednikiem label. Weź na przykład pod uwagę Model klasyfikacji binarnej prognozujący czy potencjalny klient kupi dany produkt. Załóżmy, że jedna z cech modelu jest wartością logiczną o nazwie SpokeToCustomerAgent Załóżmy też, że klient klienta jest tylko przypisany po zakupie przez potencjalnego klienta usługi. Podczas trenowania model szybko nauczy się powiązania między SpokeToCustomerAgent a etykietą.

lambda

#fundamentals

Synonim współczynnika regularyzacji.

Lambda to termin przeciążony. Skupiamy się na tym haśle definicji w ramach regularizacji.

LaMDA (Language Model for Dialogue Applications)

#language

Oparta na Transformer duży model językowy opracowany przez Google i wytrenowany na duży zbiór danych dialogowych, który może generować realistyczne odpowiedzi konwersacyjne.

LaMDA: przełomowa rozmowa znajdziesz ogólny opis.

punkty orientacyjne

#image

Synonim punktów kluczowych.

model językowy

#language

Model, który szacuje prawdopodobieństwo wystąpienia tokenu lub sekwencji tokenów występujących w dłuższej sekwencji tokenów.

duży model językowy

#language

Co najmniej model językowy z bardzo dużą liczbą parametrów. Bardziej nieformalnie model językowy oparty na Transformer, taki jak Gemini lub GPT.

przestrzeń utajona

#language

Synonim terminu umieszczanie miejsca.

warstwa

#fundamentals

Zbiór neuronów sieci neuronowej. Trzy najczęstsze typy warstw są następujące:

Na przykład na ilustracji poniżej przedstawiono sieć neuronowa jedną warstwę wejściową, dwie warstwy ukryte i jedną warstwę wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 warstwami ukrytymi i 1
          warstwę wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwszy
          ukryta warstwa składa się z trzech neuronów i drugiej
          składa się z dwóch neuronów. Warstwa wyjściowa składa się z jednego węzła.

W TensorFlow warstwy są również funkcjami w języku Python, które pobierają Tensors i opcje konfiguracji jako dane wejściowe w postaci danych wyjściowych innych tensorów.

Warstwy API (tf.layers)

#TensorFlow

Interfejs TensorFlow API do tworzenia deep sieci neuronowej jako kompozycję warstw. Interfejs Warstwy API pozwala tworzyć typy warstw, takie jak:

Interfejs Warstwy jest zgodny z konwencjami interfejsu API warstw Keraswarstwowymi. Oznacza to, że oprócz innego prefiksu wszystkie funkcje w interfejsie Warstwy API mają te same imiona i nazwiska i podpisy co ich odpowiedniki w Keraście warstw API.

liść

#df

Dowolny punkt końcowy w drzewie decyzji. Usuń polubienie condition, liść nie przeprowadza testu. Możliwy jest raczej liść. Liść to także terminal węzeł ścieżki wnioskowania.

Na przykład następujące drzewo decyzyjne zawiera 3 liści:

Drzewo decyzyjne z 2 warunkami prowadzącymi do trzech liści.

Narzędzie do analizowania interpretowalności (LIT)

Wizualne, interaktywne narzędzie do rozumienia modeli i wizualizacji danych.

Możesz użyć oprogramowania LIT typu open source, interpretować modele ani wizualizować tekstu, obrazu i obrazu, dane w formie tabeli.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która określa zjawisko gradientu. jak silnie dostosować wagi i uprzedzenia dla każdego iteracja. Na przykład tempo uczenia się na poziomie 0, 3 3 razy mocniej dostosowują wagi i odchylenia niż tempo uczenia się wynosi 0,1.

Tempo uczenia się to kluczowy hiperparametr. Jeśli ustawisz tempo uczenia się jest zbyt niskie, trenowanie zajmie za długo. Jeśli jeśli ustawisz zbyt wysokie tempo uczenia się, zejście gradientowe często powoduje problemy. i osiągać zgodność.

regresja metodą najmniejszych kwadratów

Model regresji liniowej wytrenowany przez minimalizację L2 Utrata.

jednostajne

#fundamentals

Relacja między co najmniej 2 zmiennymi, którą można przedstawić wyłącznie przez dodawanie i mnożenie.

Wykres zależności liniowej jest linią.

Przeciwieństwem są nonlinear.

model liniowy

#fundamentals

Model, który przypisuje jedną wagę każdemu feature do prognozowania. (Modele liniowe uwzględniają też uprzedzenia). W przeciwieństwie do tego: związek cech z prognozami w modelach szczegółowych jest zwykle nonlinear.

Modele liniowe są zwykle łatwiejsze do wytrenowania i nie tylko interpretowalne niż modele głębokie. Pamiętaj jednak: modele głębokie mogą uczyć się złożonych relacji między cechami.

Regresja liniowa oraz regresja logistyczna to 2 rodzaje modeli liniowych.

regresja liniowa

#fundamentals

Typ modelu systemów uczących się, w którym spełnione są oba te warunki:

Porównaj regresję liniową z regresją logistyczną. Dodatkowo regresja kontrastowa dzięki klasyfikacji.

LIT

Skrót od operatora Narzędzie do interpretowalności (LIT), które wcześniej nazywało się narzędziem do interpretowalności języka.

LLM

#language
#generativeAI

Skrót od large model Language (duży model językowy).

Oceny LLM (oceny)

#language
#generativeAI

Zestaw danych i testów porównawczych do oceny skuteczności dużych modeli językowych (LLM). Mówiąc ogólnie, Oceny LLM:

  • Pomóż badaczom zidentyfikować obszary, w których modele LLM wymagają ulepszenia.
  • Są przydatne do porównywania różnych modeli LLM i identyfikowania najlepszego danego zadania.
  • Pomóż zapewnić, że duże modele językowe są bezpieczne i etyczne w użyciu.
.

regresja logistyczna

#fundamentals

Typ modelu regresji, który prognozuje prawdopodobieństwo. Modele regresji logistycznej mają te cechy:

  • Etykieta jest kategoryczna. Termin logistyka Termin regresja odnosi się zwykle do binarnej regresji logistycznej, czyli w modelu, który oblicza prawdopodobieństwo dla etykiet o 2 możliwych wartościach. Mniej popularny wariant, wielomianowa regresja logistyczna, oblicza prawdopodobieństwa dla etykiet z więcej niż 2 możliwymi wartościami.
  • Funkcja utraty podczas trenowania to Log Loss (Utrata logów). (Wiele jednostek utraty logów można umieścić równolegle dla etykiet z więcej niż dwiema możliwymi wartościami).
  • Model ma architekturę liniową, a nie głęboką sieć neuronowa. Pozostała część tej definicji ma jednak zastosowanie również modele precyzyjne, które prognozują prawdopodobieństwa dla etykiet kategorialnych.

Weźmy na przykład model regresji logistycznej, który oblicza prawdopodobieństwo, że wpisany e-mail jest spamem lub nie jest spamem. Podczas wnioskowania załóżmy, że model przewiduje 0,72. Dlatego model szacuje:

  • 72% prawdopodobieństwa, że e-mail będzie spamem
  • 28% szans, że e-mail nie jest spamem.

Model regresji logistycznej wykorzystuje tę architekturę dwuetapową:

  1. Model generuje nieprzetworzoną prognozę (y') przez zastosowanie funkcji liniowej cech wejściowych.
  2. Model używa tej nieprzetworzonej prognozy jako danych wejściowych funkcja sigmoidalna, która konwertuje nieprzetworzoną dla prognozy na wartość z zakresu od 0 do 1 wyłącznie.

Podobnie jak każdy model regresji, model regresji logistycznej przewiduje liczbę. Jednak ta liczba zwykle staje się częścią klasyfikacji binarnej model w następujący sposób:

  • Jeśli prognozowana liczba jest większa niż próg klasyfikacji, model klasyfikacji binarnej prognozuje klasę pozytywną.
  • Jeśli prognozowana liczba jest mniejsza niż próg klasyfikacji, model klasyfikacji binarnej prognozuje klasę ujemną.

logits

Wektor nieprzetworzonych (nieznormalizowanych) prognoz, które klasyfikuje model jest generowany, który jest zwykle przekazywany do funkcji normalizacji. Jeśli model wykrywa klasyfikację wieloklasową logiki stają się zwykle danymi wejściowymi dla Funkcja softmax. Funkcja softmax generuje następnie wektor o wartości (znormalizowanej) prawdopodobieństwa z jedną wartością dla każdej możliwej klasy.

Logarytmiczna funkcja utraty danych

#fundamentals

Funkcja straty używana w formacie binarnym. regresji logistycznej.

log-odds,

#fundamentals

Logarytm prawdopodobieństwa wystąpienia określonego zdarzenia.

Pamięć długoterminowa (LSTM)

#seq

Typ komórki w argumencie powracająca sieć neuronowa używana do przetwarzania sekwencje danych w aplikacjach, takich jak rozpoznawanie pisma odręcznego, tłumaczenia i tytuły obrazów. LSTM dotyczy problem z znikającym gradientem, który występuje, gdy trenowanie członków RNN z powodu długich sekwencji danych dzięki utrzymaniu historii stan pamięci wewnętrznej na podstawie nowych danych wejściowych i kontekstu z poprzednich komórek w RNN.

LoRA

#language
#generativeAI

Skrót od terminu Low-Rank Adaptability.

przegrana

#fundamentals

Podczas szkolenia model nadzorowany, czyli miara odległości prognoza modelu pochodzi z etykiety.

Funkcja straty oblicza stratę.

agregator strat

Typ algorytmu uczenia maszynowego, który poprawia wydajność modelu. przez połączenie prognoz wielu modeli na podstawie tych danych do stworzenia pojedynczej prognozy. W rezultacie agregator strat może zmniejszyć wariancję prognoz i aby poprawić dokładność prognoz.

krzywa straty

#fundamentals

Wykres straty jako funkcja liczby treningów iteracji. Ten wykres przedstawia typową stratę krzywa:

Kartezyjski wykres strat i iteracji treningowych, przedstawiający
          gwałtowny spadek utraty danych w pierwszych iteracjach, po którym następuje stopniowy spadek
          spadek, a potem płaski spadek podczas ostatnich iteracji.

Krzywe straty pomagają określić, kiedy model zbędne lub nadmierne dopasowanie.

Krzywe straty mogą wykreślać wszystkie te typy strat:

Zobacz też krzywą uogólnienia.

funkcja straty

#fundamentals

Podczas szkolenia lub testowania funkcja matematyczna, która oblicza z grupą przykładów. Funkcja utraty zwraca mniejszą stratę dla modeli, które generują dobre prognozy, niż dla modeli, które złych prognoz.

Celem trenowania jest zazwyczaj zminimalizowanie utraty funkcji „powrót karetki”.

Istnieje wiele różnych rodzajów funkcji utraty. Wybierz odpowiednią stratę dla rodzaju tworzonego modelu. Na przykład:

powierzchnia straty

Wykres przedstawiający stosunek wagi do wagi. Efekt gradientu ma na celu aby określić wagę, dla której powierzchnia straty wynosi lokalne minimum.

Dostosowanie niskiego rankingu (LoRA)

#language
#generativeAI

Algorytm wykonywania efektywne dostrajanie parametrów, dostrajania tylko w przypadku parametrów dużego modelu językowego. LoRA zapewnia te korzyści:

  • Dostrajanie odbywa się szybciej niż w przypadku technik wymagających dostrajania wszystkich .
  • Zmniejsza koszty obliczeniowe wnioskowania w dostrojony model.

Model dostrojony przy użyciu LoRA utrzymuje lub poprawia jakość prognoz.

LoRA umożliwia korzystanie z wielu wyspecjalizowanych wersji modelu.

LSTM

#seq

Skrót od Long Short-Term Memory.

M

systemy uczące się

#fundamentals

Program lub system, który szkoli model na podstawie danych wejściowych. Wytrenowany model może tworzyć przydatne prognozy na podstawie nowych (nigdy wcześniej niewidzianych) danych pochodzących z taki sam rozkład, jaki został użyty do trenowania modelu.

Uczenie maszynowe odnosi się również do danej dziedziny nauki z tymi programami lub systemami.

klasa większości

#fundamentals

Im bardziej popularna etykieta w zbiór danych o niezbalansowaniu klasy. Przykład: dla zbioru danych zawierającego 99% etykiet negatywnych i 1% pozytywnych, etykiety negatywne są większością.

Wskaż kontrast z klasą mniejszości.

Proces podejmowania decyzji Markowa (MDP)

#rl

Wykres przedstawiający model podejmowania decyzji, w którym (lub działań), by poruszać się po sekwencji określa przy założeniu, że Blokady właściwości Markova. W wzmocnienie uczenia się przez wzmacnianie, między stanami zwracają liczbową nagrodę.

Właściwość Markowa

#rl

właściwość określonych środowisk, gdzie stan przejścia są w całości ustalane na podstawie informacji ukrytych obecny stan i działanie agenta.

zamaskowany model językowy

#language

Model językowy, który prognozuje prawdopodobieństwo tokeny kandydujące, aby uzupełnić luki w sekwencji. Na przykład plik zamaskowany model językowy może obliczać prawdopodobieństwo dla słów kandydatów możesz zastąpić podkreślenie w następującym zdaniu:

____ w kapeluszu wróciła.

W literaturze zwykle używany jest ciąg „MASK” zamiast podkreślenia. Na przykład:

„MASK” wrócił do kapelusza.

Większość współczesnych modeli językowych maskowanych działa dwukierunkowo.

matplotlib

Biblioteka open source do tworzenia wykresów 2D w języku Python. matplotlib ułatwia wizualizację różnych aspektów uczenia maszynowego.

rozkład na czynniki w postaci macierzy

#recsystems

W matematyce mechanizm znajdowania macierzy, których iloczyn skalarny przybliża lub macierz docelowych celów.

W systemach rekomendacji tablica docelowa często zawiera ocen w produktach. Na przykład wartość docelowa dla systemu rekomendacji filmów może wyglądać po nim, gdzie dodatnie liczby całkowite to oceny użytkowników, a 0 oznacza, że użytkownik nie ocenił filmu:

  Casablanca Historia Filadelfii Czarna Pantera Wonder Woman Pulp fiction
Użytkownik 1 5,0 3,0 0,0 2,0 0,0
Użytkownik 2 4.0 0,0 0,0 1,0 5,0
Użytkownik 3 3,0 1,0 4.0 5,0 0,0

System rekomendacji filmów ma na celu przewidywanie ocen użytkowników filmów bez oceny. Na przykład: czy Użytkownik 1 lubi Czarną Panterę?

Jedną z metod stosowanych w systemach rekomendacji jest stosowanie macierzy na czynniki w celu wygenerowania dwóch następujących macierzy:

Na przykład za pomocą rozkładu na 3 użytkowników i 5 elementów może zwrócić następującą macierz użytkowników i tablicę elementów:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Iloczyn skalarny macierzy użytkownika i tablicy elementów generuje rekomendację tablica zawierająca nie tylko oryginalne oceny użytkowników, ale również prognozy pod kątem filmów, których nie widział żaden użytkownik. Weźmy na przykład ocenę użytkownika 1 Casablanca, która wynosiła 5, 0. Kropka iloczyn odpowiadające tej komórce w macierzy rekomendacji powinien mam nadzieję, że będzie to mniej więcej 5.0 i będzie to:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Co ważniejsze, czy Użytkownik 1 lubi Czarną Panterę? Iloczyn skalarny odpowiadająca pierwszemu wierszowi, a trzecia kolumna daje prognozowany ocena 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Rozkład macierzy zazwyczaj generuje macierz użytkowników i elementy, które są znacznie bardziej zwarte niż macierz docelowy.

Średni błąd bezwzględny (MAE)

Średnia strata na przykład, gdy L1 strata wynosi . Oblicz średni błąd bezwzględny w ten sposób:

  1. Oblicz stratę L1 dla wsadu.
  2. Podziel stratę L1 przez liczbę przykładów w grupie.

Weźmy np. obliczenie straty L1 na tę partię pięciu przykładów:

Rzeczywista wartość przykładu Prognozowana wartość modelu Strata (różnica między rzeczywistą a prognozowaną)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = strata L1

Zatem strata L1 wynosi 8, a liczba przykładów to 5. Zatem średni błąd bezwzględny wynosi:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Kontrast średni błąd bezwzględny z średnim kwadratem błędów i Średnia kwadratowa błędów równania.

Błąd średniokwadratowy (MSE)

Średnia strata na przykład, gdy L2 strata wynosi . Oblicz błąd średni kwadrat w ten sposób:

  1. Oblicz stratę L2 dla wsadu.
  2. Podziel stratę L2 przez liczbę przykładów w grupie.

Weźmy na przykład stratę w tej partii składającej się z 5 przykładów:

Rzeczywista wartość Prognoza modelu Strata Kwadratowa strata
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = strata L2

W związku z tym błąd średniokwadratowy to:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Średni kwadrat błędów to popularny optymalizator trenowania. zwłaszcza w przypadku regresji liniowej.

Średni kwadrat kontrastu z Średni błąd bezwzględny oraz Średnia kwadratowa błędów równania.

TensorFlow Playground używa błędu średniego kwadratowego do obliczania wartości strat.

sieć typu mesh

#TensorFlow
#GoogleCloud

W programowaniu równoległym w ramach systemów uczących się termin związany z przypisywaniem danych i model na układy TPU oraz określanie sposobu, w jaki te wartości będą fragmentowane lub replikowane.

Siatka to termin przeciążony, który może oznaczać:

  • Fizyczny układ układów TPU.
  • Abstrakcyjny konstrukt logiczny do mapowania danych i modelu na TPU elementów.

W obu przypadkach siatka jest określana jako kształt.

metanauka

#language

Podzbiór systemów uczących się, które wykrywają lub ulepszają algorytm uczenia się. System metanaukowy może również dążyć do wytrenowania modelu w celu szybkiego uczenia się na podstawie niewielkiej ilości danych lub z doświadczenia zdobytego w poprzednich zadaniach. Algorytmy metalearningu zwykle dążą do:

  • Poznawaj lub ulepszaj ręcznie opracowane funkcje (takie jak inicjator lub optymalizatora).
  • zwiększyć wydajność przetwarzania danych i przetwarzania danych.
  • Popraw uogólnienie.

Meta-uczenie się jest związane z nauką krótkoterminową.

wskaźnik

#TensorFlow

Statystyka, na której Ci zależy.

Cel to wskaźnik, który określa system uczenia maszynowego stara się zoptymalizować.

Metrics API (tf.metrics)

Interfejs TensorFlow API do oceny modeli. Na przykład: tf.metrics.accuracy określa, jak często prognozy modelu pasują do etykiet.

minizbiorcza

#fundamentals

Mały, losowo wybrany podzbiór grup przetwarzany w jednym iteracja. Rozmiar grupy to zwykle od 10 do 1000 przykładów.

Załóżmy na przykład, że cały zbiór treningowy (pełna wsad) obejmuje 1000 przykładów. Załóżmy też, że ustawisz parametr rozmiar grupy każdej minigrupy do 20. Dlatego każde iteracja określa stratę na losowych 20 z 1000 przykładów,a następnie odpowiednio dostosowuje wagi i odchylenia.

Znacznie efektywniej obliczysz stratę w przypadku małych partii niż w przypadku wszystkich przykładów w całej partii.

minizbiorczy spadek stochastyczny z gradientem

algorytm opadania gradientowego, który wykorzystuje miniaturowe partie. Innymi słowy, niewielka partia stochastyczna gradient gradientowy oszacowuje gradient na podstawie niewielkiego podzbioru danych treningowych. Zwykłe zjawisko gradientu stochastycznego używa małe grupy 1 sztuk.

minimalna strata

Funkcja straty dla generatywne sieci kontradyktoryjne, na podstawie entropii krzyżowej między rozkładem generowanych i prawdziwych danych.

Wartość Minimax straty jest używana w pierwszą wersję artykułu, i generatywne sieci kontradyktoryjne.

klasa mniejszościowa

#fundamentals

Rzadziej używana etykieta w zbiór danych o niezbalansowaniu klasy. Przykład: dla zbioru danych zawierającego 99% etykiet negatywnych i 1% pozytywnych, etykiety dodatnie to klasa mniejszości.

Kontrast z klasą większości.

połączenie ekspertów

#language
#generativeAI

Schemat zwiększania wydajności sieci neuronowych przez używając tylko podzbioru parametrów (nazywanych ekspertem) do przetwarzania danego tokena lub przykładu wejściowego. O sieć bramkowa przekierowuje każdy token do wprowadzania danych lub przykład do odpowiednich ekspertów.

Szczegółowe informacje można znaleźć w tych artykułach:

ML

Skrót od terminu Machine Learning (uczenie maszynowe).

MMIT

#language
#image
#generativeAI

Skrót od multimodalny dostosowany do instrukcji.

MNIST,

#image

zbiór danych w domenie publicznej, skompilowany przez firmy LeCun, Cortes i Burges, zawierający 60 000 obrazów,z których każdy pokazuje, jak człowiek napisał określone cyfrę od 0 do 9. Każdy obraz jest zapisywany jako tablica 28x28 liczb całkowitych, przy czym każda liczba całkowita jest wartością skali szarości z zakresu od 0 do 255 włącznie.

MNIST to kanoniczny zbiór danych dla systemów uczących się, często używany do testowania nowych systemów uczących się. Więcej informacji: w bazie odręcznych cyfr (MNIST).

modalność

#language

Ogólna kategoria danych. Mogą to być na przykład liczby, tekst, obrazy, filmy oraz można wybrać jeden z 5 różnych modalności.

model

#fundamentals

Ogólnie każdy konstrukt matematyczny, który przetwarza dane wejściowe i zwroty dane wyjściowe. Inaczej mówiąc, model to zbiór parametrów i struktury jest niezbędna do generowania prognoz. W przypadku nadzorowanych systemów uczących się model bierze pod uwagę przykład jako dane wejściowe i wyciąga wartość prognoza jako dane wyjściowe. W ramach nadzorowanych systemów uczących się modele się nieco różnią. Na przykład:

  • Model regresji liniowej składa się ze zbioru wag. i uprzedzenia.
  • Model sieci neuronowej składa się z tych elementów:
    • Zestaw ukrytych warstw, z których każda zawiera jedną lub więcej neuronów.
    • Wagi i uprzedzenia związane z każdym neuronem.
  • Model drzewa decyzji składa się z tych elementów:
    • Kształt drzewa; czyli wzorca, w którym warunki i liście są połączone.
    • Warunki i opóźnienie.

Model możesz zapisać, przywrócić lub utworzyć jego kopie.

Nienadzorowane systemy uczące się generuje modele, zwykle funkcję, która może zmapować przykład danych wejściowych najbardziej odpowiedni klaster.

pojemność modelu

Złożoność problemów, których model może nauczyć się. Im bardziej złożone tym większy może być model. Model wydajność zwykle zwiększa się wraz z liczbą parametrów modelu. Dla formalna definicja zdolności klasyfikatora, zobacz Wymiar VC.

kaskadowe łączenie modeli

#generativeAI

System, który wybiera model idealny dla danego wnioskowania. zapytania.

Wyobraź sobie grupę modeli, od bardzo dużych (mnóstwo modeli parameters) na dużo mniejsze (znacznie mniej parametrów). Bardzo duże modele zużywają więcej zasobów obliczeniowych wnioskowania w porównaniu z mniejszymi modelami. Jednak bardzo duży mogą zwykle wnioskować bardziej złożone żądania niż mniejsze. Kaskadowe kaskady modelu określają złożoność zapytania wnioskowania, a następnie wybiera odpowiedni model do wnioskowania. Głównym powodem stosowania kaskadowego modelu atrybucji jest zmniejszenie kosztów wnioskowania przez wybierając mniejsze modele, a więcej – tylko większy. złożonych zapytań.

Załóżmy, że na telefonie działa mały model, a jego większa wersja. działa na zdalnym serwerze. Kaskadowe działanie modelu pozwala ograniczyć koszty i opóźnienia dzięki mniejszy model może obsługiwać proste żądania i wywoływać zdalny model obsługi złożonych żądań.

Zobacz też model routera.

równoległość modelu

#language

Sposób skalowania trenowania lub wnioskowania, który polega na umieszczaniu różnych części model na różnych urządzeniach. Równoległość modelu Umożliwiają modele, które są za duże, aby zmieścić się na jednym urządzeniu.

Aby wdrożyć równoległość modelu, system zwykle wykonuje te czynności:

  1. Fragmenty (dzielenie) modelu na mniejsze części.
  2. Rozdziela trenowanie tych mniejszych części na wiele procesorów. Każdy procesor trenuje własną część modelu.
  3. Łączy wyniki w celu utworzenia jednego modelu.

Równoległość modelu spowalnia trenowanie.

Zobacz też artykuł na temat równoległości danych.

model routera

#generativeAI

Algorytm, który określa idealny model dla wnioskowania w kaskadowym modelu atrybucji. Router modelu to zwykle model systemów uczących się, stopniowo uczy się, jak wybierać najlepszy model dla danych wejściowych. Jednak model routera może być czasem prostszy, algorytmem innym niż systemy uczące się.

trenowanie modelu

Proces wyboru najlepszego modelu.

Wykorzystanie chwili

zaawansowany algorytm przesuwania w dół, który wymaga etapu uczenia się. nie tylko pochodnej pochodnej w bieżącym kroku, ale również pochodnych bezpośrednio po nim. Wykorzystanie chwili wymaga wykładniczo ważona średnia ruchoma gradientów w czasie, analogicznie do pędu w fizyce. Wykorzystanie chwili nie pozwala na naukę w jakimś lokalnym zakresie.

MOE

#language
#image
#generativeAI

Skrót oznaczający mieszankę ekspertów.

klasyfikacja wieloklasowa

#fundamentals

W uczeniu nadzorowanym problem z klasyfikacją w których zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą być jedną z tych etykiet: 3 klasy:

  • Irys setosa
  • Irys wirginica
  • Irys w wersji versicolor

Model wytrenowany na zbiorze danych Iris, który prognozuje typ przesłony na nowych przykładach przeprowadza klasyfikację wieloklasową.

Z kolei problemy z klasyfikacją rozróżniają dokładnie dwa rodzaje danych. to binarne modele klasyfikacji. Na przykład model poczty e-mail, który przewiduje spam lub nie spam. to binarny model klasyfikacji.

W problemach klastrowania klasyfikacja wieloklasowa odnosi się do więcej niż dwóch klastrów.

wieloklasowa regresja logistyczna

Użyj regresji logistycznej w Zadania z klasyfikacją wieloklasową.

wielogłowa autouwaga

#language

Przedłużenie samouwagi, które polega na funkcję samouważności, wielokrotnie dla każdej pozycji w sekwencji wejściowej.

Platforma Transformers wprowadziła wielogłowową funkcję samodzielnej uwagi.

model multimodalny

#language

Model, którego dane wejściowe lub wyjściowe zawierają więcej niż jeden modalność. Rozważmy na przykład model, który uwzględnia zarówno obraz i podpis tekstowy (2 modalności) jako funkcje, zwraca wynik wskazujący stopień dopasowania podpisu tekstowego do obrazu. Dane wejściowe tego modelu są multimodalne, a dane wyjściowe są jednomodalne.

multimodalne dostosowane do instrukcji

#language

Model dostrojony według instrukcji, który może przetwarzać dane wejściowe poza tekstem, np. obrazami, filmami i dźwiękiem.

klasyfikacja wielomianowa

Synonim klasyfikacji wieloklasowej.

regresja wielomianowa

Synonim dla wieloklasowa regresja logistyczna.

wielozadaniowość

Technika systemów uczących się, w której pojedynczy model wytrenowanych do wykonywania wielu zadań.

Modele wielozadaniowe są tworzone przez trenowanie na danych, które są odpowiednie dla i wykonywać inne zadania. Dzięki temu model może nauczyć się udostępniać informacji ze wszystkich zadań, co pomaga modelowi efektywniej się uczyć.

Model wytrenowany pod kątem wielu zadań często wykazywał lepsze możliwości uogólniania i lepiej radzi sobie z różnymi typami danych.

N

Trap NaN

Gdy jedna liczba w modelu staje się NaN podczas trenowania, co powoduje, że wiele lub wszystkie pozostałe liczby w modelu a ostatecznie do bycia NaN.

NaN to skrót od Not a Number.

rozumienie języka naturalnego

#language

Określanie zamiarów użytkownika na podstawie tego, co wpisał lub powiedział. Na przykład wyszukiwarka używa rozpoznawania języka naturalnego do określać, czego szuka użytkownik, na podstawie tego, co wpisał lub powiedział.

klasa negatywna

#fundamentals

W klasyfikacji binarnej 1 klasa jest określanych jako pozytywne, a drugie – ujemnych. Klasa pozytywna to rzecz lub zdarzenie, pod kątem których testuje model, a klasa ujemna to innej możliwości. Na przykład:

  • Ocena negatywna w teście medycznym może oznaczać, że to nie guz.
  • Wykluczona klasa w klasyfikatorze e-mail może mieć stan „Nie spam”.

Wskaż kontrast z klasą pozytywną.

próbkowanie negatywne

Synonim terminu próbkowanie kandydatów.

Neural Architecture Search (NAS)

Technika automatycznego projektowania architektury sieci neuronowej. Algorytmy NAS mogą zmniejszyć ilość czas i zasoby potrzebne do wytrenowania sieci neuronowej.

NAS zazwyczaj używa:

  • Przestrzeń wyszukiwania, która jest zbiorem możliwych architektur.
  • Funkcja fitness, która pozwala sprawdzić, jak konkretna architektura wykonująca określone zadanie.

Algorytmy NAS często zaczynają się od niewielkiego zestawu możliwych architektur i stopniowo poszerzać zakres wyszukiwania, w miarę jak algorytm uczy się więcej są skuteczne. Funkcja fitness opiera się zwykle na wydajności architektury w zbiorze treningowym, a algorytm jest są zwykle trenowane z użyciem zdobywania przez wzmacnianie.

Algorytmy NAS okazały się skutecznym sposobem architektury do różnych zadań, w tym do obsługi obrazów klasyfikacja, klasyfikacja tekstu, czy tłumaczenie maszynowe.

sieć neuronowa

#fundamentals

Model zawierający co najmniej jeden ukrytą warstwę. Głęboka sieć neuronowa to typ sieci neuronowej. zawierające więcej niż jedną ukrytą warstwę. Na przykład ten diagram pokazuje głęboką sieć neuronową zawierającą 2 ukryte warstwy.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami
          warstwę wyjściową.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami w następnej warstwie. Na przykład na poprzednim diagramie widać, że każdy z 3 neuronów w pierwszej ukrytej warstwie łączą się oddzielnie z 2 neuronami drugą ukrytą warstwę.

Sieci neuronowe stosowane na komputerach są czasem nazywane sztucznych sieci neuronowych, aby odróżnić je od sieci neuronowych występujących w mózgu i innych układach nerwowych.

Niektóre sieci neuronowe mogą naśladować bardzo złożone relacje nieliniowe między różnymi cechami i etykietą.

Zobacz też splotową sieć neuronowa oraz powracającej sieci neuronowej.

neuron

#fundamentals

W systemach uczących się: odrębna jednostka w ukrytej warstwie. sieci neuronowej. Każdy neuron wykonuje następujące czynności działanie dwuetapowe:

  1. Oblicza sumę ważoną wartości wejściowych pomnożonych przez przez odpowiednią wagę.
  2. Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacji.

Neuron w pierwszej ukrytej warstwie przyjmuje dane wejściowe z wartości cech w warstwie wejściowej. Neuron w dowolnej ukrytej warstwie poza nią pierwszy przyjmuje dane wejściowe z neuronów w poprzedniej ukrytej warstwie. Na przykład neuron w drugiej ukrytej warstwie przyjmuje dane wejściowe z i neuronów w pierwszej ukrytej warstwie.

Na ilustracji poniżej przedstawiono 2 neurony i ich danych wejściowych.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami
          warstwę wyjściową. Zaznaczone są dwa neurony: jeden w pierwszym
          ukrytą, a drugą w drugiej ukrytej warstwie. Wyróżniony
          neuron w pierwszej ukrytej warstwie otrzymuje dane wejściowe z obu cech
          w warstwie wejściowej. Podświetlony neuron w drugiej ukrytej warstwie
          odbiera sygnały wejściowe każdego z trzech neuronów w pierwszym ukrytym
          warstwę.

Neuron w sieci neuronowej naśladuje zachowanie neuronów w mózgu i innych częściach układu nerwowego.

N-gram

#seq
#language

Uporządkowana sekwencja N słów. Na przykład naprawdę do szaleństwa to 2 gramy. Ponieważ kolejność ma znaczenie, szalenie naprawdę to inne 2 gramy niż naprawdę szalenie.

N Nazwy tego rodzaju N-gram Przykłady
2 bigram lub 2-gram iść do, iść, zjeść obiad, zjeść kolację
3 trygram lub 3-gram zjadli za dużo, trzy niewidome myszy, i dzwonki na telefon
4 4 gram spacer po parku, kurz na wietrze, chłopiec zjadł soczewicę

rozumienia wielu języków naturalnych; modele korzystają z Ngramów do przewidywania następnego słowa, które użytkownik wpisze lub powiedzmy. Załóżmy na przykład, że użytkownik wpisał three blind (3 niewidome). Model NLU oparty na trygramach prawdopodobnie przewidywałby, że użytkownik wpisze wtedy myszy.

Porównaj n-gramy z torem słów, które są nieuporządkowanych zestawów słów.

NLU

#language

Skrót od języka naturalnego

węzeł (drzewo decyzji)

#df

W drzewie decyzji dowolny stan lub liść.

Drzewo decyzyjne z 2 warunkami i 3 liśćmi.

węzeł (sieć neuronowa)

#fundamentals

Neuron w ukrytej warstwie.

węzeł (wykres TensorFlow)

#TensorFlow

Operacja na wykresie TensorFlow.

szum

Ogólnie rzecz biorąc, wszystko, co zasłania sygnał w zbiorze danych. Hałas mogą być wprowadzane do danych na różne sposoby. Na przykład:

  • Weryfikatorzy popełniają błędy w oznaczaniu.
  • Ludzie i instrumenty błędnie rejestrują lub pomijają wartości cech.

niebinarny warunek

#df

Warunek obejmujący więcej niż 2 możliwe wyniki. Na przykład poniższy warunek niebinarny zawiera 3 możliwe wyniki:

Warunek (number_of_legs = ?), który prowadzi do trzech możliwych
          wyniki. 1 wynik (number_of_legs = 8) prowadzi do liścia.
          nazwany pająk. Drugi wynik (number_of_legs = 4) prowadzi do
          liście o nazwie „pies”. Trzeci wynik (number_of_legs = 2) prowadzi do
          liście o nazwie pingwin.

nonlinear

#fundamentals

Relacja między co najmniej 2 zmiennymi, której nie można przedstawić wyłącznie przez dodawanie i mnożenie. Relacja liniowa może być przedstawiona za pomocą linii, zależność nonlinear jest reprezentowana jako linia. Przeanalizujmy na przykład 2 modele, z którymi każdy się odnosi z jedną cechę na jedną etykietę. Model po lewej stronie jest liniowy a model po prawej stronie jest nieliniowy:

Dwa działki. Jeden wykres jest liniowy, więc jest to zależność liniowa.
          Drugi wykres jest krzywą, więc jest to zależność nieliniowa.

efekt braku odpowiedzi

#fairness

Zobacz Błąd doboru.

niestacjonarny

#fundamentals

Cecha, której wartości zmieniają się w przypadku jednego lub kilku wymiarów, zwykle w czasie. Rozważmy na przykład te przykłady niestacjonarności:

  • Liczba kostiumów kąpielowych sprzedawanych w danym sklepie różni się w zależności od pory roku.
  • Ilość konkretnych owoców zebranych w konkretnym regionie wynosi 0 przez większą część roku, ale jest duża przez krótki okres.
  • Z powodu zmian klimatycznych średnia roczna temperatura się zmienia.

Przeciwieństwem jest stacjonarność.

normalizacja

#fundamentals

Ogólnie rzecz biorąc, proces konwertowania rzeczywistego zakresu zmiennej do standardowego zakresu wartości, takiego jak:

  • Od -1 do +1
  • Od 0 do 1
  • Wyniki Z (w przybliżeniu, od -3 do +3)

Na przykład załóżmy, że rzeczywisty zakres wartości danej cechy to z 800 do 2400. W ramach projektowania funkcji możesz znormalizować wartości rzeczywiste do standardowego zakresu, jako -1, aby dać +1.

Normalizacja jest częstym zadaniem inżynierii cech. Modele zwykle trenują szybciej (i tworzyć lepsze prognozy), gdy każda funkcja liczbowa w funkcji wektor cech ma mniej więcej taki sam zakres.

wykrywanie nowości

Proces ustalania, czy nowy (nowatorski) przykład pochodzi z tego samego źródła w postaci zestawu do trenowania. Innymi słowy, po do trenowania na zbiorze treningowym, wykrywanie nowości określa, czy jest on nowy (podczas wnioskowania lub dodatkowego trenowania) jest wartości odstające:

Przeciwieństwem są wykrywanie wyników odstających.

dane liczbowe

#fundamentals

Funkcje reprezentowane w postaci liczb całkowitych lub liczb rzeczywistych. Na przykład model wyceny domu prawdopodobnie reprezentowałby wielkość domu (w stopach kwadratowych lub metrach kwadratowych) jako dane liczbowe. Reprezentuję jeśli cecha ma postać danych liczbowych, wskazuje, że jej wartości zostały związek matematyczny z etykietą. To oznacza, że liczba metrów kwadratowych domu zbudowana jest na podstawie matematyczny związek z wartością domu.

Nie wszystkie dane całkowite powinny być przedstawiane jako dane liczbowe. Przykład: kody pocztowe w niektórych częściach świata są liczbami całkowitymi. jednak, całkowita liczba pocztowa W modelach kody nie powinny być przedstawiane w postaci danych liczbowych. To dlatego, że kod pocztowy 20000 nie jest dwa (lub o połowę) wyższy niż kod pocztowy 10000. Mimo że różne kody pocztowe wiążą się z różnymi nieruchomości, nie możemy założyć, że wartości nieruchomości podane w kodzie pocztowym Wartość 20 000 w przypadku kodu pocztowego 10 000 ma 2 razy większą wartość niż nieruchomości. Kody pocztowe powinny być przedstawiane jako dane kategorialne .

Cechy liczbowe są czasami nazywane funkcje ciągłe.

NumPy

biblioteka matematyczna open source który zapewnia wydajne operacje na tablicach w Pythonie. pandas opiera się na NumPy.

O

cel

Wskaźnik, który algorytm próbuje zoptymalizować.

funkcja celu

Wzór matematyczny lub dane, które model ma zoptymalizować. Na przykład funkcja celu dla funkcji regresja liniowa jest zwykle Średnia kwadratowa strata. Dlatego podczas trenowania regresji liniowej, trenowanie ma na celu zminimalizowanie średniej kwadratowej straty.

W niektórych przypadkach celem jest zmaksymalizowanie funkcji celu. Jeśli na przykład funkcją celu jest dokładność, celem jest aby zmaksymalizować dokładność.

Zobacz też strata.

warunek skośny

#df

W drzewie decyzji condition, który obejmuje więcej niż jeden funkcja. Jeśli na przykład wysokość i szerokość są obiektami, to warunek skośny:

  height > width

Porównaj warunek wyrównany do osi.

offline

#fundamentals

Synonim słowa statyczny.

wnioskowanie offline

#fundamentals

Proces generowania grupy prognoz przez model a następnie buforować (zapisywać) te prognozy. Dzięki temu aplikacje będą miały dostęp do z pamięci podręcznej, zamiast ponownie uruchamiać model.

Rozważmy na przykład model, który generuje lokalne prognozy pogody. (prognozy) co 4 godziny. Po uruchomieniu każdego modelu system zapisuje w pamięci podręcznej wszystkie lokalne prognozy pogody. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Wnioskowanie offline nazywane jest też wnioskowaniem statycznym.

Różnica z wnioskowaniem online.

kodowanie one-got

#fundamentals

Przedstawianie danych kategorialnych w postaci wektora, w którym:

  • Jeden z elementów ma wartość 1.
  • Pozostałe elementy mają wartość 0.

Kodowanie jednorazowe jest zwykle stosowane do reprezentowania ciągów znaków lub identyfikatorów, mają ograniczony zestaw możliwych wartości. Załóżmy na przykład, że określona cecha kategorialna o nazwie Pole Scandinavia może zawierać pięć wartości:

  • „Dania”
  • „Szwecja”
  • „Norwegia”
  • „Finlandia”
  • „Islandia”

Jednokrotne kodowanie może reprezentować każdą z tych 5 wartości w następujący sposób:

country Wektor
„Dania” 1 0 0 0 0
„Szwecja” 0 1 0 0 0
„Norwegia” 0 0 1 0 0
„Finlandia” 0 0 0 1 0
„Islandia” 0 0 0 0 1

Dzięki kodowaniu „jedno gorące” model może uczyć się różnych połączeń w każdym z 5 krajów.

Przedstawianie cechy w postaci danych liczbowych to to alternatywa dla kodowania jeden-gotowego. Niestety reprezentuję Numeryczne kraje skandynawskie nie są dobrym rozwiązaniem. Przykład: mamy do czynienia z taką reprezentacją liczbową:

  • „Dania” wynosi 0
  • „Szwecja” wynosi 1
  • „Norwegia” to 2
  • „Finlandia” wynosi 3
  • „Islandia” wynosi 4

Przy kodowaniu numerycznym model interpretowałby nieprzetworzone liczby i spróbowałby trenować na tych liczbach. Jednak w Islandii nie jest 2 razy więcej (albo o połowę mniej) Tak jak w Norwegii, wyciągnie z niego dziwne wnioski.

nauka jednorazowa

Uczenie maszynowe, często stosowane do klasyfikacji obiektów, które uczą skuteczne klasyfikatory na podstawie pojedynczego przykładu treningowego.

Zobacz też krótkie szkolenie oraz naukę „zero-shot”.

prompty jednorazowe

#language
#generativeAI

Prompt zawierający jeden przykład przedstawiający sposób, w jaki duży model językowy powinien odpowiedzieć. Przykład: poniższy prompt zawiera przykład pokazujący duży model językowy, jak powinien udzielić odpowiedzi na pytanie.

Elementy jednego promptu Uwagi
Jaka jest oficjalna waluta w danym kraju? Pytanie, na które ma odpowiedzieć LLM.
Francja: EUR Przykład:
Indie: Faktyczne zapytanie.

Wskaż podobieństwa i różnice między promptami jedno-strzałowymi z następującymi terminami:

jeden kontra wszystko

#fundamentals

W przypadku problemu klasyfikacji N klas funkcję zawierające N osobne klasyfikatory binarne – jeden klasyfikator binarny dla każdego możliwego wyniku. Na przykład model klasyfikujący przykłady zwierzęce, roślinne lub mineralne, rozwiązanie uniwersalne dałoby tych 3 osobnych klasyfikatorów binarnych:

  • zwierzę czy nie zwierzę
  • warzywne czy niewarzywne
  • minerał vs. nieminerał

online

#fundamentals

Synonim terminu dynamic.

wnioskowanie online

#fundamentals

generowanie prognoz na żądanie. Przykład: załóżmy, że aplikacja przekazuje dane wejściowe do modelu i wysyła żądanie z prognozą. System wykorzystujący wnioskowanie online odpowiada na żądanie, uruchamiając polecenie model (i zwrócenie prognozy do aplikacji).

Przeciwieństwem są wnioskowanie offline.

operacja (operacja)

#TensorFlow

W TensorFlow każda procedura tworząca modyfikuje lub niszczy komponent Tensor. Dla: Na przykład mnożenie macierzy to operacja, w której dwa Tensory i generuje jeden Tensor jako dane wyjściowe.

Optax

Biblioteka przetwarzania i optymalizacji gradientów dla języka JAX. Optax ułatwia prowadzenie badań, udostępniając elementy składowe, połączonych w niestandardowy sposób w celu optymalizacji modeli parametrycznych, takich jak do głębokich sieci neuronowych. Inne cele to:

  • udostępnianie czytelnych, dobrze przetestowanych i wydajnych implementacji podstawowych komponentów.
  • Większa produktywność dzięki możliwości łączenia składników o niskiej zawartości niestandardowych optymalizatorów (lub innych komponentów przetwarzania gradientu).
  • Przyspieszanie wdrażania nowych pomysłów przez ułatwianie każdemu co możesz opublikować.

optymalizator

Konkretne zastosowanie zjawiska gradientu. algorytmem bezpieczeństwa. Popularne optymalizatory to:

  • AdaGrad – ADAptive GRADient descent.
  • Adam oznacza skrót ADAptive od Momentum.

efekt jednorodności grupy zewnętrznej

#fairness

To, że członkowie spoza grupy są bardziej podobni niż członkowie grupy, porównując postawy, wartości, cechy osobowości i inne dla niektórych cech produktu. Grupa oznacza osoby, z którymi regularnie się kontaktujesz. out-group odnosi się do osób, z którymi nie kontaktujesz się regularnie. Jeśli utworzysz zbiór danych, prosząc użytkowników o podanie atrybutów a poza nią te cechy mogą być mniej niuanse i bardziej stereotypowe. niż atrybuty, które uczestnicy podają dla osób w swojej grupie.

Liliputowie mogą na przykład opisywać domy innych liliputów zwracając uwagę na niewielkie różnice w stylach architektonicznych, oknach drzwi i rozmiary. Ci sami liliputowie mogą jednak po prostu deklarować, Brobdingnagi żyją w identycznych domach.

Odchylenie jednorodności poza grupą to forma grupowy efekt atrybucji.

Zobacz też uprzedzenia w grupie.

wykrywanie wyników odstających

Proces identyfikowania wartości odstających w danych zestaw treningowy.

Przeciwieństwem są wykrywanie nowości.

nietypowych danych

Wartości, które są oddalone od większości innych wartości. W uczeniu maszynowym każdy są nietypowe:

  • Dane wejściowe, których wartości są większe niż mniej więcej 3 odchylenia standardowe od średniej.
  • Wagi z wysokimi wartościami bezwzględnymi.
  • Prognozowane wartości są stosunkowo oddalone od wartości rzeczywistych.

Załóżmy na przykład, że widget-price jest cechą określonego modelu. Załóżmy, że średnia widget-price to 7 euro z odchyleniem standardowym w wysokości 1 euro. Przykłady produktów zawierających widget-price o wartości 12 euro lub 2 euro zostałyby uznane za odstające, ponieważ każda z tych cen jest pięć odchyleń standardowych od średniej.

Wyniki odstające są często spowodowane literówkami lub innymi błędami w danych wejściowych. W innych przypadkach odstające to błędy; a w końcu wynosi pięć odchyleń standardowych ze średniej są rzadkie, ale raczej niemożliwe.

Wartości odstające często powodują problemy podczas trenowania modelu. Przycinanie jest jednym ze sposobów zarządzania wartościami odstającymi.

ocena bezpośrednia

#df

Mechanizm oceny jakości Decyzja, testując każdy drzewo decyzji wobec modelu przykłady nieużywane szkolenia tego drzewa decyzyjnego. Na przykład w tagu zauważ, że system trenuje każde drzewo decyzyjne na około 2/3 przykładów, a następnie dokonuje oceny pod kątem argumentu pozostałej jednej trzeciej przykładów.

Las decyzyjny składający się z 3 drzew decyzyjnych.
          Jedno drzewo decyzyjne trenuje 2/3 przykładów
          a pozostałą jedną trzecią wykorzystuje do oceny OOB.
          Drugie drzewo decyzyjne trenuje w ramach różnych
          przykładów niż w poprzednim drzewie decyzyjnym, a następnie
          przy obliczaniu OOB używa innej 1/3 niż
          z poprzedniego schematu decyzyjnego.

Takie podejście jest wydajną i zachowawczą metodą obliczeniową, w przybliżeniu mechanizmu weryfikacji krzyżowej. W weryfikacji krzyżowej trenowany jest 1 model na każdą rundę weryfikacji krzyżowej Na przykład 10 modeli zostało wytrenowanych na 10-krotnej weryfikacji krzyżowej. W przypadku oceny OOB trenowany jest 1 model. Ponieważ bagaż pomija część danych z każdego drzewa podczas trenowania, ocena OOB może wykorzystać aby uzyskać przybliżoną weryfikację krzyżową.

warstwa wyjściowa

#fundamentals

„Ostateczny” warstwa sieci neuronowej. Warstwa wyjściowa zawiera prognozę.

Ilustracja przedstawiająca małą głęboką sieć neuronowa z danymi wejściowymi warstwami, 2 ukrytymi warstwami i warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 warstwami ukrytymi i 1
          warstwę wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwszy
          ukryta warstwa składa się z trzech neuronów i drugiej
          składa się z dwóch neuronów. Warstwa wyjściowa składa się z jednego węzła.

nadmierne dopasowanie

#fundamentals

Utwórz model pasujący do: danych do trenowania, aby model nie aby tworzyć prawidłowe prognozy na podstawie nowych danych.

Regularizowanie może ograniczyć nadmierne dopasowanie. Trenowanie na dużym i zróżnicowanym zestawie treningowym może również ograniczyć nadmierne dopasowanie.

nadmierne próbkowanie

Ponowne wykorzystanie przykładów klasy mniejszości w zbiorze danych o nierównowadze klas, aby aby stworzyć bardziej zrównoważony zestaw treningowy.

Weźmy na przykład klasyfikację binarną problem, w którym stosunek klasy większości do klasa mniejszości to 5000:1. Jeśli zbiór danych zawiera milion przykładów, zbiór danych zawiera tylko około 200 przykładów klasy mniejszości, które mogą może być zbyt mało przykładów, aby trenowanie było skuteczne. Aby przezwyciężyć ten problem, może zawyżać próbkowanie (ponownie wykorzystać) tych 200 przykładów wielokrotnie, co może skutkować wystarczającą ilość przykładów do wykorzystania podczas trenowania.

Uważaj na nadmierne dopasowanie, gdy nadmierne próbkowanie.

Przeciwieństwem jest niedostateczne próbkowanie.

P

spakowane dane

Metoda bardziej efektywnego przechowywania danych.

Spakowane magazyny danych są przechowywane w formacie skompresowanym lub w w inny sposób, który umożliwia efektywniejszy dostęp do nich. Pakowane dane minimalizują ilość pamięci i mocy obliczeniowej niezbędnej do co przekłada się na szybsze trenowanie i efektywniejsze wnioskowanie na podstawie modeli.

Dane spakowane są często używane w przypadku innych metod, takich jak: rozszerzaniem danych, regularizację, co jeszcze bardziej poprawia skuteczność modeli.

pandy

#fundamentals

Interfejs API analizy danych z orientacją na kolumny oparty na numpy. Wiele platform systemów uczących się, w tym TensorFlow, obsługuje jako dane wejściowe struktury danych Pandas. Zobacz dokumentacja pandas .

parametr

#fundamentals

Wagi i odchylenia, których model uczy się podczas szkoleń. Na przykład w parametrze regresji liniowej, parametry składają się z: uprzedzenia (b) i wszystkich wag (w1, w2, i tak dalej) w takim wzorze:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

hiperparametr to wartości, które Ty (lub usługa dostrajania hiperparametrów) do modelu. Na przykład szybkość uczenia się jest hiperparametrem.

dostrajanie energooszczędne

#language
#generativeAI

Zestaw technik dostrajania dużej wytrenowany model językowy (PLM) wydajniej niż pełne dostrajanie. Wydajne pod względem parametrów dostrajanie zwykle dostosowuje znacznie mniej parametrów niż pełne ale zwykle generuje duży model językowy, który wydajnie jak również duży model językowy utworzony z pełnych i optymalizacji.

Porównaj dostrajanie ekonomiczne w zakresie:

Dostrajanie pod kątem wydajności jest też nazywane dostrajaniem energooszczędnym.

Serwer parametrów (PS)

#TensorFlow

Zadanie, które śledzi parametry modelu w rozproszone ustawienie.

aktualizacja parametru

Operacja dostosowywania parametrów modelu podczas trenowania, zwykle w ramach jednej iteracji gradient gradientowy.

pochodna cząstkowa

Pochodna, w której wszystkie zmienne oprócz jednej są uznawane za stałą. Na przykład pochodną cząstkową funkcji f(x, y) w odniesieniu do x jest pochodna funkcji f uważana za funkcję samych x (tzn. utrzymanie funkcji y) stałą). Częściowa pochodna litery f w odniesieniu do x dotyczy wyłącznie jak x zmienia się i ignoruje wszystkie inne zmienne w równaniu.

efekt uczestnictwa

#fairness

Synonim uprzedzeń w postaci braku odpowiedzi. Zobacz Błąd doboru.

strategia partycjonowania

Algorytm, według którego zmienne są dzielone przez serwerach parametrów.

Pax

Platforma programowania przeznaczona do trenowania dużych kanałów sieci neuronowych modeli tak duże obejmują kilka TPU, element akceleratora wycinki lub podów.

Pax korzysta z platformy Flax, która jest oparta na platformie JAX.

Diagram przedstawiający pozycję Pax w stosie oprogramowania.
          Usługa Pax powstała na bazie JAX. Pax składa się z 3
          warstw. Dolna warstwa zawiera TensorStore i Lan.
          Środkowa warstwa zawiera Optax i flaxformer. Na szczyt
          warstwa zawiera bibliotekę modelowania Praxis. Skrzypce zbudowano
          ponad Pax.

Perceptron

System (sprzęt lub oprogramowanie), który przyjmuje co najmniej jedną wartość wejściową uruchamia funkcję na ważonej sumie danych wejściowych i oblicza jedną wartość wyjściową. W systemach uczących się funkcja jest zwykle nieliniowa, np. ReLU, sigmoid lub tanh. Na przykład poniższy perceptron opiera się na funkcji sigmoidalnej do przetworzenia 3 wartości wejściowe:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Na poniższej ilustracji perceptron pobiera trzy dane wejściowe, z których każde jest zmodyfikowana przez wagę przed wejściem do perceptronu:

Perceptron, który pobiera 3 rodzaje danych wejściowych, każdy pomnożony przez osobne
          ciężary. Perceptron generuje jedną wartość.

Perceptrony to neurony sieci neuronowych.

występ

Hasło przeciążone o tym znaczeniu:

  • Standardowe znaczenie w inżynierii oprogramowania. Po prostu: jak szybko Czy to oprogramowanie działa?
  • Znaczenie uczenia maszynowego. Tutaj skuteczność odpowiada następujące pytanie: Na ile poprawny jest ten model? To znaczy, Jak dobre są prognozy modelu?

znaczenie zmiennej permutacji

#df

Rodzaj zmiennej ważności, która ocenia wzrost błędu prognozy modelu po przekształceniu argumentu wartości funkcji. Znaczenie zmiennej permutacji jest niezależne od modelu danych.

zakłopotanie

Jedna z miar, jak dobrze model wykonuje swoje zadanie. Załóżmy, że Twoim zadaniem jest przeczytanie pierwszych kilku liter słowa użytkownik pisze na klawiaturze telefonu i przedstawia listę możliwych dopełniania słów. Błąd (P) dla tego zadania to przybliżona liczba przypuszczenia, które musisz zaoferować, aby Twoja lista zawierała które użytkownik próbuje wpisać.

Zdezorientowanie jest związane z entropią krzyżową w następujący sposób:

$$P= 2^{-\text{cross entropy}}$$

potok

Infrastruktura otaczająca algorytm systemów uczących się. Potok obejmuje zbieranie danych, umieszczanie ich w plikach danych treningowych trenowanie co najmniej jednego modelu i eksportowanie modeli do środowiska produkcyjnego.

potokowanie

#language

Forma równoległości modelu, w której model Przetwarzanie dzieli się na kolejne etapy, a każdy z nich jest realizowany na innym urządzeniu. Gdy etap przetwarza 1 wsad, poprzedzający może pracować z następną wsadem.

Zobacz też trenowanie etapowe.

pjit

funkcja JAX, która dzieli kod w celu uruchomienia na wielu układy akceleratora. Użytkownik przekazuje funkcję do pjit, , który zwraca funkcję o takiej samej semantyce, ale jest skompilowana w obliczenia XLA, które działają na wielu urządzeniach (np. rdzenie GPU lub TPU).

pjit umożliwia użytkownikom dzielenie obliczeń na fragmenty bez ich przepisywania za pomocą partycjonowanie SPMD.

W marcu 2023 r. konto pjit zostało połączone z domeną jit. Więcej informacji: Rozproszone tablice i automatyczne równoległość .

PLM

#language
#generativeAI

Skrót od terminu wstępnie wytrenowanego modelu językowego.

Pmap

funkcja JAX, która wykonuje kopie funkcji wejściowej; na różnych urządzeniach (CPU, GPU lub TPU) z różnymi wartościami wejściowymi. pmap korzysta z SPMD.

zasada

#rl

Podczas uczenia przez wzmacnianie mapowanie prawdopodobne agenta od stanów do działań.

grupowanie

#image

Zmniejszanie macierzy (lub macierzy) utworzonych przez wcześniejszy warstwy splotowej na mniejszą macierz. Łączenie w puli zwykle wiąże się z przyjęciem wartości maksymalnej lub średniej w obrębie wspólnego obszaru. Na przykład załóżmy, że mamy taka macierz 3 x 3:

Macierz 3 x 3 [[5,3,1], [8,2,5], [9,4,3]].

Operacja łączenia, podobnie jak operacja splotowa, dzieli tę wartość na wycinki, a następnie przesuwa tę splotową operację, kroków. Na przykład załóżmy, że operacja grupowania dzieli splotową macierz na wycinki 2 x 2 z krokiem 1 x 1. Jak widać na diagramie poniżej, mają miejsce 4 operacje łączenia. Załóżmy, że każda operacja grupowania wybiera maksymalną wartość 4 w tym wycinku:

Macierz wejściowa to 3 x 3 z wartościami: [[5,3,1], [8,2,5], [9,4,3]].
          Lewa podrzędna macierz 2 x 2 macierzy wejściowej to [[5,3], [8,2]], więc
          operacja łączenia w lewym górnym rogu daje wartość 8 (czyli
          maksymalnie 5, 3, 8 i 2). Podmatryca 2 x 2 w prawym górnym rogu danych wejściowych
          macierz to [[3,1], [2,5]], więc operacja łączenia w prawym górnym rogu generuje
          wartość 5. Lewa podmacierza 2 x 2 macierzy wejściowej to
          [[8,2], [9,4]], więc operacja łączenia w lewym dolnym rogu daje wartość
          9. Podmacierza 2 x 2 w prawym dolnym rogu macierzy wejściowej to
          [[2,5], [4,3]], więc operacja łączenia w prawym dolnym rogu daje wartość.
          5. Podsumowując, operacja łączenia generuje macierz 2 x 2
          [[8,5], [9,5]].

Grupowanie pomaga egzekwować niewariancję translacyjną w tabeli danych wejściowych.

Łączenie w puli dla aplikacji do rozpoznawania obrazów jest nazywane łączeniem przestrzennym. Aplikacje wykorzystujące ciągi czasowe zwykle nazywają się agregacją tymczasową. Mniej formalnie nazywane jest „podpróbkowaniem” lub „downsamplingiem”.

kodowanie pozycjonujące

#language

Technika dodawania informacji o pozycji tokena w sekwencji do przez umieszczenie tokena. Modele transformatorów korzystają z pozycjonowania w kodowaniu, aby lepiej zrozumieć zależności między różnymi częściami kolejne wartości.

Typowa implementacja kodowania pozycyjnego wykorzystuje funkcję sinusoidalną. (Częstotliwość i amplituda funkcji sinusoidalnej są określone na podstawie pozycji tokena w sekwencji). Ta technika który pozwala modelowi Transformer nauczyć się uczestniczyć w różnych częściach na podstawie ich pozycji.

klasa pozytywna

#fundamentals

Zajęcia, których dotyczy test.

Na przykład klasą pozytywną w modelu raka może być „guz”. Pozytywną klasą w klasyfikatorze e-mail może być „spam”.

Ustaw kontrast z klasą ujemną.

obróbka

#fairness
#fundamentals

Dostosowywanie danych wyjściowych modelu po jego uruchomieniu. Przetwarzanie końcowe może być wykorzystywane do egzekwowania ograniczeń obiektywności bez na ich własnych modyfikowaniu.

Można na przykład zastosować przetwarzanie do klasyfikatora binarnego ustalając próg klasyfikacji w taki sposób, równość szans jest utrzymana; dla niektórych atrybutów, sprawdzając, czy prawdziwie pozytywny współczynnik dodatni jest taka sama dla wszystkich wartości tego atrybutu.

PR AUC (obszar pod krzywą PR)

Obszar pod interpolacją krzywą precyzji i czułości uzyskaną na wykresie. (czułość, precyzja) dla różnych wartości próg klasyfikacji. W zależności od sposobu w przypadku jego obliczeń PR AUC może być odpowiednikiem średnia precyzji modelu.

Praxis

Podstawowa, wysoko wydajna biblioteka ML Pax. Praxis jest często czyli „bibliotekę warstw”.

Praxis zawiera nie tylko definicje klasy warstwy, ale większość jego komponenty pomocnicze, w tym:

Praxis podaje definicje klasy modelu.

precyzja

dane dla modeli klasyfikacji, które odpowiadają następujące pytanie:

Gdy model przewidział klasę pozytywną, Jaki procent prognoz był poprawny?

Oto wzór:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

gdzie:

  • Wskazuje, że model prawidłowo przewidział klasę pozytywną.
  • Wynik fałszywie pozytywny oznacza, że model błędnie przewidział klasę pozytywną.

Załóżmy na przykład, że model dokonał 200 pozytywnych prognoz. Z tych 200 pozytywnych prognoz:

  • 150 osób było wynikiem prawdziwie pozytywnych.
  • 50 wyników to wynik fałszywie pozytywnych.

W tym przypadku:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Zbadaj dokładność i czułość.

krzywej precyzji i czułości

Krzywa dokładności i czułości w różnych miejscach progi klasyfikacji.

prognoza

#fundamentals

Dane wyjściowe modelu. Na przykład:

  • Prognoza modelu klasyfikacji binarnej jest albo dodatnia klasę lub klasę negatywną.
  • Prognoza modelu klasyfikacji wieloklasowej to jedna klasa.
  • Prognoza modelu regresji liniowej jest liczbą.

efekt prognozy

Wartość wskazująca, jak daleko oddalona jest średnia wartość prognozy pochodzą ze średniej wartości etykiet w zbiorze danych.

Nie należy mylić z terminem uprzedzeń w modelach systemów uczących się. lub z uprzedzeniami w zakresie etyki i uczciwości.

predykcyjne systemy uczące się

Dowolny standardowy („klasyczny”) system systemów uczących się.

Termin przewidywanie ML nie ma oficjalnej definicji. Termin ten odróżnia kategorię systemów ML, ale nie na podstawie: generatywnej AI.

parzystość prognozowana

#fairness

Wskaźnik obiektywności, który sprawdza, czy: dla danego klasyfikatora, współczynniki dokładności są równoważne w rozważanych podgrupach.

Na przykład model, który przewiduje przyjęcie na studia, parzystość prognozowana dla narodowości, jeśli jej współczynnik precyzji jest taki sam Liliputów i Brobdingnagians.

Paryfikacja prognozująca jest czasem również nazywana parzystością stawek prognozowanych.

Patrz sekcja „Obiektywe definicje” Explained” (sekcja 3.2.1). znajdziesz bardziej szczegółowe informacje na temat predykcyjnej parzystości.

parytet współczynnika prognozowanego

#fairness

Inna nazwa parytyczności prognozowanej.

wstępne przetwarzanie

#fairness
Przetwarzanie danych przed ich wykorzystaniem do trenowania modelu. Wstępne przetwarzanie może być tak proste, jak usunięcie z angielskiego korpusu słów, które nie występują w słowniku języka angielskiego i mogą być równie skomplikowane, jak punktów danych w sposób eliminujący jak najwięcej skorelowanych atrybutów za pomocą atrybutów poufnych. Wstępne przetwarzanie może pomóc w spełnieniu ograniczeń związanych z uczciwością.

wytrenowany model

#language
#image
#generativeAI

Modele lub komponenty modelu (takie jak embedding vector), które zostały już wytrenowane. Czasami przekazujesz wytrenowane wektory dystrybucyjne do sieci neuronowej. Innym razem model wytrenuje model same wektory dystrybucyjne, zamiast korzystać z już wytrenowanych wektorów dystrybucyjnych.

Termin wytrenowany model językowy odnosi się do duży model językowy, który sprawdza się przed szkoleniem.

trening wstępny

#language
#image
#generativeAI

Wstępne trenowanie modelu na dużym zbiorze danych. Niektóre wytrenowane modele są niezdarnymi olbrzymami i trzeba je zwykle ulepszyć przez dodatkowe szkolenie. Eksperci ds. systemów uczących się mogą na przykład wstępnie przeszkolić duży model językowy na ogromnym zbiorze danych tekstowych, takich jak wszystkie strony w języku angielskim w Wikipedii. Po szkoleniu wynikowy model może być dodatkowo doprecyzowany przez dowolny z poniższych techniki:

wcześniejsze przekonanie

Twoje przekonania na temat danych przed rozpoczęciem ich trenowania. Na przykład regularyzacja L2 opiera się na wcześniejsze przekonanie, że wagi powinny być małe i normalnie rozkład około zera.

model regresji prawdopodobnej

Model regresji, który wykorzystuje nie tylko wagi poszczególnych funkcji, ale również niepewność tych wag. Model regresji prawdopodobnej generuje od prognozy i jej niepewności. Na przykład plik model regresji prawdopodobnej może dać prognozę 325 z odchylenie standardowe wynoszące 12. Więcej informacji o regresji prawdopodobnej , patrz ten artykuł o Colab tensorflow.org.

funkcja gęstości prawdopodobieństwa

Funkcja, która określa częstotliwość próbek danych mających dokładnie dla konkretnej wartości. Gdy wartości zbioru danych są ciągłą zmiennoprzecinkową – dopasowanie ścisłe rzadko występuje. Jednak integracja prawdopodobieństwa funkcja gęstości od wartości x do wartości y zwraca oczekiwaną częstotliwość próbek danych od x do y.

Weźmy na przykład rozkład normalny ze średnią 200 i odchylenie standardowe wynoszące 30. Aby określić oczekiwaną częstotliwość próbek danych mieści się w zakresie od 211,4 do 218,7, można zintegrować prawdopodobieństwo funkcja gęstości dla rozkładu normalnego od 211,4 do 218,7.

prompt

#language
#generativeAI

Każdy tekst wpisany jako dane wejściowe w dużym modelu językowym. aby uwarunkować działanie modelu w określony sposób. Prompty mogą być krótkie wyrażenie lub dowolną długość (np. cały tekst powieści). Prośby należą do wielu kategorii, m.in. w tej tabeli:

Kategoria promptu Przykład Uwagi
Pytanie Jak szybko może latać gołąb?
Instrukcja Napisz zabawny wiersz o arbitrażu. Prompt z prośbą o zrobienie czegoś przez duży model językowy.
Przykład Przetłumacz kod Markdown na HTML. Na przykład:
Markdown: * element listy
HTML: <ul> <li>element listy</li> &lt;/ul&gt;
Pierwsze zdanie w tym przykładowym promptie to instrukcja. Pozostała część promptu to przykład.
Rola Wyjaśnij, dlaczego gradient gradientowy jest używany w trenowaniu systemów uczących się do doktora fizyki. Pierwsza część zdania jest instrukcją. wyrażenie „doktor fizyki” jest związana z rolą.
Częściowe dane wejściowe do ukończenia przez model Premier Wielkiej Brytanii mieszka w Częściowy prompt dla danych wejściowych może nagle się zakończyć (jak w tym przykładzie) lub kończyć podkreśleniem.

Model generatywnej AI może odpowiedzieć na prompt za pomocą tekstu, kod, obrazy, umieszczanie na stronie, filmy... prawie wszystko.

uczenie się oparte na promptach

#language
#generativeAI

Zdolność określonych modeli, która umożliwia im adaptację ich zachowanie w odpowiedzi na dowolnie wybrany tekst (prompty). W typowym modelu uczenia się opartym na promptach duży model językowy odpowiada na prompt przez podczas generowania tekstu. Załóżmy na przykład, że użytkownik wpisuje taki prompt:

Podsumuj trzecią zasadę dynamiki Newtona.

Model zdolny do uczenia się na podstawie promptów nie został specjalnie wytrenowany tak, aby udzielać odpowiedzi poprzedniego promptu. Model „wie” i dużo ciekawostek na temat fizyki o zasadach i konsekwencjach przydatne odpowiedzi. Wiedza ta wystarcza, aby (mamy nadzieję) . Dodatkowa opinia człowieka („Ta odpowiedź była zbyt skomplikowana” lub „Co to jest reakcja?”) umożliwia niektórym systemom uczenia się opartym na promptach stopniowe zwiększają przydatność ich odpowiedzi.

projektowanie promptów

#language
#generativeAI

Synonim wyrażenia inżynieria promptów.

techniki tworzenia promptów

#language
#generativeAI

Sztuka tworzenia próśb, które skłaniają do uzyskania pożądanych odpowiedzi z dużego modelu językowego. Ludzie wykonują prompt i inżynierią. Pisanie dobrze ustrukturyzowanych promptów to kluczowy element przydatne odpowiedzi z dużego modelu językowego. Inżynieria promptów zależy od wiele czynników, w tym:

Zobacz Wprowadzenie do projektowania promptów , aby dowiedzieć się więcej o tworzeniu pomocnych promptów.

Projektowanie promptów to synonim inżynierii promptów.

dostrajanie promptów

#language
#generativeAI

Mechanizm efektywnego dostrajania parametrów które uczy się „prefiksu” który system dodaje na początku rzeczywisty prompt.

Jedną z wariantów dostrajania promptów (czasami nazywanych dostrajaniem prefiksów) jest na początku każdej warstwy. W przeciwieństwie do tego większość dostrajania promptów dotyczy tylko dodaje prefiks do warstwy wejściowej.

etykiety serwera proxy

#fundamentals

Dane używane do określania przybliżonych etykiet, które nie są bezpośrednio dostępne w zbiorze danych.

Załóżmy na przykład, że musisz wytrenować model do prognozowania, poziom stresu. Zbiór danych zawiera wiele funkcji prognozowanych, ale nie zawiera etykiety poziom stresu. Niezrażony, wybierasz „wypadki w miejscu pracy” jako etykiety proxy dla poziom stresu. W końcu pracownicy podatni na stres bardziej angażują się niż spokojnych pracowników. Czy tak? Być może wypadki w miejscu pracy. rosną i spadają z wielu powodów.

Na potrzeby drugiego przykładu załóżmy, że chcesz użyć etykiety czy pada? Twój zbiór danych nie zawiera danych o deszczach. Jeśli dostępnych zdjęć, możesz stworzyć zdjęcia ludzi, z parasolami jako etykietką, czy pada? Czy to dobrą etykietę serwera proxy? Możliwe, ale w niektórych kulturach ludzie częściej będą nosić parasole chroniące przed słońcem niż deszcz.

Etykiety serwera proxy są często niedoskonałe. Jeśli to możliwe, wybieraj rzeczywiste etykiety zamiast etykiet serwera proxy. Mając to na uwadze, jeśli brakuje rzeczywistej etykiety, wybierz serwer proxy bardzo ostrożnie, wybierając najmniej okropną etykietę proxy.

serwer proxy (atrybuty poufne)

#fairness
Atrybut używany jako zastępczy atrybut atrybut poufny. Na przykład kod pocztowy tej osoby może być używany jako źródło dochodów tej osoby, rasę czy przynależność etniczną.

funkcja czysta

Funkcja, której dane wyjściowe są oparte wyłącznie na danych wejściowych i nie ma strony efekty. W szczególności funkcja czysta nie używa ani nie zmienia żadnego stanu globalnego, np. zawartość pliku lub wartość zmiennej spoza funkcji.

Czystych funkcji można używać do tworzenia kodu bezpiecznego w wątkach, podczas fragmentowania kodu model w wielu układy akceleratora.

Metody przekształcenia funkcji JAX wymagają że funkcje wejściowe są zwykłymi funkcjami.

P

Funkcja Q

#rl

We uczeniu przez wzmacnianie funkcja, która prognozuje oczekiwany zwrot z przyjęcia action w state, a następnie postępuj zgodnie z danymi zasadami.

Funkcja Q jest też nazywana funkcją wartości stanu działania.

Q-learning

#rl

W uczeniu przez wzmacnianie algorytm, który zezwala na użycie agenta aby poznać optymalną funkcję Q proces decyzyjny Markowa, Równanie Bellmana. Modele procesu decyzyjnego Markowa środowisko.

kwantyl

Każdy zasobnik w zasobniku kwantylowym.

zasobnik kwantylowy

Rozpowszechnienie wartości funkcji między zasobnikami, tak aby każda z nich zasobnik zawiera taką samą (lub prawie taką samą) liczbę przykładów. Przykład: poniższy rysunek dzieli 44 punkty na 4 grupy, z których każdy zawiera 11 punktów. Aby każdy zasobnik na ilustracji zawierał parametr taką samą liczbę punktów, niektóre segmenty mają różną szerokość wartości x.

44 punkty danych podzielone na 4 grupy po 11 punktów.
          Chociaż każdy zasobnik zawiera taką samą liczbę punktów danych,
          niektóre zasobniki zawierają szerszy zakres wartości cech niż inne
          zasobników.

kwantyzacja

Przeciążone hasło, którego można użyć na dowolny z tych sposobów:

  • Wdrażanie zasobnika kwantylowego przy konkretnej funkcji.
  • Przekształcanie danych w zera i jedynki w celu przyspieszenia ich przechowywania, trenowania i wnioskowania. Dane logiczne są bardziej odporne na zaszumianie i błędy niż w innych formatach, kwantyzacja może poprawić poprawność modelu. Techniki kwantyzacji obejmują zaokrąglanie, przycinanie i binning.
  • Zmniejszanie liczby bitów używanych do przechowywania modelu parameters. Załóżmy, że parametry modelu są przechowywane jako 32-bitowe liczby zmiennoprzecinkowe. W wyniku kwantyzacji następuje z 32 bitów do 4, 8 lub 16 bitów. Kwantyzacja zmniejsza :

    • Wykorzystanie mocy obliczeniowej, pamięci, dysku i sieci
    • Czas do określenia prognozy
    • Zużycie energii

    Kwantyzacja czasami jednak obniża dokładność modelu i generowanie prognoz.

kolejka

#TensorFlow

Operation TensorFlow, która implementuje dane kolejki do jego struktury. Zwykle używany podczas I/O.

R

RAG

#fundamentals

Skrót od generowanie rozszerzonego wyszukiwania z wykorzystaniem pobierania.

Losowy las

#df

Zbiór drzew decyzyjnych w w którym każde drzewo decyzyjne jest trenowane z wykorzystaniem konkretnego losowego szumu, na przykład bagaż.

Lasy losowe to rodzaj lasu decyzji.

zasada losowej

#rl

Podczas uczenia przez wzmacnianie zasadę, która określa action losowo.

ranking

Typ uczenia nadzorowanego, w którym jest porządkowanie listy elementów.

ranga (liczba całkowita)

Pozycja porządkowa klasy w zadaniu systemów uczących się, który dzieli na kategorie klas od najwyższej do najniższej. Może to być na przykład ranking zachowań system może klasyfikować nagrody dla psa od najwyższej wartości (stek) do jarmuż (zwiędły jarmuż).

Pozycja (Tensor)

#TensorFlow

Liczba wymiarów w Tensor. Przykład: skalarny ma pozycję 0, wektor ma pozycję 1, a macierz – pozycję 2.

Nie należy mylić z rankingiem (liczbą liczebności).

oceniający

#fundamentals

Osoba, która zapewnia etykiety przykładów. „Twórca adnotacji” to inna nazwa oceniającego.

wycofanie

dane dla modeli klasyfikacji, które odpowiadają następujące pytanie:

Gdy dane podstawowe były klasa dodatnia, jaki procent prognoz spełnił; model poprawnie zidentyfikował się jako klasa pozytywna?

Oto wzór:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

gdzie:

Na przykład załóżmy, że model dokonał 200 prognoz na przykładach, dla których dane podstawowe były klasą pozytywną. Z tych 200 prognoz:

  • 180 osób było wynikiem prawdziwie pozytywnych.
  • 20 wyników fałszywie negatywnych.

W tym przypadku:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

system rekomendacji

#recsystems

System, który wybiera dla każdego użytkownika stosunkowo mały zestaw pożądanych items z dużego korpusu. Na przykład system rekomendacji może polecić 2 filmy: spośród 100 000 filmów,wybierając Casablanca, The Philadelphia Story dla 1 użytkownika, a Wonder Woman i Czarna Pantera. System rekomendacji filmów może w oparciu o takie czynniki jak:

  • Filmy ocenione lub obejrzane przez podobnych użytkowników.
  • Gatunek, reżyserzy, aktorzy, docelowa grupa demograficzna...

Prostokątna jednostka liniowa (ReLU)

#fundamentals

funkcję aktywacji o takim działaniu:

  • Jeśli dane wejściowe mają wartość ujemną lub zero, wynik wynosi 0.
  • Jeśli dane wejściowe są dodatnie, wynik jest równy wartości wejściowej.

Na przykład:

  • Jeśli wartość wejściowa to -3, wynik to 0.
  • Jeśli podana wartość to +3, wynik to 3,0.

Oto fabuła ReLU:

Wykres kartezjański składający się z dwóch wierszy. Pierwszy wiersz zawiera stałą
          wartość y 0, wzdłuż osi X, od -nieskończoność, 0 do 0,-0.
          Druga linia zaczyna się od 0,0. Nachylenie tej linii to +1, więc
          od 0,0 do +nieskończoności.

ReLU to bardzo popularna funkcja aktywacyjna. Pomimo prostego działania ReLU nadal umożliwia sieci neuronowej uczenie się nonlinear. zależności między funkcjami a etykietą.

nawracająca sieć neuronowa

#seq

Sieć neuronowa celowo obsługująca wiele gdzie części każdego uruchomienia są przekazywane do następnego uruchomienia. Konkretnie: warstwy ukryte z poprzedniego uruchomienia zapewniają część dane wejściowe do tej samej ukrytej warstwy przy następnym uruchomieniu. Powracające sieci neuronowe są szczególnie przydatne przy ocenie sekwencji, dzięki czemu ukryte warstwy może uczyć się na podstawie poprzednich uruchomień sieci neuronowej w wcześniejszych częściach w kolejności.

Na przykład na wykresie poniżej widać powtarzającą się sieć neuronowa, która jest realizowany cztery razy. Zwróć uwagę, że wartości zapamiętane w ukrytych warstwach z pierwsze uruchomienie staje się częścią danych wejściowych tych samych ukrytych warstw w przy drugim uruchomieniu. Podobnie wartości zapamiętane w ukrytej warstwie drugie uruchomienie stają się częścią danych wejściowych tej samej ukrytej warstwy w trzeci bieg. W ten sposób powracająca sieć neuronowa stopniowo trenuje i przewiduje znaczenie całego ciągu, a nie tylko jego znaczenia z poszczególnych słów.

Numer RNN, który uruchamia się 4 razy, aby przetworzyć 4 słowa wpisane.

model regresji

#fundamentals

Nieformalnie model generujący prognozę liczbową. (W przeciwieństwie do tego model klasyfikacji generuje klasę, prediction.) Poniżej znajdują się na przykład wszystkie modele regresji:

  • Model, który prognozuje wartość konkretnej domu,np. 423 000 euro.
  • Model, który prognozuje oczekiwaną długość życia drzewa, np.23,2 roku.
  • Model prognozujący ilość deszczu, który spadnie w określonym mieście w ciągu następnych 6 godzin, np.0,18 cala.

2 typowe modele regresji to:

  • Regresja liniowa, która znajduje linię, która najlepiej dopasowuje wartości etykiet do cech.
  • regresji logistyki, która generuje prawdopodobieństwo z zakresu od 0,0 do 1,0, które system zwykle mapuje na klasę z prognozą.

Nie każdy model, który generuje prognozy liczbowe, jest modelem regresji. W niektórych przypadkach prognoza numeryczna jest w rzeczywistości tylko modelem klasyfikacji które mają nazwy klas liczbowych. Na przykład model, który prognozuje, Numeryczny kod pocztowy jest modelem klasyfikacji, a nie modelem regresji.

regularyzacja

#fundamentals

Każdy mechanizm, który ogranicza nadmierne dopasowanie. Popularne typy regularyzacji to między innymi:

Regularizację można też zdefiniować jako karę ze względu na złożoność modelu.

współczynnik regularyzacji

#fundamentals

Liczba, która określa względne znaczenie regularizacji podczas trenowania. Promowanie częstotliwość regularyzacji zmniejsza nadmierne dopasowanie, ale może zmniejszają moc prognozowania modelu. I na odwrót, zmniejszanie lub pomijanie współczynnik regularyzacji zwiększa dopasowanie.

uczenie się przez wzmacnianie

#rl

Rodzina algorytmów, które uczą się optymalnych zasad, których cel jest maksymalizacja zwrotu podczas interakcji środowisko. Na przykład główną nagrodą w większości gier jest zwycięstwo. Systemy uczenia się przez wzmacnianie mogą stać się mistrzem w grach złożonych oceniając sekwencje poprzednich ruchów, prowadziły do zwycięstw i sekwencji, które ostatecznie kończyły się porażkami.

Uczenie się przez wzmacnianie na podstawie opinii użytkowników (RLHF)

#generativeAI
#rl

Wykorzystanie opinii weryfikatorów w celu poprawy jakości odpowiedzi modelu. Na przykład mechanizm RLHF może poprosić użytkowników o ocenę jakości modelu odpowiedz emotikonem 👍 lub 👎. System może wtedy dostosować swoje przyszłe odpowiedzi na podstawie tej opinii.

ReLU

#fundamentals

Skrót od wyprostowanej jednostki liniowej.

bufor powtórki

#rl

W algorytmach podobnych do DQN pamięć używana przez agenta do przechowywania zmian stanu na potrzeby użycia w powtórka treści.

replika

kopię zestawu treningowego lub modelu, zwykle na innym komputerze. System może na przykład użyć: strategia wdrażania równoległości danych:

  1. Umieść repliki istniejącego modelu na wielu maszynach.
  2. Wyślij różne podzbiory zbioru treningowego do każdej repliki.
  3. Agreguj aktualizacje parametrów.

efekt raportowania

#fairness

Fakt, że częstotliwość, z jaką użytkownicy piszą o działaniach, wyniki lub właściwości nie odzwierciedlają ich rzeczywistego świata częstotliwości lub stopień, w jakim właściwość jest charakterystyczna klasy jednostek. Odchylenie w zakresie raportowania może wpływać na kompozycję danych, na których uczą się systemy uczące się.

Na przykład w książkach słowo śmiech jest bardziej powszechne niż oddech. Model systemów uczących się, który szacuje względną częstotliwość śmiech i oddychanie z korpusu książki prawdopodobnie określiłoby to, że śmiech występuje częściej niż oddychanie.

reprezentacja

Proces mapowania danych na przydatne obiekty.

ponowne rankingi

#recsystems

Ostatni etap systemu rekomendacji, podczas których zadania z oceną mogą zostać ponownie ocenione według innych (zwykle nie jest to algorytm ML). Ponowne pozycjonowanie ocenia listę produktów generowane w ramach oceniania, na przykład:

  • Usuwanie produktów, które użytkownik już kupił.
  • Poprawia wynik nowych produktów.

generowanie rozszerzone przez pobieranie (RAG)

#fundamentals

Technika poprawiania jakości dane wyjściowe dużego modelu językowego (LLM) uzależniając go od źródeł wiedzy pobranych po wytrenowaniu modelu. RAG zwiększa dokładność odpowiedzi LLM, udostępniając wytrenowanemu LLM dostępu do informacji pobranych z zaufanych baz wiedzy lub dokumentów.

Oto częste powody, dla których warto korzystać z generowania rozszerzonego przez wyszukiwanie:

  • Zwiększenie dokładności faktów wygenerowanych przez model.
  • Zapewnienie modelowi dostępu do wiedzy, na której nie został trenowany.
  • Zmiana wiedzy wykorzystywanej przez model.
  • Umożliwienie modelowi cytowania źródeł.

Załóżmy na przykład, że aplikacja chemiczna korzysta z modelu PaLM API do generowania podsumowań. związane z zapytaniami użytkowników. Gdy backend aplikacji odbiera zapytanie, system:

  1. Wyszukuje dane („pobiera”) dane związane z zapytaniem użytkownika.
  2. Dołącza („rozszerza”) odpowiednie dane chemiczne do zapytania użytkownika.
  3. Instruuje LLM do utworzenia podsumowania na podstawie dołączonych danych.

powrót

#rl

Przy uczeniu przez wzmacnianie, biorąc pod uwagę pewną zasadę i określony stan, zwrot to suma wszystkich nagród, które agent oczekuje w związku z zasadami określonymi przez state do końca odcinka. Agent uwzględnia opóźniony charakter oczekiwanych nagród, oferując rabaty. w zależności od zmian stanu wymaganych do otrzymania nagrody.

Dlatego, jeśli współczynnik rabatu wynosi \(\gamma\), a \(r_0, \ldots, r_{N}\) podają nagrody do końca odcinka, a następnie oblicza się zwrot. jest taki:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

nagrody

#rl

W uczeniu przez wzmacnianie jest to liczbowy wynik obliczenia action w stanie, zgodnie z definicją środowisko.

regularyzacja kalenicy

Synonim L2 regularyzacji. Termin Regularizowanie grzbietu jest częściej używane w czystych statystykach. kontekstów, a L2 regularyzacja jest używana częściej w systemach uczących się.

RNN

#seq

Skrót oznaczający powracające sieci neuronowe.

Krzywa charakterystyki operacyjnej odbiornika

#fundamentals

wykres współczynnika prawdziwie dodatniego w porównaniu z współczynnik wyników fałszywie pozytywnych dla różnych progi klasyfikacji w formacie binarnym. klasyfikacja danych.

Kształt krzywej ROC sugeruje zdolność modelu klasyfikacji binarnej aby oddzielić klasy pozytywne od negatywnych. Załóżmy na przykład, że że model klasyfikacji binarnej idealnie oddziela wszystkie wartości ujemne ze wszystkich klas pozytywnych:

Linia liczbowa z 8 przykładami dodatnimi po prawej stronie oraz
          7 negatywnych przykładów po lewej stronie.

Krzywa charakterystyki ROC poprzedniego modelu wygląda tak:

Krzywa charakterystyki operacyjnej odbiornika (ROC). Oś X oznacza współczynnik fałszywie pozytywnych, a oś Y.
          współczynnik prawdziwie pozytywnych. Krzywa ma odwrócony kształt L. Krzywa
          zaczyna się od (0,0,0,0) i przechodzi bezpośrednio do (0,0,1,0). Potem krzywa
          zmienia się z (0,0,1,0) na (1,0,1.0).

Dla porównania na ilustracji poniżej przedstawiono nieprzetworzoną regresję logistyczną. strasznego modelu, który nie potrafi oddzielić klas negatywnych od pozytywnej klasy,

Linia liczbowa z przykładami dodatnimi i ujemnymi
          z całkowitą mieszanką.

Krzywa charakterystyki ROC w tym modelu wygląda tak:

Krzywa ROC, która jest w rzeczywistości linią prostą na podstawie (0,0,0,0)
          do (1,0,1,0).

Tymczasem w świecie rzeczywistym większość modeli klasyfikacji binarnej oddziela w pewnym stopniu pozytywnych i negatywnych, ale zwykle nie jest idealnie. A więc, typowa krzywa ROC mieści się gdzieś pomiędzy 2 skrajnymi wartościami:

Krzywa charakterystyki operacyjnej odbiornika (ROC). Oś X oznacza współczynnik fałszywie pozytywnych, a oś Y.
          współczynnik prawdziwie pozytywnych. Krzywa ROC odzwierciedla kształt łuku drgającego
          podczas podróży z zachodu na północ.

Punkt na krzywej ROC najbliższy (0,0, 1,0) teoretycznie identyfikuje idealnego progu klasyfikacji. Istnieje jednak kilka innych rzeczywistych problemów, wpływają na wybór idealnego progu klasyfikacji. Przykład: być może wyniki fałszywie negatywne powodują znacznie większy ból niż wyniki fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC w pojedynczą wartość zmiennoprzecinkową.

prośba o rolę

#language
#generativeAI

Opcjonalna część prośby, która określa docelowych odbiorców. dla odpowiedzi modelu generatywnej AI. Bez roli duży model językowy podaje odpowiedź, która może, ale nie musi być przydatna za osobę zadającą pytania. Po wyświetleniu prośby o rolę, duży język może odpowiadać w sposób, który jest bardziej odpowiedni i pomocny dla konkretnej grupy odbiorców. Na przykład: część z promptem roli prompty są pogrubione:

  • Streść ten artykuł doktora ekonomii.
  • Opisz, jak działają pływy u 10-letniego dziecka.
  • Wyjaśnij kryzys finansowy w 2008 roku. Mów jak do małego dziecka, lub golden retrievera.

poziom główny

#df

węzeł początkowy (pierwszy condition) w drzewie decyzyjnym. Zgodnie z konwencją diagramy umieszczają korzenie na górze drzewa decyzyjnego. Na przykład:

Drzewo decyzyjne z 2 warunkami i 3 liśćmi. 
          warunek początkowy (x > 2) to pierwiastek.

katalog główny

#TensorFlow

Wskazany przez Ciebie katalog do hostowania podkatalogów TensorFlow plików punktów kontrolnych i zdarzeń wielu modeli.

Średnia kwadratowa błędów (RMSE)

#fundamentals

Pierwiastek kwadratowy z średniego kwadratu błędu.

niewariancja obrotowa

#image

W przypadku zadania z klasyfikacją obrazów zdolność algorytmu klasyfikowania obrazów nawet po zmianie orientacji. Przykład: ale algorytm rozpoznaje rakietę tenisową niezależnie od tego, czy jest skierowana do góry, bokiem lub w dół. Pamiętaj, że niewariancja rotacyjna nie zawsze jest zalecana. na przykład odwrócona 9 nie powinna być sklasyfikowana jako 9.

Zobacz też niezmienność translacji oraz niewariancja rozmiaru.

R-kwadrat

dane regresji wskazujące, jak duże zmiany Etykieta odpowiada pojedynczemu obiektowi lub zbiorowi cech. R kwadrat to wartość z zakresu od 0 do 1, którą można zinterpretować w następujący sposób:

  • Wartość R kwadrat o wartości 0 oznacza, że żadna z wariacji etykiety nie jest związana z do zbioru cech.
  • Wartość R kwadrat o wartości 1 oznacza, że wszystkie zmiany etykiety są spowodowane do zbioru cech.
  • R kwadrat z zakresu od 0 do 1 wskazuje stopień, w jakim można przewidzieć na podstawie konkretnego obiektu lub zbioru cech. Na przykład R kwadrat o wartości 0,10 oznacza, że 10 procent wariancji wynika z zestawu cech, wartość R kwadrat 0,20 oznacza, 20% wynika z zestawu funkcji i tak dalej.

R kwadrat jest kwadratem Korelacja Pesona między wartościami prognozowanymi przez model a danymi podstawowymi.

S

efekt próbkowania

#fairness

Zobacz Błąd doboru.

próbkowanie z zastąpieniem

#df

Metoda wybierania elementów ze zbioru elementów kandydujących, w którym ten element można wybrać wiele razy. Wyrażenie „z zamiennikiem” oznacza że po każdym wybraniu element jest zwracany do puli elementów kandydujących. Metoda odwrotna, próbkowanie bez zastępowania, oznacza, że element kandydujący można wybrać tylko raz.

Weźmy na przykład taki zestaw owocowy:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Załóżmy, że system losowo wybiera fig jako pierwszy element. Jeśli korzystasz z próbkowania z zastąpieniem, system wybiera drugi element z następującego zestawu:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Tak. Ten zestaw jest taki sam jak wcześniej, więc system może potencjalnie jeszcze raz wybierz fig.

Jeśli używasz próbkowania bez zastąpienia, po wybraniu próbki nie można wybrano jeszcze raz. Jeśli na przykład system losowo wybierze fig jako za pierwszą próbkę, potem fig nie będzie można wybrać ponownie. Dlatego system wybiera drugą próbkę z następującego (zmniejszonego) zbioru:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Zalecany format do zapisywania i przywracania modeli TensorFlow. SavedModel to neutralny dla języka format serializacji, który można odzyskać, systemów i narzędzi wyższego poziomu do produkcji, wykorzystywania i przekształcania TensorFlow. modeli ML.

Zapoznaj się z rozdziałem Zapisywanie i przywracanie. w przewodniku po TensorFlow dla programistów.

Ekonomiczna

#TensorFlow

Obiekt TensorFlow odpowiedzialnym za zapisywanie punktów kontrolnych modelu.

wartość skalarna

Pojedyncza liczba lub pojedynczy ciąg znaków, który może być przedstawiony jako tensor o rank 0. Na przykład: każdy z nich tworzy w TensorFlow po 1 wskaźniku skalarnym:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

skalowanie

Każda przekształcenie lub technika matematyczna, które zmieniają zakres etykiety lub wartości cechy. Niektóre formy skalowania są bardzo przydatne przy przekształceniach takich jak normalizacja.

Typowe formy skalowania przydatne w uczeniu maszynowym to:

  • wykorzystującą funkcję odejmowania i skalowania liniowego, podziel, aby zastąpić pierwotną wartość liczbą z zakresu od -1 do +1 lub pomiędzy 0 a 1.
  • skalowanie logarytmiczne, które zastępuje pierwotną wartość wartością dla logarytmu.
  • normalizację wyniku Z, która zastępuje wartość pierwotna z wartością zmiennoprzecinkową reprezentującą liczbę odchyleń standardowych od średniej tej cechy.

scikit-learn

Popularna platforma open source dla systemów uczących się. Zobacz scikit-learn.org.

ocena

#recsystems

Element systemu rekomendacji, który podaje wartość lub ranking każdego elementu utworzonego przez generowanie kandydatów.

efekt wyboru

#fairness

Błędy w wnioskach wyciągniętych z próbkowanych danych wynikające z procesu selekcji które generuje systematyczne różnice między próbkami zaobserwowanymi w danych od tych niezaobserwowanych. Wyróżniamy te formy dyskryminacji doboru:

  • odchylenia zasięgu: populacja w zbiorze danych nie dopasowują się do populacji, którą tworzy model systemów uczących się i generowanie prognoz.
  • Błąd próbkowania: dane z grupy docelowej nie są zbierane w sposób losowy.
  • Błąd w reakcji na brak odpowiedzi (zwany też błędem opartym na uczestnikach): użytkownicy niektóre grupy rezygnacji z ankiet w innym stopniu niż rezygnacje z ankiet do innych grup.

Załóżmy na przykład, że tworzysz model systemów uczących się, który prognozuje, którzy lubią oglądać film. Aby zebrać dane do trenowania, rozdajesz ankietę wszystkim osobom w pierwszym rzędzie w kinie, w filmie. Może to wydawać się rozsądne, zebrać zbiór danych, jednak ta forma gromadzenia danych może wprowadziliśmy następujące formy dyskryminacji doboru:

  • efekt pokrycia: przez próbkowanie populacji, która zdecydowała się zobaczyć film, prognozy modelu mogą nie uogólniać którzy jeszcze nie wyrażali takiego zainteresowania filmem.
  • odchylenie próby: zamiast losowego próbkowania z docelowa populacja (wszystkie osoby w filmie) – dotyczy to tylko próbki ludzi w pierwszym rzędzie. Możliwe, że ludzie siedzący osób z pierwszego rzędu było bardziej zainteresowane filmem niż ci z innych wierszach.
  • tendencyjność braku odpowiedzi: zwykle ludzie mają silne opinie częściej wypełniać opcjonalne ankiety niż ci, którzy mają łagodny charakter opiniami. Ankieta dotycząca filmu jest opcjonalna, częściej tworzą dystrybucja bimodalna niż normalny (w kształcie dzwonka).

samoutrzymanie (zwana też warstwą samoobsługi)

#language

Warstwa sieci neuronowej, która przekształca sekwencję wektory dystrybucyjne (np. wektory dystrybucyjne token) w inną sekwencję wektorów dystrybucyjnych. Każde umieszczenie w sekwencji wyjściowej jest tworzone przez integrowanie informacji z elementów sekwencji wejściowej korzystając z mechanizmu uważności.

Część ja samouwagi odnosi się do sekwencji uwzględniającej a nie do innego kontekstu. Jedną z najważniejszych elementy składowe dla Transformers oraz korzystające z wyszukiwania w słowniku. terminologię taką jak „zapytanie”, „klucz” i „wartość”.

Warstwa samouważności zaczyna się od sekwencji reprezentacji danych wejściowych, do każdego słowa. Wprowadzana reprezentacja słowa może być prosta wektora dystrybucyjnego. Dla każdego słowa w sekwencji wejściowej funkcja sieci określa trafność słowa do każdego elementu w całej sekwencji słowa kluczowe. Wyniki trafności określają stopień reprezentacji konkretnego słowa uwzględnia reprezentacje innych słów.

Weźmy na przykład to zdanie:

Zwierzę nie przeszło przez ulicę, ponieważ było zbyt zmęczone.

Poniższa ilustracja (od Transformer: nowatorska architektura sieci neuronowych dla języka Interpretacja danych) pokazuje wzorzec koncentracji uwagi na zaimku it, z każda linia jest zaciemniona, wskazując, w jakim stopniu poszczególne słowa mają swój wkład reprezentacja:

Następujące zdanie pojawia się dwukrotnie: zwierzę nie przekroczyło
          bo była zbyt zmęczona. Zaimki łączą zaimki linią
          od jednego zdania do pięciu pionków (The, zwierzęta, street, it, i
          kropkę) w drugim zdaniu.  Linia między zaimkiem
          a słowo „zwierzę” jest najsilniejsze.

Warstwa samouważności wyróżnia słowa, które są związane z tym hasłem. W tym przypadkiem, warstwa uważności nauczyła się wyróżniać słowa, które może przypisując najwyższą wagę zwierzętom.

W przypadku sekwencji n tokenów samouważność przekształca sekwencję wektorów dystrybucyjnych n razy, po jednym razie w każdej pozycji w sekwencji.

Więcej informacji znajdziesz w artykułach Uwaga oraz swojej wielostronnej uwagi.

nauka bez nadzoru

Rodzina metod konwersji Problem z nienadzorowanymi systemami uczącymi się w problemie nadzorowanych systemów uczących się przez utworzenie zastępczych etykiet z Przykłady bez etykiet.

Niektóre modele oparte na Transformer, takie jak Transformer, używają do samodzielnej nauki.

Samodzielne szkolenie to uczenie się częściowo nadzorowane.

samoszkolenie

Wariant samodzielnego uczenia się, w którym szczególnie przydatne, gdy spełnione są wszystkie poniższe warunki:

Samotrenowanie polega na powtarzaniu tych 2 kroków, aż model przestaje się poprawiać:

  1. za pomocą nadzorowanych systemów uczących się, wytrenować model na przykładach z etykietami.
  2. Użyj modelu utworzonego w kroku 1 do wygenerowania prognoz (etykiet) w nieoznaczonych etykietami, przenosząc te, w przypadku których występuje duża pewność, przykłady oznaczone etykietą z prognozowaną etykietą.

Zwróć uwagę, że każda iteracja kroku 2 dodaje więcej oznaczonych przykładów trenowanie.

uczenie częściowo nadzorowane

Trenowanie modelu na danych, w przypadku których niektóre przykłady trenowania mają etykiety, ale w ogóle nie. Jedną z metod w uczeniu częściowo nadzorowanym jest wnioskowanie etykiet dla: przykłady bez etykiet, a następnie trenować na wywnioskowanych etykietach w celu utworzenia nowego model atrybucji. Nauka częściowo nadzorowana może być przydatna, jeśli dostęp do etykiet jest kosztowny ale jest też mnóstwo przykładów bez etykiet.

Trenowanie samodzielnie to jedna z technik przeznaczonych dla uczniów systemów uczących się.

atrybut poufny

#fairness
To atrybut człowieka, który może być brany pod uwagę ze względów prawnych, z powodów etycznych, społecznych lub osobistych.

analiza nastawienia

#language

Zastosowanie statystycznych lub algorytmów uczenia maszynowego do określania ogólnym nastawieniem – pozytywnym czy negatywnym – do usługi, produktu organizacji lub tematu. Na przykład użycie rozumienie języka naturalnego, algorytm może przeprowadzić analizę nastawienia na podstawie informacji tekstowych od kierunku studiów uniwersyteckich w celu określenia stopnia, ogólnie ocenili ten kurs lub nie.

model sekwencji

#seq

Model, którego dane wejściowe są sekwencyjne. Na przykład przewidywanie następny film obejrzany w sekwencji wcześniej oglądanych filmów.

zadanie sekwencyjne z sekwencją

#language

Zadanie, które konwertuje sekwencję wejściową tokenów na dane wyjściowe z sekwencją tokenów. Na przykład 2 popularne rodzaje danych „od sekwencji do sekwencji” są następujące zadania:

  • Tłumacze:
    • Przykładowa sekwencja wejściowa: „Kocham Cię”.
    • Przykładowa sekwencja wyjściowa: „Je t'aime”.
  • Odpowiadanie na pytania:
    • Przykładowa sekwencja danych wejściowych: „Czy potrzebuję samochodu w Krakowie?”.
    • Przykładowa sekwencja wyjściowa: „Nie. Zostań w domu”.

porcja

Proces udostępniania wytrenowanego modelu do przekazywania prognoz wnioskowania online lub wnioskowania offline.

kształt (tensor)

Liczba elementów w każdym wymiarze tensora. Kształt jest przedstawiony jako lista liczb całkowitych. Przykład: tensor dwuwymiarowy ma kształt [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

Do przedstawiania kolejności w przypadku TensorFlow używa formatu wiersz-major (w stylu C). wymiarów, dlatego kształt w TensorFlow to [3,4], a nie [4,3] Inaczej mówiąc, w dwuwymiarowym systemie TensorFlow Tensor kształt wynosi [liczba wierszy, liczba kolumn].

Kształt statyczny to kształt tensora, który jest znany w czasie kompilowania.

Dynamiczny kształt jest nieznany w czasie kompilowania i jest w zależności od danych środowiska wykonawczego. Tensor może być przedstawiony za pomocą funkcji wymiar zastępczy w TensorFlow, np. [3, ?].

fragment

#TensorFlow
#GoogleCloud

Logiczny podział zbioru treningowego lub model. Zwykle niektóre procesy tworzą fragmenty, dzieląc je przykłady lub parametry, do których (zwykle) w odpowiednich rozmiarach. Każdy fragment jest następnie przypisywany do innej maszyny.

Fragmentacja modelu jest nazywana równoległością modelu. fragmentację danych nosi nazwę równoległości danych.

zmniejszanie

#df

hiperparametr w wzmocnienie gradientu, nadmiernego dopasowania. Zmniejszenie w wzmocnieniu gradientowym jest analogiczny do tempa uczenia się w gradient gradientowy. Zmniejszanie jest liczbą dziesiętną z zakresu od 0,0 do 1,0. Niższa wartość kurczenia ogranicza dopasowanie niż większa wartość kurczenia.

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „ściska” wartość wejściową do ograniczonego zakresu, zwykle 0 do 1 lub -1 do +1. Oznacza to, że można przekazać dowolną liczbę (dwa, milion, do sigmoidy, a wynik będzie nadal ograniczony zakres. Schemat funkcji aktywacji sigmoidalnej wygląda tak:

Dwuwymiarowy, zakrzywiony wykres z wartościami x obejmującymi domenę
          -nieskończoność do +dodatnia, podczas gdy wartości y obejmują zakres niemal od 0 do
          prawie 1. Gdy x to 0, y to 0,5. Nachylenie krzywej jest zawsze
          dodatnia, o najwyższym nachyleniu na poziomie 0,0,5 i stopniowo malejącym
          wraz ze wzrostem wartości bezwzględnej x.

Funkcja sigmoidalna ma wiele zastosowań w uczeniu maszynowym, m.in.:

miara podobieństwa

#clustering

W algorytmach klastrowania wskaźnik używany do określenia podobieństw (jak podobne) są dowolne dwa przykłady.

pojedynczy program / wiele danych (SPMD)

Technika równoległości, w której to samo obliczenia są wykonywane na różnych danych wejściowych równolegle na różnych urządzeniach. Celem SPMD jest uzyskanie wyników, szybciej. To najpopularniejszy styl programowania równoległego.

niewariancja rozmiaru

#image

W przypadku zadania z klasyfikacją obrazów zdolność algorytmu klasyfikowania obrazów nawet wtedy, gdy ich rozmiar się zmieni. Przykład: algorytm nadal może zidentyfikować kota, niezależnie od tego, czy zużywa 2 czy 200 tys. pikseli. Pamiętaj, że nawet najlepsze Algorytmy klasyfikacji obrazów wciąż mają praktyczne ograniczenia dotyczące niezmienności rozmiaru. Na przykład algorytm (lub człowiek) prawdopodobnie nie sklasyfikuje prawidłowo zużywający zaledwie 20 pikseli.

Zobacz też niezmienność translacji oraz niewariancja rotacyjna.

szkicowanie

#clustering

W przypadku nienadzorowanych systemów uczących się kategoria algorytmów przeprowadzających wstępną analizę podobieństwa na przykładach. Algorytmy szkicowania używają funkcja skrótu z uwzględnieniem lokalizacji aby zidentyfikować punkty, które prawdopodobnie są podobne, a następnie pogrupować i umieszczać je w grupach.

Szkicowanie ogranicza obliczenia potrzebne do obliczeń podobieństw w dużych zbiorach danych. Zamiast obliczać podobieństwo każdego pojedynczego pary przykładów w zbiorze danych, obliczamy podobieństwo tylko dla każdego z nich pary punktów w każdym segmencie.

skip-gram

#language

n-gram, który może pominąć (lub „pominąć”) słowa w oryginale. kontekstu, co oznacza, że N słów mógł nie sąsiadują ze sobą. Więcej a dokładnie „k-skip-n-gram” to n-gram, dla którego może zostały pominięte.

Na przykład „szybki brązowy lis” ma takie 2 gramy:

  • „szybkość”
  • „szybki brązowy”
  • „brązowy lis”

„1 pominięcie 2 gramów” to para słów, które mają między sobą maksymalnie 1 słowo. Dlatego: „szybki brązowy lis” ma następujące 2 gramy z pominięciem:

  • „brązowy”
  • „szybki lis”

Poza tym wszystkie 2 gramy to 1 pomijanie/2 g, ponieważ mniej jedno słowo może zostać pominięte.

Fragmenty ze słowami pomiń ułatwiają zrozumienie kontekstu danego słowa. W tym przykładzie: „lis” było bezpośrednio powiązane ze słowem „szybkie” w zbiorze 1 pomijać 2 gramy, ale nie w zestawie 2 gramów.

Pomijanie gramów – pomoc w trenowaniu modele umieszczania słów.

funkcja softmax

#fundamentals

Funkcja, która określa prawdopodobieństwo dla każdej możliwej klasy w argumencie model klasyfikacji wieloklasowej. prawdopodobieństwa dają sumę dokładnie 1,0. Na przykład w tabeli poniżej pokazujemy, jak rozkłada się działanie funkcji softmax różne prawdopodobieństwa:

Obraz jest... Probability,
pies 0,85
Cat 0,13
koń 0,02

Jest on też nazywany pełnym softmax.

Przeciwieństwem jest próbkowanie kandydatów.

łagodne dostrajanie promptów

#language
#generativeAI

Technika dostrajania dużego modelu językowego do konkretnego zadania i nie wymaga dużych nakładów pracy dostrajaniu. Zamiast ponownie szkolić wszystkich wagi w modelu, dostrajanie promptów automatycznie dostosowuje komunikat, aby osiągnąć ten sam cel.

Po otrzymaniu promptu tekstowego dostrajanie dosłownego promptu zwykle dołącza do promptu dodatkowe wektory dystrybucyjne tokenów i używa przez propagację wsteczną, aby zoptymalizować dane wejściowe.

„Twarde” zawiera rzeczywiste tokeny, a nie wektory dystrybucyjne.

cecha rozproszona

#language
#fundamentals

Cecha, której wartości mają głównie zero lub są puste. Na przykład cecha zawierająca pojedynczą wartość 1 i milion 0 to rozproszony. Natomiast obiekt gęsty ma wartości, które nie są zerowe ani puste.

W systemach uczących się zaskakująca liczba funkcji to rzadkie funkcje. Cechy kategorialne są zwykle rozproszone. Na przykład z 300 możliwych gatunków drzew w lesie jeden przykład może rozpoznać po prostu klon. Lub spośród milionów filmów dostępnych w bibliotece, jeden przykład może wskazać tylko „Casablanca”.

W modelu zazwyczaj są przedstawiane rozproszone cechy, kodowanie jedno- gorące. Jeśli jedno gorące kodowanie jest duże, możesz umieścić na niej warstwę umieszczania 1 kodowanie jednorazowe, co pozwala zwiększyć wydajność.

reprezentacja rozproszona

#language
#fundamentals

Przechowywanie w obiekcie rozproszonym tylko pozycji elementów innych niż zero.

Załóżmy na przykład, że cecha kategorialna o nazwie species identyfikuje 36 gatunków drzew w konkretnym lesie. Zakładamy więc, że każdy przykład wskazuje tylko jeden gatunek.

Do reprezentowania gatunków drzew w każdym przykładzie możesz użyć wektora 1 gorąca. Wektor o jednej wartości gorącej mógłby zawierać pojedynczy element 1 (oznaczający konkretnego gatunku drzewa z tego przykładu) i 35 kształtów 0 (reprezentujących 35 gatunków drzew w tym przykładzie). Wyjątkowa reprezentacja z maple może wyglądać mniej więcej tak:

Wektor, w którym pozycje od 0 do 23 mają wartość 0, pozycję
          24 zawiera wartość 1, a pozycje od 25 do 35 – wartość 0.

Ewentualnie rozproszona reprezentacja określałaby po prostu pozycję konkretnego gatunku. Jeśli maple znajduje się na pozycji 24, to reprezentacja rozproszona w maple będzie po prostu:

24

Zwróć uwagę, że reprezentacja rozproszona jest znacznie bardziej zwięzła niż danych „jedno gorące”. reprezentacja.

wektor rozproszony

#fundamentals

Wektor, którego wartości to głównie zera. Zobacz też rozproszone cechę i różnorodność.

rozproszenie

Liczba elementów w wektorze lub macierzy podzielona na 0 (lub wartość null) przez łączną liczbę wpisów w tym wektorze lub macierzy. Przykład: rozpatrujemy macierz 100-elementową, w której 98 komórek zawiera zero. Obliczenia jest taka:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Niewystarczająco dużo cech oznacza rozproszenie wektora cech. Rozbieżność modelu odnosi się do rozproszenia wag modelu.

agregacja przestrzenna

#image

Zobacz pooling.

podział : fragment

#df

W drzewie decyzji jest to inna nazwa condition [stan].

rozdzielacz

#df

Podczas trenowania drzewa decyzji, rutyna (i algorytm) odpowiedzialnej za wyszukiwanie condition w każdym węźle.

SPMD

Skrót od wyrażenia jeden program / wiele danych.

kwadratowa utrata zawiasu

Kwadrat utraty zawiasu. Kwadratowy brak zawiasu skutkuje nałożeniem kary są większe niż w przypadku zwykłej utraty zawiasu.

strata do kwadratu

#fundamentals

Synonim L2 straty.

trening etapowy

#language

Taktyka trenowania modelu w sekwencji odrębnych etapów. Celem może być albo przyspieszyć proces trenowania, albo uzyskać lepszą jakość modelu.

Oto ilustracja metody progresywnego nakładania:

  • Etap 1 obejmuje 3 ukryte warstwy, etap 2 – 6 oraz 6 warstw Etap 3 obejmuje 12 ukrytych warstw.
  • Etap 2 zaczyna trenowanie z ciężarami nauczonymi w 3 ukrytych warstwach Etapu 1. Etap 3 zaczyna trenowanie z wagami nauczonymi w 6 i ukryte warstwy etapu 2.

Trzy etapy oznaczone jako „Etap 1”, „2” i „3”.
          Każdy etap ma inną liczbę warstw. Etap 1 zawiera
          3 warstwy, etap 2 – 6 warstw, a etap 3 – 12 warstw.
          Trzy warstwy z etapu 1 stają się pierwszymi 3 warstwami etapu 2.
          Podobnie 6 warstw z etapu 2 stanie się pierwszymi 6 warstwami
          Etap 3.

Zobacz też tworzenie potoków.

stan

#rl

W uczeniu przez wzmocnienie wartości parametrów, które opisują bieżącą sytuację konfiguracji środowiska używanego przez agenta do wybierz działanie.

funkcja wartości stanowego działania

#rl

Synonim funkcji Q.

statyczne

#fundamentals

Coś, co trzeba zrobić raz, a nie bez przerwy. Hasła statyczny i offline to synonimy. Poniżej znajdziesz typowe przypadki użycia plików statycznych i offline w systemach uczących się. nauka:

  • model statyczny (lub model offline) to model wytrenowany raz, a potem nie były używane od jakiegoś czasu.
  • trenowanie statyczne (trenowanie offline) to proces trenowania statycznego modelu atrybucji.
  • wnioskowanie statyczne (lub wnioskowanie offline) to funkcja procesu, w którym model generuje jednocześnie porcję prognoz.

Przeciwieństwem są dynamiczne.

wnioskowanie statyczne

#fundamentals

Synonim wnioskowania offline.

stacjonarność

#fundamentals

Cecha, której wartości nie zmieniają się w żadnym lub kilku wymiarach, zwykle w czasie. Na przykład cecha, której wartości w 2021 r. wyglądają mniej więcej tak samo, 2023 r. – stacjonarność eksponatów.

W prawdziwym świecie niewiele cech cechuje się stabilizacją. Funkcje równomierne synonimy stabilności (takiej jak poziom morza) zmiany w czasie.

Przeciwieństwem jest niestacjonarność.

kroku

Podaj w przód i w tył w jednej grupie.

Więcej informacji znajdziesz w sekcji o propagacji wstecznej. podczas przechodzenia do przodu i do tyłu.

rozmiar kroku

Synonim tempa uczenia się.

gradient stochastyczny (SGD)

#fundamentals

Algorytm gradientu, w którym rozmiar grupy wynosi 1. Innymi słowy, SGD trenuje na jednego przykładu wybranego równomiernie losowo ze zestawu treningowego.

stride

#image

W operacji splotowej lub puli delta każdego wymiaru dla kolejnej serii wycinków danych wejściowych. Na przykład ta animacja demonstruje krok (1,1) podczas splotowej operacji. Dlatego następny wycinek danych wejściowych zaczyna się o jedną pozycję po prawej stronie poprzedniego tekstu wycinek danych. Gdy operacja dotrze do prawej krawędzi, następny wycinek będzie w lewo, ale o jedną pozycję w dół.

Macierz wejściowa 5 x 5 i filtr splotowy 3 x 3. Ponieważ
     krok wynosi (1,1), filtr splotowy zostanie zastosowany 9 razy. Pierwszy
     wycinek splotowy ocenia lewą górną podmacierz 3x3 danych wejściowych
     lub macierz. Drugi wycinek ocenia obszar pośrodku górnego 3 x 3
     pod macierz. Trzeci wycinek splotowy określa prawy górny róg 3 x 3
     pod macierz.  Czwarty wycinek ocenia podmacierz 3 x 3 znajdującą się w lewym środku.
     Piąty wycinek wyznacza środkową podmacierz 3 x 3. Szósty kawałek
     ocenia podmacierz 3 x 3 w prawym środkowym rogu. Siódmy wycinek ocenia
     lewej podmacie 3 x 3 w lewym dolnym rogu.  Ósmy wycinek ocenia
     środkową i dolną macierz 3 x 3. Dziewiąty wycinek wyznacza obszar 3 x 3 przy prawym dolnym rogu
     pod macierz.

Poprzedni przykład przedstawia dwuwymiarowy krok. Jeśli dane wejściowe jest trójwymiarowa, krok też byłby trójwymiarowy.

minimalizacja ryzyka strukturalnego (SRM)

Algorytm, który łączy 2 cele:

  • Potrzeba zbudowania modelu najbardziej prognozującego (np. najmniejszej straty).
  • Potrzeba możliwie najprostszych modeli (np. regularyzacja).

Na przykład funkcja, która minimalizuje stratę i regularyzację to algorytm minimalizacji ryzyka strukturalnego.

Przeciwieństwem jest empiryczna minimalizacja ryzyka.

podpróbkowanie

#image

Zobacz pooling.

token podsłowia

#language

W modelach językowych token, który jest podłańcucha wyrazu, który może stanowić całe słowo.

Na przykład słowo takie jak „wymieniaj” można podzielić na „elementy”, (słowo kluczowe) i „ize” (sufiks), z których każdy jest reprezentowany przez własną token. Podzielenie nietypowych słów na takie, nazywane podsłowami, pozwala modeli językowych do operowania na bardziej powszechnych częściach składowych słowa takich jak prefiksy i sufiksy.

a na odwrót – popularne słowa, takie jak „idę”; mogą nie być podzielone i mogą być reprezentowane przez pojedynczy token.

podsumowanie

#TensorFlow

W TensorFlow wartość lub zbiór wartości obliczonych w konkretnym step – zwykle używany do śledzenia danych modelu podczas trenowania.

nadzorowane systemy uczące się

#fundamentals

Wytrenuj model z funkcji i ich odpowiednie etykiety. Nadzorowane systemy uczące się są analogiczne przez przeanalizowanie zestawu pytań i ich odpowiadające odpowiedziom. Po opanowaniu mapowania między pytaniami odpowiedzi, uczeń może następnie odpowiedzieć na nowe (nigdy wcześniej niewidziane) pytań na ten sam temat.

Porównaj z nienadzorowanych systemów uczących się.

funkcja syntetyczna

#fundamentals

cechę, której nie ma wśród cech wejściowych, ale z co najmniej jednego. Metody tworzenia cech syntetycznych należy uwzględnić następujące elementy:

  • Grupowanie obiektu ciągłego do przedziałów zakresu.
  • Utworzenie różnych cech.
  • Mnożenie (lub dzielenie) jednej wartości cechy przez wartości innych cech lub samo w sobie. Jeśli na przykład a i b są cechami wejściowymi, to Oto przykłady funkcji syntetycznych:
    • ab
    • a2
  • Stosowanie funkcji transcendentalnej do wartości cechy. Jeśli na przykład c jest cechą wejściową, to następujące przykłady funkcji syntetycznych:
    • sin(c)
    • ln(c)

Funkcje tworzone przez normalizację lub skalowanie nie są uznawane za funkcje syntetyczne.

T

T5

#language

Model transferu wiedzy z tekstu na tekst wprowadzone przez AI od Google w 2020 roku. T5 to model kodera-dekodera oparty na Architektura Transformer wytrenowana na bardzo dużym w gromadzeniu danych. Świetnie sprawdza się w różnych zadaniach związanych z przetwarzaniem języka naturalnego, takich jak generowanie tekstu, tłumaczenie języków i odpowiadanie na pytania w sposób konwersacyjny.

Nazwa T5 pochodzi od liter T w funkcji „Transformer przesyłania tekstu na tekst”.

T5X

#language

Opracowana w formie platformy typu open source platforma systemów uczących się do tworzenia i trenowania przetwarzania języka naturalnego na dużą skalę (NLP). T5 jest zaimplementowany w bazie kodu T5X (która jest (stworzona w formatach JAX i Flax).

tabelaryczny Q-learning

#rl

W ramach uczenia przez wzmacnianie Q-learning wykorzystującą tabelę do przechowywania Funkcje Q dla każdej kombinacji funkcji state i action.

cel

Synonim terminu label.

sieć docelowa

#rl

W Deep Q-learning jest to stabilna sieć neuronowa. przybliżona sieć neuronowa, w której główna sieć neuronowa implementuje funkcję Q lub zasadę. Następnie możesz wytrenować główną sieć, korzystając z wartości Q prognozowanych przez wartość docelową Zapobiega to zapętleniu informacji zwrotnych, w którym występuje główny na podstawie prognozowanych wartości Q. Pozwoli to uniknąć takich opinii, zwiększa stabilność trenowania.

działanie

Problem, który można rozwiązać za pomocą technik uczenia maszynowego, takich jak:

temperatura

#language
#image
#generativeAI

hiperparametr, który kontroluje stopień losowości. danych wyjściowych modelu. Im wyższa temperatura, tym bardziej losowe wyniki a niższe temperatury – mniej losowe wartości.

Wybór najlepszej temperatury zależy od konkretnego zastosowania preferowane właściwości danych wyjściowych modelu. Na przykład: mogą zwiększyć temperaturę podczas tworzenia aplikacji, aby wygenerować kreacje wyjściowe. I na odwrót – prawdopodobnie obniżysz temperaturę podczas tworzenia modelu, który klasyfikuje obrazy lub tekst, aby poprawić dokładności i spójności modelu.

W przypadku funkcji softmax często używa się temperatury.

dane czasowe

Dane zarejestrowane w różnych punktach w czasie. Na przykład wyprzedaż płaszczy zimowych zarejestrowane dla każdego dnia roku byłyby danymi czasowymi.

Tensor

#TensorFlow

Podstawowa struktura danych w programach TensorFlow. Tensory są wielowymiarowe (gdzie N może być bardzo duże) struktury danych, najczęściej skalary, wektory lub macierzy. Elementy Tensor mogą zawierać liczby całkowite, zmiennoprzecinkowe, lub ciągi znaków.

TensorBoard

#TensorFlow

W panelu, w którym wyświetlane są podsumowania zapisane podczas wykonywania jednego lub więcej programów TensorFlow.

TensorFlow

#TensorFlow

Duża rozproszona platforma systemów uczących się. Termin dotyczy także podstawowej warstwy interfejsu API w stosie TensorFlow, która obsługuje ogólne obliczenia na wykresach Dataflow.

TensorFlow jest używany przede wszystkim w systemach uczących się, ale możesz też używać TensorFlow do zadań innych niż ML, które wymagają obliczeń liczbowych z użyciem oraz wykresy przepływu danych.

Środowisko TensorFlow Playground

#TensorFlow

Program, który pokazuje, jak różne Model wpływu hiperparametrów (głównie sieci neuronowych). Otwórz http://playground.tensorflow.org na eksperymentowanie z TensorFlow Playground.

Udostępnianie TensorFlow

#TensorFlow

Platforma do wdrażania wytrenowanych modeli w środowisku produkcyjnym.

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Układ scalony specyficzny dla aplikacji (ASIC), który optymalizuje wydajność systemów uczących się. Te kody ASIC są wdrożone jako kilka układów TPU na urządzeniu TPU.

Ranking tensora

#TensorFlow

Zobacz ranking (Tensor).

Kształt tensora

#TensorFlow

Liczba elementów w Tensor w różnych wymiarach. Na przykład Tensor w [5, 10] ma kształt 5 w jednym wymiarze, a 10 w innej.

Rozmiar tensora

#TensorFlow

Łączna liczba skalarów zawartych w usłudze Tensor. Na przykład plik [5, 10] Tensor ma rozmiar 50.

TensorStore

Biblioteka do efektywnego czytania w dużych, wielowymiarowych tablicach.

warunek zakończenia

#rl

We uczeniu przez wzmacnianie warunki, które określać, kiedy kończy się odcinek, np. kiedy agent osiągnie w określonym stanie lub przekracza próg liczby przejść stanów. Na przykład w grze kółko i krzyżyk (również zwanych nought (krzyżykami) lub krzyżykami, odcinek kończy się, gdy gracz zaznaczy, 3 kolejne spacje lub gdy zaznaczone są wszystkie spacje.

test

#df

W drzewie decyzji jest to inna nazwa condition [stan].

strata testowa

#fundamentals

Dane reprezentujące stratę modelu zestawu testowego. Tworząc model, zazwyczaj starają się zminimalizować stratę testów. Dzieje się tak, ponieważ niska strata testu silniejszy sygnał jakości niż niska utraty trenowania lub niewielką utratę walidacji.

Czasami duża luka między utratą testów a utratą trenowania lub utratą walidacji sugeruje, że należy zwiększyć częstotliwość regularyzacji.

zbiór testowy

Podzbiór zbioru danych zarezerwowanego do testowania wytrenowanego modelu.

Zwykle należy podzielić przykłady w zbiorze danych na 3 następujące różne podzbiory:

Każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie powinien należeć jednocześnie do zbioru treningowego i do zbioru testowego.

Zarówno zbiór treningowy, jak i zestaw do weryfikacji są ściśle powiązane z trenowaniem modelu. Zbiór testowy jest tylko pośrednio powiązany z trenowaniem, strata testu jest wskaźnikiem mniej tendencyjnym i wyższej jakości niż utratę trenowania lub utraty walidacji.

rozpiętość tekstu

#language

Zakres indeksu tablicy powiązany z określoną podsekcją ciągu tekstowego. Na przykład słowo good w ciągu znaków w języku Python s="Be good now" zajmuje zakres tekstu od 3 do 6.

tf.Example

#TensorFlow

Standard bufor protokołu do opisywania danych wejściowych na potrzeby trenowania lub wnioskowania modelu systemów uczących się.

tf.keras

#TensorFlow

Implementacja technologii Keras zintegrowana z TensorFlow.

próg (dla drzew decyzyjnych)

#df

W warunku wyrównanym do osi jest to wartość cecha jest porównywana. Na przykład 75 to wartość progową w następującym warunku:

grade >= 75

analiza ciągów czasowych

#clustering

Podobszar systemów uczących się i statystyk, który analizuje danych tymczasowych. Wiele typów systemów uczących się wymagają analizy ciągów czasowych, m.in. klasyfikacji, grupowania, prognozowania i wykrywania anomalii. Możesz na przykład użyć analiza ciągów czasowych w celu prognozowania przyszłej sprzedaży płaszczy zimowych według miesiąca na podstawie historycznych danych sprzedażowych.

krok w czasie

#seq

Jeden „wycofany” komórki w powracającej sieci neuronowej. Na przykład poniższy rysunek przedstawia 3 kroki w czasie (oznaczone etykietą w indeksach dolnych t-1, t i t+1):

3 etapy czasowe w powtarzającej się sieci neuronowej. Dane wyjściowe funkcji
          pierwszy krok staje się danymi wejściowymi do drugiego kroku czasu. Dane wyjściowe
          drugiego kroku w czasie stanie się danymi wejściowymi trzeciego kroku czasu.

token

#language

W modelu językowym jest to jednostka atomowa, i wykonywać prognozy. Tokenem jest zwykle :

  • słowo – na przykład wyrażenie „psy jak koty”. składa się z trzech słów tokeny: „psy”, „podobne” i „koty”.
  • znak – np. wyrażenie „ryba rowerowa”; składa się z dziewięciu tokeny znaków. (Pamiętaj, że puste miejsce jest liczone jako jeden z tokenów).
  • podsłów, w których jedno słowo może być pojedynczym tokenem lub większą liczbą tokenów. Podsłowo składa się ze słowa głównego, prefiksu lub sufiksu. Przykład: model językowy, który używa słów podrzędnych jako tokenów, może wyświetlać słowo „psy” jako dwa tokeny (słowo główne „pies” i sufiks liczby mnogiej „s”). Ta sama model językowy może wyświetlać pojedyncze słowo „wysoki” jako dwa podsłowa ( słowo główne „wysoki” i sufiks „er”).

W domenach spoza modeli językowych tokeny mogą reprezentować inne rodzaje jednostek atomowych. Na przykład w rozpoznawaniu obrazów token może być podzbiorem obrazu.

wieża

Komponent głębokiej sieci neuronowej, to głęboka sieć neuronowa. W niektórych przypadkach każda wieża odczytuje niezależnego źródła danych, które pozostaną niezależnie od siebie do momentu, dane wyjściowe są łączone w końcową warstwę. W innych przypadkach (np. encoder i decoder wiele Transformerów), wieże mają połączenia międzysieciowe i otwierać przed sobą nawzajem.

TPU

#TensorFlow
#GoogleCloud

Skrót od Procesor Tensor Processing Unit.

Układ TPU

#TensorFlow
#GoogleCloud

Programowalny akcelerator algebry liniowej z wbudowanym układem pamięci o wysokiej przepustowości zoptymalizowaną pod kątem zbiorów zadań systemów uczących się. Na urządzeniu TPU wdrożonych jest wiele układów TPU.

Urządzenie TPU

#TensorFlow
#GoogleCloud

Płytka drukowana (PCB) z wieloma układami TPU. a także interfejsy sieciowe o dużej przepustowości i sprzęt do chłodzenia systemu.

Główny TPU

#TensorFlow
#GoogleCloud

Centralny proces koordynacji działający na hoście, który wysyła i otrzymuje dane, wyniki, programy, wydajność i informacje o stanie systemu do instancji roboczych TPU. Głównym elementem TPU zarządza również konfiguracja i wyłączenia urządzeń TPU.

Węzeł TPU

#TensorFlow
#GoogleCloud

Zasób TPU w Google Cloud z określonym Typ TPU. Węzeł TPU łączy się z Sieć VPC z pełnorzędnej sieci VPC. Węzły TPU to zasób zdefiniowany w Cloud TPU API:

pod TPU

#TensorFlow
#GoogleCloud

Określona konfiguracja urządzeń TPU w Google w centrum danych. Wszystkie urządzenia w podzie TPU są ze sobą połączone w dedykowanej szybkiej sieci. Pod TPU to największa konfiguracja Urządzenia TPU dostępne w określonej wersji TPU.

Zasób TPU

#TensorFlow
#GoogleCloud

Jednostka TPU w Google Cloud, którą tworzysz, zarządzasz lub wykorzystujesz. Dla: np. węzły TPU i typy TPU są Zasoby TPU.

Wycinek TPU

#TensorFlow
#GoogleCloud

Wycinek TPU to ułamkowa część urządzeń TPU w poda TPU. Wszystkie urządzenia w wycinku TPU są połączone dzięki dedykowanej szybkiej sieci.

Typ TPU

#TensorFlow
#GoogleCloud

Konfiguracja co najmniej jednego urządzenia TPU z określoną wartością Wersja sprzętu TPU. Typ TPU wybierasz podczas tworzenia węzła TPU w Google Cloud. Przykład: v2-8 Typ TPU to jedno urządzenie TPU v2 z 8 rdzeniami. Typ TPU v3-2048 ma wartość 256 urządzeń TPU v3 dla sieci i łącznie 2048 rdzeni. Typy TPU są zasobami zdefiniowane w Cloud TPU API:

Instancja robocza TPU

#TensorFlow
#GoogleCloud

Proces, który działa na hoście i uruchamia programy systemów uczących się na urządzeniach TPU.

szkolenie

#fundamentals

Proces określania idealnych parametrów (wag i parametrów) uprzedzeń) składającej się z modelu. Podczas trenowania system odczytuje przykładów i stopniowo dostosowuje parametry. W szkoleniu wykorzystywane są poszczególne w dowolnym miejscu – od kilku do miliardów razy.

utrata treningu

#fundamentals

Dane reprezentujące stratę modelu podczas w konkretnej iteracji trenowania. Na przykład załóżmy, że funkcja utraty to średni kwadrat błędu. Być może utrata trenowania (średnia) Kwadratowy błąd) dla dziesiątej iteracji wynosi 2,2, a utrata trenowania dla dziesiąta iteracja to 1,9.

Krzywa straty przedstawia liczbę utraconych ćwiczeń w porównaniu z liczbą powtórzenia. Krzywa strat zawiera następujące wskazówki dotyczące trenowania:

  • Nachylenie w dół oznacza, że model się rozwija.
  • Stwierdzenie rosnące oznacza, że model się pogarsza.
  • Płaski nachylenie oznacza, że model osiągnął zgodności.

Na przykład taka krzywa strat do pewnego stopnia wyidealizacji programy:

  • Ostry spadek podczas początkowych iteracji, co oznacza, że szybkiego ulepszania modelu.
  • Stopniowo spłaszczony (ale nadal w dół) aż do końca trenowania, co oznacza ciągłe ulepszanie modelu w pewnym stopniu wolniejsze tempo niż podczas pierwszych iteracji.
  • Płaski spadek pod koniec trenowania, co sugeruje zbieżność.

Wykres strat trenowania i iteracji. Ta krzywa utraty zaczyna się
     ze stromym spadkiem. Nachylenie stopniowo spłaszcza się do momentu
     nachylenie wynosi zero.

Choć utrata trenowania jest ważna, zobacz też uogólnienia.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między wydajnością modelu w okresie trenowania i skuteczności tego samego modelu w trakcie wyświetlania.

zbiór treningowy

#fundamentals

Podzbiór zbioru danych używany do trenowania modelu.

Zazwyczaj przykłady w zbiorze danych są dzielone na 3 z tych elementów: różne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednej podzbiorów. Na przykład jeden przykład nie powinien należeć do zarówno w zbiorze treningowym, jak i w zbiorze walidacyjnym.

trajektoria

#rl

W ramach uczenia przez wzmacnianie sekwencja funkcji krotki reprezentujące sekwencję przejść między przejściami stanu agenta, gdzie każda krotka odpowiada stanowi, action. nagroda i kolejny stan przy określonej zmianie stanu.

nauczanie na przemian

Przenoszenie informacji z jednego zadania systemów uczących się do innego. Na przykład w przypadku uczenia wielozadaniowego jeden model rozwiązuje wiele zadań, np. model szczegółowy, który ma różne węzły wyjściowe różne zadania. Przekazywanie wiedzy może wymagać przekazywania wiedzy od rozwiązania prostszego zadania do bardziej złożonego. przenoszenia wiedzy z zadania, w którym jest więcej danych, do takiego, w którym jest mniej danych.

Większość systemów uczących się rozwiązuje jedno zadanie. Przenoszenie systemów uczących się krok w kierunku sztucznej inteligencji, w którym pojedynczy program może rozwiązać wielu zadań.

Transformator

#language

Architektura sieci neuronowej opracowana w Google, opiera się na mechanizmach skupienia się, sekwencja wektorów dystrybucyjnych wejściowych w sekwencję danych wyjściowych wektory dystrybucyjne bez splotów lub powracające sieci neuronowe. Transformer może być to zbiór warstw do skupienia się na sobie.

Transformer może zawierać te elementy:

Koder przekształca sekwencję wektorów dystrybucyjnych do nowej sekwencji tej samej długości. Koder zawiera N identycznych warstw, z których każda zawiera dwie i warstwy podrzędne. Te dwie warstwy podrzędne są stosowane na każdej pozycji danych wejściowych sekwencji wektora dystrybucyjnego, przekształcając każdy element sekwencji w nowy wektora dystrybucyjnego. Pierwsza warstwa podrzędna kodera gromadzi informacje z całego regionu sekwencji wejściowej. Druga warstwa podrzędna kodera przekształca zagregowany do wektora dystrybucyjnego dla danych wyjściowych.

Dekoder przekształca sekwencję wektorów dystrybucyjnych wejściowych w sekwencję wektorów dystrybucyjnych, które mogą mieć inną długość. Dekoder zawiera też N identycznych warstw z trzema warstwami podrzędnymi, z których dwie są podobne do i warstw podrzędnych kodera. Trzecia podwarstwa dekodera pobiera dane wyjściowe funkcji kodera i stosuje mechanizm samodzielnego zwracania uwagi, zbierać od nich informacje.

Post na blogu Transformer: A Novel Neural Network Architecture for Language (Transformer: Novel Neural Network Architecture for Language) Zrozumienie stanowi dobre wprowadzenie do Transformers.

niewariancja translacyjna

#image

W przypadku zadania z klasyfikacją obrazów zdolność algorytmu klasyfikowania obrazów, nawet jeśli zmienia się położenie obiektów na obrazie. Na przykład algorytm nadal potrafi wykryć psa, niezależnie od tego, czy znajduje się on na środku klatki lub na jej lewym końcu.

Zobacz też niewariancję rozmiaru oraz niewariancja rotacyjna.

trygram

#seq
#language

N-gram, w którym N=3.

Wynik prawdziwie negatywny (TN)

#fundamentals

Przykład, w którym model prawidłowo przewiduje klasa wykluczających słów kluczowych. Model zakłada na przykład, że konkretny e-mail nie jest spamem, który naprawdę jest nie są spamem.

prawdziwie pozytywny (TP)

#fundamentals

Przykład, w którym model prawidłowo przewiduje klasie pozytywnej. Model zakłada na przykład, że konkretny e-mail jest spamem, a ten e-mail to tak naprawdę spam.

współczynnik prawdziwie pozytywnych (TPR)

#fundamentals

Synonim wyrażenia recall. Czyli:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Współczynnik prawdziwie pozytywnych to oś Y na krzywej ROC.

U

brak świadomości (do atrybutu poufnego)

#fairness

Jeśli atrybuty o charakterze kontrowersyjnym są ale nie są uwzględniane w danych treningowych. Ponieważ atrybuty wrażliwe są często skorelowane z innymi atrybutami danych, model wytrenowany gdy nie wiesz o drażliwych atrybutach, rozmaity wpływ na ten atrybut, lub narusza inne ograniczenia związane z uczciwością.

niedopasowany

#fundamentals

Utworzenie modelu o niskiej zdolności prognozowania, ponieważ nie uchwycił w pełni złożoności danych treningowych. Wiele problemów mogą powodować niedopasowanie, w tym:

niedopróbkowanie

Usuwam przykłady z większość w zbioru danych o niezbalansowaniu klasy, aby stworzyć bardziej zrównoważony zestaw treningowy.

Weźmy na przykład zbiór danych, w którym stosunek klasy większości do klasa mniejszości to 20:1. Aby ukończyć ten kurs możesz utworzyć zbiór treningowy obejmujący wszystkie mniejszości ale tylko dziesiątą z klas większości, co spowodowałoby utworzyć współczynnik klasy zbioru treningowego 2:1. Z powodu niedostatecznego próbkowania zrównoważony zbiór treningowy może wygenerować lepszy model. Alternatywnie bardziej zrównoważony zbiór treningowy może zawierać niewystarczającą ilość przykładów, i skuteczny model.

Kontrast z nadmiernym próbkowaniem.

jednokierunkowa

#language

System oceniający tylko tekst, który postępuje przed docelowym fragmentem tekstu. W przeciwieństwie do tego układ dwukierunkowy ocenia zarówno tekstu, który postępuje i następuje po docelowej sekcji tekstu. Więcej informacji znajdziesz w sekcji Dwukierunkowe.

jednokierunkowy model językowy

#language

Model językowy, który opiera swoje prawdopodobieństwo wyłącznie na podstawie tokeny występujące przed, a nie po tokenach docelowych. Różnica z dwukierunkowym modelem językowym.

przykład bez etykiety

#fundamentals

Przykład, który zawiera funkcje, ale nie zawiera etykiety. Na przykład w poniższej tabeli znajdują się 3 przykłady domu bez etykiet. modelu cenowego, z których każdy ma 3 cechy, ale nie ma wartości autoreklamy:

Liczba sypialni Liczba łazienek Wiek domowy
3 2 15
2 1 72
4 2 34

W przypadku nadzorowanych systemów uczących się modele trenują na przykładach oznaczonych etykietami i generują prognozy przykłady bez etykiet.

W przypadku częściowo nadzorowanych i uczenie się nienadzorowane, podczas trenowania używane są przykłady bez etykiet.

Porównaj przykład bez etykiety z przykładem z etykietą.

nienadzorowane systemy uczące się

#clustering
#fundamentals

Wytrenowanie modelu do znajdowania wzorców w zbiorze danych, zwykle zbiór danych bez etykiet.

Najczęstszym zastosowaniem nienadzorowanych systemów uczących się jest dane cluster na grupy podobnych przykładów. Na przykład na komputerze nienadzorowanym algorytm uczenia się może grupować utwory na podstawie różnych właściwości muzyki. Powstałe w ten sposób klastry mogą być danymi wejściowymi dla innej maszyny algorytmów uczących się (np. w usłudze polecania muzyki). Grupowanie może pomóc, gdy brakuje przydatnych etykiet lub brakuje ich. Na przykład w domenach takich jak przeciwdziałanie nadużyciom i oszustwom klastry mogą pomóc a ludzie lepiej rozumieją dane.

Przeciwieństwem są nadzorowane systemy uczące się.

modelowanie wzrostu

Powszechnie stosowana w marketingu technika modelowania, która modeluje „efekt przyczynowy” (nazywany również „przyrostowym wpływem”) „grupa eksperymentalna” o „osobę fizyczną”. Poniżej przedstawiamy dwa przykłady:

  • Lekarze mogą wykorzystać modelowanie wzrostu, aby przewidywać spadek śmiertelności (przyczynowy efekt) zabiegu medycznego (leczenia) w zależności od wieku i historii medycznej pacjenta (osoby fizycznej).
  • Marketerzy mogą wykorzystać modelowanie wzrostu, aby przewidzieć wzrost prawdopodobieństwo zakupu (efekt przypadkowy) po zobaczeniu reklamy. (terapia) na osobie (osobie fizycznej).

Modelowanie wzrostu różni się od klasyfikacji, regresja, ponieważ niektóre etykiety (na przykład połowa etykiet w metodach binarnych) zawsze brakuje w modelowaniu wzrostu. Na przykład pacjent może otrzymać leczenie lub nie. dlatego możemy jedynie obserwować, czy pacjent wyzdrowieje nie naprawi się tylko w jednej z tych dwóch sytuacji (ale nigdy w obu). Główną zaletą modelu wzrostu jest to, że może on generować prognozy dla niezaobserwowanej sytuacji (kontrfaktycznej) i wykorzystaj ją do obliczenia efektu przyczynowego.

zwiększanie wagi

Zastosowanie wagi do klasy downsampled jest równa na współczynnik, o który został zmniejszony.

lista użytkowników

#recsystems

W systemach rekomendacji Wektor umieszczania wygenerowany przez rozkład macierzy który zawiera ukryte sygnały dotyczące preferencji użytkownika. Każdy wiersz macierzy użytkowników zawiera informacje o względnej siły różnych ukrytych sygnałów w przypadku pojedynczego użytkownika. Weźmy na przykład system rekomendacji filmów. W tym systemie utajone sygnały w tablicy użytkowników mogą reprezentować zainteresowania poszczególnych użytkowników związanych z konkretnymi gatunkami lub mogą być trudniejsze do zinterpretowania, złożone interakcje między wieloma czynnikami.

Macierz użytkowników zawiera po 1 kolumnie na każdą funkcję utajnioną i dla każdego użytkownika. Oznacza to, że tablica użytkowników zawiera taką samą liczbę wierszy jak miejsce docelowe która jest obliczana na czynniki pierwsze. Na przykład dla filmu dla 1 000 000 użytkowników, tablica użytkowników będzie miała 1 000 000 wierszy.

V

weryfikacja

#fundamentals

Wstępna ocena jakości modelu. Weryfikacja sprawdza jakość prognoz modelu w porównaniu z zestaw do walidacji.

Zestaw do weryfikacji różni się od zestawu treningowego, pomaga chronić przed nadmiernym dopasowaniem.

Ocena modelu pod kątem zestawu walidacji może być taka pierwszej rundy testowania i oceny modelu w porównaniu z test set to druga runda testów.

utrata weryfikacji

#fundamentals

Dane reprezentujące stratę modelu zestaw weryfikacji w danym okresie powtarzanie trenowania.

Zobacz też krzywą uogólnienia.

zestaw do weryfikacji

#fundamentals

Podzbiór zbioru danych, który wykonuje początkowy w porównaniu z wytrenowanym modelem. Zwykle ocenia się wytrenowanego modelu z zestawem walidacji, przed oceną modelu w odniesieniu do zestawu testowego.

Zwykle należy podzielić przykłady w zbiorze danych na 3 następujące różne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednej podzbiorów. Na przykład jeden przykład nie powinien należeć do zarówno w zbiorze treningowym, jak i w zbiorze walidacyjnym.

przypisywanie wartości

Proces zastępowania brakującej wartości akceptowanym zamiennikiem. Jeśli brakuje wartości, możesz odrzucić cały przykład lub w celu ocalenia przykładu.

Weźmy na przykład zbiór danych zawierający funkcję temperature, która jest powinien być nagrywany co godzinę. Odczyt temperatury był jednak niedostępne w określonej godzinie. Oto sekcja zbioru danych:

Sygnatura czasowa Temperatura
1680561000 10
1680564600 12
1680568200 brak
1680571800 20
1680575400 21
1680579000 21

System może usunąć brakujący przykład lub podać brakujące wartość temperatury ciała wynosi 12, 16, 18 lub 20 stopni, w zależności od algorytmu określania wartości.

problem z znikającym gradientem

#seq

tendencji do gradientów wczesnych ukrytych warstw. niektórych głębokich sieci neuronowych, zaskakująco płasko (nisko). Coraz niższe gradienty skutkują coraz większym mniejszych zmian wagi węzłów w głębokiej sieci neuronowej, brak nauki lub jej brak. Modele, w których występuje problem z zanikającym gradientem ich wytrenowanie może być trudne lub niemożliwe do wytrenowania. Komórki Długa pamięć krótkoterminowa rozwiązują ten problem.

Porównaj problem z wybuchowym gradientem.

znaczenie zmiennej

#df

Zbiór wyników wskazujący względne znaczenie poszczególnych elementów feature do modelu.

Rozważ takie drzewo decyzyjne, które: podaje szacunkowe ceny domów. Załóżmy, że w tym drzewie decyzyjnym są wykorzystywane trzy rozmiar, wiek i styl. Jeśli zestaw zmiennych ma znaczenie dla 3 cech oblicza się jako {size=5.8, age=2.5, style=4.7}, rozmiar jest ważniejszy dla drzewo decyzyjne niż wiek i styl.

Istnieją różne wskaźniki ważności zmiennych, które mogą informować Eksperci ds. systemów uczących się o różnych aspektach modeli.

wariacyjny autokoder (VAE)

#language

Typ autokodera, który wykorzystuje rozbieżność. między danymi wejściowymi a wyjściowymi w celu wygenerowania zmodyfikowanych wersji danych wejściowych. W przypadku generatywnej AI przydają się warunkowe autokodery.

VAE bazuje na wnioskowaniu wariacyjnym, czyli metodzie szacowania wartości w modelu prawdopodobieństwa.

wektor

Bardzo przeciążone hasło, którego znaczenie różni się w zależności od funkcji matematycznych i nauki. W uczeniu maszynowym wektor ma 2 właściwości:

  • Typ danych: wektory w uczeniu maszynowym zwykle zawierają liczby zmiennoprzecinkowe.
  • Liczba elementów: długość wektora lub jego wymiar.

Rozważmy na przykład wektor cech obejmujący 8 liczb zmiennoprzecinkowych. Ten wektor cech ma długość lub wymiar wynoszący osiem. Pamiętaj, że wektory systemów uczących się mają często bardzo dużo wymiarów.

W postaci wektora można przedstawić wiele różnych rodzajów informacji. Na przykład:

  • Każde położenie na powierzchni Ziemi można przedstawić jako obiekt dwuwymiarowy wektora, gdzie jeden wymiar to szerokość, a drugi długość.
  • Bieżące ceny każdego z 500 akcji można przedstawić 500-wymiarowy wektor.
  • Można przedstawić rozkład prawdopodobieństwa na skończonej liczbie klas jako wektor. Na przykład plik system klasyfikacji wieloklasowej, przewiduje, że jeden z trzech kolorów wyjściowych (czerwony, zielony lub żółty) może wygenerować wektor (0.3, 0.2, 0.5) oznacza P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Wektory można łączyć, dlatego można stosować różnorodne środki przekazu jako pojedynczy wektor. Niektóre modele działają bezpośrednio konkatenacji wielu jednorazowych kodów kodowania.

Wyspecjalizowane procesory, takie jak TPU, są zoptymalizowane pod kątem wydajności. matematyczne operacje na wektorach.

Wektor jest tendencją rankingu 1.

W

Strata Wassersteina

Jedna z funkcji utraty często używanych generatywne sieci kontradyktoryjne, na podstawie odległości między obiektem dystrybucji danych generowanych i rzeczywistych.

waga

#fundamentals

Wartość, którą model mnoży przez inną wartość. Trenowanie to proces wyznaczania idealnych wag modelu. wnioskowanie to proces użycia nauczonych wag do i przewidywać.

Naprzemienne najmniejsze kwadraty ważone (WALS)

#recsystems

Algorytm minimalizujący funkcję celu podczas rozkładania macierzy w systemów rekomendacji, uwzględnianie brakujących przykładów. WALS minimalizuje ważone wartości błąd do kwadratu między pierwotną macierą a odbudową przez naprzemiennego rozłożenia na czynniki pierwsze z osobna. Każdą z tych optymalizacji można rozwiązać przez użycie najmniejszych kwadratów optymalizację wypukłą. Więcej informacji: kurs dotyczący systemów Recommendations Systems.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez odpowiadające im wartości ciężary. Załóżmy na przykład, że odpowiednie dane wejściowe składają się z tych elementów:

wartość wejściowa waga wejściowa
2 –1,3
-1 0,6
3 0,4

Suma ważona wygląda więc tak:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Suma ważona jest argumentem wejściowym funkcji funkcji aktywacji.

model szeroki

Model liniowy, który zwykle ma wiele rzadkie funkcje wprowadzania. Określamy to mianem „szerokiej gamy”, od Taki model to specjalny typ sieci neuronowej wiele danych wejściowych, które łączą się bezpośrednio z węzłem wyjściowym. Modele szerokie są często łatwiejsze do debugowania i zbadania niż modele precyzyjne. Chociaż szerokie modele nie można wyrażać nieliniowości za pomocą ukrytych warstw, szerokie modele mogą używać przekształceń, takich jak krzyżowanie cech oraz grupowania w celu modelowania nieliniowości na różne sposoby.

Porównaj z modelem szczegółowym.

szerokość

Liczba neuronów w określonej warstwie w sieci neuronowej.

mądrość tłumu

#df

Koncepcja uśredniania opinii lub oszacowań dużej grupy często przynoszą zaskakująco dobre wyniki. Rozważmy na przykład grę, w której użytkownicy zgadują liczbę żelki zapakowane do dużego słoika. Chociaż większość odgadnięcia będą niedokładne, średnia z wszystkich odgadań została wykazano empirycznie, że są zaskakująco zbliżone do rzeczywistej liczby z galaretką w słoiku.

Ensembles to programowy analog mądrości tłumu. Nawet jeśli poszczególne modele podają bardzo niedokładne prognozy, uśrednianie prognoz wielu modeli często generuje zaskakujące wyniki, i przydatne podpowiedzi. Na przykład, chociaż dana osoba drzewo decyzji może generować złe prognozy, Decyzja lasu często generuje bardzo dobre prognozy.

umieszczanie słów

#language

Reprezentowanie każdego słowa w zestawie słów w elemencie wektor umieszczania; czyli reprezentujące każde słowo jako wektora wartości zmiennoprzecinkowych od 0,0 do 1,0. Słowa z podobnymi znaczenie przedstawia bardziej podobnie niż słowa o innym znaczeniu. Na przykład marchew, seler i ogórki mają względnie które znacznie różnią się od reprezentacji samolot, okulary przeciwsłoneczne i pasta do zębów.

X

XLA (Przyspieszona algebra liniowa)

Kompilator open source dla systemów uczących się do procesorów graficznych, procesorów i akceleratorów ML.

Kompilator XLA pobiera modele z popularnych platform ML, takich jak PyTorch TensorFlow i JAX oraz je optymalizuje do wydajnego działania na różnych platformach sprzętowych, Procesory graficzne, procesory i akceleratory ML.

Z

uczenie się „zero-shot”

Rodzaj szkolenia poświęconego systemów uczących się, w którym model wyznacza prognozę dla zadania na których nie był jeszcze trenowany. Innymi słowy, model nie otrzymała żadnych przykładów do trenowania specyficznych dla danego zadania, ale otrzymał pytanie aby wywnioskować dla tego zadania.

prompt typu zero-shot

#language
#generativeAI

Prompt, który nie zawiera przykładu, w jaki sposób chcesz uzyskać duży model językowy do odpowiadania. Na przykład:

Elementy jednego promptu Uwagi
Jaka jest oficjalna waluta w danym kraju? Pytanie, na które ma odpowiedzieć LLM.
Indie: Faktyczne zapytanie.

Duży model językowy może reagować na jeden z tych warunków:

  • Rupia
  • INR
  • Rupia indyjska
  • rupia
  • rupia indyjska

Wszystkie odpowiedzi są prawidłowe, ale preferowany jest konkretny format.

Porównaj zachowania typu zero-shot z tymi terminami:

Normalizacja wyniku Z

#fundamentals

Technika skalowania, która zastępuje feature o wartości zmiennoprzecinkowej, która reprezentuje liczbę odchyleń standardowych od średniej danej cechy. Na przykład rozważmy cechę, której średnia wynosi 800 i której standardowa odchylenie wynosi 100. W tabeli poniżej pokazujemy, jak normalizacja wyniku Z zmapuje nieprzetworzoną wartość na wynik Z:

Wartość nieprzetworzona Wynik Z
800 0
950 +1,5
575 –2,25

Model uczenia maszynowego trenuje następnie na wyniku Z dla danej cechy zamiast nieprzetworzonych wartości.