Ta strona została przetłumaczona przez Cloud Translation API.

Słowniczek systemów uczących się

Ten glosariusz zawiera ogólne terminy związane z systemami uczącymi się oraz terminy związane z TensorFlow.

O

ablacja

Technika oceny znaczenia funkcji lub komponentu przez tymczasowe usunięcie ich z modelu. Następnie trenujesz model bez tych cech lub komponentu, a jeśli przetrenowany model osiąga znacznie gorsze wyniki, usunięty element lub usunięty element były prawdopodobnie ważne.

Załóżmy np., że trenujesz model klasyfikacji na 10 cechach i osiągasz precyzję na poziomie 88% w zbiorze testowym. Aby sprawdzić ważność pierwszej z nich, możesz wytrenować model jeszcze raz, używając tylko 9 pozostałych cech. Jeśli ponownie wytrenowany model działa znacznie gorzej (np. ma precyzję 55%), usunięta funkcja była prawdopodobnie ważna. Jeśli natomiast ponownie wytrenowany model ma podobną skuteczność, ta cecha prawdopodobnie nie była aż tak ważna.

Ablacja może również pomóc określić znaczenie:

Większe komponenty, takie jak cały podsystem większego systemu ML
procesy lub techniki, takie jak etap wstępnego przetwarzania danych;

W obu przypadkach można zaobserwować, jak zmienia się (lub nie zmienia się) wydajność systemu po usunięciu komponentu.

Testy A/B

Statystyczny sposób porównywania co najmniej 2 technik – metod A i B. Technologia A to zwykle metoda już gotowa, a B to nowa. Test A/B pozwala nie tylko określić, która technika jest skuteczniejsza, ale też sprawdzić, czy różnica jest istotna statystycznie.

Testy A/B zwykle porównują 1 dane w 2 technikach, np. jak dokładność modelu wypada w przypadku 2 metod? Jednak w ramach testów A/B można porównywać dowolną skończoną liczbę danych.

układ akceleratora

#GoogleCloud

Kategoria specjalistycznych komponentów sprzętowych, które wykonują kluczowe obliczenia wymagane przez algorytmy deep learning.

Układy akceleratora (lub po prostu akceleratory) mogą znacznie zwiększyć szybkość i wydajność zadań trenowania i wnioskowania w porównaniu do procesorów do zwykłych obciążeń. Świetnie sprawdzają się przy trenowaniu sieci neuronowych i podobnych zadaniach wymagających dużej mocy obliczeniowej.

Przykłady układów akceleratorów:

Jednostki Tensor Processing Unit (TPU) od Google ze specjalnym sprzętem do deep learningu.
Procesory graficzne NVIDIA, które początkowo zostały zaprojektowane z myślą o przetwarzaniu grafiki, zostały zaprojektowane do obsługi przetwarzania równoległego, które może znacznie zwiększyć szybkość przetwarzania.

dokładność

#fundamentals

Liczba prognoz klasyfikacji podzielona przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który stworzył 40 prawidłowych prognoz i 10 nieprawidłowych prognoz, miałby dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja binarna podaje konkretne nazwy różnych kategorii prawidłowych prognoz i nieprawidłowych prognoz. Zatem wzór dokładności klasyfikacji binarnej wygląda tak:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

TP to liczba prawdziwie pozytywnych wyników (prawidłowych prognoz).
TN to liczba wyników prawdziwie negatywnych (prawidłowych prognoz).
FP to liczba wyników fałszywie pozytywnych (nieprawidłowych prognoz).
FN to liczba wyników fałszywie negatywnych (nieprawidłowych prognoz).

Porównaj dokładność z precyzją i czułością.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

W niektórych sytuacjach te dane są cenne, ale w innych przypadkach mogą wprowadzać w błąd. W szczególności dokładność nie jest miarodajna przy ocenie modeli klasyfikacji, które przetwarzają zbiory danych o niezrównoważonym klasie.

Załóżmy np., że w określonym podzwrotnikowym mieście pada śnieg tylko przez 25 dni na 100 lat. Ponieważ liczba dni bez śniegu (klasa ujemna) znacznie przekracza liczbę dni ze śniegiem (klasa dodatnia), zbiór danych śniegu dla tego miasta nie ma zrównoważenia klasowego. Wyobraźmy sobie model klasyfikacji binarnej, który powinien przewidywać codziennie, czy śnieg nie jest śnieg, czy nie, ale tylko przewiduje codziennie „brak śniegu”. Ten model jest bardzo dokładny, ale nie ma mocy przewidywania. Tabela poniżej zawiera podsumowanie wyników z całego stulecia przewidywań:

Kategoria	Liczby
KP	0
TN	36500
FP	25
FN	0

Dokładność tego modelu jest zatem następujące:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Chociaż dokładność na poziomie 99,93% wydaje się imponująca, w rzeczywistości model nie ma mocy przewidywania.

Precyzja i czułość są zwykle bardziej przydatnymi wskaźnikami niż dokładność do oceny modeli wytrenowanych na zbiorach danych o zrównoważeniu klas.

działanie

#rl

W uczeniu przez wzmacnianie mechanizm, za pomocą którego agent przechodzi między stanami środowiska. Agent wybiera działanie za pomocą zasady.

funkcja aktywacyjna

#fundamentals

Funkcja, która umożliwia sieciom neuronowy poznawanie nieliniowych (złożonych) relacji między cechami a etykietą.

Popularne funkcje aktywacji to:

ReLU
Sigmoid

Wykresy funkcji aktywacyjnych nigdy nie są pojedynczymi liniami prostymi. Na przykład wykres funkcji aktywacji ReLU składa się z 2 linii prostych:

Dwuwierszowy wykres kartezjański. Pierwsza linia ma stałą wartość y równą 0 i biegnie wzdłuż osi X od -nieskończoności,0 do 0,-0.
Drugi wiersz zaczyna się od 0,0. Ta linia ma nachylenie o wartości +1, więc biegnie od 0,0 do +nieskończoności i nieskończoności.

Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Dwuwymiarowy krzywy wykres z wartościami x w domenie – nieskończoność – +dodatnia, a wartości y obejmują zakres prawie od 0 do prawie 1. Gdy x = 0, y = 0,5. Nachylenie krzywej jest zawsze dodatnie, największe nachylenie ma wartość 0,0,5 i stopniowo zmniejsza się wraz ze wzrostem wartości bezwzględnej x.

Kliknij ją, aby zobaczyć przykład.

W sieci neuronowej funkcje aktywacyjne manipulują sumą ważoną wszystkich danych wejściowych do neuronu. Aby obliczyć sumę ważoną, neuron dodaje iloczyn odpowiednich wartości i wag. Załóżmy na przykład, że dane wejściowe do neuronu składają się z tych elementów:

wartość wejściowa	waga wejściowa
2	-1,3
-1	0,6
3	0,4

Suma ważona wygląda więc tak:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Załóżmy, że projektant tej sieci neuronowej wybiera funkcję aktywacji funkcję sigmoidalną. W tym przypadku neuron oblicza wartość sigmoidalną równą -2,0, co daje około 0,12. Dlatego neuron przekazuje 0,12 (a nie -2,0) do następnej warstwy w sieci neuronowej. Poniższy rysunek przedstawia odpowiednią część tego procesu:

aktywna nauka

Podejście trenowania, w którym algorytm wybiera niektóre dane, na których się uczy. Aktywne uczenie się jest szczególnie przydatne, gdy przykłady z etykietami są rzadkie lub kosztowne w sprzedaży. Zamiast na ślepocie szukać zróżnicowanych i oznaczonych etykietami przykładów, aktywny algorytm uczenia się wybiórczo poszukuje konkretnego zakresu przykładów, którego potrzebuje do uczenia się.

AdaGrad

Zaawansowany algorytm gradientu malejącego, który przeskaluje gradienty każdego parametru, zapewniając każdemu parametrowi niezależną szybkość uczenia się. Pełne wyjaśnienie znajdziesz w tym artykule AdaGrad.

agent

#rl

W ramach uczenia przez wzmacnianie jednostka, która stosuje zasady do maksymalizowania oczekiwanego zwrotu uzyskiwanego dzięki przechodzeniu między stanami środowiska.

Ogólnie rzecz biorąc, agent to oprogramowanie, które samodzielnie planuje i wykonuje serię działań w dążeniu do określonego celu oraz potrafi się dostosować do zmian w swoim środowisku. Na przykład agenty oparte na LLM mogą używać LLM do generowania planu, zamiast stosować zasadę uczenia przez wzmacnianie.

grupowanie aglomeracyjne

#clustering

Zobacz sekcję Grupowanie hierarchiczne.

wykrywanie anomalii

Proces identyfikowania wartości odstających. Jeśli np. średnia dla danej funkcji wynosi 100, a odchylenie standardowe wynosi 10, wykrywanie anomalii powinno oznaczyć wartość 200 jako podejrzaną.

AR

Skrót od angielskiego terminu augmented reality – rzeczywistość rozszerzona.

pod krzywą PR

Patrz PR AUC (obszar pod krzywą PR).

obszar pod krzywą charakterystyki operacyjnej odbiornika (ROC)

Patrz sekcja AUC (obszar pod krzywą charakterystyki operacyjnej odbiornika).

sztuczna inteligencja ogólna

Nieludzki mechanizm, który wykazuje szeroki zakres rozwiązywania problemów, kreatywności i adaptacji. Na przykład program demonstrujący sztuczną inteligencję mógłby tłumaczyć tekst, komponować symfonie i osiągnąć sukces w grach, które jeszcze nie zostały wynalezione.

sztuczna inteligencja

#fundamentals

Nieludzki program lub model, który może rozwiązywać złożone zadania. Na przykład program lub model, który tłumaczy tekst, program lub model, który identyfikuje choroby na podstawie zdjęć radiologicznych, wykazuje sztuczną inteligencję.

Systemy uczące się to podkategoria sztucznej inteligencji. Jednak w ostatnich latach niektóre organizacje zaczęły używać zamiennie terminów sztuczna inteligencja i systemy uczące się.

uwaga

#language

Mechanizm używany w sieci neuronowej, który wskazuje znaczenie określonego słowa lub jego części. Uwaga kompresuje ilość informacji, których model potrzebuje do prognozowania następnego tokena/słowa. Typowy mechanizm uwagi może składać się z sumy ważonej i zbioru danych wejściowych, w którym waga poszczególnych danych wejściowych jest obliczana przez inną część sieci neuronowej.

Zapoznaj się też z sekcjami samodzielnej uwagi i samodzielnej uwagi, które są elementami składowymi Transformers.

atrybut

#fairness

Synonim wyrażenia feature.

W przypadku obiektywności systemów uczących się atrybuty często odnoszą się do cech indywidualnych.

próbkowanie atrybutów

#df

Taktyka trenowania lasu decyzyjnego, w której każde drzewo decyzji podczas poznawania warunku uwzględnia tylko losowy podzbiór możliwych funkcji. Ogólnie dla każdego węzła próbkowany jest inny podzbiór cech. Natomiast w przypadku trenowania drzewa decyzyjnego bez próbkowania atrybutów, w przypadku każdego węzła uwzględniane są wszystkie możliwe cechy.

AUC (obszar pod krzywą charakterystyki operacyjnej odbiornika)

#fundamentals

Liczba od 0,0 do 1,0 reprezentująca zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Im wartość AUC jest bliższa wartości 1,0, tym lepsza jest zdolność modelu do oddzielania klas od siebie.

Na przykład ta ilustracja przedstawia model klasyfikatora, który znakomicie oddziela klasy pozytywne (zielone owale) od klas negatywnych (fioletowe prostokąty). Ten nierealistyczny model ma AUC 1,0:

Wiersz liczbowy z 8 przykładami pozytywnymi po jednej stronie i 9 przykładami negatywnymi po drugiej.

I na odwrót: na ilustracji poniżej widać wyniki modelu klasyfikatora, który wygenerował wyniki losowe. AUC tego modelu wynosi 0,5:

Wiersz liczbowy z 6 przykładami pozytywnymi i 6 przykładami negatywnymi.
Przykłady są następujące: pozytywne, negatywne, dodatnie, negatywne, dodatnie, negatywne, dodatnie, negatywne, dodatnie, dodatnie, negatywne.

Tak. Poprzedni model ma wartość AUC równą 0,5, a nie 0,0.

Większość modeli znajduje się gdzieś pomiędzy dwoma skrajnościami. Na przykład poniższy model oddziela nieco plusy od negatywnych, przez co ma wartość AUC między 0,5 a 1,0:

Wiersz liczbowy z 6 przykładami pozytywnymi i 6 przykładami negatywnymi.
Przykłady: negatywne, negatywne, negatywne, negatywne, pozytywne, negatywne, dodatnie, dodatnie, dodatnie, dodatnie,pozytywne.

AUC ignoruje wszystkie wartości ustawione dla progu klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi klasyfikacji.

Kliknij ikonę, aby poznać zależność między krzywymi AUC i ROC.

AUC reprezentuje obszar pod krzywą ROC. Na przykład krzywa ROC modelu, który doskonale oddziela wartości pozytywne od ujemnych, wygląda tak:

AUC to obszar szarego obszaru na poprzedniej ilustracji. W tym nietypowym przypadku pole to po prostu długość szarego obszaru (1,0) pomnożona przez szerokość szarego obszaru (1,0). Iloczyn 1,0 i 1,0 daje AUC dokładnie 1,0, co jest najwyższym możliwym wynikiem AUC.

I na odwrót: krzywa ROC dla klasyfikatora, który nie jest w stanie rozdzielić klas w ogóle, jest przedstawiona poniżej. Obszar tego szarego obszaru to 0,5.

Bardziej typowa krzywa charakterystyki operacyjnej odbiornika wygląda mniej więcej tak:

Ręczne obliczanie powierzchni pod tą krzywą byłoby trudne, dlatego program zazwyczaj oblicza większość wartości AUC.

Kliknij ikonę, aby uzyskać bardziej formalną definicję AUC.

Wartość AUC określa prawdopodobieństwo, że klasyfikator będzie miał większą pewność, że przykład wybrany losowo jest pozytywny, niż że losowo wybrany negatywny przykład jest dodatni.

rzeczywistość rozszerzona

#image

Technologia, która nakłada obraz wygenerowany komputerowo na widok użytkownika w świecie rzeczywistym, co pozwala uzyskać widok złożony.

autokoder

#language

#image

System, który uczy się wyodrębniać najważniejsze informacje z danych wejściowych. Autokodery to połączenie kodera i dekodera. Autokodery bazują na tym 2-etapowym procesie:

Koder mapuje dane wejściowe na (zwykle) stratny format mniejwymiarowy (średniozaawansowany).
Dekoder buduje stratną wersję pierwotnych danych wejściowych, mapując niższy format na bardziej standardowy.

Autokodery są w pełni trenowane przez dekoder próbujący jak najdokładniej odtworzyć pierwotne dane wejściowe z formatu pośredniego kodera. Format pośredni jest mniejszy (niższe wymiary) niż format oryginalny, więc autokoder musi nauczyć się, jakie informacje wejściowe są niezbędne, a wyniki nie będą idealnie identyczne z danymi wejściowymi.

Na przykład:

Jeśli dane wejściowe mają charakter graficzny, to niedokładna kopia jest podobna do oryginalnej grafiki, ale zmodyfikowana. Być może kopia niedokładna usunie szum z oryginalnej grafiki lub uzupełni brakujące piksele.
Jeśli dane wejściowe to tekst, autokoder wygeneruje nowy tekst, który naśladuje (ale nie jest taki sam) tekst oryginalny.

Zobacz też różne autokodery.

efekt automatyzacji

#fairness

Kiedy człowiek podejmuje decyzje w stosunku do informacji pozyskanych bez automatyzacji, nawet wtedy, gdy zautomatyzowany system podejmowania decyzji popełni błąd.

AutoML

Dowolny zautomatyzowany proces tworzenia systemów uczących się modeli. AutoML może automatycznie wykonywać takie czynności jak:

Wyszukaj najbardziej odpowiedni model.
Dostrajaj hiperparametry.
przygotowywania danych (w tym analizowania funkcji);
Wdróż wygenerowany model.

AutoML jest przydatne dla badaczy danych, ponieważ może zaoszczędzić czas i wysiłek związany z tworzeniem potoków systemów uczących się oraz zwiększyć dokładność prognoz. Jest też przydatny dla osób, które nie są ekspertami, ponieważ ułatwia im wykonywanie skomplikowanych zadań z systemami uczącymi się.

model autoregresywny

#language

#image

#generatywna AI

model, który ustala prognozę na podstawie własnych wcześniejszych prognoz. Na przykład automatycznie regresywne modele językowe prognozują następny token na podstawie wcześniej prognozowanych tokenów. Wszystkie duże modele językowe, które opierają się na Transformerze, są autoregresywne.

W przeciwieństwie do tego modele graficzne oparte na GAN zwykle nie podlegają automatycznej regresji, ponieważ generują obraz w ramach pojedynczego przejścia do przodu, a nie iteracyjnie. Jednak niektóre modele generowania obrazów są autoregresywne, ponieważ generują obrazy krok po kroku.

strata pomocnicza

Funkcja utraty używana w połączeniu z funkcją głównej utraty sieci neuronowej modelu, która pomaga przyspieszyć trenowanie podczas wczesnych iteracji, gdy wagi są inicjowane losowo.

Pomocnicze funkcje utraty powodują wypychanie skutecznych gradientów do wcześniejszych warstw. Ułatwia to konserwację podczas trenowania przez walkę z problemem znikającym gradientem.

średnia precyzja

Wskaźnik do podsumowywania skuteczności sekwencji wyników w rankingu. Średnia precyzja jest obliczana przez obliczenie średniej wartości precyzji dla każdego odpowiedniego wyniku (każdy wynik znajduje się na liście rankingowej, w której czułość zwiększa się w stosunku do poprzedniego wyniku).

Patrz też Obszar pod krzywą PR.

warunek wyrównany do osi

#df

W drzewie decyzyjnym warunek, który obejmuje tylko 1 cechę. Jeśli np. obiekt jest obiektem, warunek jest wyrównany do osi w ten sposób:

area > 200

Skontrastowanie względem warunku ukośnego.

B

propagacja wsteczna

#fundamentals

Algorytm, który implementuje zjazd gradientowy w sieciach neuronowych.

Trenowanie sieci neuronowej obejmuje wiele iteracji z następujących cykli 2-przebiegowych:

Podczas przekazywania dalej system przetwarza zbiór przykładów, aby wygenerować prognozy. System porównuje każdą prognozę z każdą wartością etykiety. Różnica między prognozą a wartością etykiety to strata w tym przykładzie. System agreguje straty dla wszystkich przykładów, aby obliczyć łączną stratę w bieżącym wsadzie.
Podczas przebiegu wstecznego (propagacji wstecznej) system zmniejsza straty, dostosowując wagę wszystkich neuronów we wszystkich ukrytych warstwach.

Sieci neuronowe często zawierają wiele neuronów w wielu ukrytych warstwach. Każdy z tych neuronów na różne sposoby przyczynia się do utraty wagi. Propagacja wsteczna określa, czy należy zwiększyć, czy zmniejszyć wagi stosowane do konkretnych neuronów.

Tempo uczenia się to mnożnik określający stopień, do którego każde przejście wsteczne zwiększa lub zmniejsza każdą wagę. Duże tempo uczenia się zwiększa lub zmniejsza każdą wagę bardziej niż małe tempo uczenia się.

W obliczeniach obliczeniowych wsteczna propagacja implementuje regułę łańcucha z rachunku różniczkowego. Oznacza to, że propagacja wsteczna oblicza częściową pochodną błędu z uwzględnieniem każdego parametru.

Lata temu osoby odpowiedzialne za systemy uczące się musiały napisać kod, aby wdrożyć propagację wsteczną. Nowoczesne interfejsy API systemów uczących się, takie jak TensorFlow, wdrażają teraz za Ciebie propagację wsteczną. Uff...

bagażowanie

#df

Metoda trenowania zestawu, w którym każdy model składowy trenuje na losowym podzbiorze przykładów treningowych próbkowanych z zastąpieniem. Na przykład losowy las to zbiór drzew decyzyjnych wytrenowanych z użyciem worków.

Termin bagging to skrót od bootstrap aggregating.

worek słów

#language

Reprezentacja słów w wyrażeniu lub pasażu, niezależnie od kolejności. Np. worek słów reprezentuje 3 wyrażenia identycznie:

pies podskakuje
podskakuje psa
pies skacze

Każde słowo jest mapowane na indeks w wektorze jednostajnym, gdzie wszystkie słowa w słownicy mają indeks. Na przykład wyrażenie pies skacze jest mapowane na wektor cech z wartościami innymi niż zero w 3 indeksach odpowiadających słowom the, pies i skomp. Wartość różna od zera może być dowolną z tych wartości:

1 oznacza obecność słowa.
Liczba wystąpień słowa w torbie. Jeśli np. wyrażenie brzmi: kasztanowy pies to pies z kasztanowcowym futrem, obie te wartości będą podane jako kasztanowy i pies, a pozostałe słowa będą podane jako 1.
Inna wartość, na przykład logarytm liczby wystąpień słowa w torbie.

bazowa

model używany jako punkt odniesienia do porównywania skuteczności innego modelu (zwykle bardziej złożonego). Na przykład model regresji logistycznej może być dobrym punktem odniesienia dla precyzyjnego modelu.

W przypadku konkretnego problemu wartość bazowa pomaga programistom modeli w określeniu minimalnej oczekiwanej wydajności, jaką musi osiągnąć nowy model, aby był przydatny.

wsad

#fundamentals

Zbiór przykładów używanych w jednej iteracji trenowania. Rozmiar wsadu określa liczbę przykładów w grupie.

Patrz sekcja Epoka, aby dowiedzieć się, jak wsad wiąże się z epoką.

wnioskowanie wsadowe

#TensorFlow

#GoogleCloud

Proces wnioskowania prognoz na wielu przykładach bez etykiet podzielony na mniejsze podzbiory („grupy”).

Wskazywanie wsadowe może korzystać z funkcji równoległego przetwarzania układów akceleratora. Oznacza to, że wiele akceleratorów może jednocześnie wywnioskować prognozy na różnych wsadach przykładów bez etykiet, co znacznie zwiększa liczbę wniosków na sekundę.

normalizacja wsadowa

Normalizowanie danych wejściowych i wyjściowych funkcji aktywacji w warstwie ukrytej. Normalizacja wsadowa może przynieść takie korzyści:

Zwiększ stabilność sieci neuronowych, chroniąc w porównaniu z wagami odstającymi.
Włącz wyższe szybkości uczenia się, co może przyspieszyć trenowanie.
Ogranicz nadmierne dopasowanie.

wielkość wsadu

#fundamentals

Liczba przykładów w grupie. Jeśli na przykład rozmiar wsadu to 100, model przetwarza 100 przykładów na iteracja.

Oto popularne strategie dotyczące wielkości wsadu:

Stochastic Gradient Descent (SGD), w którym rozmiar wsadu wynosi 1.
Pełny wsad, w którym rozmiar wsadu to liczba przykładów w całym zbiorze do trenowania. Jeśli np. zbiór treningowy zawiera milion przykładów, rozmiar wsadu będzie równy milionom przykładów. Zbiorcze przesyłanie materiałów zwykle nie jest efektywną strategią.
miniseria, w której rozmiar wsadu wynosi zwykle od 10 do 1000. Najskuteczniejszą strategią jest zwykle minigrupa.

Bayesańska sieć neuronowa

Prawdopodobna sieć neuronowa, która uwzględnia niepewność w wagach i danych wyjściowych. Standardowy model regresji sieci neuronowej zwykle prognozuje wartość skalarną, na przykład model standardowy przewiduje cenę domową wynoszącą 853 000. W przeciwieństwie do Bayesa sieć neuronowa przewiduje rozkład wartości, np. model Bayesa przewiduje cenę domową 853 000 przy odchyleniu standardowym 67 200.

Bayesa sieć neuronowa bazuje na twierdzeniu Baidu, aby obliczać niepewność wag i prognoz. Bayesa sieć neuronowa może być przydatna, gdy ważne jest zmierzenie niepewności, jak w modelach związanych z farmaceutykami. Bayesowskie sieci neuronowe mogą też pomóc zapobiegać przeciążeniu.

Optymalizacja bayesowska

Technika modelu regresji probabilistskiej, która służy do optymalizacji kosztownych obliczeń obliczeniowych funkcji obiektywnych, która polega na optymalizacji zastępnika, który określa ilościowo niepewność, stosując technikę Bayesa. Ponieważ optymalizacja Bayesa sama jest bardzo droga, służy zwykle do optymalizacji kosztownych zadań o małej liczbie parametrów, np. wyboru hiperparametrów.

Równanie Bellmana

#rl

W przypadku uczenia się przez wzmacnianie tożsamość stosowana przez optymalną funkcję Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algorytmy uczenia się przez wzmacnianie stosują tę tożsamość, aby utworzyć proces uczenia się przez wzmacnianie za pomocą tej reguły aktualizacji:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Oprócz uczenia się przez wzmacnianie równanie Bellmana ma też zastosowania w programowaniu dynamicznym. Zobacz artykuł na temat równania Bellmana w Wikipedii.

BERT (dwukierunkowe reprezentacje koderów z transformerów)

#language

Architektura modelu reprezentowania tekstu. Wytrenowany model BERT może działać jako część większego modelu na potrzeby klasyfikacji tekstu lub innych zadań ML.

Algorytm BERT wyróżnia się tymi cechami:

Wykorzystuje architekturę Transformer, więc wymaga samodzielnej uwagi.
Używa kodera transformera. Zadaniem kodera jest uzyskanie dobrych reprezentacji tekstu zamiast wykonywania określonego zadania, takiego jak klasyfikacja.
Jest dwukierunkowa.
Wykorzystuje maskowanie na potrzeby trenowania nienadzorowanego.

Warianty BERT to:

ALBERT, czyli skrót od A Light BERT.
LaBSE.

Omówienie BERT znajdziesz w artykule Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Process

uprzedzenie (etyka/uczciwość)

#fairness

#fundamentals

1. Stereotyp, uprzedzenia i faworyzowanie w stosunku do pewnych rzeczy, osób lub grup. Uprzedzenia mogą wpływać na zbieranie i interpretację danych, na konstrukcję systemu i sposób jego interakcji z nim. Przykłady tego rodzaju uprzedzeń:

Odchylenie automatyzacji
odchylenie potwierdzenia
odchylenia eksperymentu
odchylenie atrybucji grupy
uprzedzenie
odchylenie w grupie
odchylenie jednorodności grupy poza grupą

2. Błąd systematyczny spowodowany procedurą próbkowania lub raportowania. Przykłady tego rodzaju uprzedzeń:

odchylenie zasięgu
odchylenie bez odpowiedzi
zmiana udziału
odchylenie w raportach
odchylenie próby
odchylenie wyboru

Nie należy mylić z terminem tendencyjności w modelach systemów uczących się oraz odchyleniem prognozowania.

pojęcie tendencyjności (matematyka) lub tendencyjność

#fundamentals

Przechwycenie lub odsunięcie od punktu początkowego. Tendencyjność to parametr w modelach systemów uczących się, którego symbolem jest jeden z tych elementów:

b
T₀

Na przykład odchylenie ma wartość b w tej formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W prostej, dwuwymiarowej linii odchylenie oznacza po prostu „punkt przecięcia z osią y”. Na przykład odchylenie linii na ilustracji poniżej wynosi 2.

Wykres linii o nachyleniu równym 0,5 i odchyleniu (punkt przecięcia z osią y) o wartości 2.

Odchylenie istnieje, ponieważ nie wszystkie modele zaczynają się od punktu początkowego (0,0). Załóżmy, że wstęp do parku rozrywki kosztuje 2 EUR i dodatkowo 0,5 EUR za każdą godzinę pobytu klienta. Dlatego model mapowania całkowitego kosztu ma odchylenie na poziomie 2, ponieważ najniższy koszt to 2 euro.

Uprzedzenia nie należy mylić z stronniczością w zakresie etyki i uczciwości ani odchyleniami przewidywania.

dwukierunkowe

#language

Termin opisujący system oceniający tekst, który zarówno kończy, jak i następuje po docelowej sekcji tekstu. Natomiast system jednokierunkowy ocenia tylko tekst, który przedstawia docelową sekcję tekstu.

Rozważmy na przykład model językowy z maskowaniem, który musi określać prawdopodobieństwo w przypadku słowa lub słów podkreślających podkreślenie w tym pytaniu:

Co u Ciebie _____?

Jednokierunkowy model językowy musiałby oprzeć swoje prawdopodobieństwo wyłącznie na podstawie kontekstu zawierającego słowa „co”, „to jest” i „to”. W przeciwieństwie do tego dwukierunkowy model językowy może też uzyskać kontekst dzięki danym „z to” i „ty”, co może pomóc w generowaniu lepszych prognoz.

dwukierunkowy model językowy

#language

Model językowy, który określa prawdopodobieństwo wystąpienia danego tokena w danym miejscu we fragmencie tekstu na podstawie poprzedniego i następującego tekstu.

bigram

#seq

#language

N-gram, w którym N=2.

klasyfikacja binarna

#fundamentals

Rodzaj zadania klasyfikacji, który przewiduje jedną z 2 wzajemnie wykluczających się klas:

klasą pozytywnych
klasa wykluczająca

Na przykład te 2 modele systemów uczących się wykonują klasyfikację binarną:

Model określający, czy e-maile są oznaczone jako spam (klasa pozytywna) czy nie spam (klasa negatywna).
Model, który ocenia objawy choroby (klasa negatywna), aby określić, czy dana osoba jest chorą na konkretną chorobę (klasa pozytywna) czy nie.

Porównaj z klasyfikacją wieloklasową.

Zobacz też informacje o regresji logicznej i progu klasyfikacji.

warunek binarny

#df

W drzewie decyzyjnym warunek ma tylko 2 możliwe wyniki – zwykle tak lub nie. Na przykład taki warunek binarny:

temperature >= 100

Porównaj z warunkem niebinarnym.

Binning

Synonim terminu zasobniki.

BLEU (Bilingual Evaluation Understudy)

#language

Wynik między 0, 0 a 1, 0 włącznie, który wskazuje jakość tłumaczenia między 2 językami ludzkimi (np. angielskim i rosyjskim). Wynik BLEU równy 1,0 oznacza tłumaczenie idealne, a wynik BLEU równy 0,0 oznacza tragiczne tłumaczenie.

wzmocnienie

Technika systemów uczących się, która iteracyjnie łączy zestaw prostych i niezbyt dokładnych klasyfikatorów (nazywanych „słabymi” klasyfikatorami) z klasyfikatorem o dużej dokładności („silny” klasyfikator), przez przeważanie przykładów, które model obecnie błędnie klasyfikuje.

ramka ograniczająca

#image

Na zdjęciu współrzędne (x, y) prostokąta wokół wybranego obszaru, np. psa na zdjęciu poniżej.

Zdjęcie psa siedzącego na sofie. Ciało psa można znaleźć w zielonej ramce ze współrzędnymi w lewym górnym rogu (275, 1271) i w prawym dolnym rogu (2954, 2761).

transmisja

Rozszerzamy kształt operandu w operacji matematycznej do wymiarów zgodnych z tą operację. Na przykład algebra liniowa wymaga, aby dwa operandy w operacji dodawania macierzy muszą mieć te same wymiary. Oznacza to, że nie można dodać macierzy kształtu (m, n) do wektora o długości n. Transmitowanie umożliwia tę operację przez wirtualnie rozwinięcie wektora o długości n do macierzy kształtu (m, n), przez skopiowanie tych samych wartości w dół każdej kolumny.

Na przykład przy podanych niżej definicjach algebra liniowa zabrania stosowania A+B, ponieważ A i B mają różne wymiary:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Transmitowanie umożliwia jednak operację A+B przez wirtualnie rozwinięcie B do:

 [[2, 2, 2],
  [2, 2, 2]]

Tak więc działanie A+B jest teraz prawidłową operacją:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Więcej informacji znajdziesz w opisie transmisji w NumPy.

kategoryzowanie w przedziałach

#fundamentals

Przekształcanie pojedynczej funkcji w wiele funkcji binarnych zwanych zasobnikami lub pojemnikami, zazwyczaj na podstawie zakresu wartości. Odcięta funkcja jest zwykle funkcją ciągłą.

Na przykład zamiast prezentować temperaturę jako jedną ciągłą obiekt zmiennoprzecinkowy, możesz podzielić zakresy temperatur na osobne segmenty, takie jak:

<= 10 stopni Celsjusza to „zimny” zasobnik.
11-24 stopnie Celsjusza to zasobnik „umiarkowany”.
>= 25 stopni Celsjusza to zasobnik „ciepłych”.

Model będzie jednakowo traktować każdą wartość w tym samym zasobniku. Na przykład wartości 13 i 22 znajdują się w zasobniku tymczasowym, więc model traktuje je jednakowo.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Jeśli prezentujesz temperaturę jako cechę ciągłą, model traktuje ją jako pojedynczą cechę. Jeśli prezentujesz temperaturę jako 3 zasobniki, model traktuje każdy z nich jako osobną cechę. Oznacza to, że model może nauczyć się osobnych relacji każdego zasobnika z etykietą. Na przykład model regresji liniowej może nauczyć się osobnych wag dla każdego zasobnika.

Zwiększenie liczby zasobników zwiększa złożoność modelu, ponieważ zwiększa liczbę relacji, których musi się nauczyć. Na przykład zasobniki zimne, umiarkowane i ciepłe to zasadniczo 3 oddzielne funkcje do trenowania modelu. Jeśli zdecydujesz się dodać 2 kolejne zasobniki – na przykład „zamrożenie” i „na gorąco”), będzie musiał wytrenować model z wykorzystaniem 5 osobnych cech.

Jak określić, ile zasobników należy utworzyć lub jakie powinny być zakresy każdego z nich? Odpowiedzi wymagają zwykle dość dużo eksperymentowania.

C

warstwa kalibracji

Korekcja prognozy, która zwykle uwzględnia odchylenie odchylenia prognozy. Dostosowane prognozy i prawdopodobieństwa powinny być zgodne z rozkładem zaobserwowanego zbioru etykiet.

generowanie kandydatów

#recsystems

Początkowy zestaw rekomendacji wybrany przez system rekomendacji. Weźmy za przykład księgarnię, która oferuje 100 000 książek. Na tym etapie tworzona jest znacznie krótsza lista książek odpowiednich dla danego użytkownika, np. 500. Nawet 500 książek to za dużo, żeby je polecić użytkownikowi. Kolejne, droższe etapy systemu rekomendacji (np. ocena i ponowne pozycjonowanie) zmniejszają liczbę tych 500 rekomendacji do znacznie mniejszego i bardziej przydatnego zestawu rekomendacji.

próbkowanie kandydatów

Optymalizacja podczas trenowania, która oblicza prawdopodobieństwo dla wszystkich pozytywnych etykiet, np. softmax, ale tylko dla losowej próbki etykiet ujemnych. Na przykład w przykładzie oznaczonym jako beagle i pies próbkowanie kandydata oblicza przewidywane prawdopodobieństwa i odpowiadające im terminy straty dla:

beagle
pies
losowy podzbiór pozostałych klas negatywnych (np. kot, lizak, fence).

Klasy negatywne mogą uczyć się na podstawie rzadziej spotykanych wzmocnień negatywnych, o ile klasy pozytywne zawsze mają odpowiednie wzmocnienie pozytywne, i właściwie to obserwuje się empiricznie.

Próbkowanie kandydatów jest bardziej efektywne niż algorytmy treningowe, które obliczają prognozy dla wszystkich klas negatywnych, zwłaszcza gdy liczba klas negatywnych jest bardzo duża.

dane kategorialne

#fundamentals

Funkcje mające konkretny zestaw możliwych wartości. Weźmy na przykład funkcję kategorialną o nazwie traffic-light-state, która może mieć tylko jedną z tych 3 możliwych wartości:

red
yellow
green

Dzięki przedstawieniu traffic-light-state jako funkcji kategorialnej model może poznać różny wpływ tych czynników na zachowania kierowców, takich jak red, green i yellow.

Cechy kategorialne są czasami nazywane funkcjami dyskretnymi.

Porównaj z danymi liczbowymi.

przyczynowy model językowy

#language

Synonim terminu jednokierunkowy model językowy.

Zapoznaj się z sekcją Dwukierunkowy model językowy, aby porównać różne podejścia kierunkowe w modelowaniu języka.

centroid

#clustering

Środek klastra określony za pomocą algorytmu średnich k lub mediany k. Na przykład jeśli k to 3, algorytm k-średnich lub k-mediany znajduje 3 centroidy.

grupowanie oparte na centroidach

#clustering

Kategoria algorytmów klastrowania, która porządkuje dane w klastry niehierarchiczne. k-średnie to najpopularniejszy algorytm grupowania oparty na centroidach.

W przeciwieństwie do algorytmów klastrowania hierarchicznego.

wykorzystanie w prompcie łańcucha myśli

#language

#generatywna AI

Technika inżynierii promptów, która zachęca do stworzenia dużego modelu językowego (LLM) do szczegółowego wyjaśnienia jego uzasadnienia. Zwróćmy uwagę na przykład na drugie zdanie:

Ile razy siła napędowa będzie odczuwalna przez kierowcę w samochodzie, który porusza się z prędkością od 0 do 100 km/h w 7 sekund? W odpowiedzi wyświetl wszystkie odpowiednie obliczenia.

Odpowiedź LLM prawdopodobnie:

Pokaż sekwencję wzorów fizycznych, umieszczając wartości 0, 60 i 7 w odpowiednich miejscach.
Wyjaśnij, dlaczego wybrał te wzory i co oznaczają różne zmienne.

Prompt łańcucha myśli zmusza LLM do wykonywania wszystkich obliczeń, co może prowadzić do uzyskania bardziej poprawnej odpowiedzi. Poza tym żądanie łańcucha myśli umożliwia użytkownikowi analizowanie kroków wykonywanych przez model LLM w celu określenia, czy dana odpowiedź ma sens.

czat

#language

#generatywna AI

Treść dialogu z wykorzystaniem systemu ML, zwykle dużego modelu językowego. Poprzednia interakcja na czacie (czyli to, co wpisujesz i jak odpowiedział duży model językowy) staje się kontekstem dla kolejnych części czatu.

Czatbot to aplikacja dużego modelu językowego (LLM).

punkt kontroli

Dane, które przechwytują stan parametrów modelu w konkretnej iteracji trenowania. Punkty kontrolne umożliwiają eksportowanie wag modelu lub przeprowadzanie trenowania w wielu sesjach. Punkty kontrolne umożliwiają też trenowanie w celu kontynuowania wcześniejszych błędów (np. wywłaszczania zadań).

Podczas dostrajania punktem początkowym trenowania nowego modelu będzie konkretny punkt kontrolny wstępnie wytrenowanego modelu.

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Na przykład:

W modelu klasyfikacji binarnej, który wykrywa spam, 2 klasy mogą być spamem, a nie spamem.
W modelu klasyfikacji wieloklasowej, który identyfikuje rasy psów, klasami mogą być pudle, beagle, mops itd.

Model klasyfikacji prognozuje klasę. W przeciwieństwie do tego model regresji przewiduje liczbę, a nie klasę.

model klasyfikacji

#fundamentals

model, którego prognozą jest model. Przykładem są wszystkie modele klasyfikacji:

Model, który przewiduje język wejściowego zdania (francuski? Hiszpański? włoskim).
Model, który przewiduje gatunki drzew (Klon Oak? Baobab?).
Model, który prognozuje pozytywną lub negatywną klasę danego schorzenia.

W przeciwieństwie do tego modele regresji prognozują liczby, a nie klasy.

Dwa najczęstsze typy modeli klasyfikacji to:

klasyfikacja binarna
klasyfikacja wieloklasowa

próg klasyfikacji

#fundamentals

W klasyfikacji binarnej liczba z zakresu od 0 do 1, która przekształca nieprzetworzone dane wyjściowe modelu regresji logistycznej w prognozę klasy pozytywnej lub klasy ujemnej. Pamiętaj, że próg klasyfikacji to wartość wybierana przez człowieka, a nie wartość wybierana przez trenowanie modelu.

Model regresji logistycznej zwraca nieprzetworzoną wartość z zakresu od 0 do 1. Następnie:

Jeśli ta nieprzetworzona wartość jest większa od progu klasyfikacji, prognozowana jest klasa pozytywna.
Jeśli ta nieprzetworzona wartość jest niższa od progu klasyfikacji, prognozowana jest klasa ujemna.

Załóżmy, że próg klasyfikacji wynosi 0,8. Jeśli nieprzetworzona wartość to 0,9, model przewiduje klasę pozytywną. Jeśli nieprzetworzona wartość to 0,7, model prognozuje klasę ujemną.

Wybór progu klasyfikacji ma duży wpływ na liczbę wyników fałszywie pozytywnych i fałszywie negatywnych.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

W miarę ewoluowania modeli lub zbiorów danych inżynierowie czasami zmieniają próg klasyfikacji. Gdy próg klasyfikacji się zmienia, prognozy klas pozytywnych mogą nagle stać się klasami negatywnymi i odwrotnie.

Rozważmy na przykład model prognozowania chorób o klasyfikacji binarnej. Załóżmy, że po uruchomieniu systemu w pierwszym roku:

Wartość nieprzetworzona dla danego pacjenta to 0,95.
Próg klasyfikacji wynosi 0,94.

Dlatego system diagnozuje klasę pozytywną. (Pacjenci wzdycha: „O, nie! jestem chory!”

Po roku wartości mogą teraz wyglądać tak:

Wartość nieprzetworzona dla tego samego pacjenta pozostaje na poziomie 0,95.
Próg klasyfikacji zmieni się na 0,97.

Dlatego system zmienia klasyfikację pacjenta na klasę negatywną. („Szczęśliwego dnia! nie jestem chory”). Ten sam pacjent. Inna diagnoza.

zbiór danych o niezrównoważonym działaniu

#fundamentals

Zbiór danych związany z problemem klasyfikacji, w którym łączna liczba etykiet poszczególnych klas znacznie się różni. Rozważmy np. zbiór danych do klasyfikacji binarnej, w którym 2 etykiety są podzielone w ten sposób:

1 000 000 negatywnych etykiet
10 etykiet pozytywnych

Stosunek etykiet ujemnych do dodatnich wynosi od 100 000 do 1, więc jest to zbiór danych o zrównoważonym klasom.

W przeciwieństwie do tego zbioru danych nie ma zrównoważenia klas, ponieważ stosunek etykiet ujemnych do wartości pozytywnych jest stosunkowo bliska 1:

517 etykiet wykluczających
483 etykiety pozytywne

W wieloklasowych zbiorach danych może też być brak zrównoważenia klas. Na przykład ten zbiór danych do klasyfikacji wieloklasowej również jest niezrównoważony, ponieważ jedna etykieta ma znacznie więcej przykładów niż pozostałe:

1 000 000 etykiet z klasą „zielony”
200 etykiet z klasą „fioletowy”,
350 etykiet z klasą „orange”

Zobacz też entropia, klasa większości i klasę mniejszości.

przycinanie

#fundamentals

Technika radzenia sobie z wartościami odstającymi, która polega na wykonaniu jednej lub obu tych czynności:

Zmniejsz wartości parametru feature, które są większe niż maksymalny próg, do tego maksymalnego progu.
Zwiększam wartości cech poniżej minimalnego progu do tego minimalnego progu.

Załóżmy np., że <0,5% wartości określonej cechy wykracza poza zakres 40–60. W takim przypadku możesz wykonać te czynności:

Wszystkie wartości powyżej 60 (maksymalny próg) należy usunąć, aby uzyskać dokładnie 60.
Przytnij wszystkie wartości poniżej 40 (minimalnego progu) do dokładnie 40.

Wartości odstające mogą uszkodzić modele, powodując czasem przepełnienie wag podczas trenowania. Niektóre wyjątki mogą też drastycznie zepsuć dane, np. dokładność. Powszechną techniką ograniczania szkód jest klipsowanie.

Podczas trenowania przycinanie gradientu wymusza stosowanie wartości gradientu w wyznaczonym zakresie.

Cloud TPU

#TensorFlow

#GoogleCloud

Specjalistyczny akcelerator sprzętowy zaprojektowany w celu przyspieszenia zadań systemów uczących się w Google Cloud.

grupowanie

#clustering

Grupowanie powiązanych przykładów, zwłaszcza w przypadku nauczania nienadzorowanego. Po zgrupowaniu wszystkich przykładów człowiek może opcjonalnie nadać znaczenie każdej grupie.

Istnieje wiele algorytmów grupowania. Na przykład przykłady klastrów algorytmów k-średnich na podstawie ich odległości od centroida, jak na tym diagramie:

Dwuwymiarowy wykres, na którym oś X jest oznaczona jako szerokość drzewa, a oś Y – wysokość drzewa. Wykres zawiera 2 centroidy i kilkadziesiąt punktów danych. Punkty danych są klasyfikowane na podstawie ich odległości. Oznacza to, że punkty danych najbliżej jednego centrum są klasyfikowane jako klaster 1, a punkty bliższe drugiego – jako klaster 2.

Osoba badawcza może następnie przeanalizować klastry i na przykład oznaczyć klaster 1 jako „drzewa karłowate”, a grupę 2 jako „pełnowymiarowe drzewa”.

Innym przykładem jest algorytm grupowania oparty na odległości od punktu środkowego przykładu przedstawionego w następujący sposób:

Dziesiątki punktów danych są rozmieszczonych w koncentrycznych okręgach, prawie jak otwory wokół środka tarczy. Najbardziej wewnętrzny pierścień punktów danych jest klasyfikowany jako klaster 1, środkowy pierścień jest przypisany do klastra 2, a najbardziej zewnętrzny – jako klaster 3.

wspólna adaptacja

Gdy neurony przewidują wzorce w danych treningowych, polegając niemal wyłącznie na danych wyjściowych konkretnych innych neuronów, a nie na zachowaniu sieci jako całości. Gdy w danych walidacji nie ma wzorców, które powodują współadaptację, wspólna adaptacja powoduje nadmierne dopasowanie. Regularność porzucania ogranicza współadaptację, ponieważ porzucenie sprawia, że neurony nie mogą polegać wyłącznie na konkretnych innych neuronach.

filtrowanie w ramach współpracy

#recsystems

Prognozowanie zainteresowań jednego użytkownika na podstawie zainteresowań wielu innych użytkowników. W systemach rekomendacji często stosuje się filtrowanie wspólne.

dryf koncepcyjny

Przejście w relacji między cechami a etykietą. Z czasem dryf koncepcyjny obniża jakość modelu.

Podczas trenowania model uczy się relacji między cechami a ich etykietami w zbiorze treningowym. Jeśli etykiety w zbiorze treningowym są dobrymi serwerami proxy w świecie rzeczywistym, model powinien generować poprawne prognozy w świecie rzeczywistym. Jednak z powodu dryfu koncepcji prognozy modelu z czasem się zmniejszają.

Rozważmy np. model klasyfikacji binarnej, który prognozuje, czy dany model samochodu jest „energooszczędny”. Funkcje te mogą obejmować:

waga samochodu
kompresja silnika
typ przesyłania

a etykieta:

oszczędność paliwa
niskie spalanie

koncepcja „samochodu z najniższym spalaniem” stale się zmienia. Model samochodu z etykietą Oszczędność paliwa w 1994 roku niemal na pewno zostałby oznaczony w 2024 r. jako niezużywający paliwa. Model, który napotyka dryf koncepcyjny, z czasem generuje coraz mniej przydatnych prognoz.

Porównaj metody nonstationarity.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Aby skompensować dryf koncepcyjny, trenuj modele szybciej niż wynosi szybkość dryfu koncepcji. Jeśli np. co 2 miesiące dryf koncepcyjny zmniejsza precyzję modelu o znaczącą marżę, trenuj go ponownie częściej niż co 2 miesiące.

stan

#df

W drzewie decyzyjnym każdy węzeł, który ocenia wyrażenie. Na przykład ta część drzewa decyzji zawiera 2 warunki:

Drzewo decyzyjne składające się z 2 warunków: (x > 0) i (y > 0).

Warunek jest nazywany też podziałem lub testem.

Warunek kontrastu z liściem.

Zobacz także:

warunek binarny
warunek niebinarny.
axis-aligned-condition (warunek wyrównany do osi)
warunek skośny

konfabulacja

#language

Synonim terminu hallucynacja.

Konfabacja jest prawdopodobnie trafniejsza pod względem technicznym niż termin „halucynacje”. Jednak najpierw zaczęły go rosnąć halucynacje.

konfiguracja

Proces przypisywania początkowych wartości właściwości używanych do trenowania modelu, który obejmuje:

warstwy tworzenia modelu
lokalizacja danych;
hiperparametry, na przykład:

W projektach związanych z systemami uczącymi się konfigurację można przeprowadzić za pomocą specjalnego pliku konfiguracji lub bibliotek konfiguracji takich jak:

efekt potwierdzenia

#fairness

Tendencja do wyszukiwania, interpretowania, przywłaszczenia i przywoływania informacji w sposób potwierdzający dotychczasowe przekonania lub hipotezy. Deweloperzy korzystający z systemów uczących się mogą nieumyślnie zbierać lub oznaczać dane w sposób, który wpływa na wyniki potwierdzające ich przekonania. Tendencyjność potwierdzenia to forma uprzedzenia niejawnego.

Odchylenie eksperymentu to forma odchylenia, w ramach którego eksperymenter kontynuuje trenowanie modeli, dopóki nie potwierdzono już istniejącej hipotezy.

tablica pomyłek

#fundamentals

Tabela NxN z podsumowaniem liczby prawidłowych i nieprawidłowych prognoz utworzonych przez model klasyfikacji. Przyjrzyj się na przykład tej tablicy pomyłek dla modelu klasyfikacji binarnej:

	Guz (prognoza)	Inne niż guzowe (prognozowane)
Guz (ground truth)	18 (P)	1 (FN)
Inne niż guzowe (ground truth)	6 (FP)	452 (TN)

Poprzednia tabela pomyłek zawiera te informacje:

Z 19 prognoz, w których dane ground truth to Guz, model poprawnie sklasyfikował 18 i nieprawidłowo sklasyfikował 1.
Z 458 prognoz, w których przypadku danych podstawowych (ground truth) nie było guzami, model prawidłowo sklasyfikował 452 i nieprawidłowo sklasyfikował 6.

Tablica pomyłek przy klasyfikacji wieloklasowej może pomóc w identyfikacji wzorców błędów. Spójrzmy na przykład na tabelę pomyłek dla 3-klasowego wieloklasowego modelu klasyfikacji, który kategoryzuje 3 różne typy tęczówki (Virginica, Versicolor i Setosa). Gdy zaobserwowano dane podstawowe,

	Setosa (prognoza)	Versicolor (przewidywane)	Virginica (prognoza)
Setosa (ground truth)	88	12	0
Versicolor (ground truth)	6	141	7
Virginica (ground truth)	2	27	109

Kolejny przykład z tablicy pomyłek może ujawnić, że model wytrenowany pod kątem rozpoznawania odręcznych cyfr ma tendencję do błędnego przewidywania liczby 9 zamiast 4 lub błędnego prognozowania liczby 1 zamiast 7.

Tablice pomyłek zawierają wystarczającą ilość informacji do obliczenia różnych danych dotyczących skuteczności, w tym precyzji i czułości.

analiza okręgów wyborczych

#language

Podzielenie zdania na mniejsze struktury gramatyczne („elementy składowe”). Późniejsza część systemu ML, na przykład model rozumienia języka naturalnego, może ułatwić analizę komponentów niż pierwotne zdanie. Weźmy na przykład to zdanie:

Mój przyjaciel adoptował dwa koty.

Parser okręgów może podzielić to zdanie na te 2 komponenty:

Mój przyjaciel to wyrażenie rzeczownikowe.
adopcja dwóch kotów to typowy czasownik.

Składniki te można dodatkowo podzielić na mniejsze części składowe. Na przykład w przypadku czasownika

adoptowali dwa koty

można bardziej podzielić na:

adopted to czasownik.
dwa koty to kolejne wyrażenie rzeczownikowe.

umieszczanie języka z kontekstem

#language

#generatywna AI

Umieszczanie, które jest zbliżone do „rozumienia” słów i wyrażeń w sposób dostępny dla rodzimych użytkowników języka. Kontekstowe umieszczanie języków pozwala zrozumieć złożoną składnię, semantykę i kontekst.

Rozważ np. osadzanie angielskich słów cow. Starsze reprezentacje właściwości, np. word2vec, mogą reprezentować angielskie słowa na przykład tak, że odległość w obszarze umieszczania od krowa do byka jest podobna do odległości ewe (owca końska) do barana (owca) lub od samicy do mężczyzny. Kontekstowe osadzenia języków mogą iść o krok dalej, bo osoby anglojęzyczne czasami używają słowa krowa w odniesieniu do krowy lub byka.

okno kontekstu

#language

#generatywna AI

Liczba tokenów, które model może przetworzyć w danym prompcie. Im większe okno kontekstu, tym więcej informacji model może wykorzystać, aby udzielić spójnych i spójnych odpowiedzi na prompt.

funkcja ciągła

#fundamentals

Funkcja zmiennoprzecinkowa o nieskończonym zakresie możliwych wartości, np. temperatury czy wagi.

Skontrastować funkcję dyskretną.

dobór wygodny

Wykorzystanie zbioru danych, który nie został zebrany naukowo w celu przeprowadzenia szybkich eksperymentów. Później konieczne jest przejście na zbiór danych zbierany naukowo.

zbieżność

#fundamentals

Stan osiągany, gdy wartości straty zmieniają się bardzo mało lub nie zmieniają się wcale przy każdej iteracji. Na przykład ta krzywa strat sugeruje zbieżność przy około 700 iteracjach:

Wykres kartezjański. Oś X oznacza stratę. Oś Y to liczba iteracji trenowania. Strata jest bardzo wysoka podczas kilku pierwszych iteracji, ale mocno spada. Po około 100 iteracjach strata wciąż maleje, ale znacznie stopniowo. Po około 700 iteracjach strata pozostaje stała.

Model zbiega się, gdy dodatkowe trenowanie go nie poprawi.

W przypadku deep learning wartości strat mogą być stałe lub prawie takie same w wielu iteracjach, zanim w końcu padną. W długim okresie ciągłych wartości strat możesz tymczasowo zauważyć błędne poczucie zbieżności.

Zobacz też Wcześniejsze zatrzymywanie.

funkcja wypukła

Funkcja, w której region nad wykresem funkcji jest zbiorem wypukłym. Prototypowa funkcja wypukła ma kształt litery U. Na przykład to wszystkie funkcje wypukłe:

Krzywe w kształcie U, każda z jednym punktem minimalnym.

W przeciwieństwie do tego funkcja poniżej nie jest wypukła. Zwróć uwagę, że region nad wykresem nie jest zbiorem wypukłym:

Krzywa w kształcie litery W z 2 różnymi lokalnymi punktami minimalnymi.

Funkcja ściśle wypukła ma dokładnie 1 lokalny punkt minimalny, który jest zarazem globalnym punktem minimalnym. Klasyczne funkcje w kształcie U to funkcje ściśle wypukłe. Jednak niektóre funkcje wypukłe (np. proste) nie mają kształtu U.

Kliknij ją, aby dowiedzieć się więcej.

Wiele typowych funkcji utraty, w tym te, to funkcje wypukłe:

L₂ – strata
Utrata logów
Regularizacja L₁
Regularizacja L₂

W przypadku wielu wariantów spadku gradientu istnieje gwarancja znalezienia punktu zbliżonego do wartości minimalnej funkcji ściśle wypukłej. Podobnie wiele odmian stookazji gradientu stotohastycznego z dużym prawdopodobieństwem (ale nie gwarantuje) znalezienia punktu zbliżonego do minimalnej wartości funkcji ściśle wypukłej.

Suma 2 funkcji wypukłych (np. strata L₂ + regularyzacja L₁) jest funkcją wypukłą.

Modele głębokie nigdy nie są funkcjami wypukłymi. Co ważne, algorytmy przeznaczone do optymalizacji wypukłości i tak znajdują racjonalnie dobre rozwiązania w sieciach głębokich, chociaż nie gwarantujemy, że będą to rozwiązania na całym świecie.

optymalizacja wypukła

Proces korzystania z technik matematycznych takich jak zjazd gradientowy w celu znalezienia minimalnej wartości funkcji wypukłej. Wiele badań w dziedzinie systemów uczących się skupia się na formułowaniu różnych problemów jako wypukłych problemów optymalizacyjnych i ich efektywniejszym rozwiązywaniu.

Szczegółowe informacje znajdziesz w sekcji Boyd i Vandenberghe w sekcji Convex Optimize.

zbiór wypukły

Podzbiór przestrzeni euklidesowej, taki, że linia narysowana między dowolnymi dwoma punktami w podzbiorze pozostaje w całości w podzbiorze. Na przykład te 2 kształty to zbiory wypukłe:

Jedna ilustracja przedstawiająca prostokąt. Kolejna ilustracja przedstawiająca owal.

Te 2 kształty nie są natomiast zbiorami wypukłymi:

Jedna ilustracja przedstawiająca wykres kołowy z brakującym wycinkiem.
Kolejna ilustracja przedstawiająca skrajnie nieregularny wielokąt.

splot

#image

W matematyce, mówiąc nieformalnie, jest to kombinacja 2 funkcji. W systemach uczących się splot łączy filtr splotowy z macierzyą wejściową w celu trenowania wag.

Termin „splot” w systemach uczących się odnosi się często do operacji konwolucyjnych lub warstwy splotowej.

Bez splotów algorytm systemów uczących się musiałby nauczyć się oddzielnej wagi dla każdej komórki w dużym tenisorze. Na przykład algorytm systemów uczących się trenowany na obrazach o wymiarach 2K × 2K byłby wymuszony do znalezienia osobnych wag o rozmiarze 4 mln. Dzięki konwolucjom algorytm systemów uczących się musi znaleźć wagi tylko dla każdej komórki w filtrze konwolucyjnym, co znacznie zmniejsza ilość pamięci potrzebnej do wytrenowania modelu. Po zastosowaniu filtra splotowego jest on po prostu replikowany w komórkach w taki sposób, że każda z nich jest mnożona przez filtr.

filtr splotowy

#image

Jeden z 2 uczestników operacji konwolucyjnej. (Drugi aktor to wycinek macierzy wejściowej). Filtr splotowy to macierz, która ma taką samą ranking jak macierz wejściową, ale mniejszy kształt. Na przykład na podstawie macierzy wejściowej 28 x 28 filtr może być dowolną macierz 2D mniejszą niż 28 x 28.

Podczas manipulacji fotograficznych wszystkie komórki w filtrze splotowym mają zwykle stały wzorzec zerowania i jedynki. W systemach uczących się filtry splotowe są zwykle przeprowadzane za pomocą liczb losowych, a następnie trenuje idealne wartości.

warstwa splotowa

#image

Warstwa głębokiej sieci neuronowej, w której filtr splotowy przechodzi wzdłuż matrycy wejściowej. Przyjrzyj się np. temu filtrowi splotowemu 3 x 3:

macierz 3 x 3 z tymi wartościami: [[0,1,0], [1,0,1], [0,1,0]];

Animacja poniżej przedstawia warstwę splotową składającą się z 9 operacji splotowych obejmujących macierz wejściową 5 x 5. Zwróć uwagę, że każda operacja splotowa działa na innym wycinku macierzy wejściowej 3 x 3. Otrzymana macierz 3 x 3 (po prawej) składa się z wyników 9 operacji konwolucyjnych:

Animacja pokazująca 2 matryce. Pierwsza macierz 5 x 5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179],
Druga macierz 3 x 3: [[181 303 618], [115 338 605], [169 351 560]].
Drugą macierz jest obliczana przez zastosowanie filtra splotowego [[0, 1, 0], [1, 0, 1], [0, 1, 0]] w różnych podzbiorach 3 x 3 macierzy 5 x 5.

splotowa sieć neuronowa

#image

Sieć neuronowa, w której co najmniej 1 warstwa jest warstwą splotową. Typowa splotowa sieć neuronowa składa się z kilku warstw:

warstwy splotowe
łączenie warstw
gęste warstwy

Splotowe sieci neuronowe z powodzeniem sprawdzają się w różnych rodzajach problemów, np. w rozpoznawaniu obrazów.

operacja splotowa

#image

Oto dwuetapowe działanie matematyczne:

Mnożenie filtra splotowego i wycinek macierzy wejściowej według elementów. (Wycinek macierzy wejściowej ma tę samą pozycję i rozmiar co filtr splotowy).
Suma wszystkich wartości w wynikowej macierzy iloczynów.

Weźmy na przykład taką macierz wejściową 5 x 5:

Macierz 5 x 5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,4]

Teraz wyobraźmy sobie taki filtr splotowy 2 x 2:

Macierz 2 x 2: [[1, 0], [0, 1]]

Każda operacja splotowa obejmuje pojedynczy wycinek macierzy wejściowej 2 x 2. Załóżmy np., że używamy wycinka 2 x 2 w lewym górnym rogu macierzy wejściowej. Operacja splotu na tym wycinku wygląda więc tak:

Stosuję filtr splotkowy [[1, 0], [0, 1]] w lewym górnym rogu macierzy danych wejściowych, czyli [[128,97], [35,22]].
Filtr splotowy pozostawia wartości 128 i 22 bez zmian, ale wyzeruje liczby 97 i 35. W związku z tym operacja konwolucyjna otrzymuje wartość 150 (128+22).

Warstwa splotowa składa się z serii operacji splotowych, z których każda działa na innym wycinku macierzy wejściowej.

koszt

Synonim słowa utrata.

wspólne szkolenie

Metoda uczenia częściowo nadzorowanego jest szczególnie przydatna, gdy spełnione są wszystkie te warunki:

Stosunek przykładów bez etykiet do przykładów z etykietami w zbiorze danych jest wysoki.
Jest to problem z klasyfikacją (binarny lub wieloklasowy).
Zbiór danych zawiera 2 różne zbiory funkcji prognozowanych, które są od siebie niezależne i uzupełniają się.

Zasadniczo wspólne trenowanie wzmacnia sygnały niezależne w celu uzyskania silniejszych sygnałów. Weźmy na przykład model klasyfikacji, który przypisuje poszczególne używane samochody jako Dobre lub Złe. Jeden zestaw funkcji prognozowanych może skupiać się na ogólnych cechach, takich jak rok, marka i model samochodu, a inny zestaw takich funkcji może koncentrować się na historii jazdy poprzedniego właściciela i historii konserwacji samochodu.

Dokument na ten temat dotyczący wspólnego szkolenia to Combining Labeled and Unlabeled Data with Co-training (Łączenie danych oznaczonych i nieoznaczonych etykietami ze wspólnym trenowaniem) opracowanych przez Bluma i Mitchella.

kontrfaktyczny poziom obiektywności

#fairness

Wskaźnik obiektywności, który sprawdza, czy klasyfikator daje taki sam wynik w przypadku jednej osoby jak w przypadku innej osoby, która jest taka sama jak pierwsza, poza co najmniej jednym atrybutem o charakterze kontrowersyjnym. Ocena klasyfikatora pod kątem obiektywności kontrfaktycznej jest jedną ze metod znajdowania potencjalnych źródeł stronniczości w modelu.

Bardziej szczegółowe omówienie kontrfaktycznej sprawiedliwości znajdziesz w części „Zderzenie światów: integrowanie różnych kontrfaktycznych założeń”.

efekt pokrycia

#fairness

Patrz: odchylenie wyboru.

rozkwit

#language

Zdanie lub wyrażenie o niejednoznacznym znaczeniu. Wzrost liczby drzew jest poważnym problemem dla rozumienia języka naturalnego. Na przykład nagłówek Czerwona taśma trzymająca drapacz chmur odnosi się do rozkwitu rozkwitu, ponieważ model NLU może interpretować nagłówek dosłownie lub w sposób obrazowy.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Tylko wyjaśniamy ten tajemniczy nagłówek:

Czerwona taśma może oznaczać:
- Klej
- Nadmierna biurokracja
Wstrzymanie może dotyczyć jednego z tych elementów:
- Pomoc strukturalna
- opóźnieniach,

krytyk

#rl

Synonim terminu Deep Q-Network.

entropia krzyżowa

Uogólnienie argumentu Utrata logów na problemy z klasyfikacją wieloklasową. Entropia krzyżowa oznacza ilościowo różnicę między dwoma rozkładami prawdopodobieństwa. Zobacz też złożoność.

weryfikacja krzyżowa

Mechanizm służący do szacowania, jak dobrze model uogólniłby się na nowe dane, testując model na podstawie co najmniej 1 nienakładającego się podzbioru danych wstrzymanego ze zbioru treningowego.

funkcja rozkładu skumulowanego (CDF)

Funkcja, która określa częstotliwość próbek mniejszą niż wartość docelowa lub jej równa. Rozważmy na przykład rozkład normalny wartości ciągłych. Dyrektywa CDF informuje, że około 50% próbek powinno być mniejsze lub równe średniej wartości oraz że około 84% próbek powinno być mniejsze lub równe 1 odchyleniu standardowemu od wartości średniej.

D

analiza danych

Uzyskiwanie zrozumienia danych poprzez analizę próbek, pomiarów i wizualizacji. Analiza danych może być szczególnie przydatna, gdy pozyskano zbiór danych, zanim utworzysz pierwszy model. Jest również niezbędna w zrozumieniu eksperymentów i debugowaniu problemów w systemie.

rozszerzanie danych

#image

Sztuczne zwiększanie zakresu i liczby przykładów trenowania przez przekształcanie dotychczasowych przykładów w dodatkowe przykłady. Załóżmy na przykład, że obrazy są jedną z funkcji, ale zbiór danych nie zawiera wystarczającej liczby przykładów obrazów, aby model mógł poznać przydatne powiązania. Najlepiej dodać do zbioru danych wystarczającą liczbę obrazów oznaczonych etykietami, aby umożliwić prawidłowe trenowanie modelu. Jeśli to niemożliwe, rozszerzanie danych może obracać, rozciągać i odzwierciedlać każdy obraz, co pozwala uzyskać wiele wariantów oryginalnego zdjęcia, co może zapewnić wystarczającą ilość danych oznaczonych etykietami, aby umożliwić świetne trenowanie.

DataFrame

#fundamentals

Popularny typ danych panda do reprezentowania zbiorów danych w pamięci.

Element DataFrame jest analogiczny jak tabela czy arkusz kalkulacyjny. Każda kolumna w DataFrame ma nazwę (nagłówek), a każdy wiersz ma niepowtarzalny numer.

Każda kolumna w DataFrame ma strukturę 2D, z tym że każda kolumna może mieć własny typ danych.

Zapoznaj się też z oficjalną stroną z informacjami o pandas.DataFrame.

równoległość danych

Sposób skalowania trenowania lub wnioskowania, który powiela cały model na wielu urządzeniach, a następnie przekazuje podzbiór danych wejściowych do każdego z nich. Równoległość danych umożliwia trenowanie i wnioskowanie w przypadku bardzo dużych wielkości wsadowych. Jednak równoległość danych wymaga, aby model był na tyle mały, aby zmieścił się na wszystkich urządzeniach.

Równoległość danych zwykle przyspiesza trenowanie i wnioskowanie.

Zobacz też informacje na temat równoległości modelu.

zbiór danych lub zbiór danych

#fundamentals

Zbiór nieprzetworzonych danych, zwykle (ale nie wyłącznie) uporządkowanych w jednym z tych formatów:

arkusz kalkulacyjny
plik w formacie CSV (wartości rozdzielane przecinkami);

Dataset API (tf.data)

#TensorFlow

Ogólny interfejs API TensorFlow do odczytywania danych i przekształcania ich w postać wymaganą przez algorytm systemów uczących się. Obiekt tf.data.Dataset reprezentuje sekwencję elementów, w której każdy element zawiera co najmniej 1 Tensors. Obiekt tf.data.Iterator zapewnia dostęp do elementów Dataset.

Szczegółowe informacje o interfejsie Dataset API znajdziesz w sekcji tf.data: Build potoków wejściowych TensorFlow (Tworzenie potoków wejściowych TensorFlow) w Przewodniku dla programistów TensorFlow.

granica decyzji

Separator między klasami nauczonymi przez model w klasie binarnej lub problemach z klasyfikacją wieloklasową. Na przykład na obrazie poniżej ilustrującym problem z klasyfikacją binarnej granica decyzji to granica między klasą pomarańczową a klasą niebieską:

Dobrze określona granica między jedną klasą a inną.

las decyzji

#df

Model utworzony na podstawie wielu drzew decyzyjnych. Las decyzyjny polega na agregowaniu prognoz dotyczących drzew decyzyjnych. Popularne rodzaje lasów decyzyjnych to lasy losowe i drzewa o podwyższonym standardzie gradientowym.

próg decyzji

Synonim terminu próg klasyfikacji.

drzewo decyzyjne

#df

Nadzorowany model uczenia się składający się z uporządkowanego hierarchicznie zestawu conditions i conditions. Tak wygląda na przykład schemat decyzyjny:

Drzewo decyzyjne składające się z 4 ułożonych hierarchicznie warunków, których podstawą jest 5 liści.

dekoder

#language

Ogólnie rzecz biorąc, każdy system ML, który przekształca reprezentację przetworzoną, gęstą lub wewnętrzną na reprezentację bardziej nieprzetworzoną, rzadką lub zewnętrzną.

Dekodery są często częścią większego modelu, w którym często są parowane z koderem.

W zadaniach sekwencyjnych do sekwencji dekoder rozpoczyna się od stanu wewnętrznego wygenerowanego przez koder, aby przewidywać następną sekwencję.

Definicję dekodera w architekturze Transformera znajdziesz w artykule Transformer.

modelka

#fundamentals

Sieć neuronowa zawierająca więcej niż 1 ukrytą warstwę.

Model głęboki jest również nazywany głęboką siecią neuronową.

Skontrastowanie względem modelu szerokiego.

głęboka sieć neuronowa

Synonim dla głębokiego modelu.

Sieć głębokich Q (DQN)

#rl

W ramach Q-learningu głęboka sieć neuronowa, która prognozuje funkcje Q.

Słowo krytyczny jest synonimem słowa Deep Q-Network.

spójność demograficzna

#fairness

Wskaźnik obiektywności, który jest spełniony, jeśli wyniki klasyfikacji modelu nie zależą od danego atrybutu poufnego.

Jeśli np. obywatele lilipuści i członkowie Brobdingnagii ubiegają się o Uniwersytet Glubbdubdrib, parzystość demograficzna jest osiągana, gdy odsetek przyjętych liliputów jest taki sam, niezależnie od tego, czy któraś z nich ma odpowiednie kwalifikacje.

W przeciwieństwie do równych szans i równości możliwości, które umożliwiają zbiorcze wyniki klasyfikacji zależą od atrybutów wrażliwych, ale nie pozwalają, aby wyniki klasyfikacji w przypadku określonych określonych etykiet ground truth zależą od atrybutów wrażliwych. W części „Atak dyskryminacji z wykorzystaniem lepszych systemów uczących się” znajdziesz wizualizację obrazującą korzyści płynące z optymalizacji pod kątem parytetu danych demograficznych.

odszumianie

#language

Popularne podejście do nauczania samonadzorowanego, w którym:

Szum jest sztucznie dodany do zbioru danych.
model próbuje usunąć szum.

Funkcja wyciszania szumów umożliwia uczenie się na podstawie przykładów bez etykiet. Pierwotny zbiór danych służy jako element docelowy lub etykieta, a zaszumiane dane jako dane wejściowe.

Niektóre modele językowe z maskowaniem stosują wyciszanie szumów w ten sposób:

Szum jest sztucznie dodany do zdania bez etykiety przez maskowanie niektórych tokenów.
Model próbuje przewidzieć pierwotne tokeny.

obiekt gęsty

#fundamentals

Funkcja, w której większość lub wszystkie wartości mają wartość różną od zera. Zwykle jest to Tensor wartości zmiennoprzecinkowych. Na przykład ten 10-elementowy obiekt Tensor jest gęsty, ponieważ 9 jego wartości jest innych niż 0:

Skontrastowanie za pomocą funkcji oddzielnej.

gęsta warstwa

Synonim dla w pełni połączonej warstwy.

głębokość

#fundamentals

Suma tych wartości w sieci neuronowej:

liczbę ukrytych warstw,
liczba warstw wyjściowych, która wynosi zwykle 1
liczbę dowolnych umieszczonych warstw

Na przykład sieć neuronowa z 5 ukrytymi warstwami i 1 warstwą wyjściową ma głębię 6.

Zwróć uwagę, że warstwa wejściowa nie ma wpływu na głębię.

rozproszona splotowa sieć neuronowa (sepCNN)

#image

Architektura konwolucyjnej sieci neuronowej oparta na modelu Inception, w której moduły Incepcji są zastępowane głęboko rozdzielanymi splotami. Inna nazwa to Xception.

Splot rozdzielający się w głąb (w skrócie do rozdzielania splotu) standardowy splot 3D na 2 oddzielne operacje splotowe, które są bardziej wydajne pod względem obliczeniowym: pierwszy splot głębinowy – o głębokości 1 (n × n × 1), a potem 2 x 1 × długość i szerokości 1 × szeroki kąt.

Więcej informacji znajdziesz w artykule Xception: Deep Learning with Depthwise Separables Convolutions.

etykieta derywowana

Synonim dla etykiety serwera proxy.

urządzenie

#TensorFlow

#GoogleCloud

Termin, który jest przeciążony, z dwoma możliwymi definicjami:

Kategoria sprzętu, który może uruchomić sesję TensorFlow, obejmująca procesory, GPU i TPU.
Podczas trenowania modelu ML na układach akceleratorów (GPU lub TPU) część systemu, która faktycznie obsługuje tenery i umieszczane elementy. Urządzenie korzysta z układów akceleratora. Natomiast host działa zwykle na procesorze.

prywatność różnicowa

W systemach uczących się metoda anonimizacji służąca do ochrony danych wrażliwych (np. danych osobowych użytkownika) zawartych w zbiorze treningowym modelu. Takie podejście sprawia, że model nie uczy się ani nie pamięta wielu informacji o konkretnej jednostce. Jest to możliwe przez próbkowanie i dodawanie szumu podczas trenowania modelu, co pozwala ukryć poszczególne punkty danych, co minimalizuje ryzyko ujawnienia poufnych danych treningowych.

Prywatność różnicowa jest też wykorzystywana poza systemami uczącymi się. Na przykład badacze danych czasami stosują prywatność różnicową, aby chronić prywatność indywidualnych użytkowników podczas przetwarzania statystyk użytkowania usług dla różnych grup demograficznych.

redukcja wymiarów

Zmniejszenie liczby wymiarów używanych do reprezentowania konkretnej cechy we wektorze cech, zwykle przez przekształcenie go w wektor osadzony.

wymiary

Termin przeciążony, który może mieć dowolną z tych definicji:

Liczba poziomów współrzędnych w Tensor. Przykład:
- Wartość skalarna ma 0 wymiarów, np. ["Hello"].
- Wektor ma 1 wymiar, np. [3, 5, 7, 11].
- Macierz ma 2 wymiary, np. [[2, 4, 18], [5, 7, 14]].
Możesz wskazać konkretną komórkę w jednowymiarowym wektorze za pomocą jednej współrzędnej. Aby określić konkretną komórkę w dwuwymiarowej macierzy, potrzebujesz dwóch współrzędnych.
Liczba wpisów w wektorze cech.
Liczba elementów w warstwie umieszczanej.

prompty bezpośrednie

#language

#generatywna AI

Synonim dla promptów typu „zero-shot”.

funkcja dyskretna

#fundamentals

Cecha z ograniczonym zbiorem możliwych wartości. Na przykład cecha, której wartościami mogą być tylko zwierzęta, warzywa lub minerały, jest cechą dyskretną (czyli kategoryczną).

Skontrastowanie względem funkcji ciągłej.

model dyskryminacyjny

model, który prognozuje model na podstawie zestawu co najmniej 1 model. Bardziej formalnie modele dyskryminacyjne definiują prawdopodobieństwo warunkowe na dane wyjściowe na podstawie cech i wag, czyli:

p(output | features, weights)

Na przykład model oceniający, czy e-mail jest spamem na podstawie funkcji i wag, jest modelem dyskryminacyjnym.

Zdecydowana większość nadzorowanych modeli uczenia się, w tym modele klasyfikacji i regresji, to modele dyskryminacyjne.

kontrast z modelem generatywnym,

dyskryminator

System określający, czy przykłady są prawdziwe czy fałszywe.

Innym rozwiązaniem jest podsystem w generatywnej sieci kontradyktoryjnej, który określa, czy przykłady tworzone przez generator są prawdziwe czy fałszywe.

różnorodny wpływ

#fairness

Podejmowanie decyzji dotyczących osób, które mają nieproporcjonalnie duży wpływ na różne podgrupy populacji. Zwykle dotyczy to sytuacji, w których algorytmiczny proces podejmowania decyzji szkodzi pewnej podgrupie lub przynosi korzyści bardziej niż innym.

Załóżmy na przykład, że algorytm określający, czy projekt Liliputian kwalifikuje się do otrzymania miniaturowego kredytu hipotecznego, ma większe szanse sklasyfikować go jako „nieodpowiedni”, jeśli adres pocztowy tej firmy zawiera określony kod pocztowy. Jeśli prawdopodobieństwo, że liliputi mają adresy pocztowe o takim kodzie pocztowym, jest większe niż w przypadku liliputów z Little-Endian, algorytm ten może przynieść różne efekty.

Przeciwieństwem są różnorodne traktowanie, które koncentruje się na rozbieżnościach wynikających z tego, że cechy podgrup mają bezpośredni wpływ na proces podejmowania decyzji oparty na algorytmach.

różnorodne traktowanie

#fairness

Uwzględnienie wrażliwych cech osób w procesie decyzyjnym opartym na algorytmie, tak aby poszczególne podgrupy osób były traktowane inaczej.

Spójrzmy na przykład na algorytm, który określa, czy Lilliputians kwalifikuje się do otrzymania miniaturowego kredytu hipotecznego na podstawie danych podanych we wniosku o kredyt. Jeśli algorytm wykorzystuje przynależność Liliputian jako danych wejściowych, czyli Big-Endian lub Little-Endian, stosuje różnorodne traktowanie w tym zakresie.

Przeciwieństwem jest różnorodny wpływ, który koncentruje się na rozbieżnościach w społecznym wpływie decyzji algorytmicznych na podgrupy – niezależnie od tego, czy te podgrupy są danymi wejściowymi dla modelu.

oczyszczanie

#generatywna AI

Proces zmniejszenia rozmiaru 1 model (nazywanego model) do mniejszego modelu (zwanego model), który najwierniej naśladuje prognozy oryginalnego modelu. Oczyszczanie jest przydatne, ponieważ mniejszy model ma 2 główne zalety w porównaniu z większym (czyli nauczycielką):

Szybszy czas wnioskowania
Zmniejszone zużycie pamięci i energii

Przewidywania uczniów nie są jednak tak dobre jak prognozy nauczyciela.

Oczyszczanie trenuje model ucznia w celu minimalizacji funkcji utraty na podstawie różnicy między wynikami prognoz modeli uczniów i nauczycieli.

Wskaż podobieństwa i różnice między destylacją i następującymi terminami:

dostrajanie
uczenie się oparte na promptach

distribution

Częstotliwość i zakres różnych wartości dla danej funkcji lub etykiety. Rozkład wskazuje prawdopodobieństwo określonej wartości.

Na ilustracji poniżej przedstawiono histogramy dwóch różnych rozkładów:

Po lewej stronie rozkład bogactwa według prawa władzy w porównaniu z liczbą osób go posiadających.
Po prawej stronie rozkład wzrostu w porównaniu z liczbą osób o tym wzroście.

Dwa histogramy. Jeden histogram przedstawia rozkład prawa mocy z bogactwem na osi X i liczbą osób posiadających ten majątek na osi Y. Większość ludzi ma bardzo mało bogactwa, a niewielka część jest bogata. Drugi histogram przedstawia normalny rozkład z wysokością na osi X i liczbą osób o tej wysokości na osi Y. Większość ludzi gromadzi się gdzieś blisko średniej.

Zrozumienie rozkładu poszczególnych cech i etykiet pomoże Ci określić, jak normalizować wartości i wykrywać wartości odstające.

Sformułowanie brak dystrybucji odnosi się do wartości, która nie występuje w zbiorze danych lub występuje bardzo rzadko. Na przykład w przypadku zbioru danych zawierającego zdjęcia kotów obraz planety Saturn zostanie uznany za brak rozkładu.

grupowanie przez podział

#clustering

Zobacz sekcję Grupowanie hierarchiczne.

Downsampling

#image

Termin przeciążony, który może oznaczać:

Zmniejszenie ilości informacji w funkcji, aby umożliwić efektywniejsze trenowanie modelu. Przykładem może być użycie przed wytrenowaniem modelu rozpoznawania obrazów i spróbkowanie obrazów w wysokiej rozdzielczości do formatu o niższej rozdzielczości.
Szkolenie na nieproporcjonalnie niskim odsetku przykładów nadmiernie reprezentowanych klas w celu ulepszenia modelu trenowania modeli w klasach niedostatecznie reprezentowanych. Na przykład w zbiorze danych o niezrównoważonym klasie modele często uczą się dużo o klasie większości, a za mało na temat klasy mniejszości. Redukcja pozwala zrównoważyć intensywność szkoleń dotyczących klas większości i mniejszości.

numer DQN

#rl

Skrót od Deep Q-Network.

regularyzacja porzuceń

Forma regularności przydatna przy trenowaniu sieci neuronowych. Regularyzacja porzucania usuwa losowy wybór stałej liczby jednostek w warstwie sieci dla pojedynczego kroku gradientu. Im więcej jednostek się pominęło, tym silniejsza jest regularność. Przypomina to trenowanie sieci pod kątem emulowania wykładniczo dużego zbioru mniejszych sieci. Więcej informacji znajdziesz w artykule Dropout: A Simple Way to transmisję Overfitting (Porzucenie: prosty sposób na zapobieganie nadmiernemu dopasowaniu sieci neuronowych).

dynamiczny

#fundamentals

Coś wykonywane często lub przez cały czas Terminy dynamiczne i online to synonimy w systemach uczących się. Oto typowe zastosowania technologii dynamic i online w systemach uczących się:

Model dynamiczny (lub model online) to model, który jest regularnie lub stale trenowany.
Szkolenie dynamiczne (lub szkolenia online) to proces szkolenia częstego lub ciągłego.
Wnioskowanie dynamiczne (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

model, który jest często (nawet ciągły) trenowany. Model dynamiczny to „uczący się przez całe życie”, który stale dostosowuje się do zmieniających się danych. Model dynamiczny jest też nazywany modelem online.

Porównaj z modelem statycznym.

E

szybkie wykonanie

#TensorFlow

Środowisko programistyczne TensorFlow, w którym operations są uruchamiane natychmiast. Natomiast operacje wywoływane podczas wykonania wykresu nie są wykonywane, dopóki nie zostaną bezpośrednio ocenione. Szybkie wykonywanie kodu jest interfejsem imperatywnym – podobnie jak kod w większości języków programowania. Programy wykonawcze wymagające dużych nakładów pracy są zwykle dużo łatwiejsze do debugowania niż programy do wykonywania kodu graficznego.

wcześniejsze zatrzymywanie

#fundamentals

Metoda regularności, która obejmuje zakończenie trenowania przed zmniejszaniem straty trenowania. We wczesnym zatrzymaniu celowo zatrzymujesz trenowanie modelu, gdy utrata zbioru danych do weryfikacji zacznie rosnąć, czyli gdy pogarsza się wydajność uogólniania.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Wcześniejsze zatrzymywanie może wydawać się sprzeczne z intuicją. W końcu powiedzenie modelowi, aby zatrzymał trenowanie, gdy strata wciąż maleje, może wydawać się poleceniem szefa kuchni, aby przestał gotować, zanim deser zostanie całkowicie upieczony. Zbyt długie trenowanie modelu może jednak doprowadzić do przestojów. Oznacza to, że jeśli trenujesz model zbyt długo, może on pasować do danych treningowych na tyle blisko, że nie będzie w stanie wygenerować dobrych prognoz w przypadku nowych przykładów.

odległość od Ziemi (EMD)

Miara względnego podobieństwa 2 dystrybucji. Im mniejsza jest odległość, tym bardziej podobieństwo rozkładu.

edytuj odległość

#language

Pomiar podobieństwa do siebie dwóch ciągów tekstowych. W systemach uczących się zmiana odległości jest przydatna, ponieważ łatwo ją obliczyć i skuteczny sposób na porównanie dwóch ciągów znaków, o których wiadomo, że są podobne, lub znalezienie kolejnych, które są podobne do danego ciągu znaków.

Istnieje kilka definicji odległości edycji, przy czym każda z nich wykorzystuje inne operacje na ciągach znaków. Na przykład odległość do levenshtein uwzględnia najmniejszą liczbę operacji usuwania, wstawiania i zastępowania.

Na przykład odległość Levenshteina między słowami „serce” i „rzutki” wynosi 3, ponieważ te 3 zmiany to najmniejsza liczba zmian, które powodują zamianę jednego słowa w inne:

serce → deart (zastąp literę „h” literą „d”)
deart → dart (usuń „e”)
rzutka → rzutki (wstaw „s”)

Zapis Einsum

Skuteczny zapis opisujący łączenie 2 tensorów. Tensory są łączone, mnożąc elementy jednego tensora przez elementy drugiego tensora, a następnie sumując iloczyn. W notacji Einsum używane są symbole do identyfikowania osi każdego tensora, a te same symbole są zmieniane w taki sposób, aby określić kształt nowego tensora wynikowego.

Parametr NumPy zawiera typową implementację Einsum.

warstwa umieszczania

#language

#fundamentals

Specjalna warstwa ukryta, która trenuje na wysokowymiarowej kategoriowej funkcji, aby stopniowo uczyć się wektorów osadzania niższego wymiaru. Warstwa osadzania pozwala sieci neuronowej trenować o wiele efektywniej niż trenowanie tylko na wysokowymiarowych cechach kategorialnych.

Na przykład Earth obsługuje obecnie około 73 000 gatunków drzew. Załóżmy, że gatunek drzewa jest cechą w Twoim modelu,więc warstwa wejściowa modelu zawiera jednogorący wektor o długości 73 000 elementów. baobab może być na przykład reprezentowany tak:

Tablica 73 000 elementów. Pierwsze 6232 elementy mają wartość 0. Następny element ma wartość 1. Ostatnie 66 767 elementów ma wartość 0.

Tablica 73 tys. elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy dystrybucyjnej, trenowanie będzie bardzo czasochłonne z powodu mnożenia 72 999 zer. Możesz np. wybrać warstwę osadzania tak, aby składała się z 12 wymiarów. W efekcie warstwa osadzania stopniowo uczy się nowych wektorów reprezentacji dla każdego gatunku drzew.

W niektórych sytuacjach szyfrowanie jest rozsądną alternatywą dla warstwy umieszczania.

przestrzeń do przechowywania danych

#language

Mapa jest przyporządkowana do przestrzeni wektorowej d obejmującej więcej przestrzeni wektorowych. W idealnym przypadku obszar osadzania zawiera strukturę, która pozwala na uzyskiwanie istotnych wyników matematycznych. Na przykład w idealnej przestrzeni osadzania dodawanie i odejmowanie wektorów dystrybucyjnych może rozwiązywać zadania analogiczne.

Iloczyn skalarny dwóch reprezentacji właściwościowych określa ich podobieństwo.

wektor dystrybucyjny

#language

Ogólnie rzecz biorąc, jest to tablica liczb zmiennoprzecinkowych pobranych z dowolnej ukrytej warstwy, która opisuje dane wejściowe do tej ukrytej warstwy. Często wektor reprezentacji właściwościowych to tablica liczb zmiennoprzecinkowych wytrenowanych w warstwie dystrybucyjnej. Załóżmy np., że warstwa osadza musi nauczyć się wektora dystrybucyjnego dla każdego z 73 000 gatunków drzew na Ziemi. Może ona być wektorem reprezentacji właściwościowej drzewa baobaba:

Tablica 12 elementów, z których każdy zawiera liczbę zmiennoprzecinkową z zakresu od 0,0 do 1,0.

Wektor reprezentacji właściwościowych nie jest blokiem losowych liczb. Warstwa osadzania określa te wartości przez trenowanie, podobnie jak sieć neuronowa uczy się innych wag podczas trenowania. Każdy element tablicy to ocena dotycząca pewnej cechy gatunku drzew. Który element reprezentuje cechy charakterystyczne gatunku? Człowiek trudno to określić.

Istotną matematyczną cechą wektora dystrybucyjnego jest to, że podobne elementy mają podobne zestawy liczb zmiennoprzecinkowych. Na przykład podobne gatunki drzew mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż różne gatunki drzew. Sekwoje i sekwoje są spokrewnionymi gatunkami drzew, więc mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż sekwoje i palmy kokosowe. Liczby we wektorze reprezentacji właściwościowej zmieniają się za każdym razem, gdy ponownie trenujesz model, nawet jeśli ponownie wytrenujesz model z identycznymi danymi wejściowymi.

funkcja skumulowanego rozkładu empirycznego (eCDF lub EDF)

Funkcja rozkładu skumulowanego oparta na pomiarach empirycznych na podstawie rzeczywistego zbioru danych. Wartość funkcji w dowolnym punkcie na osi X to odsetek obserwacji w zbiorze danych, które są mniejsze lub równe określonej wartości.

minimalizacja ryzyka empirycznego (ERM)

Wybór funkcji, która minimalizuje straty w zbiorze treningowym. Porównaj z strukturą minimalizacji ryzyka.

koder

#language

Mówiąc ogólnie, każdy system ML, który przekształca reprezentację nieprzetworzoną, rzadką lub zewnętrzną w bardziej przetworzoną, zwartą lub bardziej wewnętrzną reprezentację.

Kodery są często częścią większego modelu, w którym są często parowane z dekoderem. Niektóre Transformery parują kodery z dekoderami, natomiast inne korzystają tylko z enkodera lub tylko dekodera.

Niektóre systemy używają danych wyjściowych kodera jako danych wejściowych do sieci klasyfikacji lub regresji.

W zadaniach z sekwencji do sekwencji koder przyjmuje sekwencję wejściową i zwraca stan wewnętrzny (wektor). Następnie na podstawie tego stanu wewnętrznego dekoder przewiduje następną sekwencję.

Definicję kodera w architekturze Transformera znajdziesz w artykule Transformer.

zespół

Zbiór modeli wytrenowanych niezależnie, których prognozy są uśredniane lub agregowane. W wielu przypadkach zestaw daje lepsze prognozy niż pojedynczy model. Na przykład las losowy to zespół utworzony na podstawie wielu drzew decyzyjnych. Pamiętaj, że nie wszystkie lasy decyzyjne są zespołami.

entropia

#df

W teorii informacji jest to opis nieprzewidywalności rozkładu prawdopodobieństwa. Entropia jest też definiowana jako ilość informacji w poszczególnych przykładach. Rozkład ma najwyższą możliwą entropię, gdy wszystkie wartości zmiennej losowej są jednakowe.

Entropia zbioru z 2 możliwymi wartościami „0” i „1” (np. etykiety w problemie z klasyfikacją binarną) ma taki wzór:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

gdzie:

H to entropia.
p to ułamek z przykładów „1”.
q to ułamek z przykładów „0”. Zwróć uwagę, że q = (1 - p)
log to zwykle log₂. W tym przypadku jednostka entropii jest nieco większa.

Załóżmy na przykład, że:

100 przykładów zawiera wartość „1”
300 przykładów zawiera wartość „0”

Dlatego wartość entropii wynosi:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) – (0,75)log₂(0,75) = 0,81 bitów na przykład

Idealnie zrównoważony zestaw (np.200 „0” i 200 „1”) będzie miał na przykład 1, 0 bitu. W miarę jak zestaw staje się bardziej niezrównoważony, jego entropia przesuwa się w kierunku 0,0.

W drzewach decyzyjnych entropia pomaga w formułowaniu zysku informacji, aby ułatwić rozdzielanie warunków w trakcie rozwoju drzewa decyzyjnego.

Porównaj entropię z:

nieczystość gini
Funkcja utraty entropii krzyżowej

Entropia jest często nazywana entropią Shannona.

środowisko

#rl

W ramach uczenia się przez wzmacnianie świat zawierający agenta i umożliwiający mu obserwowanie stanu świata. Może to być np. gra, np. szachy, albo świat fizyczny, taki jak labirynt. Gdy agent zastosuje działanie do środowiska, środowisko zostanie przełączone między stanami.

odcinek

#rl

W ramach uczenia się przez wzmacnianie każda powtórzona próba poznania środowiska przez agenta.

początek epoki : epoka

#fundamentals

Pełny przepustkę na cały zbiór treningowy, tak by każdy przykład został przetworzony raz.

Epoka reprezentuje N/rozmiar wsadu iteracji, gdzie N to łączna liczba przykładów.

Załóżmy na przykład, że:

Zbiór danych zawiera 1000 przykładów.
Rozmiar wsadu to 50 przykładów.

Dlatego pojedyncza epoka wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

zasady dotyczące zachłanności Episilon

#rl

W ramach uczenia się przez wzmacnianie jest to zasada, która jest zgodna z zasadami losowej z prawdopodobieństwem epsilonowym, a w innym przypadku zasadami zachłannymi. Jeśli np.epsilon ma wartość 0,9, zasada przez 90% przypadków stosuje zasadę losową, a w 10% – zachłanną.

W kolejnych odcinkach algorytm zmniejsza wartość epsilona, aby przejść z zasady opartej na losowości na zasadzie zachłannej. Zmieniając zasadę, agent najpierw losowo bada środowisko, a potem z przyjemnością wykorzystuje wyniki losowej eksploracji.

równość szans

#fairness

Wskaźnik obiektywności, który pozwala ocenić, czy model równie dobrze przewiduje pożądany wynik w przypadku wszystkich wartości atrybutu o charakterze kontrowersyjnym. Inaczej mówiąc, jeśli pożądanym wynikiem działania modelu jest klasa pozytywnych, celem byłoby, aby współczynnik prawdziwie pozytywnych był taki sam w przypadku wszystkich grup.

Równość szans jest związana z wyrównanymi szansami, co wymaga, aby zarówno współczynniki wyników prawdziwie pozytywnych, jak i fałszywie pozytywnych były takie same dla wszystkich grup.

Załóżmy, że uniwersytet w Glubbdubdrib przyjmuje zarówno liliputów, jak i mieszkańców Brobdingnagi na rygorystyczny program matematyczny. Szkoły średnie w Liliputacjach mają rozbudowany program zajęć z matematyki, a zdecydowana większość uczniów kwalifikuje się do udziału w programach uniwersyteckich. Szkoły średnie w Brobdingnagian w ogóle nie oferują zajęć z matematyki, przez co znacznie mniej ich uczniów spełnia wymagania. Równość szans jest brana pod uwagę w przypadku preferowanej etykiety „zaakceptowany” w odniesieniu do narodowości (liliputyjski lub brobdingnagiczny), jeśli prawdopodobieństwo przyjęcia jest takie samo niezależnie od tego, czy są liliputami czy mieszkańcami Brobdingnagii.

Załóżmy na przykład, że do Uniwersytetu w Glubbdubdrib ma dostęp 100 liliputów i 100 podopiecznych, a decyzje o przyjęciu są podejmowane w następujący sposób:

Tabela 1. Kandydaci z Liliputów (90% to kandydaci)

	Zakwalifikowany	Niezakwalifikowany
Zaakceptowano	45	3
Odrzucony	45	7
Łącznie	90	10
Odsetek zakwalifikowanych studentów przyjętych: 45/90 = 50% Odsetek niekwalifikujących się uczniów: 7/10 = 70% Łączny odsetek przyjętych uczniów Liliputów: (45 + 3)/100 = 48%

Tabela 2. Kandydaci do Brobdingnagian (10% kwalifikujących się):

	Zakwalifikowany	Niezakwalifikowany
Zaakceptowano	5	9
Odrzucony	5	81
Łącznie	10	90
Odsetek zakwalifikowanych studentów przyjętych: 5/10 = 50% Odsetek niekwalifikujących się uczniów: 81/90 = 90% Łączny odsetek przyjętych studentów w Browdingnagian: (5+9)/100 = 14%

Poprzednie przykłady zapewniają równy dostęp do szans na przyjęcie do grona kwalifikujących się studentów, ponieważ zarówno Liliputi, jak i osoby posiadające plakietkę Brobdingnagi mają 50% szans na przyjęcie do programu.

Równość szans jest spełniona, ale nie są spełnione te 2 wskaźniki:

spójność demograficzna: Liliputi i Brobdingnagi są przyjmowane na uniwersytet w różnym tempie; przyjmuje się 48% studentów liliputów, ale tylko 14% z Brobdingnagian jest dostępnych na tę uczelnię.
Równomierne szanse na przyjęcie do programu: chociaż spełniający wymagania studenci Liliputi i Brobdingnagian mają takie same szanse na przyjęcie do programu, nie jest spełnione dodatkowe ograniczenie, którym są takich samych liliputi, jak i osoby należące do kategorii Brobdingnagi. Liliputi, którzy nie spełniają wymagań, mają współczynnik odrzuceń na poziomie 70%, podczas gdy niekwalifikowani mieszkańcy Brobdingnagi mają współczynnik odrzuceń na poziomie 90%.

Bardziej szczegółowe omówienie równości szans znajdziesz w sekcji „Równa szansa w uczeniu nadzorowanym”. Zapoznaj się też z filmem „Atak dyskryminacji za pomocą inteligentnych systemów uczących się”, aby zobaczyć, w jaki sposób poznasz kompromisy związane z optymalizacją pod kątem równości szans.

wyrównane szanse

#fairness

Wskaźnik obiektywności umożliwiający ocenę, czy model prognozuje wyniki równie dobrze w przypadku wszystkich wartości atrybutu poufnego z uwzględnieniem zarówno klasy pozytywnej, jak i klasy ujemnej, a nie tylko jednej klasy czy drugiej. Inaczej mówiąc, współczynnik prawdziwie pozytywnych i współczynnik wyników fałszywie negatywnych powinny być takie same dla wszystkich grup.

Równość szans jest związana z równością możliwości, która skupia się tylko na odsetku błędów w danej klasie (dodatniej lub ujemnej).

Załóżmy na przykład, że Uniwersytet w Glubbdubdrib przyjmuje zarówno Liliputów, jak i Brobdingnagiczyków na rygorystyczny program matematyczny. Liliputów mają rozbudowany program zajęć z matematyki, a zdecydowana większość uczniów kwalifikuje się do studiów. W szkole średniej Brobdingnagians w ogóle nie ma zajęć z matematyki, przez co znacznie mniej ich uczniów spełnia wymagania. Szanse są równe, pod warunkiem że nie ma znaczenia, czy kandydat jest liliputem czy brobdingnagikiem, jeśli spełnia wymagania, szanse na przyjęcie do programu są równe. W przeciwnym razie prawdopodobieństwo jego odrzucenia jest równe.

Załóżmy, że o dołączenie do Uniwersytetu w Glubbdubdrib ubiega się 100 liliputów i 100 członków grupy Brobdingnagib, a decyzje o przyjęciu są podejmowane w następujący sposób:

Tabela 3. Kandydaci z Liliputów (90% to kandydaci)

	Zakwalifikowany	Niezakwalifikowany
Zaakceptowano	45	2
Odrzucony	45	8
Łącznie	90	10
Odsetek zakwalifikowanych studentów przyjętych: 45/90 = 50% Odsetek niekwalifikujących się uczniów: 8/10 = 80% Łączny odsetek przyjętych uczniów Liliputów: (45+2)/100 = 47%

Tabela 4. Kandydaci do Brobdingnagian (10% kwalifikujących się):

	Zakwalifikowany	Niezakwalifikowany
Zaakceptowano	5	18
Odrzucony	5	72
Łącznie	10	90
Odsetek zakwalifikowanych studentów przyjętych: 5/10 = 50% Odsetek niekwalifikujących się uczniów: 72/90 = 80% Łączny odsetek przyjętych studentów w Browdingnagian: (5+18)/100 = 23%

Szanse są równe, ponieważ spełniający wymagania uczniowie z liliputów i brobdingnagów mają po 50% szans na przyjęcie, a uczniowie, którzy nie spełniają kryteriów, mają 80% szans na odrzucenie.

Prawdopodobieństwo wyrównania szans jest formalnie zdefiniowane w sekcji „Równość możliwości w ramach uczenia się nadzorowanego” w ten sposób: „prognoz Ø spełnia równe szanse w odniesieniu do chronionego atrybutu A i wynik Y, jeśli górę i A są niezależne i warunkowo w przypadku Y”.

estymator

#TensorFlow

Wycofany interfejs API TensorFlow. Używaj tf.keras zamiast estymatorów.

ocena

Proces pomiaru jakości prognoz modelu systemów uczących się. Podczas tworzenia modelu wskaźniki oceny stosujesz zwykle nie tylko w zbiorze treningowym, ale także w zbiorze do weryfikacji i zbiorze testowym. Wskaźniki oceny umożliwiają też porównywanie różnych modeli.

przykład

#fundamentals

Wartości jednego wiersza właściwości features i ewentualnie etykiety. Przykłady w uczeniu nadzorowanym dzielą się na 2 ogólne kategorie:

Przykład z etykietą składa się z co najmniej 1 funkcji i etykiety. Podczas trenowania używane są przykłady oznaczone etykietami.
Przykład bez etykiety zawiera co najmniej 1 funkcję, ale nie zawiera etykiety. Podczas wnioskowania są używane przykłady bez etykiet.

Załóżmy na przykład, że trenujesz model do określania wpływu warunków pogodowych na wyniki egzaminów uczniów. Oto 3 przykłady z etykietami:

Funkcje			Wytwórnia
Temperatura	Wilgotność	Ciśnienie	Wynik testu
15	47	998	Prawidłowy
19	34	1020	Świetny
18	92	1012	Słaby

Oto 3 przykłady bez etykiet:

Temperatura	Wilgotność	Ciśnienie
12	62	1014a
21	47	1017
19	41	1021

Wiersz zbioru danych jest zwykle nieprzetworzonym źródłem przykładu. Przykład składa się zwykle z podzbioru kolumn w zbiorze danych. Poza tym funkcje w przykładzie mogą też obejmować funkcje syntetyczne, takie jak krzyżówki cech.

ponowne odtwarzanie

#rl

W uczeniu przez wzmacnianie jest to metoda DQN używana do ograniczania korelacji czasowych w danych treningowych. Agent przechowuje przejścia stanu w buforze odtwarzania, a potem próbkuje przejścia z bufora odtwarzania w celu utworzenia danych treningowych.

odchylenie eksperymentatora

#fairness

Patrz: odchylenie wyników.

problem z wybuchającym gradientem

#seq

Tendencja gradientów w głębokich sieciach neuronowych (zwłaszcza w powracających sieciach neuronowych) do zaskakująco wysokich (wysokich). Stromy gradienty często powodują bardzo duże aktualizacje wag każdego węzła w głębokiej sieci neuronowej.

Trenowanie modeli, na których występuje problem eksplodującego gradientu, staje się trudne lub niemożliwe. Przycinanie gradientu może rozwiązać ten problem.

Porównaj z problemem znikającym gradientem.

F

F₁

Dane „o pełnym zakresie” z klasyfikacją binarną, które opierają się zarówno na precyzji, jak i na czułości. Oto wzór:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Na przykład z uwzględnieniem tych kwestii:

precyzja = 0,6
czułość = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Gdy precyzja i czułość są dość podobne (jak w poprzednim przykładzie), funkcja F₁ jest bliska wartości średniej. Gdy precyzja i czułość znacznie się różnią, wartość F₁ jest bliższa niższej wartości. Na przykład:

precyzja = 0,9
czułość = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

ograniczenie obiektywności

#fairness

Stosowanie ograniczenia w algorytmie w celu spełnienia co najmniej 1 definicji obiektywności. Przykłady ograniczeń obiektywu:

Po przetworzeniu dane wyjściowe modelu.
Zmodyfikowanie funkcji straty, aby uwzględnić karę za naruszenie wskaźnika rzetelności.
Bezpośrednie dodanie ograniczenia matematycznego do zadania optymalizacyjnego.

wskaźnik obiektywności

#fairness

Matematyczna definicja „uczciwości”, którą można zmierzyć. Oto niektóre często używane wskaźniki obiektywności:

szanse wyrównane
spójność prognozowana
rzetelność faktów
spójność demograficzna

Wiele wskaźników obiektywności wzajemnie się wyklucza – zobacz niezgodność wskaźników obiektywności.

wynik fałszywie negatywny (FN)

#fundamentals

Przykład, w którym model błędnie przewiduje klasę negatywną. Model przewiduje na przykład, że dana wiadomość nie jest spamem (klasą negatywną), ale w rzeczywistości jest spamem.

współczynnik wyników fałszywie negatywnych

Odsetek rzeczywistych przykładów pozytywnych, w przypadku których model błędnie prognozował klasę negatywną. Ta formuła oblicza współczynnik wyników fałszywie ujemnych:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

wynik fałszywie pozytywny (FP)

#fundamentals

Przykład, w którym model błędnie prognozuje klasę pozytywnych. Model przewiduje na przykład, że dana wiadomość e-mail jest spamem (klasą pozytywną), ale w rzeczywistości nie jest spamem.

Współczynnik wyników fałszywie pozytywnych (FPR)

#fundamentals

Odsetek rzeczywistych przykładów negatywnych, w przypadku których model błędnie oszacował klasę pozytywną. Ten wzór oblicza współczynnik wyników fałszywie dodatnich:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie dodatnich to oś X na krzywej ROC.

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa do modelu systemów uczących się. Przykład zawiera co najmniej 1 funkcję. Załóżmy na przykład, że trenujesz model do określania wpływu warunków pogodowych na wyniki testów uczniów. W tabeli poniżej znajdziesz 3 przykłady, z których każdy zawiera 3 cechy i 1 etykietę:

Funkcje			Wytwórnia
Temperatura	Wilgotność	Ciśnienie	Wynik testu
15	47	998	92
19	34	1020	84
18	92	1012	87

kontrast z etykietą,

krzyż cech

#fundamentals

Cecha syntetyczna utworzona przez cechy kategorialne lub zgrupowane jako „przekrojone”.

Rozważmy np. model „prognozowania nastroju”, który reprezentuje temperaturę w jednym z tych 4 grup:

freezing
chilly
temperate
warm

Przedstawia on też prędkość wiatru w jednym z tych 3 grup:

still
light
windy

Bez przekrojów cech model liniowy trenuje niezależnie na każdym z 7 poprzednich zasobników. Dlatego model trenuje na przykład w freezing niezależnie od trenowania na przykład w: windy.

Możesz też utworzyć funkcję pomiaru temperatury i prędkości wiatru. Ta funkcja syntetyczna miałaby 12 możliwych wartości:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Dzięki krzyżykom model może nauczyć się różnicy nastroju między freezing-windy dniem a freezing-still dniem.

Jeśli utworzysz cechę syntetyczną na podstawie 2 cech, z których każda ma dużo różnych segmentów, w wyniku krzyżyka pojawi się bardzo dużo możliwych kombinacji. Jeśli na przykład jedna cecha ma 1000 zasobników, a druga 2000, wynikowa cecha będzie mieć 2 000 000 zasobników.

Formalnie Krzyż to iloczyn kartezjański.

Krzyże cech są używane głównie w modelach liniowych i rzadko występują w sieciach neuronowych.

ekstrakcja wyróżników

#fundamentals

#TensorFlow

Proces składający się z tych kroków:

Określanie, które cechy mogą być przydatne podczas trenowania modelu.
Konwertowanie nieprzetworzonych danych ze zbioru danych na efektywne wersje tych funkcji.

Możesz na przykład uznać, że temperature może być przydatną funkcją. Następnie możesz poeksperymentować z podziałem na segmenty, aby zoptymalizować to, czego model może nauczyć się na różnych zakresach temperature.

Inżynieria funkcji jest czasem nazywana wyodrębnianiem funkcji lub wyróżnianiem cech.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi o TensorFlow.

W TensorFlow inżynieria cech często oznacza konwersję nieprzetworzonych wpisów w plikach logów na bufory protokołów tf.Example. Zobacz też tf.Transform.

wyodrębnianie cech

Termin przeciążony, zawierający jedną z tych definicji:

Pobieranie pośrednich reprezentacji cech obliczonych przez model nienadzorowany lub wytrenowany (np. wartości ukrytej warstwy w sieci neuronowej) do wykorzystania w innym modelu jako dane wejściowe.
Synonim terminu inżynieria cech.

znaczenie cech

#df

Synonim dla znaczenia zmiennych.

zbiór funkcji

#fundamentals

Grupa funkcji, których używa model systemów uczących się. Na przykład kod pocztowy, rozmiar i stan nieruchomości mogą składać się z prostego zestawu funkcji modelu prognozującego ceny nieruchomości.

specyfikacja cech

#TensorFlow

Opisuje informacje wymagane do wyodrębnienia danych funkcji z bufora protokołu tf.Example. Bufor protokołu tf.Example jest tylko kontenerem na dane, więc musisz określić:

Dane do wyodrębnienia (czyli klucze funkcji)
typ danych (np. liczba zmiennoprzecinkowa lub int);
długość (stała lub zmienna),

wektor cech

#fundamentals

Tablica wartości funkcji feature stanowiąca przykład. Wektor cech jest wprowadzany podczas trenowania i wnioskowania. Na przykład wektor cech w przypadku modelu z 2 oddzielnymi cechami może wyglądać tak:

[0.92, 0.56]

Cztery warstwy: warstwa wejściowa, dwie ukryte warstwy i jedna warstwa wyjściowa.
Warstwa wejściowa zawiera 2 węzły, jeden o wartości 0,92, a drugi o wartości 0,56.

Każdy przykład podaje inną wartość wektora cech, więc w kolejnym przykładzie wektor cech może wyglądać tak:

[0.73, 0.49]

Inżynieria cech określa sposób przedstawiania cech w wektorze cech. Na przykład binarna cecha kategorialna z 5 możliwymi wartościami może być reprezentowana za pomocą kodowania „one-hot”. W tym przypadku część wektora cechy z danego przykładu składałaby się z 4 zer i pojedynczego 1,0 w trzeciej pozycji w ten sposób:

[0.0, 0.0, 1.0, 0.0, 0.0]

W kolejnym przykładzie przyjmijmy, że model składa się z trzech cech:

binarna funkcja kategorialna z 5 możliwymi wartościami reprezentowanymi za pomocą kodowania jeden-szybko, np. [0.0, 1.0, 0.0, 0.0, 0.0]
kolejną binarną funkcję kategorialną z 3 możliwymi wartościami reprezentowanymi przez kodowanie „1 gorący”, np. [0.0, 0.0, 1.0]
obiektu zmiennoprzecinkowego, np. 8.3.

W tym przypadku wektor cech w każdym przykładzie byłby reprezentowany przez 9 wartości. Biorąc pod uwagę przykładowe wartości z poprzedniej listy, wektor funkcji będzie miał postać:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

featuryzacja

Proces wyodrębniania cech ze źródła danych wejściowych, np. dokumentu lub filmu, i mapowania tych cech na wektor cech.

Niektórzy eksperci w dziedzinie systemów uczących się używają featuryzacji jako synonimu inżynierii funkcji lub wyodrębniania cech.

sfederowane uczenie się

Rozproszone systemy uczące się, które trenują modele systemów uczących się na podstawie zdecentralizowanych przykładów znajdujących się na urządzeniach takich jak smartfony. W ramach sfederowanego uczenia się podzbiór urządzeń pobiera bieżący model z centralnego serwera koordynacyjnego. Urządzenia korzystają z przykładów z urządzeń do ulepszania modelu. Następnie urządzenia przesyłają ulepszenia modelu (ale nie przykłady treningowe) na serwer koordynacyjny, gdzie są zbierane z innymi aktualizacjami w celu utworzenia ulepszonego modelu globalnego. Po agregacji aktualizacje modelu obliczone przez urządzenia nie są już potrzebne i można je odrzucić.

Przykłady treningowe nigdy nie są przesyłane, więc sfederowane uczenie się jest zgodne z zasadami ochrony prywatności dotyczącymi skoncentrowanego zbierania danych i ich minimalizacji.

Więcej informacji o sfederowanym uczeniu się znajdziesz w tym samouczku.

pętla informacji zwrotnych

#fundamentals

W systemach uczących się to sytuacja, w której prognozy modelu wpływają na dane do trenowania tego samego lub innego modelu. Na przykład model polecający filmy będzie miał wpływ na filmy oglądane przez użytkowników, a to z kolei wpłynie na kolejne modele rekomendacji.

sieć neuronowa kanału przekazującego (FFN)

Sieć neuronowa bez połączeń cyklicznych ani rekurencyjnych. Na przykład tradycyjne głębokie sieci neuronowe to kanałowe sieci neuronowe. W przeciwieństwie do cyklicznych sieci neuronowych, które są cykliczne.

nauka metodą „few-shot”

Systemy uczące się, często używane do klasyfikacji obiektów, mające na celu trenowanie skutecznych klasyfikatorów na podstawie niewielkiej liczby przykładów treningowych.

Zobacz też informacje o nauczaniu jednorazowym i nauki typu zero-shot.

prompt typu „few-shot”

#language

#generatywna AI

Komunikat zawierający więcej niż 1 (kilka) przykład pokazujący, jak powinien zareagować duży model językowy. Na przykład ten długi prompt zawiera 2 przykłady pokazujące, jak uzyskać odpowiedź na zapytanie za pomocą dużego modelu językowego (LLM).

Elementy jednego promptu	Notatki
`Jaka jest oficjalna waluta danego kraju?`	Pytanie, na które ma odpowiedzieć LLM.
`Francja: EUR`	Przykład:
`Wielka Brytania: GBP`	Kolejny przykład.
`Indie:`	Faktyczne zapytanie.

Prompty typu „few-shot” dają zwykle lepsze wyniki niż prompty „zero-shot” i one-shot. Jednak takie prompty wymagają dłuższego promptu.

Prompt „few-shot” to rodzaj modelu „few-shot learning”, który można zastosować w nauczaniu opartym na promptach.

Skrzypce

#language

Biblioteka konfiguracji oparta na Pythonie, która ustawia wartości funkcji i klas bez inwazyjnego kodu i infrastruktury. W przypadku Pax i innych baz kodu ML te funkcje i klasy reprezentują modele i trenowanie hiperparametrów.

W przypadku Fiddle bazy kodu systemów uczących się są zwykle podzielone na:

Kod biblioteki, który definiuje warstwy i optymalizatory.
Kod zbioru danych „klej”, który wywołuje biblioteki i łączy wszystko razem.

Fiddle przechwytuje strukturę wywołania kodu glue w nieocenionej i zmiennej postaci.

dostrajanie

#language

#image

#generatywna AI

Drugie karnet treningowy, który jest wykonywany na podstawie wstępnie wytrenowanego modelu, aby doprecyzować jego parametry pod kątem konkretnego przypadku użycia. Na przykład pełna sekwencja trenowania w przypadku niektórych dużych modeli językowych wygląda tak:

Wstępne szkolenie: wytrenuj duży model językowy na dużym ogólnym zbiorze danych, takim jak wszystkie anglojęzyczne strony w Wikipedii.
Dostrajanie: wytrenuj już wytrenowany model tak, aby wykonał określone zadanie, np. odpowiadał na zapytania medyczne. Dostrajanie obejmuje zwykle setki lub tysiące przykładów dotyczących konkretnego zadania.

Kolejny przykład to pełna sekwencja trenowania w przypadku dużego modelu obrazu:

Przedtrenowanie: wytrenuj duży model obrazów na dużym, ogólnym zbiorze danych obrazów, takim jak wszystkie obrazy w Wikimedia Commons.
Dostrajanie: wytrenuj już wytrenowany model tak, aby wykonał określone zadanie, takie jak generowanie obrazów orek.

Dostrajanie może obejmować dowolną kombinację tych strategii:

Modyfikowanie wszystkich parametrów wytrenowanego modelu. Czasami nazywa się to pełnym dostrajeniem.
Modyfikowanie tylko niektórych dotychczasowych parametrów wytrenowanego modelu (zwykle warstw najbliżej warstwy wyjściowej), pozostawiając niezmienione pozostałe parametry (zwykle warstwy są najbliżej warstwy wejściowej). Zobacz dostrajanie z uwzględnieniem parametrów.
Dodanie większej liczby warstw, zwykle nad istniejącymi warstwami najbliżej warstwy wyjściowej.

Dostrajanie to forma nauki transferowej. W związku z tym dostrajanie może korzystać z innej funkcji straty lub innego typu modelu niż te używane do trenowania już wytrenowanego modelu. Możesz na przykład dostroić wytrenowany model dużego obrazu, aby uzyskać model regresji, który zwraca liczbę ptaków na obrazie wejściowym.

Porównaj dostrajanie z tymi terminami:

destylację
uczenie się oparte na promptach

Len

#language

Wydajna biblioteka typu open source do deep learningu oparta na języku JAX. Flax udostępnia funkcje do trenowania sieci neuronowych, a także metody oceny ich wydajności.

Lniane formy

#language

Biblioteka typu open source Transformer, oparta na Flax, przeznaczona przede wszystkim do przetwarzania języka naturalnego i badań multimodalnych.

Zapomnij bramkę

#seq

Część komórki pamięci długoterminowej, która reguluje przepływ informacji przez komórkę. Zapomnij o bramkach zachowuje kontekst, decydując, które informacje odrzucić ze stanu komórki.

pełny softmax

Synonim wyrażenia softmax.

Porównaj to z próbkowaniem kandydatów.

w pełni połączona warstwa

Ukryta warstwa, w której każdy węzeł jest połączony z każdym węzłem w kolejnej warstwie ukrytej.

W pełni połączona warstwa jest nazywana warstwą gęstą.

przekształcenie funkcji

Funkcja, która przyjmuje funkcję jako dane wejściowe i zwraca przekształconą funkcję jako dane wyjściowe. JAX wykorzystuje przekształcenia funkcji.

G

GAN

Skrót od wyrażenia generatywnej sieci kontradyktoryjnej.

uogólnienie

#fundamentals

Zdolność modelu do generowania prawidłowych prognoz w przypadku nowych, wcześniej niewyświetlonych danych. Model, który może uogólnić, jest przeciwieństwem modelu, który jest przesadzony.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Trenujesz model na przykładach w zbiorze treningowym. W efekcie model uczy się specyfiki danych w zbiorze treningowym. Uogólnienie polega zasadniczo na pytaniu, czy model może generować dobre prognozy w przypadku przykładów, które nie znajdują się w zbiorze treningowym.

Aby zachęcić do uogólnienia, regularizacja pomaga modelowi nietrenować dokładnie według specyfiki danych w zbiorze treningowym.

krzywa uogólnienia

#fundamentals

Wykres utraty wytrenowania i utraty weryfikacji jako funkcji iteracji.

Krzywa uogólnienia pomaga wykrywać możliwe nadmierne dopasowanie. Na przykład ta krzywa generalizacji sugeruje nadmierne dopasowanie, ponieważ utrata walidacji staje się znacznie większa niż utrata przy trenowaniu.

Wykres kartezjański z oś Y oznaczonymi etykietą stratę, a oś X oznaczonymi iteracjami. Pojawią się dwa wykresy. Jeden wykres pokazuje utratę trenowania, a drugi utratę utraconej podczas walidacji.
Dwa wykresy zaczynają się w podobny sposób, ale utrata trenowania w końcu spada znacznie niżej niż utrata walidacji.

uogólniony model liniowy

Uogólnienie modeli regresji kwadratów, które opierają się na szumie Gaussa, na inne typy modeli oparte na innych typach szumu, takich jak szum Poissona lub szum kategorialny. Przykłady uogólnionych modeli liniowych:

regresja logistyczna
regresja wieloklasowa
regresja metodą najmniejszych kwadratów

Parametry uogólnionego modelu liniowego można znaleźć za pomocą optymalizacji wypukłości.

Uogólnione modele liniowe mają następujące właściwości:

Średnia prognoza optymalnego modelu regresji metodą najmniejszych kwadratów jest równa średniej etykiecie danych treningowych.
Średnie prawdopodobieństwo prognozowane przez optymalny model regresji logistycznej jest równe średniej etykiecie danych treningowych.

Moc uogólnionego modelu liniowego jest ograniczona przez jego cechy. W przeciwieństwie do modelu głębokiego uogólniony model liniowy nie może „uczyć się nowych cech”.

generatywna sieć kontradyktorywna (GAN),

System do tworzenia nowych danych, w którym generator tworzy dane, a dyskryminator określa, czy utworzone dane są prawidłowe czy nieprawidłowe.

generatywna AI

#language

#image

#generatywna AI

Rozwijające się pole, które nie jest formalne. Mimo to większość ekspertów zgadza się, że modele generatywnej AI mogą tworzyć („generować”) treści, które:

złożone
spójne
oryginał

Na przykład generatywny model AI może tworzyć zaawansowane wypracowania lub obrazy.

Niektóre wcześniejsze technologie, w tym LSTM i RNN, również mogą generować oryginalne i spójne treści. Niektórzy eksperci postrzegają te wcześniejsze technologie jako generatywną AI, a inni uważają, że prawdziwa generatywna AI wymaga bardziej złożonych wyników niż te, które można uzyskać dzięki nim.

Porównaj to z systemami uczącymi się prognozowanymi.

model generatywny

Ogólnie rzecz biorąc, model, który spełnia jedną z tych czynności:

Tworzy (generuje) nowe przykłady ze zbioru danych treningowych. Model generatywny może na przykład tworzyć poezję po trenowaniu na zbiorze danych wierszy. Do tej kategorii należy generator stanowiący część generatywnej sieci kontradyktoryjnej.
Określa prawdopodobieństwo, że nowy przykład pochodzi ze zbioru treningowego lub został utworzony za pomocą tego samego mechanizmu, który utworzył zbiór treningowy. Na przykład po wytrenowaniu na zbiorze danych składającym się ze zdań angielskich model generatywny może określić prawdopodobieństwo, że nowe dane wejściowe to prawidłowe zdanie angielskie.

Model generatywny może teoretycznie rozróżnić rozkład przykładów lub określonych cech w zbiorze danych. Czyli:

p(examples)

Modele nienadzorowanego uczenia się są generatywne.

Zobacz kontrast z modelami dyskryminacyjnymi.

generator

Podsystem w generatywnej sieci kontradyktoryjnej, który tworzy nowe przykłady.

Porównaj z modelem dyskryminacyjnym.

nieczystość gini

#df

Wartość podobna do entropii. Rozdzielacze wykorzystują wartości uzyskane na podstawie zanieczyszczenia ginu lub entropii, aby utworzyć warunki klasyfikacji drzew decyzyjnych. Zdobycie informacji pochodzi z entropii. Nie ma powszechnie przyjętego równoważnego terminu oznaczającego dane pochodzące ze zanieczyszczenia ginu. Te nienazwane dane są jednak tak samo ważne jak zdobywanie informacji.

Nieczystość ginu jest również nazywana indeksem gini lub po prostu gini.

Kliknij ikonę, aby uzyskać szczegółowe informacje matematyczne na temat zanieczyszczenia gini.

Nieczystość ginu to prawdopodobieństwo błędnej klasyfikacji nowego zbioru danych pochodzących z tego samego rozkładu. Nieczystość gini w zestawie z 2 możliwymi wartościami „0” i „1” (np. etykiety w problemie z klasyfikacją binarną) jest obliczany według tego wzoru:

I = 1 – (p² + q²) = 1 – (p² + (1–p)²)

gdzie:

I to gini.
p to ułamek z przykładów „1”.
q to ułamek z przykładów „0”. Uwaga: q = 1-p

Weźmy na przykład ten zbiór danych:

100 etykiet (0,25 zbioru danych) zawiera wartość „1”
300 etykiet (0,75 zbioru danych) zawiera wartość „0”

Zanieczyszczenia gini są zatem:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

W efekcie losowa etykieta z tego samego zbioru danych będzie miała 37,5% prawdopodobieństwa błędnego sklasyfikowania, a 62,5% szansy na prawidłową sklasyfikowanie.

Idealnie zrównoważona etykieta (na przykład 200 „0” i 200 „1”) ma poziom zanieczyszczenia gini równy 0, 5. Wysoce niezrównoważona etykieta zawiera zanieczyszczenie ginu zbliżone do wartości 0,0.

złoty zbiór danych

Zbiór ręcznie wybranych danych, który rejestruje dane ground truth. Zespoły mogą użyć jednego lub kilku złotych zbiorów danych do oceny jakości modelu.

Niektóre złote zbiory danych rejestrują różne subdomeny danych podstawowych (ground truth). Na przykład złoty zbiór danych do klasyfikacji obrazów może rejestrować warunki oświetleniowe i rozdzielczość obrazów.

GPT (wytrenowany generatywny transformator)

#language

Rodzina dużych modeli językowych opartych na Transformerze i opracowanych przez OpenAI.

Warianty GPT mogą mieć zastosowanie w wielu modalnościach, na przykład:

generowanie obrazów (np. ImageGPT),
zamiany tekstu na obraz (np. DALL-E).

gradient

Wektor pochodnych cząstkowych w odniesieniu do wszystkich zmiennych niezależnych. W systemach uczących się gradient to wektor pochodnych cząstkowych funkcji modelu. Gradient wskazuje kierunek najbardziej stromego podejścia.

nagromadzenie gradientu

Metoda propagacji wstecznej, która aktualizuje parametry tylko raz na epokę, a nie raz na iterację. Po przetworzeniu każdej miniserii akumulacja gradientów po prostu aktualizuje łączną liczbę gradientów. Następnie, po przetworzeniu ostatniej miniserii w epoce, system w końcu aktualizuje parametry na podstawie sumy wszystkich zmian gradientu.

Akumulacja gradientów jest przydatna, gdy rozmiar grupy jest bardzo duży w porównaniu z ilością dostępnej pamięci do trenowania. Gdy występuje problem z pamięcią, naturalną tendencją jest zmniejszenie rozmiaru wsadu. Jednak zmniejszenie rozmiaru wsadu w normalnej propagacji wstecznej zwiększa liczbę aktualizacji parametrów. Akumulacja gradientów umożliwia modelowi unikanie problemów z pamięcią, ale nadal wydajne trenowanie.

drzewa z wzmocnieniem gradientowym (GBT)

#df

Rodzaj lasu decyzji, w którym:

Trenowanie bazuje na wzmocnieniu gradientu.
Słaby model to drzewo decyzji.

wzmocnienie gradientu

#df

Algorytm trenowania, w którym słabe modele są trenowane w celu iteracyjnej poprawy jakości (zmniejszenia utraty) silnego modelu. Słabym modelem może być np. liniowy lub mały model drzewa decyzyjnego. Silny model staje się sumą wszystkich słabych modeli wytrenowanych wcześniej.

W najprostszej formie wzmocnienia gradientu przy każdej iteracji trenowany jest słaby model, aby przewidywać gradient straty silnego modelu. Następnie dane wyjściowe modelu są aktualizowane przez odjęcie przewidywanego gradientu, podobnie jak w przypadku spadku gradientu.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

gdzie:

Dobrym modelem początkowym jest $F_{0}$.
Następnym solidnym modelem jest $F_{i+1}$.
Obecny solidny model: $F_{i}$.
$\xi$ to wartość z zakresu od 0,0 do 1,0 nazywana kurczeniem, która odpowiada szybkości uczenia się podczas zejścia gradientu.
$f_{i}$ to słaby model wytrenowany do prognozowania gradientu utraty wartości $F_{i}$.

Nowoczesne odmiany wzmocnienia gradientu obejmują również drugą (heskijską) pochodną straty w obliczeniach.

Drzewa decyzyjne są zwykle używane jako słabe modele przy wzmocnieniu gradientowym. Zobacz drzewa o wzmocnieniu gradientu (decyzja).

przycinanie gradientu

#seq

Powszechnie stosowany mechanizm łagodzenia problemu z eksploatacyjnym gradientem przez sztuczne ograniczanie (przycinanie) maksymalnej wartości gradientów podczas korzystania z początku gradientu w celu trenowania modelu.

spadek gradientowy

#fundamentals

Technika matematyczna do minimalizacji strat. Obniżenie gradientu iteracyjnie koryguje wagi i odchylenia, stopniowo znajdując najlepszą kombinację w celu zminimalizowania strat.

Spadek gradientowy jest starszy – znacznie i znacznie starszy niż systemy uczące się.

wykres

#TensorFlow

Specyfikacja obliczeń w TensorFlow. Węzły na wykresie odzwierciedlają operacje. Krawędzie są kierowane i przedstawiają przekazanie wyniku operacji (Tensor) jako operandu do innej operacji. Zwizualizuj wykres za pomocą TensorBoard.

wykonanie grafu

#TensorFlow

Środowisko programistyczne TensorFlow, w którym program najpierw tworzy wykres, a potem wykonuje go w całości lub w części. Wykonywanie wykresu to domyślny tryb wykonywania w TensorFlow 1.x.

Porównaj je z szybkim wykonywaniem.

zasady dotyczące zachłanności

#rl

W ramach uczenia się przez wzmacnianie jest to zasada, która zawsze wybiera działanie zapewniające największy oczekiwany zwrot.

zaobserwowane dane

#fundamentals

Reality show.

rzeczy, które faktycznie się wydarzyły.

Rozważmy na przykład model klasyfikacji binarnej, który prognozuje, czy uczeń na pierwszym roku studiów zakończy studia w ciągu 6 lat. Dane podstawowe w tym modelu dotyczą tego, czy uczeń ukończył 6 lat.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Jakość modelu oceniamy w odniesieniu do danych podstawowych. Jednak fakty podstawowe nie zawsze są prawdziwe. Weźmy na przykład te przykłady potencjalnych niedoskonałości w rzeczywistości podstawowej:

Czy w przykładzie ukończenia szkoły wiemy, że wyniki ukończenia szkoły każdego ucznia są zawsze prawidłowe? Czy prowadzenie dokumentacji uniwersytetu przebiega bez zakłóceń?
Załóżmy, że etykieta jest wartością zmiennoprzecinkową mierzoną przez przyrządy (np. barometry). Jak możemy sprawdzić, czy każdy instrument jest skalibrowany identycznie, lub czy każdy odczyt został wykonany w tych samych okolicznościach?
Jeśli etykieta jest kwestią opinii człowieka, jak możemy sprawdzić, czy każdy osoba oceniająca ocenia zdarzenia w ten sam sposób? Aby zapewnić większą spójność, czasami w procedurze przeprowadzają interwencje ekspertów weryfikatorów.

efekt atrybucji grupy

#fairness

Założenie, że prawdziwe informacje o danej osobie odnosi się również do wszystkich jej członków. Efekty odchylenia atrybucji grupy mogą być bardziej widoczne, jeśli do zbierania danych stosuje się próbkowanie dogodne. W próbce niereprezentatywnej informacje o atrybucji mogą nie odzwierciedlać rzeczywistości.

Patrz też na temat odchylenia homogenetycznego w grupie poza grupą i odchylenia w grupie.

H

halucynacje

#language

Tworzenie przez model generatywnej AI wyników, które wydają się wiarygodne, ale niepoprawne pod względem merytorycznym, które sugerują, że odnoszą się do świata rzeczywistego. Na przykład generatywny model AI, w którym twierdzi się, że Barack Obama zmarł w 1865 roku, to hallucynacja.

wyliczanie skrótu

W systemach uczących się mechanizm grupowania danych kategorycznych, zwłaszcza gdy liczba kategorii jest duża, ale liczba kategorii wyświetlanych w zbiorze danych jest stosunkowo mała.

Na przykład na Ziemi znajduje się około 73 000 gatunków drzew. Możesz przedstawić każdy z 73 tys. gatunków drzew w 73 tys. osobnych grup kategorycznych. Jeśli w zbiorze danych występuje tylko 200 gatunków drzew, można użyć haszowania, aby podzielić gatunki drzew na np. 500 zasobników.

Jeden wiader może zawierać wiele gatunków drzew. Na przykład haszowanie może spowodować umieszczenie baobaba i klonu czerwonego – dwóch genetycznie odmiennych gatunków – w jednym zasobniku. Niezależnie od tego haszowanie to dobry sposób na mapowanie dużych zbiorów kategorialnych do wybranej liczby zasobników. Haszowanie powoduje, że cecha kategorialna, która ma dużą liczbę możliwych wartości, w znacznie mniejszą liczbę wartości przez grupowanie wartości w deterministyczny sposób.

heurystyka

Proste i szybko zastosowane rozwiązanie problemu. Na przykład: „Dzięki heurystyce uzyskaliśmy dokładność na poziomie 86%. Gdy przeszliśmy na głęboką sieć neuronową, dokładność wzrosła do 98%”.

warstwa ukryta

#fundamentals

Warstwa w sieci neuronowej między warstwą wejściową (cechy) a warstwą wyjściową (prognozą). Każda warstwa ukryta składa się z co najmniej jednego neuronu. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy – pierwszą z 3 neuronami, a drugą z 2 neuronami:

Głęboka sieć neuronowa zawiera więcej niż 1 ukrytą warstwę. Na przykład poprzednia ilustracja przedstawia głęboką sieć neuronową, ponieważ model zawiera 2 ukryte warstwy.

grupowanie hierarchiczne

#clustering

Kategoria algorytmów klastrowania, które tworzą drzewo klastrów. Klastry hierarchiczne dobrze nadają się do danych hierarchicznych, takich jak taksonomie botaniczne. Istnieją 2 rodzaje algorytmów klastrowania hierarchicznego:

Klastry aglomeracyjne najpierw przypisują każdy przykład do własnego klastra, a potem iteracyjnie scalają najbliższe klastry w celu utworzenia drzewa hierarchicznego.
Grupowanie dzielone najpierw grupuje wszystkie przykłady w jeden klaster, a następnie dzieli klaster w drzewo hierarchiczne.

Porównaj z grupowaniem na podstawie cenroidów.

utrata zawiasów

Rodzina funkcji straty służących do klasyfikacji, której celem jest odnalezienie granicy decyzji jak oddalonej od każdego przykładu treningowego w celu zmaksymalizowania marginesu między przykładami a granicą. KSVM korzystają z utraty zawiasów (lub powiązanej funkcji, np. kwadratowej straty zawiasowej). W przypadku klasyfikacji binarnej funkcja utraty zawiasu jest zdefiniowana w ten sposób:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

gdzie y to etykieta rzeczywista, czyli -1 lub +1, a y' to nieprzetworzone dane wyjściowe modelu klasyfikatora:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W związku z tym wykres załamania i (y * y') wygląda tak:

Wykres kartezjański składający się z 2 złączonych segmentów. Pierwszy segment linii zaczyna się w miejscu (-3, 4) i kończy się na (1, 0). Drugi segment linii zaczyna się w punkcie (1, 0) i kończy się bez końca z nachyleniem równym 0.

uprzedzenie historyczne

#fairness

Rodzaj stronniczości, który już istniał na świecie i trafił do zbioru danych. Uprzedzenia te mają tendencję do odzwierciedlenia istniejących stereotypów kulturowych, nierówności demograficznych i uprzedzeń wobec określonych grup społecznych.

Przyjrzyjmy się np. modelowi klasyfikacji, który prognozuje, czy wnioskodawca skorzysta z kredytu o przesłanie domyślne. Został on wytrenowany na historycznych danych dotyczących spłaty kredytu z lat 80. ubiegłego wieku przez lokalne banki w 2 różnych społecznościach. Gdyby dawni kandydaci ze Społeczności A byli 6 razy bardziej skłonni do niewypełnienia wniosków o kredyty niż osoby ze Społeczności B, model mógł nauczyć się odchyleń w przeszłości, co sprawiło, że model ten był mniej prawdopodobny do zatwierdzania kredytów w Społeczności A, nawet jeśli uwarunkowania historyczne, które prowadziły do tego, że wyższe stawki domyślne w tej społeczności przestały być istotne.

dane wstrzymane

Przykłady celowe, nieużyteczne („przesunięte”) podczas szkolenia. Przykładowe dane wstrzymania to zbiór danych do walidacji i testowy zbiór danych. Dane wstrzymania pomagają ocenić zdolność modelu do uogólniania na podstawie innych danych niż te, na których został wytrenowany. Utrata w zbiorze danych wstrzymania pozwala lepiej oszacować utratę w niewidocznym zbiorze danych niż w zbiorze treningowym.

organizator

#TensorFlow

#GoogleCloud

Podczas trenowania modelu ML na układach akceleratora (GPU lub TPU) ta część systemu, która steruje oboma tymi elementami:

Ogólny przepływ kodu.
Wyodrębnianie i przekształcanie potoku wejściowego.

Host zwykle działa na procesorze, a nie na układzie scalonym akceleratora, a urządzenie manipuluje tenisorami na układach akceleratora.

hiperparametr

#fundamentals

Zmienne, które Ty lub usługa dostrajania hiperparametrów podczas kolejnych przebiegów trenowania modelu. Na przykład szybkość uczenia się jest hiperparametrem. Możesz ustawić tempo uczenia się na 0,01 przed jedną sesją szkoleniową. Jeśli stwierdzisz, że 0,01 jest za wysokie, możesz ustawić tempo uczenia się na 0,003 na kolejną sesję treningową.

W przeciwieństwie do tego parametry to różne wagi i odchylenia, których model uczy się podczas trenowania.

hiperplana

Granica, która rozdziela pokój na 2 podprzestrzeni. Na przykład linia to hiperpłaszczyzna w 2 wymiarach, a płaszczyzna – w trójwymiarowych. Najczęściej w systemach uczących się hiperpłaszczyzna to granica oddzielająca dużą przestrzeń. Maszyny wektorów wspomagających jądro wykorzystują hiperplany do oddzielania klas pozytywnych od klas negatywnych, często w bardzo dużej przestrzeni.

I

i d.

Skrót od terminu rozmieszczany niezależnie i identycznie.

rozpoznawanie obrazów

#image

Proces, który klasyfikuje obiekty, wzorce lub koncepcje na obrazie. Rozpoznawanie obrazów jest też nazywane klasyfikacją obrazów.

Więcej informacji znajdziesz w artykule ML Practicum: Klasyfikacja obrazów.

niezrównoważony zbiór danych

Synonim terminu zbiór danych o zrównoważonym klasie.

nieświadome uprzedzenia

#fairness

Automatyczne tworzenie powiązania lub założenia na podstawie czyjegoś modelu umysłu i pamięci. Wpływ niejawny może mieć następujące skutki:

Sposób zbierania i klasyfikowania danych.
Jak są zaprojektowane i rozwijane systemy uczące się.

Na przykład podczas tworzenia klasyfikatora do identyfikowania zdjęć ślubnych inżynier może wykorzystać białą suknię na zdjęciu. Jednak białe suknie były zwyczajowo stosowane tylko w niektórych epokach i w niektórych kulturach.

Patrz też na temat odchylenia w celu potwierdzenia.

imputacja

Skrócona forma przypisywania wartości.

brak zgodności wskaźników obiektywności

#fairness

Twierdzenie, że pewne założenia obiektywności nie są ze sobą zgodne i nie można ich spełniać jednocześnie. W efekcie nie ma jednego uniwersalnego danych do pomiaru obiektywności, który można zastosować do wszystkich problemów z systemami uczącymi się.

Choć może się to wydawać zniechęcające, niezgodność wskaźników obiektywności nie oznacza, że wysiłki na rzecz obiektywności są bezcelowe. Sugeruje natomiast, że w przypadku danego problemu związanego z systemami uczącymi się należy zdefiniować obiektywność w celu zapobiegania szkodom w konkretnych przypadkach użycia.

Bardziej szczegółowe omówienie tego tematu znajdziesz w sekcji „O (niemożliwości) obiektywności”.

nauka w kontekście

#language

#generatywna AI

Synonim dla promptów typu „few-shot”.

niezależny i rozproszony identyczne (i.i.d)

#fundamentals

Dane pobrane z niezmiennego rozkładu, w którym każda rysowana wartość nie zależy od wartości pobranych wcześniej. To idealny gaz dla systemów uczących się – przydatny konstrukt matematyczny, którego jednak prawie nigdy nie można znaleźć w świecie rzeczywistym. Na przykład rozkład użytkowników odwiedzających stronę internetową może się odbywać w krótkim okresie, tj. rozkład użytkowników nie zmienia się w tym krótkim okresie i wizyta jednej osoby jest zasadniczo niezależna od wizyty innej osoby. Jeśli jednak rozszerzysz ten przedział czasu, mogą pojawić się sezonowe różnice w liczbie użytkowników strony.

Zapoznaj się też z sekcją nonstationarity.

uczciwość indywidualna

#fairness

Wskaźnik obiektywności, który sprawdza, czy podobne osoby są klasyfikowane podobnie. Akademia Brobdingnagian może na przykład dążyć do zapewnienia uczciwości indywidualnej, dbając o to, by 2 uczniów z identycznymi ocenami i ustandaryzowanymi wynikami z testów kwalifikowało się jednakowo.

Pamiętaj, że indywidualna obiektywność zależy w całości od tego, jak zdefiniujesz „podobieństwo” (w tym przypadku oceny i wyniki testów). Jeśli wskaźnik podobieństwa nie uwzględnia ważnych informacji (na przykład zasad programu nauczania), istnieje ryzyko pojawienia się nowych problemów z obiektywizmem.

Bardziej szczegółowe informacje o uczciwości wobec danej osoby znajdziesz w sekcji „Sprawiedliwość dzięki świadomości marki”.

wnioskowanie

#fundamentals

W systemach uczących się proces tworzenia prognoz przez zastosowanie wytrenowanego modelu do przykładów bez etykiet.

Wnioskowanie ma w statystykach nieco inne znaczenie. Więcej informacji znajdziesz w artykule na temat wnioskowania statystycznego w Wikipedii.

ścieżka wnioskowania

#df

W drzewie decyzyjnym w trakcie wnioskowania trasa konkretnego przykładu prowadzi z pierwiastka do innych warunków i kończy się liściem. Na przykład w tym drzewie decyzyjnym grubsze strzałki oznaczają ścieżkę wnioskowania dla przykładu z tymi wartościami cech:

x = 7
y = 12
Z = –3

Ścieżka wnioskowania na ilustracji poniżej przechodzi przez 3 warunki, zanim dotrze do liścia (Zeta).

Drzewo decyzyjne złożone z 4 warunków i 5 liści.
Warunek podstawowy to (x > 0). Odpowiedź brzmi „Tak”, więc ścieżka wnioskowania przesuwa się od pierwiastka do następnego warunku (y > 0).
Odpowiedź brzmi „Tak”, więc ścieżka wnioskowania przesuwa się do następnego warunku (z > 0). Odpowiedź to „Nie”, więc ścieżka wnioskowania dociera do węzła końcowego, którym jest liść (Zeta).

Trzy grube strzałki oznaczają ścieżkę wnioskowania.

zdobywanie informacji

#df

W lasach decyzyjnych różnica między entropią węzła a ważoną (według liczby przykładów) sumą entropii węzłów podrzędnych. Entropia węzła to entropia przykładów w tym węźle.

Na przykład rozważ te wartości entropii:

entropia węzła nadrzędnego = 0,6
entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1

Dlatego 40% przykładów znajduje się w jednym węźle podrzędnym, a 60% w innym węźle podrzędnym. Dlatego:

suma entropii ważona węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Uzyskana informacja to:

zysk informacji = entropia węzła nadrzędnego – suma entropii ważona węzłów podrzędnych
zysk informacyjny = 0,6 - 0,14 = 0,46

Większość narzędzi do podziału danych stara się tworzyć warunki, które maksymalizują dostęp do informacji.

promowanie w grupie

#fairness

Wyrażanie przynależności do własnej grupy lub własnych cech. Jeśli testerami lub testerami są znajomi, rodzina lub współpracownicy dewelopera systemów uczących się, odchylenie w grupie może unieważnić testowanie produktów lub zbiór danych.

Promowanie w grupie to odchylenie atrybucji w grupie. Zapoznaj się też z sekcją dotyczącą odchylenia jednorodności poza grupą.

generator danych wejściowych

Mechanizm, za pomocą którego dane są wczytywane do sieci neuronowej.

Generator danych wejściowych może być komponentem odpowiedzialnym za przetwarzanie nieprzetworzonych danych w tensory, które są powtarzane wielokrotnie w celu generowania wsadów do trenowania, oceny i wnioskowania.

warstwa wejściowa

#fundamentals

Warstwa sieci neuronowej, w której znajduje się wektor cech. Oznacza to, że warstwa wejściowa zawiera przykłady do trenowania lub wnioskowania. Na przykład warstwa wejściowa w tej sieci neuronowej składa się z 2 funkcji:

Cztery warstwy: warstwa wejściowa, dwie ukryte warstwy i warstwa wyjściowa.

warunek w zestawie

#df

warunek w drzewie decyzyjnym, który sprawdza obecność jednego elementu w zestawie elementów; Na przykład taki warunek jest w zestawie:

  house-style in [tudor, colonial, cape]

Jeśli w trakcie wnioskowania wartość cechy w stylu domu to tudor, colonial lub cape, ten warunek przyjmuje wartość Tak. Jeśli wartością obiektu w stylu domu jest coś innego (np. ranch), ten warunek przyjmuje wartość Nie.

Warunki wbudowane pozwalają zwykle na tworzenie skuteczniejszych drzew decyzyjnych niż warunki, które testują funkcje zakodowane jednorazowo.

instancja

Synonim dla przykład.

dostrajanie instrukcji

#generatywna AI

Forma dostrajania, które zwiększa zdolność modelu generatywnej AI do wykonywania instrukcji. Dostrajanie instrukcji obejmuje trenowanie modelu na serii promptów, zwykle obejmujących szeroki zakres zadań. Powstały w ten sposób model zmodyfikowany w ramach różnych zadań generuje przydatne odpowiedzi na propozycje „zero-shot”.

Porównaj z:

dostrajanie z uwzględnieniem parametrów
dostrajanie promptów

zrozumiałość

#fundamentals

Umiejętność wyjaśniania lub przedstawiania rozumowania modelu ML w zrozumiały sposób.

Na przykład większość modeli regresji liniowej jest wysoce interpretowalna. (wystarczy tylko wziąć pod uwagę wytrenowane wagi dla każdej funkcji). Lasy decyzyjne też są łatwe do zrozumienia. Niektóre modele wymagają jednak zaawansowanej wizualizacji, aby można było je interpretować.

Do interpretowania modeli systemów uczących się możesz używać narzędzia Learning Interpretability Tool (LIT).

umowa między ratownikami

Pomiar częstotliwości, z jaką weryfikatorzy zgadzają się podczas wykonywania zadania. Jeśli weryfikatorzy się nie zgodzą, konieczne może być ulepszenie instrukcji dotyczących zadań. Czasami nazywany jest też umową między adnotacjami lub rzetelnością poszczególnych oceniających. Zobacz też kappa Cohena – jeden z najpopularniejszych sposobów pomiaru uzgodnień między pracownikami.

przecięcie ponad sumą (IoU)

#image

Miejsce przecięcia dwóch zbiorów podzielone przez ich sumę. W zadaniach wykrywania obrazów przez systemy uczące się współczynnik IoU służy do pomiaru dokładności prognozowanej ramki ograniczającej modelu w odniesieniu do ramki ograniczającej ground truth. W tym przypadku współczynnik podobieństwa danych dla 2 ramek to stosunek między pokrywającym się obszarem a powierzchnią całkowitą, przy czym jego wartości mieszczą się w zakresie od 0 (brak nakładania się przewidywanej ramki ograniczającej dane podstawowe) do 1 (przewidywana ramka ograniczająca i ramka ograniczająca dane podstawowe mają dokładnie takie same współrzędne).

Na przykład na tej ilustracji:

Prognozowana ramka ograniczająca (współrzędne określające miejsce, w którym model przewiduje, gdzie na obrazie znajduje się nocna stolik) jest obrysowana kolorem fioletowym.
Ramka ograniczająca dane podstawowe (współrzędne określające miejsce, w którym znajduje się noc na obrazie) jest zaznaczona na zielono.

W tym przypadku przecięcie ramek ograniczających na potrzeby prognozowania i danych podstawowych (ground truth) (poniżej po lewej) wynosi 1, a suma ramek ograniczających na potrzeby prognozowania i danych podstawowych (ground truth) (poniżej po prawej) wynosi 7, więc wartość IoU wynosi $\frac{1}{7}$.

Ten sam obraz jak powyżej, ale z każdą ramką ograniczającą podzieloną na 4 ćwiartki. Łącznie jest 7 ćwiartek, ponieważ kwadrant w prawym dolnym rogu ramki ograniczającej dane podstawowe i lewy górny kwadrant przewidywanej ramki ograniczającej nakładają się na siebie. Pokrywający się fragment (wyróżniony na zielono) reprezentuje skrzyżowanie i ma obszar 1.

IoU

Skrót od wyrażenia skrzyżowanie ponad sumą.

macierz elementów

#recsystems

W systemach rekomendacji macierz wektorów umieszczania wygenerowanych w ramach rozkładu macierzy, która przechowuje ukryte sygnały dotyczące każdego elementu. Każdy wiersz tablicy elementów zawiera wartość pojedynczej funkcji utajonej dla wszystkich elementów. Weźmy na przykład system rekomendacji filmów. Każda kolumna w tablicy elementów odpowiada jednemu filmowi. Sygnały te mogą reprezentować gatunki lub być trudne do zinterpretowania, ponieważ wiążą się ze złożonymi interakcjami między gatunkiem, gwiazdami, wiekiem filmowym lub innymi czynnikami.

Macierz elementów ma taką samą liczbę kolumn jak macierz docelowa, która jest uwzględniana na czynniki. Na przykład w systemie rekomendacji filmów, który ocenia 10 000 tytułów filmów, macierz elementów będzie zawierać 10 000 kolumn.

items

#recsystems

W systemie rekomendacji encje rekomendowane przez system. Na przykład filmy to produkty rekomendowane przez sklep wideo, a książki – książki.

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modelu – wag i odchylenia modelu podczas trenowania. Rozmiar wsadu określa liczbę przykładów przetwarzanych przez model w ramach jednej iteracji. Jeśli np. rozmiar wsadu to 20, przed dostosowaniem parametrów model przetwarza 20 przykładów.

Podczas trenowania sieci neuronowej pojedyncza iteracja obejmuje te 2 przebiegi:

Przekazywanie dalej umożliwiające ocenę straty w jednej wsadzie.
Przekazywanie wsteczne (propagacja wsteczna) umożliwiające korygowanie parametrów modelu na podstawie utraty i tempa uczenia się.

J

JAX

Biblioteka obliczeń tablicowych łącząca przyspieszoną algebrę liniową XLA i automatyczne różnicowanie na potrzeby zaawansowanych obliczeń liczbowych. JAX to prosty i zaawansowany interfejs API do pisania przyspieszanego kodu liczbowego z transformacjami kompozycyjnymi. JAX udostępnia takie funkcje:

grad (automatyczne różnicowanie)
jit (składanka na czasie)
vmap (automatyczna wektoryzacja lub grupowanie)
pmap (parallelizacja)

JAX to język wyrażania i tworzenia przekształceń kodu liczbowego. Analogiczny, choć znacznie większy, do biblioteki NumPy w Pythonie. (W rzeczywistości biblioteka .numpy w języku JAX to odpowiednik pod względem funkcji, ale całkowicie przeredagowana wersja biblioteki NumPy w języku Python).

JAX szczególnie dobrze sprawdza się w przypadku przyspieszania wielu zadań związanych z systemami uczącymi się przez przekształcenie modeli i danych w formę odpowiednią do równoległego przetwarzania w przypadku układów graficznych TPU i akceleratorów.

Biblioteki Flax, Optax, Pax i wiele innych bazuje na infrastrukturze JAX.

K

Keras

Popularny interfejs API systemów uczących się w języku Python. Keras korzysta z kilku platform deep learning, w tym TensorFlow, gdzie jest dostępny jako tf.keras.

Maszyny wektorowe obsługujące jądra (KSVM)

Algorytm klasyfikacji, który ma na celu maksymalizację marży między klasami dodatnimi a ujemnymi przez mapowanie wektorów danych wejściowych na przestrzenie o większych wymiarach. Weźmy np. problem klasyfikacyjny, w którym wejściowy zbiór danych ma sto cech. Aby zmaksymalizować marżę między klasą dodatnią a ujemną, maszyna wirtualna mogła wewnętrznie zmapować te cechy na przestrzeń o szerokości miliona wymiarów. Serwery KSVM korzystają z funkcji utraty nazywanej utratą zawiasów.

najważniejsze punkty

#image

Współrzędne określonych cech na obrazie. Na przykład w przypadku modelu rozpoznawania obrazów, który odróżnia gatunki kwiatów, kluczowe punkty mogą być środkiem płatka, łodygą, prążkiem itd.

krzyżowa walidacja metodą k

Algorytm do prognozowania zdolności modelu do uogólniania w odniesieniu do nowych danych. Wartość k w części k złożonej odnosi się do liczby równych grup, w które podzielono przykłady zbioru danych. Oznacza to, że trenujesz i testujesz k-razy swojego modelu. Na każdą rundę trenowania i testowania inna grupa stanowi zbiór testowy, a pozostałe grupy stają się zbiorem treningowym. Po k rundach trenowania i testowania obliczasz średnią i odchylenie standardowe wybranych danych testowych.

Załóżmy, że zbiór danych zawiera 120 przykładów. Przyjmijmy, że ustawiasz wartość k na 4. Dlatego po tasowaniu przykładów dzielimy zbiór danych na 4 równe grupy po 30 przykładów i przeprowadzamy 4 rundy trenowania/testowania:

Na przykład najbardziej przydatnym wskaźnikiem w modelu regresji liniowej może być średnia kwadratowa błędów (MSE). Dlatego zobaczysz odchylenie średnie i standardowe MSE we wszystkich 4 rundach.

k-średnich

#clustering

Popularny algorytm klastrowania, który grupuje przykłady w uczeniu nienadzorowanym. Algorytm k-średnich wykonuje w zasadzie te działania:

iteracyjne określanie najlepszych punktów środkowych (nazywanych centroidami).
Przypisuje każdy przykład do najbliższego centrum. Te przykłady najbliższe temu samemu centroidowi należą do tej samej grupy.

Algorytm k-średnich wybiera lokalizacje centroidów, aby zminimalizować skumulowany kwadrat odległości od każdego przykładu do najbliższego centrum.

Weźmy na przykład ten wykres wzrostu i szerokości psa:

Wykres kartezjański z kilkoma dziesiątkami punktów danych.

Jeśli wartość k=3, algorytm k-średnich określi trzy centroidy. Każdy przykład jest przypisywany do najbliższego centrum, co daje 3 grupy:

Ten sam wykres kartezjański co na poprzedniej ilustracji, z wyjątkiem dodanych 3 centroidów.
Poprzednie punkty danych są grupowane w 3 odrębne grupy, z których każda reprezentuje punkty danych najbliżej określonego centrum.

Załóżmy, że producent chce określić optymalne rozmiary dla małych, średnich i dużych sweterów dla psów. Te 3 centroidy określają średnią wysokość i średnią szerokość każdego psa w gromadzie. Producent sweterów powinien więc zastosować rozmiar swetra w tych trzech centroidach. Pamiętaj, że środek transportu klastra nie jest zwykle przykładem klastra.

Na poprzednich ilustracji widać wartości k – w przykładach tylko 2 cechy (wysokość i szerokość). Pamiętaj, że k-średnie mogą grupować przykłady dla wielu cech.

mediana k

#clustering

Algorytm grupowania ściśle powiązany ze średnimi k. Praktyczna różnica między nimi jest następująca:

W przypadku wartości k centroidy są określane przez zminimalizowanie sumy kwadratów odległości między kandydatem do centroidu a każdym z jego przykładów.
W medianie k centroidy są określane przez zminimalizowanie sumy odległości między kandydatem a każdym z jego przykładów.

Zauważ, że również definicje odległości również są różne:

Wartość k-średnia zależy od odległości euklidesowej od centrum do przykładu. (W dwóch wymiarach odległość euklidesowa oznacza obliczenie przeciwprostokątnej przy użyciu twierdzenia Pitagorasa). Na przykład odległość k-średnia między (2,2) a (5,–2) będzie wynosić:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

Mediana k zależy od odległości od centrum Manhattanu do przykładu. Jest to suma bezwzględnych delta w poszczególnych wymiarach. Na przykład odległość k-mediana między (2,2) a (5,-2) będzie wynosić:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularyzacja L₀

#fundamentals

Rodzaj regularności, który nakłada na model łączną liczbę niezerowych wag. Na przykład model mający 11 wag niezerowych będzie miał większą karę niż podobny model o 10 ważach innych niż zero.

Regularyzacja L₀ jest czasami nazywana regularnością L0-norm.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Regularyzacja L₀ jest zwykle niepraktyczna w dużych modelach, ponieważ regularyzacja L₀ zmienia trenowanie w problem optymalizacji wypukłości.

Przegrana ₁ poziomu

#fundamentals

Funkcja utraty, która oblicza wartość bezwzględną różnicy między rzeczywistymi wartościami etykiet a wartościami prognozowanymi przez model. Oto na przykład obliczenie straty L₁ w grupie z 5 przykładami:

Rzeczywista wartość przykładu	Prognozowana wartość modelu	Wartość bezwzględna delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = strata L₁

Strata L₁ jest mniej wrażliwa na wartości odstające niż L₂ strata.

Średnia wartość bezwzględna to średnia utrata L₁ na przykład.

Kliknij ją, aby zobaczyć formalne rozwiązanie matematyczne.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

gdzie:

$n$ to liczba przykładów.
Argument $y$ to rzeczywista wartość etykiety.
Wartość $\hat{y}$ jest prognozowana przez model dla wartości $y$.

Regularyzacja L₁

#fundamentals

Rodzaj regularności, który powoduje nałożenie kar na wagi proporcjonalne do ich wartości bezwzględnej. Regularyzacja L₁ pomaga podnosić wagę nieistotnych lub mało przydatnych cech do wartości dokładnie 0. Cecha o wadze 0 jest efektywnie usuwana z modelu.

Skontrastowanie z regularnością L₂.

Strata ₂

#fundamentals

Funkcja utraty, która oblicza kwadrat różnicy między rzeczywistymi wartościami etykiet a wartościami prognozowanymi przez model. Oto na przykład obliczenie straty L₂ w grupie z 5 przykładami:

Rzeczywista wartość przykładu	Prognozowana wartość modelu	Kwadrat delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = strata L₂

Z powodu kwadratowych wyników utrata L₂ zwiększa wpływ wartości odstających. Oznacza to, że strata L₂ reaguje silniej na błędne prognozy niż utrata L₁. Na przykład utrata L₁ dla poprzedniej wsadu wynosiłaby 8, a nie 16. Zwróć uwagę, że jedna wartość odstająca jest powiązana z 9 z 16.

Modele regresji zwykle używają straty L₂ jako funkcji straty.

Średnia kwadratowa wartość błędu to średnia utrata L₂ na przykład. Kwadratowa strata to inna nazwa przegranej L₂.

Kliknij ją, aby zobaczyć formalne rozwiązanie matematyczne.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$
gdzie:

$n$ to liczba przykładów.

Argument $y$ to rzeczywista wartość etykiety.

Wartość $\hat{y}$ jest prognozowana przez model dla wartości $y$.

Regularyzacja L₂

#fundamentals

Rodzaj regularności, który powoduje nałożenie kar na wagi proporcjonalne do sumy kwadratów tych wag. Regularyzacja L₂ pomaga zwiększać wagi skrajne (takie, które mają wysokie lub niskie wartości dodatnie) bliższe 0, ale nie do 0. Cechy o wartościach bardzo zbliżonych do 0 pozostają w modelu, ale nie mają dużego wpływu na prognozy modelu.

Regularyzacja L₂ zawsze poprawia uogólnienie w modelach liniowych.

Skontrastowanie z regularnością L₁.

etykieta

#fundamentals

W przypadku nadzorowanych systemów uczących się część „odpowiedź” lub „wynik” z przykładu.

Każdy przykład z etykietą składa się z co najmniej 1 funkcji i etykiety. Na przykład w zbiorze danych do wykrywania spamu etykieta to „spam” lub „nie spam”. W zbiorze danych o deszczach etykieta może zawierać liczbę opadów deszczu w danym okresie.

przykład z etykietą

#fundamentals

Przykład zawierający co najmniej 1 funkcję i etykietę. Na przykład w tabeli poniżej znajdziesz 3 przykłady oznaczone etykietami z modelu wyceny domu, z których każdy ma 3 cechy i 1 etykietę:

Liczba sypialni Liczba łazienek Wiek rodziny Cena domu (etykieta)

3 2 15 345 000 USD

2 1 72 179 000 USD

4 2 34 392 000 USD

W nadzorowanych systemach uczących się modele trenują na przykładach z etykietami i generują prognozy na przykładach bez etykiet.

Porównaj przykład z etykietami z przykładami bez etykiet.

wyciek etykiety

Wada w konstrukcji modelu, w której funkcja jest pośrednikiem dla etykiety. Rozważmy np. model klasyfikacji binarnej, który prognozuje, czy potencjalny klient kupi dany produkt. Załóżmy, że jedną z cech modelu jest wartość logiczna o nazwie SpokeToCustomerAgent. Załóżmy też, że do klienta klienta zostaje przypisany dopiero po zakupie produktu przez potencjalnego klienta. Podczas trenowania model szybko nauczy się powiązania między obiektem SpokeToCustomerAgent a etykietą.

lambda

#fundamentals

Synonim dla częstotliwości regularyzacji.

Lambda to przeciążone hasło. W tym artykule skupimy się na definicji terminu w ramach regularności.

LaMDA (Language Model for Dialogue Applications)

#language

duży model językowy oparty na Transformerze, opracowany przez Google i wytrenowany na dużym zbiorze dialogów, który może generować realistyczne odpowiedzi konwersacyjne.

W skrócie: LaMDA – nasza przełomowa technologia konwersacyjna.

punkty orientacyjne

#image

Synonim terminu kluczowe punkty.

model językowy

#language

model, który ocenia prawdopodobieństwo wystąpienia model lub sekwencji tokenów w dłuższej kolejności.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Chociaż jest to sprzeczne z intuicją, wiele modeli oceniających tekst nie jest modelami językowymi. Na przykład modele klasyfikacji tekstu i modele analizy nastawienia nie są modelami językowymi.

duży model językowy

#language

Termin nieformalny bez ścisłej definicji oznacza zwykle model językowy z dużą liczbą parametrów. Niektóre duże modele językowe zawierają ponad 100 mld parametrów.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Być może zastanawiasz się, kiedy model językowy stanie się na tyle duży, aby można go było uznać za duży model językowy. Obecnie nie ma uzgodnionego wiersza definiującego liczbę parametrów.

Większość obecnych dużych modeli językowych (np. GPT) opiera się na architekturze Transformer.

przestrzeń utajona

#language

Synonim terminu umieszczanie przestrzeni.

warstwa

#fundamentals

Zbiór neuronów w sieci neuronowej. Oto 3 typowe typy warstw:

Warstwa wejściowa, która zawiera wartości wszystkich funkcji.

co najmniej 1 ukrytą warstwę, która znajduje nieliniowe relacje między obiektami a etykietą;

Warstwa wyjściowa, która zawiera prognozę.

Na przykład ta ilustracja przedstawia sieć neuronową z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową:

W TensorFlow warstwy są też funkcjami Pythona, które przyjmują Tensory i opcje konfiguracyjne jako dane wejściowe i generują inne tensory jako dane wyjściowe.

Warstwy API (tf.layers)

#TensorFlow

interfejs API TensorFlow, który tworzy głęboką sieć neuronową jako kompozycję warstw. Interfejs Warstwy API pozwala tworzyć różnego rodzaju warstwy, takie jak:

tf.layers.Dense dla w pełni połączonej warstwy.

tf.layers.Conv2D dla warstwy splotowej.

Interfejs Warstwy API jest zgodny z konwencjami API warstw Keras. Oznacza to, że oprócz innego prefiksu wszystkie funkcje w interfejsie Warstwy API mają takie same nazwy i podpisy jak ich odpowiedniki w interfejsie API warstw Keras.

liść

#df

Dowolny punkt końcowy w drzewie decyzji. W przeciwieństwie do warunku liść nie przeprowadza testu. Liść jest prawdopodobną przewidywaną. Liść jest też końcowym węzłem ścieżki wnioskowania.

Na przykład to drzewo decyzyjne zawiera 3 liście:

Narzędzie do interpretacji wyników nauczania (LIT)

Wizualne, interaktywne narzędzie do rozumienia modeli i wizualizacji danych.

Za pomocą oprogramowania open source LIT możesz interpretować modele lub wizualizować tekst, obrazy i dane w tabeli.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która informuje algorytm stopnia gradientu, jak mocno dostosowywać wagi i odchylenia w przypadku każdej iteracja. Na przykład tempo uczenia się na poziomie 0,3 spowoduje, że wagi i odchylenia zostaną 3 razy silniejsze niż tempo uczenia się równe 0,1.

Tempo uczenia się to kluczowy hiperparametr. Jeśli ustawisz zbyt niskie tempo uczenia się, trenowanie potrwa za długo. Jeśli tempo uczenia się jest zbyt wysokie, spadek gradientu często powoduje problemy z osiągnięciem konwencji.

Aby uzyskać bardziej matematyczne wyjaśnienie, kliknij ikonę.

Podczas każdej iteracji algorytm gradientu zejściem mnoży tempo uczenia się przez gradient. Powstały produkt jest nazywany krokiem gradientu.

regresja metodą najmniejszych kwadratów

Model regresji liniowej wytrenowany przez minimalizowanie straty L₂.

jednostajne

#fundamentals

Zależność między co najmniej 2 zmiennymi, którą można przedstawić wyłącznie przez dodawanie i mnożenie.

Wykres relacji liniowej jest linią.

kontrast z nieliniowymi,

model liniowy

#fundamentals

model, który przypisuje 1 model do każdej model na potrzeby tworzenia model. (Modele liniowe obejmują też odchylenie). W przeciwieństwie do tego relacja cech z prognozami w szczegółowych modelach jest zasadniczo nieliniowa.

Modele liniowe są zwykle łatwiejsze w trenowaniu i łatwiejsze do zrozumienia niż modele głębokie. Jednak głębokie modele mogą uczyć się złożonych relacji między cechami.

Regresja liniowa i regresja logistyczna to 2 rodzaje modeli liniowych.

Kliknij ją, aby wyświetlić obliczenia.

Model liniowy ma taką formułę:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$
gdzie:

Wartość „y” to nieprzetworzona prognoza. W niektórych typach modeli liniowych ta nieprzetworzona prognoza będzie podlegać dalszej modyfikacji. Przykład: regresja logistyczna.

Argument b to odchylenie.

W to waga, więc w₁ to waga pierwszej cechy, w₂ to waga drugiej cechy itd.

x to funkcja, więc x₁ to wartość pierwszej cechy, x₂ to wartość drugiej cechy itd.

Załóżmy na przykład, że model liniowy 3 cech uczy się takich odchyleń i wag:

B = 7

W₁ = –2,5

W₂ = –1,2

W₃ = 1,4

Zatem, biorąc pod uwagę 3 cechy (x₁, x₂ i x₃), model liniowy generuje każdą prognozę na podstawie tego równania:
y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Załóżmy, że konkretny przykład zawiera następujące wartości:

x₁ = 4

x₂ = –10

x₃ = 5

Umieszczenie tych wartości w formule generuje prognozę dla tego przykładu:
y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5) y' = 16

Obejmują one nie tylko modele korzystające tylko z równania liniowego do generowania prognoz, ale także większy zestaw modeli, w których równanie liniowe jest tylko jednym z komponentów formuły generującej prognozy. Na przykład regresja logistyczna przetwarza nieprzetworzoną prognozę (y”) w celu wygenerowania ostatecznej wartości prognozy z zakresu od 0 do 1 wyłącznie.

regresja liniowa

#fundamentals

Typ modelu systemów uczących się, w którym spełnione są oba te warunki:

Jest to model liniowy.

Prognoza ma wartość zmiennoprzecinkową. (Jest to regresja część regresji liniowej).

Porównaj regresję liniową z regresją logistyczną. Porównaj też regresję z klasyfikacją.

LIT

Skrót od nazwy Learning Interpretability Tool (LIT), które wcześniej nosiło nazwę narzędzia do tłumaczenia językowego.

LLM

#language

Skrót od wyrażenia big model language (duży model językowy).

regresja logistyczna

#fundamentals

Rodzaj modelu regresji, który prognozuje prawdopodobieństwo. Modele regresji logistycznej mają te cechy:

Etykieta ma charakter kategorialny. Termin regresja logistyczna zwykle odnosi się do binarnej regresji logistycznej, czyli modelu, który oblicza prawdopodobieństwo dla etykiet z 2 możliwymi wartościami. Rzadziej stosowany wariant, czyli wielomianowa regresja logistyczna, oblicza prawdopodobieństwa dla etykiet z więcej niż 2 możliwymi wartościami.

Funkcja utraty podczas trenowania to Log Loss (Utrata logów). (W przypadku etykiet z więcej niż 2 możliwymi wartościami możesz równolegle umieścić wiele jednostek logarytmicznych).

Ma architekturę liniową, a nie głęboką sieć neuronową. Pozostała część tej definicji dotyczy też precyzyjnych modeli, które prognozują prawdopodobieństwo w przypadku etykiet kategorialnych.

Rozważmy na przykład model regresji logistycznej, który oblicza prawdopodobieństwo, że wejściowa wiadomość e-mail jest spamem albo nie jest spamem. Podczas wnioskowania załóżmy, że model przewiduje 0,72. Model szacuje więc:

72% prawdopodobieństwa, że e-mail to spam.

28% szans na to, że e-mail nie będzie spamem.

Model regresji logistycznej wykorzystuje tę architekturę 2-etapową:

Model generuje nieprzetworzoną prognozę (y”) przez zastosowanie funkcji liniowej cech wejściowych.

Model wykorzystuje tę nieprzetworzoną prognozę jako dane wejściowe dla funkcji sigmoidalnej, która konwertuje nieprzetworzoną prognozę na wartość z zakresu od 0 do 1 wyłącznie.

Podobnie jak każdy model regresji, model regresji logistycznej przewiduje liczbę. Ta liczba zazwyczaj staje się częścią modelu klasyfikacji binarnej w taki sposób:

Jeśli przewidywana liczba jest większa niż próg klasyfikacji, model klasyfikacji binarnej przewiduje klasę pozytywną.

Jeśli prognozowana liczba jest mniejsza od progu klasyfikacji, model klasyfikacji binarnej przewiduje klasę ujemną.

Logts

Wektor nieprzetworzonych (nieznormalizowanych) prognoz generowanych przez model klasyfikacji, który jest zwykle przekazywany do funkcji normalizacji. Jeśli model rozwiązuje problem z klasyfikacją wieloklasową, logiki zwykle stają się danymi wejściowymi funkcji softmax. Funkcja softmax generuje wektor (znormalizowanych) prawdopodobieństw z jedną wartością dla każdej możliwej klasy.

Logarytmiczna strata

#fundamentals

Funkcja straty używana w regresji logicznej.

Kliknij ją, aby wyświetlić obliczenia.

Ta formuła oblicza wartość logarytmiczną:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$
gdzie:

$(x,y)\in D$ to zbiór danych zawierający wiele przykładów oznaczonych etykietami, którymi są $(x,y)$ pary.

$y$ to etykieta w przykładzie oznaczonym etykietą. Jest to regresja logistyczna, więc każda wartość $y$ musi wynosić 0 lub 1.

$y'$ to wartość przewidywana (między 0 a 1, wyłącznie), biorąc pod uwagę zbiór funkcji w funkcji $x$.

algorytm logiczny

#fundamentals

Logarytm prawdopodobieństwa zdarzenia.

Kliknij ją, aby wyświetlić obliczenia.

Jeśli zdarzenie ma wartość binarną, to nieparzyste oznacza stosunek prawdopodobieństwa sukcesu (p) do prawdopodobieństwa niepowodzenia (1–p). Załóżmy np., że dane zdarzenie ma 90% prawdopodobieństwa sukcesu i 10% prawdopodobieństwa niepowodzenia. W tym przypadku prawdopodobieństwo jest obliczane w ten sposób:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Argumenty logarytmiczne są po prostu logarytmem prawdopodobieństwa. Zgodnie z konwencją „logarytm” oznacza logarytm naturalny, ale logarytm może być dowolną podstawą większą od 1. Trzymając się konwencji, logi czasu w naszym przykładzie to:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Funkcja logarytmiczna to odwrotność funkcji sigmoidalnej.

Pamięć krótkoterminowa (LSTM)

#seq

Rodzaj komórki w powracającej sieci neuronowej, który służy do przetwarzania sekwencji danych w aplikacjach takich jak rozpoznawanie pisma odręcznego, tłumaczenie maszynowe i tworzenie napisów do obrazów. Systemy LSTM rozwiązują problem znikającego gradientu, który występuje podczas trenowania RNN z powodu długich sekwencji danych, utrzymując historię w stanie pamięci wewnętrznej na podstawie nowych danych wejściowych i kontekstu z poprzednich komórek w RNN.

LoRA

#language

#generatywna AI

Skrót od terminu Niska pozycja w rankingu.

przegrana

#fundamentals

Miara prognozowania modelu podczas trenowania modelu nadzorowanego od etykiety.

Funkcja straty oblicza stratę.

agregator strat

Rodzaj algorytmu systemu uczącego się, który zwiększa wydajność modelu przez połączenie prognoz wielu modeli i wykorzystanie tych prognoz do stworzenia jednej prognozy. W efekcie agregator strat może zmniejszyć wariancję prognoz i zwiększyć ich dokładność.

krzywa straty

#fundamentals

Wykres straty jako funkcja liczby iteracji trenowania. Ten wykres przedstawia typową krzywą straty:

Krzywe straty pomagają określić, kiedy model jest zbieżny, czy zbyt duży.

Krzywe straty mogą przedstawiać te rodzaje strat:

utrata trenowania

utratę weryfikacji

utratą testów

Zobacz też krzywą uogólnienia.

funkcja utraty

#fundamentals

Podczas trenowania lub testowania funkcja matematyczna, która oblicza stratę w postaci zbioru przykładów. Funkcja straty zwraca mniejszą stratę w przypadku modeli, które dają dobre prognozy, niż modeli, które generują błędne prognozy.

Celem trenowania jest zazwyczaj minimalizowanie strat, które zwraca funkcja utraty.

Istnieje wiele różnych rodzajów funkcji straty. Wybierz funkcję straty odpowiednią do tworzonego modelu. Na przykład:

Utrata L₂ (lub średnia kwadratowa błędów) to funkcja utraty dla regresji liniowej.

Utrata logarytmiczna to funkcja straty na potrzeby regresji logistycznej.

powierzchnia straty

Wykres wagi i utraty. Spadek gradientu ma na celu ustalenie wagi, dla której powierzchnia straty jest minimalna w okolicy.

Dostosowanie do niskiej pozycji (LoRA)

#language

#generatywna AI

Algorytm do efektywnego dostrajania parametrów, który dostraja tylko podzbiór parametrów dużego modelu językowego. LoRA zapewnia następujące korzyści:

Szybsze dostrajanie niż techniki, które wymagają dostrajania wszystkich parametrów modelu.

Zmniejsza koszt obliczeniowy wnioskowania w dostrojonym modelu.

Model dostrojony przy użyciu LoRA utrzymuje lub poprawia jakość prognoz.

LoRA umożliwia stosowanie wielu wyspecjalizowanych wersji modelu.

LSTM

#seq

Skrót od pamięci długoterminowej.

P

systemy uczące się

#fundamentals

Program lub system, który trenuje model na podstawie danych wejściowych. Wytrenowany model może generować przydatne prognozy na podstawie nowych (nigdy wcześniej niewidocznych) danych, które pochodzą z tego samego rozkładu, który został użyty do trenowania modelu.

Systemy uczące się odnoszą się również do dziedzin badań związanych z tymi programami lub systemami.

klasa większości

#fundamentals

Powszechna etykieta w zbiorze danych o niezrównoważonym klasie. Na przykład w zbiorze danych zawierającym 99% etykiet negatywnych i 1% etykiet pozytywnych, etykiety ujemne są klasą większości.

kontrast z klasą mniejszości.

Proces decyzyjny Markowa (MDP)

#rl

Wykres przedstawiający model podejmowania decyzji, w którym podejmowane są decyzje (lub działania), aby poruszać się po sekwencji stanów przy założeniu, że obowiązuje właściwość Markowa. W przypadku uczenia się przez wzmacnianie te przejścia między stanami zwracają nagrodę liczbową.

Właściwość Markowa

#rl

Właściwość niektórych środowisk, w przypadku których przejście stanu zależy w całości od informacji pośrednich w bieżącym stanie i jego działaniu agenta.

maskowany model językowy

#language

Model językowy prognozujący prawdopodobieństwo wypełnienia pustych pól w sekwencji przez tokeny kandydatów. Na przykład model językowy z maskowaniem może obliczyć prawdopodobieństwo, że propozycje słów kluczowych zastąpią podkreślenie w tym zdaniu:

____ w kapeluszu wróciła.

W literaturze zamiast podkreślenia jest zazwyczaj używany ciąg „MASK”. Na przykład:

„MASK” z kapelusza wróciła.

Większość nowoczesnych modeli językowych z maskowaniem jest dwukierunkowa.

matplotlib

Biblioteka open source do rysowania 2D w Pythonie. matplotlib pomaga wizualizować różne aspekty systemów uczących się.

rozłożenie macierzy

#recsystems

W matematyce jest to mechanizm znajdowania matryc, których iloczyn skalarny jest zbliżony do macierzy docelowej.

W systemach rekomendacji tablica docelowa często zawiera oceny użytkowników dotyczące produktów. Na przykład tablica docelowa systemu rekomendacji filmów może wyglądać mniej więcej tak:

Casablanca Historia Filadelfii Czarna Pantera Wonder Woman Pulp fiction

Użytkownik 1 5,0 3,0 0.0 2,0 0.0

Użytkownik 2 4.0 0.0 0.0 1.0 5,0

Użytkownik 3 3,0 1.0 4.0 5,0 0.0

System rekomendacji filmów przewiduje oceny użytkowników w przypadku filmów bez oceny. Czy Użytkownik 1 polubi na przykład Czarna Pantera?

Jednym ze sposobów stosowanych w systemach rekomendacji jest zastosowanie rozkładu macierzy do wygenerowania tych 2 matryc:

Macierz użytkowników w postaci liczby użytkowników x liczby wymiarów umieszczania.

Matryca elementów w postaci liczby umieszczonych wymiarów X liczba elementów.

Na przykład zastosowanie rozkładu matrycy na 3 użytkownikach i 5 elementach może przynieść taką macierz użytkowników i elementy:

User Matrix Item Matrix 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5

Iloczyn skalarny macierzy użytkownika i matrycy produktów tworzy macierz rekomendacji zawierającą nie tylko oryginalne oceny użytkowników, ale także prognozy dotyczące filmów, których użytkownik jeszcze nie widział. Weźmy na przykład ocenę Casablanca dla użytkownika 1, czyli 5, 0. Iloczyn skalarny odpowiadający tej komórce w tablicy rekomendacji powinien mieścić się w przedziale 5.0 i jest:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Co ważniejsze, czy Użytkownik 1 polubi Czarną Panterę? Przyjmując iloczyn skalarny odpowiadający pierwszemu wierszowi i trzeciej kolumnie, otrzymujemy prognozowaną ocenę 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Rozkład matrycy powoduje zwykle macierz użytkowników i elementów, które razem są znacznie bardziej kompaktowe niż macierz docelowa.

Średni błąd bezwzględny (MAE)

Średnia strata na przykład w przypadku użycia straty L₁. Oblicz średni błąd bezwzględny w ten sposób:

Oblicz utratę L₁ dla wsadu.

Podziel utratę L₁ przez liczbę przykładów w grupie.

Kliknij ją, aby zobaczyć formalne rozwiązanie matematyczne.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

gdzie:

$n$ to liczba przykładów.

Argument $y$ to rzeczywista wartość etykiety.

Wartość $\hat{y}$ jest prognozowana przez model dla wartości $y$.

Przyjrzyjmy się na przykład obliczeniu straty L₁ w następującej grupie z 5 przykładami:

Rzeczywista wartość przykładu Prognozowana wartość modelu Strata (różnica między rzeczywistą a prognozowaną)

7 6 1

5 4 1

8 11 3

4 6 2

9 8 1

8 = strata L₁

W związku z tym strata L₁ wynosi 8, a liczba przykładów to 5. Dlatego średni błąd bezwzględny jest następujący:

Mean Absolute Error = L₁ loss / Number of Examples Mean Absolute Error = 8/5 = 1.6

Kontrastowy błąd bezwzględny z średnim błędem kwadratowym oraz średnią kwadratową błędem.

Błąd średniokwadratowy (MSE)

Średnia strata na przykład w przypadku użycia straty L₂. Oblicz średni kwadrat błędu w ten sposób:

Oblicz utratę L₂ dla wsadu.

Podziel utratę L₂ przez liczbę przykładów w grupie.

Kliknij ją, aby zobaczyć formalne rozwiązanie matematyczne.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ gdzie:

$n$ to liczba przykładów.

Argument $y$ to rzeczywista wartość etykiety.

$\hat{y}$ to prognoza modelu dla $y$.

Weźmy na przykład tę stratę w przypadku następującej grupy składającej się z 5 przykładów:

Rzeczywista wartość Prognoza modelu Strata Kwadratowa przegrana

7 6 1 1

5 4 1 1

8 11 3 9

4 6 2 4

9 8 1 1

16 = strata L₂

W związku z tym błąd średnio kwadratowy:

Mean Squared Error = L₂ loss / Number of Examples Mean Squared Error = 16/5 = 3.2

Błąd średniokwadratowy jest popularnym optymalizatorem trenowania, zwłaszcza w przypadku regresji liniowej.

Błąd średniej do kwadratu dla kontrastu z średnim błędem bezwzględnym i błędem średniej do kwadratu.

TensorFlow Playground oblicza wartości straty za pomocą błędu średniokwadratowego.

Kliknij ikonę, aby uzyskać więcej informacji o wartościach odstających.

Wartości odstające w dużym stopniu wpływają na średni kwadrat błędu. Na przykład przegrana z 1 to podniesiony do kwadratu utrata 1, a gra 3 – kwadratowa. W poprzedniej tabeli przykład z utratą 3 odpowiada ok. 56% błędu średniokwadratowego, a w każdym przykładzie ze utratą 1 odpowiada tylko 6% błędu średniej do kwadratu.

Wartości odstające nie wpływają tak silnie na średni błąd bezwzględny jak średni kwadratowy błąd. Na przykład utrata 3 kont odpowiada tylko ok. 38% średniego błędu bezwzględnego.

Przycinanie to jeden ze sposobów zapobiegania szkodliwym wpływom odstającym na zdolność prognozowania modelu.

sieć typu mesh

#TensorFlow

#GoogleCloud

W programowaniu równoległym ML termin związany z przypisywaniem danych i modelu do układów TPU oraz definiowaniem sposobu, w jaki te wartości będą fragmentowane lub replikowane.

Sieć typu mesh to termin przeciążony, który może oznaczać:

Fizyczny układ układów TPU.

Abstrakcyjny konstrukt logiczny do mapowania danych i modelu na układy TPU.

W obu przypadkach siatka jest określona jako kształt.

metauczenie się

#language

Podzbiór systemów uczących się, który znajduje lub ulepsza algorytm uczenia. System metauczący się może również trenować model tak, aby szybko nauczył się nowych zadań na podstawie niewielkiej ilości danych lub z doświadczenia zdobytego w poprzednich zadaniach. Algorytmy metauczenia się zazwyczaj dążą do osiągnięcia tych celów:

ulepszanie lub poznawanie ręcznie opracowanych funkcji (takich jak inicjator czy optymalizator).

zwiększyć wydajność przetwarzania danych i mocy obliczeniowej;

Usprawnij uogólnienie.

Meta-uczenie jest powiązane z kilkoma uczeniem się.

wskaźnik

#TensorFlow

Statystyka, która Cię interesuje

Cel to wskaźnik, który system systemów uczących się próbuje zoptymalizować.

Metrics API (tf.metrics)

Interfejs API TensorFlow do oceny modeli. Na przykład tf.metrics.accuracy określa, jak często prognozy modelu pasują do etykiet.

minigrupa

#fundamentals

Niewielki, losowo wybrany podzbiór wsadów przetworzony w ramach 1 cykli. Rozmiar wsadu wynosi zwykle od 10 do 1000 przykładów.

Załóżmy np., że cały zestaw treningowy (cały wsad) składa się z 1000 przykładów. Przyjmijmy też, że rozmiar wsadu każdej minigrupy został ustawiony na 20. Dlatego każda iteracja określa stratę dla 20 z 1000 przykładów losowo, a następnie odpowiednio dostosowuje wagi i odchylenia.

Dużo efektywniej jest obliczyć stratę w ramach minigrupy niż w przypadku wszystkich przykładów w całej wsadzie.

małe partie stochastycznego gradientu

Algorytm gradientu malejącego, który korzysta z miniserii. Innymi słowy, metoda małych partii stochastycznych zejścia gradientu jest szacowana na podstawie niewielkiego podzbioru danych treningowych. Zwykłe stookastowe zejście gradientu używa miniserii rozmiaru 1.

strata minimalna

Funkcja straty dla generatywnych sieci kontrowersyjnych oparta na entropii krzyżowej między dystrybucją danych wygenerowanych a rzeczywistych.

Strata minimax jest używana w pierwszej publikacji do opisania generatywnych sieci kontradyktoryjnych.

klasa mniejszościowa

#fundamentals

Rzadziej spotykana etykieta w zbiorze danych o niezrównoważonym klasie. Na przykład jeśli zbiór danych zawiera 99% etykiet negatywnych i 1% etykiet pozytywnych, etykiety pozytywne są klasą mniejszości.

Przeciwieństwo do klasy większości.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Zbiór do trenowania z milionem przykładów brzmi imponująco. Jeśli jednak klasa mniejszości jest słabo reprezentowana, nawet bardzo duży zbiór treningowy może być niewystarczający. Mniejsza koncentracja na łącznej liczbie przykładów w zbiorze danych, a większym na liczbie przykładów w klasie mniejszości.

Jeśli Twój zbiór danych nie zawiera wystarczającej liczby przykładów klas mniejszości, rozważ użycie próbkowania redukcji wartości (definicja w 2. punkcie) w celu uzupełnienia klasy mniejszości.

ML

Skrót od terminu machine learning (systemy uczące się).

MNIST,

#image

Zbiór danych należący do domeny publicznej skompilowany przez LeCun, Cortesa i Burgesa zawierający 60 tys. obrazów, z których każdy pokazuje, jak człowiek ręcznie napisał określoną cyfrę w okresie 0–9. Każdy obraz jest przechowywany w postaci tablicy liczb całkowitych 28 x 28, gdzie każda liczba całkowita to wartość w skali szarości z zakresu od 0 do 255 włącznie.

MNIST to kanoniczny zbiór danych na potrzeby systemów uczących się, często używany do testowania nowych metod działania systemów uczących się. Więcej informacji znajdziesz na stronie baza danych MNIST cyfr odręcznych.

modalność

#language

Ogólna kategoria danych. Na przykład liczby, tekst, obrazy, filmy i dźwięki to 5 różnych modalności.

model

#fundamentals

Ogólnie rzecz biorąc, każdy konstrukt matematyczny, który przetwarza dane wejściowe i zwraca dane wyjściowe. Model to zbiór parametrów i struktur niezbędnych do generowania prognoz przez system. W nadzorowanych systemach uczących się model wykorzystuje przykład jako dane wejściowe i określa prognozę jako dane wyjściowe. W ramach nadzorowanych systemów uczących się modele nieco się różnią. Na przykład:

Model regresji liniowej składa się ze zbioru wag i odchylenia.

Model sieci neuronowej składa się z tych elementów:

Zestaw ukrytych warstw, z których każda zawiera co najmniej 1 neurony.

Wagi i odchylenia związane z każdym neuronem.

Model drzewa decyzyjnego składa się z tych elementów:

Kształt drzewa, czyli wzór, w jaki łączą się warunki i liście.

Warunki i opuszczanie gry.

Możesz zapisać lub przywrócić model albo utworzyć jego kopię.

Nienadzorowane systemy uczące się również generują modele, zwykle jako funkcję, która może zmapować przykład wejściowego na najbardziej odpowiedni klaster.

Kliknij ikonę, aby porównać funkcje algebraiczne i programistyczne z modelami ML.

Funkcja algebraiczna, np. ta, to model:

f(x, y) = 3x -5xy + y² + 17

Poprzednia funkcja mapuje wartości wejściowe (x i y) na dane wyjściowe.

Funkcja programowania taka jak ta jest również modelem:

def half_of_greater(x, y): if (x > y): return(x / 2) else return(y / 2)

Element wywołujący przekazuje argumenty do poprzedniej funkcji Pythona, a funkcja Pythona generuje dane wyjściowe (za pomocą instrukcji return).

Choć głęboka sieć neuronowa ma zupełnie inną strukturę matematyczną niż algebraiczna czy funkcja programowania, głęboka sieć neuronowa nadal przyjmuje dane wejściowe (przykład) i zwraca dane wyjściowe (prognozy).

Programista ręcznie koduje funkcję programowania. Model systemów uczących się natomiast stopniowo uczy się optymalnych parametrów podczas trenowania automatycznego.

możliwości modelu

Złożoność problemów, których model może nauczyć się. Im bardziej złożone problemy, których model może nauczyć się, tym większą moc obliczeniową. Pojemność modelu zwykle zwiększa się wraz z liczbą parametrów modelu. Formalną definicję możliwości klasyfikatora znajdziesz w sekcji Wymiar VC.

kaskada modelu

#generatywna AI

System, który wybiera idealny model do konkretnego zapytania wnioskowania.

Wyobraź sobie grupę modeli – od bardzo dużych (dużej liczby parametrów) do znacznie mniejszych (znacznie mniej parametrów). Bardzo duże modele zużywają więcej zasobów obliczeniowych w czasie wnioskowania niż mniejsze modele. Bardzo duże modele mogą jednak zwykle wywnioskować bardziej złożone żądania niż mniejsze. Kaskadowe modelowanie określa złożoność zapytania wnioskowania, a następnie wybiera odpowiedni model do wnioskowania. Głównym celem kaskady modeli jest obniżenie kosztów wnioskowania przez zazwyczaj wybieranie mniejszych modeli i wybieranie tylko większego modelu do bardziej złożonych zapytań.

Wyobraź sobie, że mały model działa na telefonie, a większa jego wersja – na zdalnym serwerze. Dobre kaskadowe przesyłanie modeli zmniejsza koszty i opóźnienia, ponieważ umożliwia mniejszemu modelowi obsługę prostych żądań i wywoływanie modelu zdalnego tylko do obsługi złożonych żądań.

Patrz też router modelu.

równoległość modeli

#language

Sposób skalowania trenowania lub wnioskowania, który polega na umieszczaniu różnych części model na różnych model. Równoległość modeli umożliwia korzystanie z modeli, które są zbyt duże, aby zmieścić się na jednym urządzeniu.

Aby wdrożyć równoległość modelu, system zwykle wykonuje te czynności:

Fragmenty (dzielą) model na mniejsze części.

Rozprowadza trenowanie tych mniejszych części na wielu procesorach. Każdy procesor trenuje własną część modelu.

Łączy wyniki, aby utworzyć jeden model.

Równoległość modelu spowalnia trenowanie.

Zobacz też artykuł na temat równoległości danych.

router modelu

#generatywna AI

Algorytm, który określa idealny model do wnioskowania w kaskadowym modelu. Router modelu to zwykle model systemów uczących się, który stopniowo uczy się, jak wybierać najlepszy model w przypadku danych wejściowych. Router modelu może być jednak czasem prostszym, niezwiązanym z systemami algorytmami uczącymi się.

trenowanie modelu

Proces wyboru najlepszego model.

Wykorzystanie chwili

Zaawansowany algorytm gradientu prostego, w którym etap uczenia się zależy nie tylko od pochodnej w bieżącym kroku, ale także od pochodnych kroków bezpośrednio poprzedzających ten etap. Moment polega na obliczeniu ważonej wykładniczo średniej kroczącej gradientów w czasie, analogicznie do pędu w fizyce. Momenty czasem sprawiają, że nauka nie utknie w lokalnym minimum.

klasyfikacja wieloklasowa

#fundamentals

W uczeniu nadzorowanym jest to problem z klasyfikacją, w którym zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą należeć do jednej z tych 3 klas:

Iris setosa

Iris wirginica

Iris versicolor

Model wytrenowany na zbiorze danych Iris, który prognozuje typ Iris w nowych przykładach, wykonuje klasyfikację wieloklasową.

W przeciwieństwie do problemów z klasyfikacją, które odróżniają dokładnie 2 klasy, są binarnymi modelami klasyfikacji. Na przykład model poczty e-mail, który przewiduje spam lub nie spam, jest modelem klasyfikacji binarnej.

W problemach z grupowaniem klasyfikacja wieloklasowa odnosi się do więcej niż 2 klastrów.

wieloklasowa regresja logistyczna

Zastosowanie regresji logistycznej w problemach związanych z klasyfikacją wieloklasową.

samouczenie się

#language

Rozszerzenie uwagi, które wielokrotnie stosuje mechanizm samodzielnego utrzymywania uwagi w przypadku każdej pozycji w sekwencji wejściowej.

W projekcie Transformers pojawiła się koncepcja wielogłowego skupienia uwagi.

model multimodalny

#language

Model, którego dane wejściowe lub wyjściowe zawierają więcej niż 1 modalność. Załóżmy na przykład, że jako funkcje używane są zarówno obraz, jak i podpis tekstowy (2 modalności), i zwraca wynik wskazujący, w jakim stopniu podpis tekstowy jest dopasowany do obrazu. Dane wejściowe tego modelu są multimodalne, a wyniki unimodalne.

klasyfikacja wielomianowa

Synonim terminu klasyfikacja wieloklasowa.

regresja wielomianowa

Synonim terminu wieloklasowa regresja logistyczna.

wielozadaniowość

Technika systemów uczących się, w której pojedynczy model jest trenowany tak, aby mógł wykonywać wiele zadań.

Modele wielozadaniowe powstają przez trenowanie na danych odpowiednich do każdego zadania. Dzięki temu model może nauczyć się udostępniać informacje między zadaniami, co pomaga mu efektywniej uczyć się.

Model wytrenowany do wielu zadań często ma większe możliwości uogólniania i może być bardziej wydajny w obsłudze różnych typów danych.

N

Pułapka NaN

Gdy jedna liczba w modelu staje się NaN podczas trenowania, przez co wiele lub wszystkie inne liczby w modelu stają się w końcu NaN.

NaN to skrót od Not a Namber.

rozumienie języka naturalnego

#language

Określanie intencji użytkownika na podstawie tego, co wpisał lub powiedział. Na przykład wyszukiwarka używa rozumienia języka naturalnego, aby określić, czego szuka użytkownik na podstawie tego, co wpisał lub powiedział użytkownik.

klasa wykluczeń

#fundamentals

W klasyfikacji binarnej jedna klasa jest określana jako dodatnia, a druga jako ujemna. Klasa pozytywna to rzecz lub zdarzenie, dla których testuje model, a klasa negatywna to druga możliwość. Na przykład:

Klasa negatywna w badaniu medycznym może brzmieć „nie guz”.

Wykluczającą klasą w klasyfikatorze e-maili może być „nie spam”.

Skontrastowanie za pomocą klasy pozytywnej.

próbkowanie ujemne

Synonim wyrażenia próbkowanie kandydatów.

Neural Architecture Search (NAS)

Technika automatycznego projektowania architektury sieci neuronowej. Algorytmy NAS mogą ograniczyć ilość czasu i zasobów potrzebnych do trenowania sieci neuronowej.

Technologie NAS zwykle używają:

Przestrzeń wyszukiwania, która jest zbiorem możliwych architektur.

Funkcja fitness, która określa, jak dobrze dana architektura radzi sobie z wykonaniem danego zadania.

Algorytmy NAS często zaczynają od niewielkiego zbioru możliwych architektur i stopniowo rozszerzają przestrzeń wyszukiwania w miarę dowiadywania się, które architektury są skuteczne. Funkcja fitness zależy zwykle od wydajności architektury zbioru treningowego, a algorytm jest zazwyczaj trenowany z wykorzystaniem metody uczenia się przez wzmacnianie.

Algorytmy NAS okazały się skuteczne w wyszukiwaniu wydajnych architektury do różnych zadań, takich jak klasyfikacja obrazów, klasyfikacja tekstu i tłumaczenie maszynowe.

sieć neuronowa

#fundamentals

model zawierający co najmniej 1 model. Głęboka sieć neuronowa to rodzaj sieci neuronowej, która zawiera więcej niż 1 ukrytą warstwę. Na przykład schemat poniżej przedstawia głęboką sieć neuronową zawierającą 2 ukryte warstwy.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami w następnej warstwie. Na przykład na powyższym diagramie zauważ, że każdy z 3 neuronów w pierwszej ukrytej warstwie oddzielnie łączy się z obydwoma neuronami w drugiej ukrytej warstwie.

Sieci neuronowe zaimplementowane na komputerach są czasem określane jako sztuczne sieci neuronowe, aby odróżnić je od sieci neuronowych w mózgach i innych układach nerwowych.

Niektóre sieci neuronowe mogą naśladować bardzo złożone nieliniowe relacje między cechami a etykietą.

Zobacz też informacje o konwolucyjnych sieciach neuronowych i powracających sieciach neuronowych.

neuron

#fundamentals

Jest to osobna jednostka w ukrytej warstwie sieci neuronowej. Każdy neuron wykonuje takie dwuetapowe działanie:

Oblicza sumę ważoną wartości wejściowych pomnożoną przez odpowiadające im wagi.

Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacji.

Neuron w pierwszej ukrytej warstwie przyjmuje dane z wartości cech w warstwie wejściowej. Neuron w każdej ukrytej warstwie poza pierwszą ukrytą akceptuje dane wejściowe od neuronów z poprzedniej warstwy. Na przykład neuron w drugiej ukrytej warstwie przyjmuje dane wejściowe od neuronów w pierwszej warstwie ukrytej.

Ilustracja poniżej przedstawia 2 neurony i ich dane wejściowe.

Neuron w sieci neuronowej naśladuje zachowanie neuronów w mózgu i innych częściach układu nerwowego.

N-gram

#seq

#language

Uporządkowana sekwencja N słów. Na przykład słowo prawdziwe szaleństwo ma wartość 2 gramów. Ponieważ kolejność ma znaczenie, ale tak naprawdę to dwa gramy, które różnią się od prawdziwości szalonej.

N Nazwy dla tego rodzaju N-gramów Przykłady

2 bigram, czyli 2 gramy iść, jechać, zjeść obiad, zjeść kolację

3 trygram lub 3 gramy zdało się za dużo, trzy niewidome myszki, dzwonki i dzwonki

4 4 gramy spacerować w parku, pył na wietrze, chłopiec zjadł soczewicę

Wiele modeli rozumienia języka naturalnego opiera się na N-gramach do przewidywania następnego słowa, które użytkownik wpisze lub powie. Załóżmy np., że użytkownik wpisał trzy ślepy. Model NLU oparty na trygramach prawdopodobnie przewidzi, że użytkownik następnym razem wpisze myszy.

Porównaj N gramów z torbą słów, czyli nieuporządkowanymi zestawami słów.

NLU

#language

Skrót od rozumienia języka naturalnego.

węzeł (drzewo decyzji)

#df

W drzewie decyzyjnym dowolny warunek lub liść.

węzeł (sieć neuronowa)

#fundamentals

neuron w warstwie ukrytej,

węzeł (wykres TensorFlow)

#TensorFlow

Operacja na wykresie TensorFlow.

szum

Ogólnie rzecz biorąc, wszystko, co zasłania sygnał w zbiorze danych. Szum może się pojawiać w danych na różne sposoby. Na przykład:

Weryfikatorzy popełniają błędy w oznaczaniu etykiet.

Ludzie i przyrządy błędnie rejestrują lub pomijają wartości cech.

warunek niebinarny

#df

Warunek obejmujący więcej niż 2 możliwe wyniki. Na przykład taki niebinarny warunek obejmuje 3 możliwe rezultaty:

nieliniowy

#fundamentals

Zależność między co najmniej 2 zmiennymi, której nie da się przedstawić wyłącznie za pomocą dodawania i mnożenia. Relacja liniowa może być przedstawiona w postaci linii. Relacji nielinearnej nie można przedstawić w postaci linii. Rozważmy np. 2 modele, z których każdy powiąże 1 cechę z 1 etykietą. Model po lewej stronie jest liniowy, a po prawej – nieliniowy:

efekt braku odpowiedzi

#fairness

Patrz: odchylenie wyboru.

niestacjonarność

#fundamentals

Cecha, której wartości zmieniają się w zależności od co najmniej jednego wymiaru, zwykle z upływem czasu. Oto przykłady braku statycznego charakteru:

Liczba strojów kąpielowych sprzedawanych w danym sklepie różni się w zależności od sezonu.

W danym regionie ilość konkretnych owoców przez większą część roku wynosi 0, ale przez krótki czas jest to bardzo duża ilość.

Ze względu na zmiany klimatyczne zmienia się roczne średnie temperatury.

Skontrastowanie względem stacjonarności.

normalizacja

#fundamentals

Ogólnie rzecz biorąc, proces przekształcania rzeczywistego zakresu wartości zmiennej w standardowy zakres wartości, np.:

Od -1 do +1

Od 0 do 1

rozkład normalny

Załóżmy np., że rzeczywisty zakres wartości określonej cechy wynosi od 800 do 2400. W ramach inżynierii funkcji możesz znormalizować rzeczywiste wartości do zakresu standardowego, np. od -1 do +1.

Normalizacja jest częstym zadaniem w inżynierii cech. Modele zwykle trenują szybciej (i generują lepsze prognozy), gdy wszystkie cechy liczbowe w wektorze cech mają mniej więcej taki sam zakres.

wykrywanie nowości

Proces określania, czy nowy (nowy) przykład pochodzi z tego samego rozkładu co zbiór treningowy. Inaczej mówiąc, po wytrenowaniu na zbiorze treningowym wykrywanie nowości określa, czy nowy przykład (w trakcie wnioskowania lub dodatkowego trenowania) jest wyjątkiem odstającym.

Skontrastowanie z wykrywaniem wyników odstających.

dane liczbowe

#fundamentals

Funkcje reprezentowane jako liczby całkowite lub liczby rzeczywiste. Na przykład model wyceny domu reprezentowałby prawdopodobnie wielkość domu (w stopach kwadratowych lub metrach kwadratowych) jako dane liczbowe. Przedstawianie cechy w postaci danych liczbowych oznacza, że wartości cechy są powiązane z etykietą matematyczną. Oznacza to, że liczba w metrach kwadratowych w domu jest prawdopodobnie w konsekwencji matematyczna z wartością domu.

Nie wszystkie dane całkowite powinny być przedstawiane jako dane liczbowe. Na przykład w niektórych częściach świata kody pocztowe są liczbami całkowitymi, ale nie powinny być przedstawiane w modelach jako dane liczbowe. Dzieje się tak, ponieważ kod pocztowy 20000 nie jest dwa razy (lub połowę) skuteczniejszy niż kod pocztowy 10 000. Co więcej, chociaż różne kody pocztowe mogą być powiązane z różnymi wartościami nieruchomości, nie możemy zakładać, że wartości nieruchomości w przypadku kodu pocztowego 20000 są dwukrotnie cenniejsze niż wartości nieruchomości w przypadku kodu pocztowego 10000. Kody pocztowe powinny być zamiast tego przedstawiane jako dane kategorialne.

Cechy liczbowe są czasami nazywane funkcjami ciągłymi.

NumPy

Biblioteka matematyczna typu open source, która zapewnia efektywne operacje na tablicach w Pythonie. pandas została opracowana w NumPy.

O

cel

Wskaźnik, który Twój algorytm próbuje zoptymalizować.

funkcja celu

Wzór lub dane matematyczne, które mają być optymalizowane przez model. Na przykład funkcja celu regresji liniowej to zwykle Średnia kwadratowa strata. Dlatego trenowanie modelu regresji liniowej ma na celu zminimalizowanie straty średniokwadratowej.

W niektórych przypadkach celem jest maksymalizacja funkcji celu. Jeśli np. funkcją celu jest dokładność, celem jest maksymalizacja dokładności.

Zobacz też utratę.

warunek skośny

#df

W drzewie decyzyjnym warunek obejmujący więcej niż 1 cechę. Jeśli np. wysokość i szerokość to oba te elementy, warunek jest taki:

height > width

Skontrastowanie względem warunku wyrównanego do osi.

offline

#fundamentals

Synonim terminu statyczny.

wnioskowanie offline

#fundamentals

Proces modelu generującego grupę prognoz, a następnie buforowania (zapisywania) tych prognoz. Dzięki temu aplikacje będą mogły uzyskać dostęp do prognozowanej prognozy z pamięci podręcznej, zamiast ponownie uruchamiać model.

Weźmy na przykład model, który co 4 godziny generuje lokalne prognozy pogody (prognozy). Po uruchomieniu modelu system zapisuje w pamięci podręcznej wszystkie lokalne prognozy pogody. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Takie wnioskowanie jest też nazywane wnioskowaniem statycznym.

Porównaj z wnioskowaniem online.

kodowanie one-got

#fundamentals

Przedstawienie danych kategorycznych jako wektor, w którym:

Jeden z nich ma wartość 1.

Pozostałe elementy mają wartość 0.

Do reprezentowania ciągów znaków lub identyfikatorów, które mają ograniczony zbiór możliwych wartości, zwykle używa się kodowania „1 gotowe”. Załóżmy na przykład, że pewna funkcja kategorialna o nazwie Scandinavia ma 5 możliwych wartości:

„Dania”

„Szwecja”

„Norwegia”

„Finlandia”

„Islandia”

Kodowanie „1-gorące” może reprezentować każdą z 5 wartości w następujący sposób:

country Wektor

„Dania” 1 0 0 0 0

„Szwecja” 0 1 0 0 0

„Norwegia” 0 0 1 0 0

„Finlandia” 0 0 0 1 0

„Islandia” 0 0 0 0 1

Dzięki kodowaniu 1 kodu model może nauczyć się różnych połączeń w zależności od 5 krajów.

Prezentowanie cech jako danych liczbowych jest alternatywą dla kodowania jednogorącego. Niestety, reprezentowanie krajów skandynawskich w formie liczb nie jest dobrym rozwiązaniem. Weźmy na przykład taką reprezentację liczbową:

„Dania” wynosi 0

„Szwecja” to 1

„Norwegia” to 2

„Finlandia” to 3

„Islandia” to 4

W przypadku kodowania numerycznego model interpretowałby nieprzetworzone liczby matematycznie i próbowałby trenować na nich. Islandia nie jest jednak w rzeczywistości 2 razy wyższa niż w Norwegii, więc model doprowadzi do dziwnych wniosków.

nauka w trybie jednorazowym

Systemy uczące się, często używane do klasyfikacji obiektów, mające na celu uczenie się skutecznych klasyfikatorów na podstawie jednego przykładu treningowego.

Zobacz też nauka typu „few-shot” i nauka typu zero-shot.

prompt z pytaniem „one-shot”

#language

#generatywna AI

Wskazówka zawierająca jeden przykład ilustrujący, jak powinien zareagować duży model językowy. Na przykład ten prompt zawiera 1 przykład z dużym modelem językowym pokazującym, jak powinien odpowiedzieć na zapytanie.

Elementy jednego promptu Notatki

Jaka jest oficjalna waluta danego kraju? Pytanie, na które ma odpowiedzieć LLM.

Francja: EUR Przykład:

Indie: Faktyczne zapytanie.

Porównaj prośby „one-shot” z tymi terminami:

prompt typu zero-shot

prompt typufew-shot

jeden vs. wszystkie

#fundamentals

Biorąc pod uwagę problem z klasyfikacją z klasami N, rozwiązanie składające się z N osobnych klasyfikatorów binarnych – jeden klasyfikator binarny dla każdego możliwego wyniku. Na przykład w modelu, który klasyfikuje przykłady jako zwierzęta, warzywa lub minerały, rozwiązanie „jeden przeciwko wszystkiemu” zapewniłoby te 3 osobne klasyfikatory binarne:

zwierzę czy nie zwierzę

warzywo vs. niewarzywne

mineralny lub bez mineralny

online

#fundamentals

Synonim terminu dynamic.

wnioskowanie online

#fundamentals

generowanie prognoz na żądanie. Załóżmy na przykład, że aplikacja przekazuje dane wejściowe do modelu i wysyła żądanie prognozy. System wykorzystujący wnioskowanie online odpowiada na żądanie, uruchamiając model (i zwracając prognozę do aplikacji).

Porównaj z wnioskowaniem offline.

operacja (operacja)

#TensorFlow

W TensorFlow każda procedura, która tworzy, manipuluje lub niszczy Tensor. Na przykład mnożenie macierzy to operacja, która pobiera 2 Tensory jako dane wejściowe i generuje jeden Tensor jako dane wyjściowe.

Opłata

Biblioteka przetwarzania i optymalizacji gradientów dla JAX. Optax ułatwia badania, udostępniając elementy składowe, które można łączyć w niestandardowy sposób w celu optymalizacji modeli parametrycznych, takich jak głębokie sieci neuronowe. Inne cele to:

Zapewnienie czytelnych, sprawdzonych i wydajnych implementacji podstawowych komponentów.

Zwiększenie wydajności przez umożliwienie łączenia niskopoziomowych składników z niestandardowymi optymalizatorami (lub innymi elementami przetwarzania gradientu).

Szybsze wdrażanie nowych pomysłów przez ułatwienie każdemu współtworzenia.

optymalizator

Specjalna implementacja algorytmu malejącego gradientu. Popularni optymalizatorzy to między innymi:

AdaGrad oznacza ADAptive GRADient descent (dojście ADAptive GRADient).

Adam (od ang. ADAptive od Momentum).

efekt jednorodności grup zewnętrznych

#fairness

Tendencje do porównywania postaw, wartości, cech osobowości i innych cech członków grupy są bardziej podobni niż członkowie grupy. W grupie to osoby, z którymi regularnie się kontaktujesz, a poza grupą to osoby, z którymi nie masz kontaktu regularnie. Jeśli tworzysz zbiór danych, prosząc ludzi o podanie atrybutów dotyczących osób z grup, mogą one być mniej szczegółowe i bardziej stereotypowe niż atrybuty wymieniane przez uczestników dla osób z ich grup.

Liliputi mogą na przykład szczegółowo opisać domy innych Liliputów, na podstawie niewielkich różnic pod względem stylów architektonicznych, okien, drzwi i rozmiarów. Ci sami lilipuści mogą jednak po prostu oświadczyć, że wszyscy mieszkają w identycznych domach.

Promowanie jednorodności poza grupami to forma odchylenia atrybucji.

Patrz też na temat odchylenia w grupie.

wykrywanie wyników odstających

Proces identyfikowania wartości odstających w zbiorze treningowym.

Skontrastowanie względem wykrywania nowości.

nietypowych danych

Wartości różnią się od większości innych wartości. W systemach uczących się wyróżniamy:

Dane wejściowe, których wartości odbiegają od średniej o ponad 3 odchylenia standardowe.

Wagi o wysokich wartościach bezwzględnych.

Prognozowane wartości są stosunkowo odległe od rzeczywistych.

Załóżmy na przykład, że widget-price jest cechą określonego modelu. Załóżmy, że średnia widget-price to 7 euro, a odchylenie standardowe wynosi 1 euro. Przykłady wartości widget-price w wysokości 12 euro lub 2 euro mogą zostać uznane za wartości odstające, ponieważ każda z tych cen to 5 odchyleń standardowych od średniej.

Wyniki odstające są często spowodowane literówkami lub innymi błędami wpisywanych danych. W innych przypadkach wartości odstające nie są błędami. Ostatecznie wartości odchylenia od średniej o pięć odchylenia standardowego są rzadkie, ale prawie niemożliwe.

Wartości odstające często powodują problemy w trenowaniu modelu. Przycinanie to jeden ze sposobów zarządzania wynikami odstającymi.

ocena poza torbą (ocena OOB)

#df

Mechanizm oceny jakości lasu decyzyjnego poprzez testowanie każdego drzewa decyzyjnego z uwzględnieniem przykładów nie używanych podczas trenowania tego drzewa decyzyjnego. Na przykład na poniższym diagramie zauważ, że system trenuje każde drzewo decyzyjne w około 2/3 przykładów, a następnie porównuje z pozostałą jedną trzecią przykładów.

Ocena poza ramką to wydajne i ostrożne podejście do mechanizmu weryfikacji krzyżowej. W ramach weryfikacji krzyżowej trenowany jest 1 model na każdą rundę weryfikacji krzyżowej (np. 10 modeli jest trenowanych w ramach 10-krotnej weryfikacji krzyżowej). W przypadku oceny OOB trenowany jest pojedynczy model. Ponieważ podczas trenowania funkcja bagażania pomija niektóre dane z każdego drzewa podczas trenowania, ocena OOB może używać tych danych do przybliżonej weryfikacji krzyżowej.

warstwa wyjściowa

#fundamentals

„Ostatnia” warstwa sieci neuronowej. Warstwa wyjściowa zawiera prognozę.

Ilustracja poniżej przedstawia małą głęboką sieć neuronową z warstwą wprowadzania, 2 ukrytymi warstwami i warstwą wyjściową:

nadmierne dopasowanie

#fundamentals

Utworzenie model, który jest ściśle dopasowany do model, tak że nie będzie w stanie generować poprawnych prognoz na podstawie nowych danych.

Regularizacja może ograniczyć nadmierne dopasowanie. Trenowanie z wykorzystaniem dużego i zróżnicowanego zestawu treningowego również może ograniczyć nadmierne dopasowanie.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Przekształcanie organizmu jest jak ścisłe przestrzeganie rad tylko ulubionego nauczyciela. Prawdopodobnie osiągniesz sukces na lekcjach tego nauczyciela, ale możesz dostosować się do jego pomysłów i odnosić sukcesy na innych lekcjach. Porady różnych nauczycieli pomogą Ci lepiej przystosować się do nowych sytuacji.

nadpróbkowanie

Ponowne wykorzystanie przykładów klasy mniejszości w zbiorze danych o niezrównoważonym klasie w celu utworzenia bardziej zrównoważonego zestawu szkoleniowego.

Rozważmy na przykład problem z klasyfikacją binarną, w którym stosunek klasy większości do klasy mniejszości wynosi 5000:1. Jeśli zbiór danych zawiera milion przykładów, będzie zawierać tylko około 200 przykładów mniejszości, co może być zbyt mało przykładów, aby można było skutecznie trenować. Aby przezwyciężyć ten brak, należy wielokrotnie próbkować (ponownie wykorzystać) te 200 przykładów, co może zapewnić wystarczającą ilość przykładów do użytecznych treningów.

Przy nadmiernej próbkowaniu należy uważać na nadmierne dopasowanie.

Skontrastowanie z niedostateczną próbką.

P

dane spakowane

Metoda efektywnego przechowywania danych.

Pakowane dane przechowują dane w formacie skompresowanym lub w inny sposób, który umożliwia ich bardziej wydajny dostęp. Spakowane dane minimalizują ilość pamięci i mocy obliczeniowej niezbędnej do uzyskania do nich dostępu, co przyspiesza trenowanie i zwiększa wydajność wnioskowania na podstawie modelu.

Dane spakowane są często używane razem z innymi technikami, takimi jak uzupełnianie danych i regularizacja, co jeszcze bardziej poprawia wydajność modeli.

pandy

#fundamentals

Zorientowany na kolumny interfejs API do analizy danych stworzony na bazie numpy. Wiele platform systemów uczących się, w tym TensorFlow, obsługuje jako dane wejściowe struktury danych pand. Więcej informacji znajdziesz w dokumentacji Pandas.

parametr

#fundamentals

Wagi i odchylenia, których model uczy się podczas trenowania. Na przykład w modelu regresji liniowej parametry składają się z odchylenia (b) i wszystkich wag (w₁, w₂ itd.) w ramach tej formuły:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W przeciwieństwie do tego hiperparametr to wartości, które Ty (lub usługa zmieniająca hiperparametry) dostarczasz do modelu. Na przykład tempo uczenia się jest hiperparametrem.

dostrajanie z wykorzystaniem parametrów

#language

#generatywna AI

Zestaw technik do dostrajania dużego wytrenowanego modelu językowego (PLM) skuteczniej niż pełne dostrajanie. Dostrajanie bez użycia parametrów pozwala zwykle dopracować znacznie mniej parametrów niż pełne dostrajanie, ale ogólnie pozwala uzyskać duży model językowy, który działa równie dobrze (lub prawie tak samo) jak duży model językowy zbudowany z pełnego dostrajania.

Porównaj dostrajanie z wykorzystaniem parametrów:

dostrajanie instrukcji

dostrajanie promptów

Dostrajanie z uwzględnieniem parametrów jest też nazywane dostrajaniem z wykorzystaniem parametrów.

Serwer parametrów (PS)

#TensorFlow

Zadanie, które śledzi parametry modelu w rozmieszczonym ustawieniu.

aktualizacja parametru

Operacja dostosowania parametrów modelu podczas trenowania, zwykle w ramach jednej iteracji opadu gradientu.

pochodna cząstkowa

Pochodna, w której wszystkie zmienne oprócz jednej są uznawane za stałe. Na przykład cząstkowa pochodna f(x, y) w odniesieniu do x jest pochodną funkcji f uznawaną za funkcję tylko x (czyli zachowanie stałej y). Częściowa pochodna f w odniesieniu do x koncentruje się tylko na tym, jak zmienia się x, i ignoruje pozostałe zmienne w równaniu.

efekt udziału

#fairness

Synonim powodujący odchylenie braku odpowiedzi. Patrz: odchylenie wyboru.

strategia partycjonowania

Algorytm, według którego zmienne są dzielone między serwery parametrów.

Pax

Platforma programowania zaprojektowana do trenowania dużych sieci neuronowych modeli, które mogą obejmować wiele układów TPU przyspieszacze wycinków lub podów.

Pax opiera się na formacie Flax opartym na JAX.

perceptron

System (sprzęt lub oprogramowanie), który przyjmuje co najmniej 1 wartość wejściową, uruchamia funkcję na podstawie ich ważonej sumy i oblicza pojedynczą wartość wyjściową. W systemach uczących się funkcja ta jest zwykle nieliniowa, np. ReLU, sigmoid lub tanh. Na przykład ten perceptron wykorzystuje funkcję sigmoidalną do przetwarzania 3 wartości wejściowych:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Na ilustracji poniżej perceptron pobiera 3 wartości wejściowe, z których każda jest modyfikowana przez wagę przed wejściem do perceptronu:

Perceprony to neurony w sieciach neuronowych.

występ

Termin przeciążony o tych znaczeniach:

Standardowe znaczenie w inżynierii oprogramowania. Jak szybko (lub wydajnie) to oprogramowanie?

Znaczenie w systemach uczących się. Tutaj znajdziesz odpowiedź na pytanie o skuteczność: jak oceniasz poprawność tego model? To znaczy, jak dobre są prognozy modelu?

Znaczenie zmiennej permutacji

#df

Rodzaj znaczenia zmiennej, który ocenia wzrost błędu prognozy modelu po zmianie wartości cechy. Znaczenie zmiennej permutacji jest wartością niezależną od modelu.

zakłopotanie

Jedna z miarodajnych wyników, które określają, jak model wykonuje swoje zadanie. Załóżmy np., że Twoim zadaniem jest odczytanie kilku pierwszych liter słowa, które użytkownik wpisuje na klawiaturze telefonu, i przedstawienie listy możliwych uzupełniających słów. Stopień skłonności (P) w przypadku tego zadania oznacza w przybliżeniu liczbę odgadnięć, jaką należy podać, aby lista zawierała właściwe słowo, które użytkownik próbuje wpisać.

Związek skłonności jest powiązany z entropią krzyżową w taki sposób:

$$P= 2^{-\text{cross entropy}}$$

potok

Infrastruktura otaczająca algorytm systemów uczących się. Potok obejmuje zbieranie danych, umieszczanie ich w plikach danych treningowych, trenowanie co najmniej 1 modelu i eksportowanie modeli do środowiska produkcyjnego.

potokowanie

#language

Forma równoległości do modelu, w której przetwarzanie modelu jest podzielone na kolejne etapy, a każdy etap jest wykonywany na innym urządzeniu. Gdy etap przetwarza 1 wsad, poprzedni etap może działać w następnej.

Zobacz też trenowanie etapowe.

filipiński

Funkcja JAX, która dzieli kod na wiele układów akceleratora. Użytkownik przekazuje funkcję do pjit, która zwraca funkcję o odpowiedniej semantyce, ale skompilowaną do obliczenia XLA, które działają na wielu urządzeniach (np. GPU lub rdzeniach TPU).

Usługa pjit umożliwia użytkownikom dzielenie obliczeń na fragmenty bez ich przepisywania za pomocą partycjonatora SPMD.

W marcu 2023 r. usługa pjit została scalona z usługą jit. Więcej informacji znajdziesz w artykule Tablice rozproszone i automatyczna parallelizacja.

PLM

#language

#generatywna AI

Skrót od wyrażenia wytrenowanego modelu językowego.

pmapa

Funkcja JAX, która wykonuje kopie funkcji wejściowej na wielu podstawowych urządzeniach (procesorach, GPU lub TPU) z różnymi wartościami wejściowymi. pmap korzysta ze standardu SPMD.

policy

#rl

W ramach uczenia się przez wzmacnianie mapowanie prawdopodobieństwa agenta z stanów na działania

łączenie

#image

Zmniejszenie matrycy (lub matrycy) utworzonej przez wcześniejszą warstwę splotową do jej mniejszej. Zbieranie danych obejmuje zwykle wartość maksymalną lub średnią w obrębie basenu. Załóżmy np., że mamy taką macierz 3 x 3:

Operacja łączenia, podobnie jak operacja splotowa, dzieli macierz na wycinki, a następnie przesuwa operację splotową według kroków. Załóżmy np., że operacja łączenia dzieli macierz splotową na wycinki o wymiarach 2 x 2 z krokiem 1 x 1. Jak widać na poniższym diagramie, wykonywane są 4 operacje łączenia. Załóżmy, że każda operacja łączenia wybiera maksymalną wartość z 4 w tym wycinku:

Łączenie pomaga wyegzekwować niezmienność translacji w macierzy danych wejściowych.

Łączenie aplikacji związanych z widocznością jest bardziej znane jako łączenie przestrzenne. W przypadku aplikacji ciągów czasowych łączenie danych jest zwykle określane jako tymczasowe pulowanie. Ogólnie rzecz biorąc, łączenie danych jest często nazywane podpróbkowaniem lub podpróbkowaniem.

kodowanie pozycyjne

#language

Metoda dodawania w sekwencji informacji o pozycji tokena do jego umieszczania. Modele transformatorów wykorzystują kodowanie pozycjonujące, aby lepiej zrozumieć relacje między różnymi częściami sekwencji.

Powszechna implementacja kodowania pozycyjnego wykorzystuje funkcję sinusoidalną. (W szczególności częstotliwość i amplituda funkcji sinusoidalnej są określane przez pozycję tokena w sekwencji). Ta technika umożliwia modelowi Transformera naukę uczestniczenia w różnych częściach sekwencji w zależności od ich pozycji.

klasa pozytywna

#fundamentals

Zajęcia, na których testujesz.

Na przykład klasą pozytywną w modelu raka może być „guz”. Klasyfikatorem e-maili może być „spam”.

Skontrastowanie z klasą wykluczającą.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Termin klasa dodatnia może być mylący, ponieważ „pozytywny” wynik wielu testów jest często niepożądanym wynikiem. Na przykład w wielu badaniach medycznych klasa pozytywna odpowiada guzom lub chorobom. Mówiąc ogólnie: „Gratulacje! Wyniki testu były negatywne”. Niezależnie od tego, klasa pozytywna to zdarzenie, którego szuka test.

Trzeba przyznać, że jednocześnie testujesz zarówno klasy pozytywne, jak i negatywne.

obróbka

#fairness

#fundamentals

Dostosowywanie danych wyjściowych modelu po jego uruchomieniu. Przetwarzanie końcowe może pomóc w egzekwowaniu ograniczeń dotyczących obiektywności bez konieczności zmieniania samych modeli.

Można na przykład zastosować przetwarzanie końcowe do klasyfikatora binarnego, ustawiając próg klasyfikacji w taki sposób, aby w przypadku niektórych atrybutów była utrzymywana równość możliwości. W tym celu należy sprawdzić, czy współczynnik prawdziwie dodatni jest taki sam dla wszystkich wartości tego atrybutu.

PR AUC (obszar pod krzywą PR)

Obszar pod interpolowaną krzywą precyzji i czułości uzyskany przez nanoszenie punktów (czułość, precyzję) dla różnych wartości progu klasyfikacji. W zależności od sposobu obliczania wartość PR AUC może odpowiadać średniej precyzji modelu.

Praxis

Podstawowa biblioteka systemów uczących się o wysokiej wydajności w Pax. Praxis jest często nazywana „biblioteką warstw”.

Praxis zawiera nie tylko definicje klasy Layer, ale także większość jej komponentów pomocniczych, w tym:

dane wejściowe

biblioteki konfiguracji (HParam i Fiddle).

optymalizatory

Praxis zawiera definicje klasy Model.

precyzja

Wskaźnik używany w modelach klasyfikacji, który odpowiada na to pytanie:

Jaki procent prognoz był poprawny, gdy model przewidział klasę pozytywnych?

Oto wzór:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

gdzie:

oznacza, że model prawidłowo przewidział klasę pozytywną.

Wynik fałszywie dodatni oznacza, że model przeprowadził w błąd na podstawie prognozy klasy pozytywnej.

Załóżmy na przykład, że model zrobił 200 pozytywnych prognoz. Spośród tych 200 pozytywnych prognoz:

150 wyników było prawdziwie pozytywnych.

50 wyników fałszywie pozytywnych.

W takim przypadku:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Skontrastowanie względem dokładności i czułości.

krzywej precyzji i czułości

Krzywa precyzji i czułości przy różnych progach klasyfikacji.

prognoza

#fundamentals

Dane wyjściowe modelu. Na przykład:

Prognozowanie modelu klasyfikacji binarnej to klasa pozytywna lub negatywna.

Prognoza modelu klasyfikacji wieloklasowej to jedna klasa.

Prognoza modelu regresji liniowej ma wartość liczbową.

odchylenie prognozy

Wartość wskazująca, jak daleko od średniej prognoz od średniej etykiet w zbiorze danych znajduje się wartość.

Nie należy mylić z terminem tendencyjności w modelach systemów uczących się ani z stronniczością w zakresie etyki i obiektywności.

predykcyjne systemy uczące się

Dowolny standardowy („klasyczny”) system uczących się.

Termin przewidywanie systemów uczących się nie ma formalnej definicji. Wskazuje natomiast rozróżnienie kategorii systemów uczących się, które nie opierają się na generatywnej AI.

parzystość prognozowana

#fairness

Wskaźnik obiektywności, który sprawdza, czy w przypadku danego klasyfikatora współczynniki dokładności są równoważne dla analizowanych podgrup.

Na przykład model, który przewiduje możliwość przyjęcia na studia, spełniłby prognozowaną parzystość narodowości, jeśli współczynnik precyzji w przypadku Liliputów i Brobdingnagiana był taki sam.

Parzystość prognozowana jest czasami nazywana spójnością stawki prognozowanej.

Bardziej szczegółowe informacje o spójności prognozowanej znajdziesz w sekcji „Wyjaśnienia dotyczące przejrzystości” (sekcja 3.2.1).

parytet stawki prognozowanej

#fairness

Inna nazwa sparowania prognozowanego.

wstępne przetwarzanie

#fairness

Przetwarzanie danych przed ich użyciem do trenowania modelu. Wstępne przetwarzanie może być bardzo proste, na przykład przez usunięcie z angielskiego korpusu tekstu, którego nie ma w słowniku angielskim, lub bardzo skomplikowane, jak ponowne wyrażenie punktów danych w sposób umożliwiający eliminację jak największej liczby atrybutów skorelowanych z atrybutami wrażliwymi. Wstępne przetwarzanie może ułatwić spełnienie ograniczeń dotyczących uczciwości.

wytrenowany model

#language

#image

#generatywna AI

Modele lub komponenty modelu (np. wektor do umieszczania), które zostały już wytrenowane. Czasami umieszczasz wytrenowane wektory dystrybucyjne do sieci neuronowej. Innym razem model będzie trenować same wektory dystrybucyjne i nie korzystać z wytrenowanych wcześniej wektorów dystrybucyjnych.

Termin wstępnie wytrenowany model językowy odnosi się do dużego modelu językowego, który został poddany wstępnym trenowaniu.

przedtrenowanie

#language

#image

#generatywna AI

Wstępne trenowanie modelu na dużym zbiorze danych. Niektóre wytrenowane modele to niezdarne giganty, które trzeba zwykle dopracować przez dodatkowe szkolenie. Eksperci ds. systemów uczących się mogą na przykład wstępnie wytrenować duży model językowy na ogromnym zbiorze danych tekstowych, takim jak wszystkie strony w języku angielskim w Wikipedii. Po wstępnym trenowaniu model można następnie doprecyzować za pomocą jednej z tych metod:

destylację

dostrajanie

dostrajanie instrukcji

dostrajanie z uwzględnieniem parametrów

dostrajanie promptów

wcześniejsze przekonanie

co wierzysz w dane, zanim zaczniesz z nich korzystać. Na przykład regularizacja L₂ opiera się na wcześniejszym przekonaniu, że wagi powinny być małe i normalnie rozmieszczone wokół zera.

model regresji prawdopodobnej

Model regresji, który wykorzystuje nie tylko wagi poszczególnych cech, ale także niepewność tych wag. Model regresji prawdopodobnej generuje prognozę i niepewność tej prognozy. Na przykład model regresji prawdopodobnej może dać prognozę 325 ze odchyleniem standardowym równym 12. Więcej informacji o modelach regresji prawdopodobnych znajdziesz w tym artykule o Colab na stronie tensorflow.org.

funkcja gęstości prawdopodobieństwa

Funkcja, która określa częstotliwość próbek danych, które mają dokładnie tę samą wartość. Gdy wartości zbioru danych są ciągłymi liczbami zmiennoprzecinkowymi, rzadko występują dokładne dopasowania. Jednak integrating funkcji gęstości prawdopodobieństwa od wartości x do wartości y zapewnia oczekiwaną częstotliwość próbek danych z zakresu od x do y.

Załóżmy np., że rozkład normalny ma średnią wartość 200 i odchylenie standardowe 30. Aby określić oczekiwaną częstotliwość próbek danych o wartości od 211,4 do 218,7, można zintegrować funkcję gęstości prawdopodobieństwa dla rozkładu normalnego od 211,4 do 218,7.

prośba

#language

#generatywna AI

Dowolny tekst wpisany jako dane wejściowe do dużego modelu językowego, aby uwarunkować model tak, aby działał w określony sposób. Mogą być krótkie, jak zdanie, lub dowolnie długie (np. cały tekst powieści). Prośby można podzielić na wiele kategorii, w tym te wymienione w tej tabeli:

Kategoria promptu Przykład Notatki

Pytanie Jak szybko lata gołąb?

Instrukcja Napisz zabawny wiersz o arbitrażu. Prompt z prośbą o wykonanie jakiegoś działania przez duży model językowy.

Przykład Przetłumacz kod Markdown na HTML. Na przykład: Markdown: * element listy HTML: <ul> <li>element listy</li> </ul> Pierwsze zdanie w tym przykładowym promptie to instrukcja. Pozostała część promptu jest przykładowa.

Rola Wyjaśnij, dlaczego zejście gradientowe jest używane podczas nauki systemów uczących się podczas studiów doktoranckich z fizyki. Pierwsza część zdania jest instrukcją, a zdania „dla doktora fizyki” – rolę.

Częściowe dane wejściowe do ukończenia modelu Premier Wielkiej Brytanii mieszka w Częściowe żądanie danych wejściowych może kończyć się nagle (jak w tym przykładzie) lub kończyć podkreśleniem.

Model generatywnej AI może odpowiedzieć na prompt przy użyciu tekstu, kodu, obrazów, elementów umieszczanych czy filmów.

uczenie się oparte na promptach

#language

#generatywna AI

Zdolność określonych modeli, która pozwala im dostosowywać swoje działanie w odpowiedzi na dowolny tekst (prompty). W typowym modelu uczenia się opartym na promptach duży model językowy odpowiada na prompt, generując tekst. Załóżmy na przykład, że użytkownik wpisuje następujący prompt:

Streść trzecią zasadę dynamiki Newtona.

Model zdolny do uczenia się na podstawie promptów nie jest specjalnie wytrenowany tak, aby odpowiadał na poprzedni prompt. Raczej „wie” dużo faktów o fizyce, ogólnych regułach językowych i o tym, co składa się na przydatne odpowiedzi. Wiedza ta wystarczy, aby udzielić (mam nadzieję) przydatnej odpowiedzi. Dodatkowa opinia człowieka („Ta odpowiedź była zbyt skomplikowana” lub „Co to jest reakcja?”) umożliwia niektórym systemom edukacyjnym opartym na promptach stopniowe zwiększanie użyteczności odpowiedzi.

projekt promptu

#language

#generatywna AI

Synonim terminu inżynieria promptów.

tworzenie promptów

#language

#generatywna AI

Sztuka tworzenia promptów zwracających pożądane odpowiedzi z dużego modelu językowego. Ludzie zajmują się tworzeniem promptów. Pisanie uporządkowanych promptów to kluczowy element zapewniania przydatnych odpowiedzi z dużego modelu językowego. Inżynieria promptów zależy od wielu czynników, w tym:

Zbiór danych używany do wstępnego trenowania i być może dostrajania dużego modelu językowego.

Temperatura i inne parametry dekodowania, których model używa do generowania odpowiedzi.

Więcej informacji o tworzeniu pomocnych promptów znajdziesz w artykule Wprowadzenie do projektowania promptów.

Projektowanie promptów jest synonimem słowa „inżynieria promptów”.

dostrajanie promptów

#language

#generatywna AI

Mechanizm dostrajania efektywnego działania parametrów, który uczy się przedrostka, który system dodaje do rzeczywistego potwierdzenia.

Jedną z odmian dostrajania promptów, nazywanej czasem dostrajaniem prefiksów, jest dodanie prefiksu do każdej warstwy. W przeciwieństwie do tego większość dostrajania promptów dodaje prefiks do warstwy wejściowej.

Kliknij ikonę, aby dowiedzieć się więcej o prefiksach.

Na potrzeby dostrajania „prefiks” (nazywany też „pozornym promptem”) to kilka nauczonych wektorów specyficznych dla zadań dołączonych do umieszczania tokenów tekstowych z samego promptu. System uczy się prostych promptów, blokując wszystkie inne parametry modelu i dostosowując je pod kątem konkretnego zadania.

etykiety serwera proxy

#fundamentals

Dane używane do określania przybliżonych etykiet, które nie są bezpośrednio dostępne w zbiorze danych.

Załóżmy np., że musisz wytrenować model do prognozowania poziomu stresu pracowników. Twój zbiór danych zawiera wiele funkcji prognozujących, ale nie zawiera etykiety Poziom stresu. Bez obaw, wybierasz „wypadki w miejscu pracy” jako wartość pośrednią dla poziomu stresu. W końcu pracownicy w wysokim stresie przeżywają więcej wypadków niż spokojni pracownicy. A może tak? Być może liczba wypadków w miejscu pracy rośnie i upada z wielu powodów.

W drugim przykładzie załóżmy, że chcesz podać w zbiorze danych etykietę czy pada?, która ma być wartością logiczną, ale zbiór danych nie zawiera danych o deszczu. Jeśli zdjęcia są dostępne, możesz zrobić zdjęcia osób niosących parasole, aby sprawdzić, czy pada? Czy to dobra etykieta proxy? Tak, ale w niektórych kulturach ludzie noszą parasole do ochrony przed słońcem niż deszczem.

Etykiety serwera proxy są często niedoskonałe. Jeśli to możliwe, wybieraj rzeczywiste etykiety zamiast etykiet serwera proxy. Jeśli jednak brakuje rzeczywistej etykiety, wybierz ją bardzo ostrożnie i wybierz najmniej najgorszą propozycję etykiety serwera proxy.

proxy (poufne atrybuty)

#fairness

Atrybut używany jako zastępczego atrybutu o charakterze kontrowersyjnym. Na przykład kod pocztowy danej osoby może służyć jako wskaźnik dochodu, rasy lub przynależności etnicznej.

funkcja czysta

Funkcja, której dane wyjściowe są oparte wyłącznie na danych wejściowych i nie ma żadnych skutków ubocznych. W szczególności funkcja czysta nie używa ani nie zmienia żadnego stanu globalnego, takiego jak zawartość pliku czy wartość zmiennej spoza funkcji.

Pustych funkcji można używać do tworzenia kodu bezpiecznego w wątku, co jest przydatne podczas fragmentacji kodu model na wiele model.

Metody przekształcania funkcji JAX wymagają, aby funkcje wejściowe były funkcjami czystymi.

P

Funkcja Q

#rl

W uczeniu przez wzmacnianie funkcja, która prognozuje oczekiwany zwrot wynikający z wykonania działania w stanie, a następnie przestrzegania danej zasady.

Funkcja Q jest też nazywana funkcją wartości działania stanu.

Q-learning

#rl

Algorytm uczenia się przez wzmacnianie, który pozwala agentowi poznać optymalną funkcję Q w procesie decyzyjnym Markowa, stosując równanie Bellmana. Proces decyzyjny Markowa modeluje środowisko.

kwantyl

Każdy zasobnik w zasobniku kwantylowym.

zasobnik kwantylowy

Udostępnienie wartości cech w zasobnikach, tak aby każdy zasobnik zawierał tę samą (lub prawie taką samą) liczbę przykładów. Na przykład na tej ilustracji 44 punkty są podzielone na 4 zasobniki, z których każdy zawiera 11 punktów. Aby każdy zasobnik na ilustracji zawierał tę samą liczbę punktów, niektóre zasobniki mają różną szerokość wartości x.

kwantyfikacja

Przeciążone hasło, którego można użyć w dowolny z tych sposobów:

Wdrożenie zasobnika kwantylowego w określonej funkcji.

Przekształcanie danych w zera i jedynki w celu szybszego przechowywania, trenowania i wnioskowania. Dane logiczne są bardziej odporne na szum i błędy niż inne formaty, dlatego kwantyfikacja może poprawić prawidłowość modelu. Techniki kwantyzacji obejmują zaokrąglanie, obcinanie i binowanie.

Zmniejszenie liczby bitów używanych do przechowywania parametrów modelu. Załóżmy np., że parametry modelu są przechowywane w postaci 32-bitowych liczb zmiennoprzecinkowych. Kwantyzacja konwertuje te parametry z 32-bitowych na 4, 8- lub 16-bitowe. Kwantyzacja ogranicza:

Wykorzystanie mocy obliczeniowej, pamięci, dysku i sieci

Czas wywnioskowania predykcji

Zużycie energii

Jednak kwantyfikacja czasami zmniejsza prawidłowość prognoz modelu.

kolejka

#TensorFlow

operacja TensorFlow, która implementuje strukturę danych kolejki. Zwykle używane podczas wejścia-wyjścia.

R

RAG

#fundamentals

Skrót od wyrażenia retrieval-augmented Generation (generowanie rozszerzone przez wyszukiwanie).

Losowy las

#df

Grupa drzew decyzyjnych, w której każde drzewo decyzyjne jest trenowane za pomocą określonego losowego szumu, na przykład bagażu.

Lasy losowe są rodzajem lasu decyzyjnego.

zasady losowe

#rl

W przypadku uczenia się przez wzmacnianie zasada, która wybiera działanie losowo.

ranking

Rodzaj uczenia nadzorowanego, którego celem jest uporządkowanie listy elementów.

pozycja (porządek)

Pozycja porządkowa klasy w danym problemie z systemem uczącym się, który dzieli klasy od najwyższej do najniższej. Na przykład system rankingowy zachowań może uszeregować nagrody psa od najwyższej (stek) do najniższej (zwiędłego jarmużu).

ranking (Tensor)

#TensorFlow

Liczba wymiarów w Tensor. Na przykład skalar ma pozycję 0, wektor – 1, a macierz 2.

Nie mylić ze stanem rank (ordinality).

oceniający

#fundamentals

Osoba, która dostarcza etykiety dla przykładów. „Annotator” to inna nazwa osoby oceniającej.

wycofanie

Wskaźnik używany w modelach klasyfikacji, który odpowiada na to pytanie:

Gdy ground truth była klasą pozytywną, jaki procent prognoz prawidłowo zidentyfikował model jako klasę pozytywną?

Oto wzór:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

gdzie:

oznacza, że model prawidłowo przewidział klasę pozytywną.

Wynik fałszywie negatywny oznacza, że model błędnie przewidział klasę negatywną.

Załóżmy na przykład, że Twój model wykonał 200 prognoz na przykładach, dla których klasą pozytywną jest prawda podstawowa. Spośród tych 200 podpowiedzi:

180 wyników było prawdziwie pozytywnych.

20 wyników wyników fałszywie negatywnych.

W takim przypadku:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Kliknij ikonę, aby wyświetlić uwagi na temat zbiorów danych o zrównoważeniu klas.

Czułość jest szczególnie przydatna do określania siły prognozującej modeli klasyfikacji, w których klasa pozytywna jest rzadka. Rozważmy na przykład zbiór danych o zrównoważonym klasie, w których klasa pozytywna dla określonej choroby występuje tylko u 10 pacjentów spośród miliona. Załóżmy, że Twój model tworzy 5 milionów prognoz, które dają takie wyniki:

30 prawdziwie pozytywnych ocen

20 fałszywych negatywnych ocen

4 999 000 wyników prawdziwie negatywnych

950 fałszywych pozytywnych wyników

Wycofanie tego modelu jest więc następujące:

recall = TP / (TP + FN) recall = 30 / (30 + 20) = 0.6 = 60%
Z kolei dokładność tego modelu jest:
accuracy = (TP + TN) / (TP + TN + FP + FN) accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Tak wysoka dokładność wydaje się imponująca, ale w zasadzie nie ma sensu. Czułość jest znacznie bardziej przydatnym wskaźnikiem w przypadku zbiorów danych o zrównoważonym klasie niż dokładność.

system rekomendacji

#recsystems

System, który wybiera dla każdego użytkownika stosunkowo mały zbiór pożądanych elementów z dużego korpusu. System rekomendacji filmów może na przykład polecić 2 filmy ze 100 tysięcy filmów – w przypadku jednego użytkownika wybrać Casablanca i The Philadelphia Story, a drugiego – Wonder Woman i Czarna Pantera. System rekomendacji filmów może opierać swoje rekomendacje na takich czynnikach jak:

Filmy ocenione lub obejrzane przez podobnych użytkowników.

Gatunek, reżyserzy, aktorzy, docelowa grupa demograficzna...

Prosto urządzona jednostka liniowa (ReLU)

#fundamentals

funkcję aktywacji, która działa tak:

Jeśli dane wejściowe mają wartość ujemną lub zero, wynik wynosi 0.

Jeśli dane wejściowe są dodatnie, dane wyjściowe są takie same.

Na przykład:

Jeśli wartość wejściowa wynosi -3, wynik wynosi 0.

Jeśli dane wejściowe mają wartość +3, wynik wynosi 3,0.

Oto fabuła ReLU:

ReLU to bardzo popularna funkcja aktywująca. Mimo że ReLU jest proste, wciąż umożliwia sieci neuronowej uczenie się nieliniowych zależności między funkcjami a etykietą.

cykliczna sieć neuronowa

#seq

Sieć neuronowa, która jest celowo uruchomiona kilka razy, w ramach której fragmenty każdego uruchomienia są przetwarzane w kolejnym uruchomieniu. W szczególności warstwy ukryte z poprzedniego uruchomienia udostępniają część danych wejściowych do tej samej ukrytej warstwy w kolejnym uruchomieniu. Powtórne sieci neuronowe są szczególnie przydatne do oceny sekwencji, ponieważ ukryte warstwy mogą uczyć się na podstawie poprzednich uruchomień sieci neuronowej na wcześniejszych częściach sekwencji.

Na przykład ten rysunek przedstawia cykliczną sieć neuronową, która jest uruchamiana 4 razy. Zwróć uwagę, że wartości zapamiętane przez ukryte warstwy z pierwszego uruchomienia stają się częścią danych wejściowych tych samych ukrytych warstw w drugim uruchomieniu. Wartości zapamiętane w warstwie ukrytej przy drugim uruchomieniu stają się częścią danych wejściowych tej samej ukrytej warstwy w trzecim uruchomieniu. W ten sposób cykliczna sieć neuronowa stopniowo uczy się i przewiduje znaczenie całej sekwencji, a nie tylko znaczenie poszczególnych słów.

model regresji

#fundamentals

Nieformalnie model generujący prognozę liczbową. Model klasyfikacji generuje natomiast prognozę klas. Na przykład te modele regresji:

Model, który przewiduje wartość konkretnego domu,na przykład 423 000 euro.

Model, który przewiduje oczekiwaną długość życia określonego drzewa, na przykład 23,2 roku.

Model, który prognozuje ilość opadów, które spadnie w określonym mieście w ciągu najbliższych 6 godzin, np.0,18 cala.

Dwa popularne typy modeli regresji to:

Regresja liniowa, która znajduje linię najlepiej pasującą do wartości etykiet.

regresja logistyczna, która generuje prawdopodobieństwo w przedziale od 0,0 do 1,0, które system zwykle mapuje na prognozę klas;

Nie każdy model, który generuje prognozy liczbowe, jest modelem regresji. W niektórych przypadkach prognozy liczbowe są po prostu modelem klasyfikacji, który ma w postaci liczbowej nazwy klas. Na przykład model, który prognozuje numeryczny kod pocztowy, jest modelem klasyfikacji, a nie regresji.

regularyzacja

#fundamentals

Każdy mechanizm, który ogranicza nadmierne dopasowanie. Popularne rodzaje regularyzacji to:

Regularizacja L₁

Regularizacja L₂

regularizację rezygnacji

wczesne zatrzymanie (nie jest to formalna metoda regularyzacji, ale może skutecznie ograniczyć nadmierne dopasowanie)

Regularyzacja można również zdefiniować jako spadek złożoności modelu.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Regularyzacja jest sprzeczna z intuicją. Zwiększenie regularyzacji zwykle zwiększa utratę trenowania, co jest mylące, bo nie jest celem zminimalizowania strat w trenowaniu?

Właściwie to nie. Celem nie jest zminimalizowanie strat w treningu. Celem jest generowanie doskonałych przewidywań na podstawie rzeczywistych przykładów. Co ważne, większa regularność zwiększa straty w trenowaniu, ale zwykle pomaga modelom tworzyć lepsze prognozy na rzeczywistych przykładach.

współczynnik regularyzacji

#fundamentals

Liczba określająca względne znaczenie regularizacji podczas trenowania. Zwiększenie częstotliwości regularyzacji ogranicza nadmierne dopasowanie, ale może zmniejszyć moc prognozowania modelu. I na odwrót: ograniczenie lub pominięcie częstotliwości regularyzacji zwiększa nadmierne dopasowanie.

Kliknij ją, aby wyświetlić obliczenia.

Tempo regularyzacji jest zwykle przedstawiane za pomocą greckiej litery lambda. To uproszczone równanie straty pokazuje wpływ lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

gdzie regularizacja to dowolny mechanizm regularyzacji, obejmujący:

Regularizacja L₁

Regularizacja L₂

uczenie się przez wzmacnianie

#rl

Rodzina algorytmów, które uczą optymalnej zasad, których celem jest maksymalizacja zwrotu podczas interakcji z środowiskiem. Na przykład największą nagrodą w większości gier jest zwycięstwo. Systemy uczenia się przez wzmacnianie mogą być ekspertem w graniu w złożone gry, oceniając sekwencje wcześniejszych ruchów, które doprowadziły do wygranych i sekwencji, które doprowadziły do przegranych.

Uczenie się przez wzmacnianie na podstawie opinii człowieka (RLHF)

#generatywna AI

#rl

Wykorzystanie opinii weryfikatorów w celu poprawy jakości odpowiedzi modelu. Na przykład mechanizm RLHF może poprosić użytkowników o ocenę jakości odpowiedzi modelu za pomocą emotikona 👍 lub 👎. Na podstawie tych informacji system może później dostosować swoje przyszłe odpowiedzi.

ReLU

#fundamentals

Skrót od wyrażenia Rectified Linear Unit (Wyrównana jednostka liniowa).

bufor powtórki

#rl

W algorytmach podobnych do DQN pamięć używana przez agenta do przechowywania przejść stanu na potrzeby ponownego odtwarzania.

replika

Kopia zbioru treningowego lub modelu, zwykle na innej maszynie. Na przykład system może wdrożyć tę strategię dotyczącą równoległości danych:

Umieść repliki istniejącego modelu na wielu maszynach.

Wyślij różne podzbiory zbioru treningowego do każdej repliki.

Zbierz aktualizacje parametru.

efekt raportowania

#fairness

Częstotliwość, z jaką ludzie piszą o działaniach, wynikach lub właściwościach, nie jest odzwierciedleniem częstotliwości ich w świecie rzeczywistym ani stopnia, w jakim dana właściwość jest charakterystyczna dla danej klasy. Odchylenia w raportowaniu mogą wpływać na kompozycję danych, z których systemy uczące się uczą się.

Na przykład w książkach słowo śmiech jest bardziej rozpowszechnione niż oddychane. Model systemu uczącego się, który szacuje względną częstotliwość śmiechu i oddychania z korpusu książkowego, prawdopodobnie określiłby, że śmiech jest powszechny od oddychania.

reprezentacja

Proces mapowania danych na przydatne funkcje.

ponowne pozycjonowanie

#recsystems

Ostatni etap systemu rekomendacji, w którym ocenione elementy mogą zostać ponownie ocenione zgodnie z innym algorytmem (zwykle niesystemem uczącym się). Ponowne pozycjonowanie ocenia listę elementów wygenerowanych na etapie oceny i podejmuje działania takie jak:

Eliminowanie produktów, które użytkownik już kupił.

Poprawa wyniku nowszych produktów.

generacja rozszerzonego pobierania (RAG)

#fundamentals

Technika poprawiania jakości danych wyjściowych dużego modelu językowego (LLM) przez powiązanie go ze źródłami wiedzy pobranymi po wytrenowaniu modelu. RAG zwiększa dokładność odpowiedzi LLM, zapewniając wytrenowanemu modelowi LLM dostęp do informacji pobranych z zaufanych baz wiedzy lub dokumentów.

Najczęstsze powody korzystania z generowania rozszerzonego przez wyszukiwanie to:

Zwiększanie dokładności faktów generowanych przez model.

Udostępnienie modelu dostępu do wiedzy, do której nie został przeszkolony.

Modyfikowanie wiedzy wykorzystywanej przez model.

Umożliwienie modelu cytowania źródeł.

Załóżmy na przykład, że aplikacja chemiczna korzysta z interfejsu PaLM API do generowania podsumowań związanych z zapytaniami użytkowników. Gdy backend aplikacji otrzyma zapytanie, będzie:

Wyszukuje („pobiera”) dane, które mają związek z zapytaniem użytkownika.

Dodaje („rozszerzenia”) do zapytania użytkownika odpowiednie dane chemiczne.

Instruuje LLM, aby utworzył podsumowanie na podstawie dołączonych danych.

return

#rl

W uczeniu przez wzmacnianie, przy uwzględnieniu określonej zasady i określonego stanu zwrot to suma wszystkich nagród, których agent oczekuje za przestrzeganie zasad od stanu do końca odcinka. Agent uwzględnia opóźnienie w otrzymaniu nagrody, rabatując je zgodnie ze zmianami stanu wymaganymi do uzyskania nagrody.

Jeśli więc współczynnik rabatu wynosi $\gamma$, a $r_0, \ldots, r_{N}$wskazuje nagrody do końca odcinka, obliczenia zwrotów będą wyglądać tak:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

kupon promocyjny

#rl

W przypadku uczenia się przez wzmacnianie to numeryczny wynik podjęcia działania w danym stanie, zdefiniowany przez środowisko.

regularyzacja grzbietu

Synonim wyrażenia regularności L₂. Termin regularizacja grzbietowego jest częściej używany w kontekstach czystej statystyk, natomiast regularyzacja L₂ jest częściej używana w systemach uczących się.

Numer RNN

#seq

Skrót od wyrażenia recurrent neural Networks (cykliczne sieci neuronowe).

Krzywa charakterystyki operacyjnej odbiornika

#fundamentals

Wykres przedstawiający współczynnik wyników prawdziwie pozytywnych i współczynnik wyników fałszywie pozytywnych dla różnych progów klasyfikacji w klasyfikacji binarnej.

Kształt krzywej ROC sugeruje, że model klasyfikacji binarnej może oddzielić klasy pozytywne od klas negatywnych. Załóżmy na przykład, że model klasyfikacji binarnej doskonale oddziela klasy negatywne od wszystkich klas pozytywnych:

Krzywa charakterystyki operacyjnej odbiornika (ROC) poprzedniego modelu wygląda tak:

Ta ilustracja przedstawia natomiast nieprzetworzone wartości regresji logistycznej dla strasznego modelu, który nie jest w stanie oddzielić klas negatywnych od klas pozytywnych:

Krzywa charakterystyki operacyjnej odbiornika (ROC) dla tego modelu wygląda tak:

Z kolei w świecie rzeczywistym większość modeli klasyfikacji binarnej do pewnego stopnia rozdziela klasy pozytywne i negatywne, ale zwykle nie idealnie. Typowa krzywa charakterystyki operacyjnej odbiornika wypada gdzieś pomiędzy 2 skrajne wartości:

Punkt na krzywej charakterystyki operacyjnej odbiornika (ROC) najbliżej (0,0, 1,0) teoretycznie określa idealny próg klasyfikacji. Na wybór idealnego progu klasyfikacji wpływa jednak kilka innych czynników. Na przykład wyniki fałszywie negatywne powodują znacznie większy problem niż wyniki fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC w jedną wartość zmiennoprzecinkową.

prompty dotyczące roli

#language

#generatywna AI

Opcjonalna część promptu, która określa grupę odbiorców odpowiedzi modelu generatywnej AI. Bez prompta duży model językowy zapewnia odpowiedź, która może, ale nie musi być przydatna dla osoby zadającej pytania. Dzięki promptowi dotyczącego roli duży model językowy może udzielić odpowiedzi w sposób bardziej odpowiedni i przydatny dla określonej grupy odbiorców. Na przykład te fragmenty promptów dotyczących roli są pogrubione:

Streść ten artykuł dla doktoratu w dziedzinie ekonomii.

Opisz, jak działają pływy u 10-letniego dziecka.

Opisz kryzys finansowy w 2008 roku. Mów tak jak do dziecka lub do golden retrievera.

poziom główny

#df

Początkowy węzeł (pierwszy warunek) w drzewie decyzji. Zgodnie z konwencją diagramy u góry drzewa decyzyjnego leżą korzenie. Na przykład:

katalog główny

#TensorFlow

Wskazany katalog hostujący podkatalogi plików kontrolnych i plików zdarzeń TensorFlow wielu modeli.

Błąd średniokwadratowy (RMSE)

#fundamentals

Pierwiastek kwadratowy z średniego błędu kwadratowego.

niewariancja rotacji

#image

W przypadku problemu z klasyfikacją obrazów algorytm musi umieć klasyfikować obrazy nawet wtedy, gdy zmieni się ich orientacja. Na przykład algorytm może nadal rozpoznawać rakietę tenisową, niezależnie od tego, czy jest skierowana w górę, w bok czy w dół. Pamiętaj, że niezgodność w rotacji nie zawsze jest pożądana. Na przykład cyfra 9 nie powinna być sklasyfikowana jako 9.

Zobacz też niezmienność translacji i niezgodność rozmiaru.

R-kwadrat

Dane regresji wskazujące, jak duża zmienność etykiety wynika z pojedynczej cechy lub zestawu cech. Wartość R-kwadrat jest wartością z zakresu od 0 do 1, którą można interpretować w następujący sposób:

Wartość R-kwadrat o wartości 0 oznacza, że żadna odmiana etykiety nie jest związana z zestawem cech.

Wartość R kwadrat równa 1 oznacza, że cała odmiana etykiety wynika z zestawu cech.

Wartość R-kwadrat z zakresu od 0 do 1 wskazuje zakres, w jakim można przewidzieć zmianę etykiety na podstawie określonej cechy lub zbioru cech. Na przykład kwadrat R równy 0,10 oznacza, że 10% wariancji etykiety wynika z zestawu cech, wartość R-kwadrat 0,20 oznacza, że 20% wynika z zestawu cech itd.

Wartość R kwadrat jest kwadratem współczynnika korelacji Pearsona między wartościami prognozowanymi przez model a wartością ground truth.

S

efekt próbkowania

#fairness

Patrz: odchylenie wyboru.

próbkowanie z zastąpieniem

#df

Metoda wybierania elementów ze zbioru elementów kandydujących, w którym ten sam element można wybrać kilka razy. Sformułowanie „z zamiennikiem” oznacza, że po każdym zaznaczeniu wybrany element jest zwracany do puli elementów kandydujących. Metoda odwrotna, próbkowanie bez zamiennika, oznacza, że kandydujący element może zostać wybrany tylko raz.

Weźmy na przykład taki zestaw owoców:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Załóżmy, że system losowo wybiera fig jako pierwszy element. Jeśli stosujesz próbkowanie z zamiennikiem, system wybiera drugi element z tego zbioru:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Tak, jest taka sama jak wcześniej, więc system może ponownie wybrać typ fig.

Jeśli używasz próbkowania bez zastąpienia, po wybraniu próbki nie można wybrać jej ponownie. Jeśli np. system losowo wybierze fig jako pierwszą próbkę, wtedy fig nie będzie można wybrać ponownie. Dlatego system wybiera drugą próbkę z tego (zmniejszonego) zbioru:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Słowo zamiennik w tekście próbkowanie z zamiennikiem wprowadza w błąd wiele osób. W języku angielskim replacement oznacza „zamiennik”. Jednak próbkowanie z zamiennikiem korzysta z francuskiej definicji zamiennika, czyli „zamiennik”.

Angielskie słowo replacement zostanie przetłumaczone na francuskie słowo remplacement.

SavedModel

#TensorFlow

Zalecany format do zapisywania i przywracania modeli TensorFlow. SavedModel to neutralny pod względem języka format serializacji, który umożliwia systemom i narzędziom wyższego poziomu tworzenie, wykorzystywanie i przekształcanie modeli TensorFlow.

Więcej informacji znajdziesz w rozdziałie dotyczącym zapisywania i przywracania danych w przewodniku TensorFlow Programmer.

Ekonomiczna

#TensorFlow

Obiekt TensorFlow odpowiedzialny za zapisywanie punktów kontrolnych modelu.

wartość skalarna

Pojedyncza liczba lub ciąg, który można przedstawić jako tensor o wartości rank 0. Na przykład te wiersze kodu tworzą w TensorFlow po jednym skalarnym:

breed = tf.Variable("poodle", tf.string) temperature = tf.Variable(27, tf.int16) precision = tf.Variable(0.982375101275, tf.float64)

skalowanie

Dowolne przekształcenie matematyczne lub technika, która zmienia zakres wartości etykiety lub cechy. Niektóre formy skalowania przydają się przy przekształceniach takich jak normalizacja.

Typowe formy skalowania przydatne w systemach uczących się to między innymi:

skalowanie liniowe, które zwykle łączy odejmowanie i dzielenie w celu zastąpienia pierwotnej wartości liczbą z zakresu od -1 do +1 lub między 0 a 1.

skalowanie logarytmiczne, które zastępuje wartość pierwotną logarytmem.

Normalizacja wyniku Z, która zastępuje wartość oryginalną wartością zmiennoprzecinkową reprezentującą liczbę odchyleń standardowych od wartości średniej danej cechy.

scikit-learn

Popularna platforma open source zajmująca się systemami uczącymi się. Wejdź na scikit-learn.org.

ocena

#recsystems

Część systemu rekomendacji, która podaje wartość lub ranking każdego elementu wytworzonego na etapie generowania kandydatów.

efekt wyboru

#fairness

Błędy we wnioskach wyciągniętych z próbek danych w wyniku procesu selekcji, który generuje systematyczne różnice między próbkami zaobserwowanymi w danych i tymi, które nie zostały zaobserwowane. Istnieją te formy odchyleń wyboru:

odchylenie zasięgu: populacja przedstawiona w zbiorze danych nie pasuje do populacji, na podstawie której model systemów uczących się tworzy prognozy.

odchylenie próbkowania: dane nie są zbierane losowo z grupy docelowej.

odchylenie od braku odpowiedzi (nazywane też odchyleniem w zakresie udziału): użytkownicy z określonych grup rezygnują z ankiet w innym stopniu niż użytkownicy z innych grup.

Załóżmy np., że tworzysz model systemów uczących się, który przewiduje, jak widzowie będą oglądać film. Aby zebrać dane szkoleniowe, rozdajesz ankietę wszystkim osobom stojącym w pierwszym rzędzie kina wyświetlającego film. Z drugiej strony może to wydawać się rozsądnym sposobem gromadzenia zbioru danych, ale ta forma zbierania danych może powodować takie odchylenia w działaniu:

skłonność do uwzględniania w zasięgu: jeśli próbkowanie pochodzi z populacji, która zdecydowała się obejrzeć film, prognozy modelu mogą nie uogólnić wyników na osoby, które nie wyraziły jeszcze takiego zainteresowania filmem.

odchylenie próby: zamiast losowego losowania próbek z zamierzonej populacji (wszystkich osób oglądających film), badaliśmy tylko osoby z pierwszego wiersza. Możliwe, że osoby siedzące w pierwszym rzędzie były bardziej zainteresowane filmem niż osoby z pozostałych rzędów.

uprzedzenie braku odpowiedzi: osoby, które mają silne poglądy, częściej odpowiadają na pytania opcjonalne. Ankieta na temat filmu jest opcjonalna, dlatego odpowiedzi z większym prawdopodobieństwem utworzą rozkład dwukierunkowy niż normalny rozkład (w kształcie dzwonka).

do samodzielnego myślenia

#language

Warstwa sieci neuronowej, która przekształca sekwencję umieszczania (np. wektorów dystrybucyjnych tokena) w inną sekwencję reprezentacji właściwościowych. Każde umieszczenie w sekwencji wyjściowej odbywa się przez integrowanie informacji z elementów sekwencji wejściowej za pomocą mechanizmu uwagi.

Element uwagi na siebie odnosi się do sekwencji skupiania się na sobie, a nie do innego kontekstu. Samodzielna koncentracja to jeden z głównych elementów Transformers, który wykorzystuje terminologię wyszukiwania słownika, np. „zapytanie”, „klucz” i „wartość”.

Warstwa skupienia uwagi zaczyna się od sekwencji wprowadzania danych, po jednej dla każdego słowa. Wejściową reprezentacją słowa może być proste umieszczenie. Przy każdym słowie w sekwencji wejściowej sieć ocenia trafność słowa w odniesieniu do każdego elementu w całej sekwencji słów. Wynik trafności określa, w jakim stopniu końcowa reprezentacja słowa obejmuje inne reprezentacje.

Weźmy na przykład to zdanie:

Zwierzę nie przeszło przez ulicę, bo było zbyt zmęczone.

Ilustracja poniżej (z artykułu Transformer: A Neural Network Architecture for Language Understanding) pokazuje wzorzec uwagi w warstwie uwagi dla zaimka it, przy czym ciemność każdego wiersza wskazuje, w jakim stopniu poszczególne słowa przyczyniają się do reprezentacji:

Warstwa zwracania uwagi wyróżnia słowa, które pasują do tego słowa. W tym przypadku warstwa uwagi nauczyła się wyróżniać słowa, które może się odnosić, przypisując największą wagę zwierzęciu.

W przypadku sekwencji n tokenów funkcja samozwania przekształca sekwencję reprezentacji właściwościowych n osobnych razy, po jednym na każdym położeniu w sekwencji.

Zapoznaj się też z artykułami uwagi i samodzielnej uwagi.

samodzielna nauka

Rodzina technik przekształcania problemu z nienadzorowanymi systemami uczącymi się w problem nadzorowanych systemów uczących się przez utworzenie etykiet zastępczych z przykładów bez etykiet.

Niektóre modele oparte na Transformerze, takie jak BERT, wykorzystują uczenie się samonadzorowane.

Trenowanie samodzielne to uczenie się częściowo nadzorowane.

samouczek

Wariant uczenia się samonadzorowanego, który jest szczególnie przydatny, gdy są spełnione wszystkie te warunki:

Stosunek przykładów bez etykiet do przykładów z etykietami w zbiorze danych jest wysoki.

Jest to problem z klasyfikacją.

Samodzielne trenowanie polega na powtarzaniu tych 2 kroków, aż model przestanie się poprawiać:

Aby wytrenować model na przykładach z etykietami, użyj nadzorowanych systemów uczących się.

Użyj modelu utworzonego w kroku 1, aby wygenerować prognozy (etykiety) dla przykładów bez etykiet i przenieść te, w przypadku których występuje duża pewność, do przykładów oznaczonych etykietą z prognozą.

Zwróć uwagę, że każda iteracja kroku 2 dodaje więcej oznaczonych etykietami przykładów dla kroku 1 do wytrenowania.

uczenie częściowo nadzorowane

Trenowanie modelu na danych, gdzie niektóre przykłady treningowe mają etykiety, a inne nie. Jedną z metod uczenia częściowo nadzorowanego jest wnioskowanie o etykiety dla przykładów bez etykiet, a potem trenowanie na ich podstawie w celu utworzenia nowego modelu. Uczenie się częściowo nadzorowane może być przydatne, jeśli uzyskanie etykiet jest drogie, ale przykłady bez etykiet są mnóstwo.

Samodzielna nauka to jedna z metod uczenia częściowo nadzorowanego.

atrybut o charakterze wrażliwym

#fairness

Atrybut ludzki, który może być brany pod uwagę ze względów prawnych, etycznych, społecznych lub osobistych.

analiza nastawienia

#language

Stosowanie algorytmów statystycznych lub algorytmów systemów uczących się do określania ogólnego nastawienia grupy (pozytywnej lub negatywnej) do usługi, produktu, organizacji lub tematu. Na przykład za pomocą rozumienia języka naturalnego algorytm może przeprowadzić analizę nastawienia na podstawie opinii tekstowych o kursie uniwersyteckim, aby określić, w jakim stopniu dany kurs podoba się lub nie podoba się studentom.

model sekwencyjny

#seq

Model, którego dane wejściowe są zależność sekwencyjną. Dotyczy to na przykład prognozowania następnego filmu, który zostanie obejrzany, na podstawie sekwencji obejrzanych wcześniej filmów.

zadanie między sekwencją a sekwencją

#language

Zadanie, które konwertuje sekwencję wejściową tokenów na wyjściową sekwencję tokenów. Na przykład 2 popularne rodzaje zadań od sekwencji do sekwencji to:

Tłumacze:

Przykładowa sekwencja wejściowa: „Kocham Cię”.

Przykładowa sekwencja wyjściowe: „Je t'aime”.

Odpowiadanie na pytania:

Przykładowa sekwencja wejściowa: „Czy będę potrzebować samochodu w Nowym Jorku?”.

Przykładowa sekwencja wyjściowe: „Nie. Zostaw samochód w domu”.

porcja

Proces udostępniania wytrenowanego modelu do generowania prognoz za pomocą wnioskowania online lub wnioskowania offline.

kształt (Tensor)

Liczba elementów w każdym wymiarze tenisora. Kształt ma postać listy liczb całkowitych. Na przykład ten dwuwymiarowy tensor ma kształt [3,4]:

[[5, 7, 6, 4], [2, 9, 4, 8], [3, 6, 5, 1]]

Do reprezentowania kolejności wymiarów w TensorFlow używa się formatu wielki wiersz (styl C), dlatego kształt w TensorFlow to [3,4], a nie [4,3]. Inaczej mówiąc, w dwuwymiarowym TensorFlow kształt to [liczba wierszy, liczba kolumn].

fragment

#TensorFlow

#GoogleCloud

Logiczny podział zbioru treningowego lub modelu. Zwykle niektóre procesy tworzy fragmenty, dzieląc przykłady lub parametry na fragmenty o jednakowej wielkości. Każdy fragment jest następnie przypisywany do innej maszyny.

Fragmentacja modelu jest nazywana równoległością modelu, a fragmentowanie danych jest nazywane równoległością danych.

kurczenie

#df

Hiperparametr we wzmocnieniu gradientu, który kontroluje nadmierne dopasowanie. Zmniejszenie wzmocnienia gradientu jest analogiczne do szybkości uczenia się w spadku gradientu. Zmniejszanie jest wartością dziesiętną z zakresu od 0,0 do 1,0. Niższa wartość kurczenia ogranicza nadmierne dopasowanie niż większa wartość kurczenia.

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „wypycha” wartość wejściową do ograniczonego zakresu, zwykle od 0 do 1 lub od -1 do +1. Oznacza to, że można przekazać dowolną liczbę (dwie, milion, ujemne miliardy itd.) do sigmoidy, a wynik wciąż będzie mieścił się w ograniczonym zakresie. Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Funkcja sigmoidalna ma kilka zastosowań w systemach uczących się, m.in.:

Konwersja nieprzetworzonych danych wyjściowych z modelu regresji logistycznej lub regresji wielomianowej na prawdopodobieństwo.

Pełnienie funkcji aktywacji w niektórych sieciach neuronowych.

Kliknij ją, aby wyświetlić obliczenia.

Funkcja sigmoidalna dla liczby wejściowej x ma taki wzór:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

W systemach uczących się x to zwykle suma ważona.

miara podobieństwa

#clustering

W algorytmach klastrowania wskaźnik służący do określenia, na ile podobne są (jak podobne) są 2 przykłady.

pojedynczy program / wiele danych (SPMD)

Technika równoległości, w której to samo obliczenia są wykonywane równolegle na różnych danych wejściowych na różnych urządzeniach. Celem SPMD jest szybsze uzyskanie wyników. To najczęstszy styl programowania równoległego.

niewariacja rozmiaru

#image

W przypadku problemu z klasyfikacją obrazów algorytm musi skutecznie klasyfikować obrazy nawet wtedy, gdy zmieni się ich rozmiar. Na przykład algorytm nadal może zidentyfikować kota niezależnie od tego, czy wykorzysta 2 mln pikseli, czy 200 tys. pikseli. Pamiętaj, że nawet najlepsze algorytmy klasyfikacji obrazów mają praktyczne ograniczenia dotyczące niezmienności rozmiaru. Na przykład algorytm (lub człowiek) raczej nie sklasyfikuje poprawnie zdjęcia kota zajmującego zaledwie 20 pikseli.

Patrz też niewariancja translacyjna i niewariancja rotacji.

szkicowanie

#clustering

W nienadzorowanych systemach uczących się jest to kategoria algorytmów, które przeprowadzają wstępną analizę podobieństwa na przykładach. Algorytmy szkicowania korzystają z funkcji haszującej zależnej od lokalizacji, aby identyfikować punkty, które z dużym prawdopodobieństwem są podobne, a następnie grupować je w zasobniki.

Szkicowanie skraca obliczenia wymagane przy obliczaniu podobieństwa w dużych zbiorach danych. Zamiast obliczać podobieństwo dla każdej pojedynczej pary przykładów w zbiorze danych, obliczamy podobieństwo tylko dla każdej pary punktów w każdym zasobniku.

Pomiń gram

#language

Ciąg znaków n-gram, który może pomijać słowa w pierwotnym kontekście, co oznacza, że mogły one wcześniej nie występować obok siebie. Dokładniej rzecz ujmując, „k skip-n-gram” to n gram, w którym pominięto do k słów.

Na przykład „szybki lis brązowy” może ważyć 2 gramy:

„szybki”

„szybki brązowy”

„lis brunatny”

„1-kip-2 gram” to para słów, między którymi znajduje się maksymalnie 1 słowo. W związku z tym „szybki lis brązowy” ma następujące 2 gramy, z których można pominąć:

„brązowy”

„szybki lis”

Poza tym wszystkie 2 gramy mają też 1 pomiń 2 gramy, bo można pominąć mniej niż 1 słowo.

Teksty pomijania przydają się, gdy chcesz lepiej zrozumieć kontekst słowa. W tym przykładzie słowo „lis” było bezpośrednio powiązane ze słowem „szybkim” w zbiorze 1-2-gramów, ale nie w zestawie 2 gramów.

Pomiń gramy pomagają w trenowaniu modeli umieszczania słów.

funkcja softmax

#fundamentals

Funkcja, która określa prawdopodobieństwo dla każdej możliwej klasy w modelu klasyfikacji wieloklasowej. Suma prawdopodobieństw wynosi dokładnie 1,0. Na przykład ta tabela pokazuje, jak kampania softmax rozkłada różne prawdopodobieństwa:

Obraz to... Probability,

pies 0,85

Cat 0,13

koń 0,02

Funkcja softmax jest też nazywana pełnym modelem softmax.

Porównaj to z próbkowaniem kandydatów.

Kliknij ją, aby wyświetlić obliczenia.

Równanie funkcji softmax jest takie:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$
gdzie:

Wektorem wyjściowym jest $\sigma_i$. Każdy element wektora wyjściowego określa prawdopodobieństwo tego elementu. Suma wszystkich elementów wektora wyjściowego wynosi 1,0. Wektor wyjściowy zawiera tę samą liczbę elementów co wektor wejściowy – $z$.

Argument $z$ to wektor wejściowy. Każdy element wektora wejściowego zawiera wartość zmiennoprzecinkową.

$K$ to liczba elementów we wektorze wejściowych (i wektorze wyjściowym).

Załóżmy na przykład, że wektor wejściowy to:

[1.2, 2.5, 1.8]

Dlatego funkcja softmax oblicza mianownik w ten sposób:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Prawdopodobieństwo softmax dla każdego elementu wynosi więc:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Wektor wyjściowy wygląda więc tak:

$$\sigma = [0.154, 0.565, 0.281]$$

Suma tych 3 elementów w $\sigma$ wynosi 1,0. Uff...

dostrajanie promptów

#language

#generatywna AI

Technika dostrajania dużego modelu językowego do konkretnego zadania bez dostrajania, które pochłania dużą ilość zasobów. Zamiast ponownie trenować wszystkie wagi w modelu, dostrajanie promptów automatycznie dostosowuje komunikat tak, aby osiągnąć ten sam cel.

Po wyświetleniu promptu tekstowego dostrajanie niewymagających promptów zwykle dołącza do promptu dodatkowe wektory tokenów i optymalizuje dane wejściowe za pomocą propagacji wstecznej.

„Twardy” prompt zawiera rzeczywiste tokeny, a nie osadzone tokeny.

obiekt rozproszony

#language

#fundamentals

feature, którego wartości są głównie zero lub puste. Na przykład cecha zawierająca 1 wartość i milion wartości 0 jest bardzo rozmieszczona. W przeciwieństwie do tego cechy gęstej mają wartości, które w większości nie są puste ani nie mają zerowej wartości.

W systemach uczących się niektóre funkcje są bardzo rzadkie, Cechy kategorialne są zwykle ubogie w dane. Na przykład spośród 300 możliwych gatunków drzew w lesie jeden przykład może zidentyfikować tylko klon. Spośród milionów możliwych filmów w bibliotece jeden przykład może zidentyfikować tylko „Casablanca”.

W modelu zazwyczaj reprezentujesz rozproszone funkcje za pomocą kodowania „1 szybko”. Jeśli jednostronne kodowanie jest duże, możesz nałożyć na nie warstwę do umieszczania, aby zwiększyć efektywność.

rzadka reprezentacja

#language

#fundamentals

Przechowywanie tylko pozycji elementów innych niż zero w obiekcie rozproszonym.

Załóżmy np., że funkcja kategorialna o nazwie species identyfikuje 36 gatunków drzew w konkretnym lesie. Teraz załóżmy, że każdy przykład identyfikuje tylko jeden gatunek.

Możesz użyć wektora „1 hot” do reprezentowania gatunków drzew w każdym przykładzie. Wektor „1 gorący” zawiera jeden element 1 (reprezentujący konkretne gatunki drzew w tym przykładzie) i 35 elementów 0 (czyli 35 gatunków drzew nie w tym przykładzie). Jednorazowa reprezentacja właściwości maple może więc wyglądać mniej więcej tak:

Natomiast rozproszona reprezentacja mogłaby po prostu określić pozycję konkretnego gatunku. Jeśli maple znajduje się na pozycji 24, rzadkie reprezentowanie właściwości maple wyglądałoby tak:

24

Zwróć uwagę, że reprezentacja rzadka jest znacznie bardziej zwięzła niż ta prezentowana tylko raz.

Uwaga: nie należy przekazywać modelowi rozproszonej reprezentacji jako bezpośrednich danych wejściowych cech. Zamiast tego przed trenowaniem należy przekształcić reprezentację rozproszoną w jedną gorącą reprezentację.

Kliknij ją, aby zobaczyć nieco bardziej złożony przykład.

Załóżmy, że każdy przykład w modelu musi reprezentować słowa (ale nie ich kolejność) w zdaniu w języku angielskim. Angielski składa się z ok. 170 000 słów, dlatego jest to funkcja kategorialna, która ma ok. 170 000 elementów. W większości zdań w języku angielskim korzysta się z bardzo małego ułamka tych 170 000 słów, więc zbiór słów w jednym przykładzie będzie prawie na pewno ubogi w dane.

Zastanów się nad następującym zdaniem:

My dog is a great dog

Aby odzwierciedlić słowa w tym zdaniu, możesz użyć wariantu wektora jednogorącego. W tym wariancie wiele komórek w wektorze może zawierać wartość inną niż 0. Ponadto w tym wariancie komórka może zawierać liczbę całkowitą inną niż 1. Chociaż słowa „mój”, „jest”, „a” i „świetny” występują tylko raz w zdaniu, słowo „pies” pojawia się dwukrotnie. Użycie tego wariantu wektorów jednogorących do reprezentowania słów w tym zdaniu daje taki wektor 170 000 elementów:

Rzadkie przedstawienie tego samego zdania wyglądałoby po prostu tak:

0: 1 26100: 2 45770: 1 58906: 1 91520: 1

Jeśli nie masz pewności, kliknij ikonę.

Termin „rzadka reprezentacja” wprowadza w błąd wiele osób, ponieważ rzadka reprezentacja sama w sobie nie jest wektorem rzadkim. Reprezentacja rzadka to w rzeczywistości gęsta reprezentacja wektorów rozproszonych. Reprezentacja indeksu jest trochę bardziej zrozumiała niż „rozbudowana reprezentacja”.

wektor rozproszony

#fundamentals

Wektor, którego wartości są głównie zerami. Zobacz też informacje o niewielkich funkcjach i nierówności.

rozproszenie

Liczba elementów ustawionych na zero (lub wartość null) we wektorze lub macierzy podzielona przez łączną liczbę wpisów w tym wektorze lub macierzy. Weźmy na przykład macierz 100-elementową, w której 98 komórek zawiera 0. Obliczenie odstępu wygląda tak:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Niedostępność cech oznacza niewiele wektora cech, a nieregularność modelu odnosi się do niedużej wagi modelu.

pulowanie przestrzenne

#image

Patrz: pulacja.

podział : fragment

#df

w drzewie decyzji inna nazwa warunku,

podział

#df

Podczas trenowania drzewa decyzyjnego rutyna (i algorytm) odpowiada za znalezienie najlepszego warunku w każdym węźle.

SPMD

Skrót od pojedynczego programu / wielu danych.

utrata zawiasów kwadratowych

Kwadrat utraty zawiasów. Kwadratowy brak zawiasów skutkuje ostrzejszymi sankcjami w przypadku przegranych zawiasów.

strata do kwadratu

#fundamentals

Synonim wyrażenia utrata L₂.

szkolenie etapowe

#language

Taktyka trenowania modelu w sekwencji konkretnych etapów. Celem może być przyspieszenie procesu trenowania lub uzyskanie lepszej jakości modelu.

Ilustracja przedstawiająca progresywne łączenie:

Etap 1 zawiera 3 ukryte warstwy, etap 2 – 6 ukrytych, a 3 – 12 ukrytych.

Etap 2 rozpoczyna trening od ciężarów zdobytych w 3 ukrytych warstwach etapu 1. Etap 3 rozpoczyna trening od ciężarów zdobytych w 6 ukrytych warstwach etapu 2.

Zobacz też potokowanie potoku.

state

#rl

W przypadku uczenia się przez wzmacnianie wartości parametrów opisujących bieżącą konfigurację środowiska, których agent używa do wyboru działania.

funkcja wartości działania stanu

#rl

Synonim terminu funkcja Q.

statyczne

#fundamentals

Coś zostało wykonane tylko raz, a nie przez cały czas. Terminy statyczne i offline to synonimy. Oto typowe zastosowania elementów statycznych i offline w systemach uczących się:

Model statyczny (lub model offline) to model wytrenowany raz, a następnie używany przez pewien czas.

Trenowanie statyczne (lub trenowanie offline) to proces trenowania modelu statycznego.

wnioskowanie statyczne (lub wnioskowanie offline) to proces, w którym model generuje zbiorczo grupę prognoz.

kontrast z dynamicznym,

wnioskowanie statyczne

#fundamentals

Synonim dla wnioskowania offline.

stacjonarność

#fundamentals

Cecha, której wartości nie zmieniają się w zależności od co najmniej jednego wymiaru, zwykle przez czas. Na przykład cecha, której wartości są mniej więcej takie same w 2021 r. i 2023 r., prezentuje stan statyczny.

W świecie rzeczywistym niewiele obiektów wykazuje stanowność. Nawet funkcje, które działają równomiernie (np. na poziomie morza), zmieniają się z biegiem czasu.

Skontrastowanie względem nonstacjonarności.

kroku

Przejazd do przodu i do tyłu w ramach 1 grupy.

Więcej informacji o propagacji wstecznej znajdziesz w opisie przejścia do przodu i do tyłu.

rozmiar kroku

Synonim terminu tempo uczenia się.

spadek gradientu stochastycznego (SGD)

#fundamentals

Algorytm gradientu malejącego, w którym rozmiar serii wynosi jeden. Inaczej mówiąc, SGD trenuje na 1 przykładzie wybranym losowo z zbioru treningowego.

stride

#image

W operacji splotowej lub w grupie splotowej delta każdego wymiaru kolejnej serii wycinków wejściowych. Na przykład ta animacja przedstawia krok (1:1) podczas operacji splotowej. Dlatego następny wycinek danych wejściowych rozpoczyna się o jedną pozycję na prawo od poprzedniego wycinka danych wejściowych. Gdy operacja dotrze do prawej krawędzi, kolejny wycinek zostanie przesunięty w lewą stronę, ale tylko w jednym miejscu.

Poprzedni przykład przedstawia dwuwymiarowy krok. Jeśli macierz wejściowa jest trójwymiarowa, krok będzie również trójwymiarowy.

minimalizacja ryzyka strukturalnego (SRM)

Algorytm, który uwzględnia 2 cele:

Potrzeba utworzenia modelu o największym stopniu prognozowania (np. najmniejszej straty).

Potrzeba zachowania jak najprostszego modelu (np. silna regularność).

Na przykład funkcja, która minimalizuje straty i regularizację w zbiorze treningowym, jest algorytmem minimalizacji ryzyka strukturalnego.

Przeciwieństwem jest minimalizacja ryzyka empirycznego.

podpróbkowanie

#image

Patrz: pulacja.

token podrzędny

#language

W modelach językowych jest to token, który jest podłańcuchem słowa, którym może być całe słowo.

Na przykład wyraz „itemize” można podzielić na części „item” (słowo główne) i „ize” (przyrostek), z których każdy jest reprezentowany przez własny token. Rozdzielenie nietypowych słów na takie części, zwane podsłowami, umożliwia modelom językowym opracowanie bardziej typowych części składowych słowa, takich jak prefiksy i sufiksy.

I odwrotnie, popularne słowa, takie jak „bycie” mogą nie zostać podzielone i mogą być reprezentowane przez jeden token.

podsumowanie

#TensorFlow

W TensorFlow wartość lub zbiór wartości obliczonych w konkretnym kroku, zwykle używany do śledzenia wskaźników modelu podczas trenowania.

nadzorowane systemy uczące się

#fundamentals

Wytrenuj model z funkcji i odpowiadających im etykiet. Nadzorowane systemy uczące się przypominają uczenie się na dany temat – studiują zestaw pytań i odpowiadające na nie odpowiedzi. Po opanowaniu powiązania pytań i odpowiedzi uczeń może odpowiedzieć na nowe (nigdy wcześniej) pytania dotyczące tego samego tematu.

Porównaj z nienadzorowanymi systemami uczącymi się.

funkcja syntetyczna

#fundamentals

Cechę, której nie ma wśród funkcji wejściowych, ale została zbudowana z co najmniej 1 z nich. Metody tworzenia cech syntetycznych obejmują:

Grupowanie obiektu ciągłego w przedziały zakresów.

Tworzenie krzyżyków.

Mnożenie (lub dzielenie) jednej wartości cech przez wartości innych cech lub przez same wartości. Jeśli na przykład a i b są cechami wejściowymi, to przykłady funkcji syntetycznych to:

ab

a²

Zastosowanie funkcji transcendentalnej do wartości cech. Jeśli np. c jest cechą wejściową, to przykłady cech syntetycznych:

sin(c)

ln(c)

Funkcje utworzone przez normalizację lub skalowanie nie są uznawane za funkcje syntetyczne.

T

T5

#language

Model przenoszenia nauczania za pomocą tekstu na tekst został wdrożony przez sztuczną inteligencję Google w 2020 r.. T5 to model kodera-dekodera oparty na architekturze Transformera, wytrenowany na bardzo dużym zbiorze danych. Pomaga w różnych zadaniach związanych z przetwarzaniem języka naturalnego, takich jak generowanie tekstu, tłumaczenie języków i odpowiadanie na pytania w sposób konwersacyjny.

Nazwa T5 pochodzi od pięciu liter T w „Transformerze transferu tekstu na tekst”.

T5X

#language

Platforma typu open source systemów uczących się przeznaczona do tworzenia i trenowania dużych modeli przetwarzania języka naturalnego (NLP). Kod T5 jest zaimplementowany w bazie kodu T5X (opartej na technologii JAX i Flax).

tabelaryczne Q-learning

#rl

W ramach uczenia się przez wzmacnianie wdrożenie nauki Q przy użyciu tabeli do przechowywania funkcji Q dla każdej kombinacji stanu i działania.

cel

Synonim terminu etykieta.

sieć docelowa

#rl

W przypadku głębokiego Q-learningu sieć neuronowa będąca stabilnym przybliżeniem głównej sieci neuronowej, w której główna sieć neuronowa implementuje funkcję Q lub zasadę. Następnie możesz wytrenować główną sieć z wykorzystaniem wartości Q przewidzianych przez sieć docelową. Pozwala to uniknąć pętli informacji zwrotnych, która występuje, gdy główna sieć trenuje według samych prognozowanych wartości Q. Dzięki unikaniu tych sygnałów zwiększa się stabilność trenowania.

działanie

Problem, który można rozwiązać przy użyciu technik systemów uczących się, na przykład:

klasyfikacja

regresja

grupowanie

wykrywania anomalii,

temperatura

#language

#image

#generatywna AI

Hiperparametr, który kontroluje stopień losowości danych wyjściowych modelu. Wyższe temperatury oznaczają więcej losowych danych wyjściowych, a niższe – mniej losowych danych wyjściowych.

Wybór najlepszej temperatury zależy od konkretnej aplikacji i preferowanych właściwości danych wyjściowych modelu. Na przykład podnosisz temperaturę przy tworzeniu aplikacji, która generuje dane wyjściowe kreacji. I na odwrót, należałoby obniżyć temperaturę podczas tworzenia modelu, który klasyfikuje obrazy lub tekst, aby zwiększyć dokładność i spójność modelu.

Funkcja softmax jest często używana do określania temperatury.

dane czasowe

Dane zarejestrowane w różnych momentach. Przykład: dane dotyczące sprzedaży płaszczy zimowych rejestrowane dla każdego dnia roku to dane czasowe.

Tensor

#TensorFlow

Podstawowa struktura danych w programach TensorFlow. Tensory mają n-wymiarowe (gdzie N może być bardzo duże) struktury danych, najczęściej skalary, wektory lub macierze. Elementy Tensor mogą przyjmować wartości liczby całkowitej, liczby zmiennoprzecinkowej lub ciągu znaków.

TensorBoard

#TensorFlow

Panel, który wyświetla podsumowania zapisane podczas wykonywania co najmniej jednego programu TensorFlow.

TensorFlow

#TensorFlow

Duża, rozproszona platforma systemów uczących się. Termin dotyczy również podstawowej warstwy interfejsu API w stosie TensorFlow, która obsługuje ogólne obliczenia na wykresach Dataflow.

Mimo że TensorFlow używa się głównie do systemów uczących się, możesz go używać również do zadań niezwiązanych z systemami uczącymi się, które wymagają obliczeń liczbowych z wykorzystaniem wykresów przepływu danych.

Środowisko do testowania TensorFlow

#TensorFlow

Program, który wizualizuje wpływ różnych hiperparametrów na trenowanie modelu (głównie sieci neuronowych). Aby poeksperymentować z programem TensorFlow Playground, otwórz stronę http://playground.tensorflow.org.

Obsługa TensorFlow

#TensorFlow

Platforma do wdrażania wytrenowanych modeli w środowisku produkcyjnym.

Tensor Processing Unit (TPU)

#TensorFlow

#GoogleCloud

Układ scalony ASIC, który optymalizuje wydajność zadań systemów uczących się. Te układy ASIC są wdrożone jako wiele układów TPU na urządzeniu TPU.

Pozycja Tensor

#TensorFlow

Zobacz rank (Tensor).

Kształt tensora

#TensorFlow

Liczba elementów, które Tensor zawiera w różnych wymiarach. Na przykład Tensor [5, 10] ma w jednym wymiarze 5, a 10 w innym.

Rozmiar Tensor

#TensorFlow

Łączna liczba skalarów, które zawiera Tensor. Na przykład Tensor [5, 10] ma rozmiar 50.

TensorStore

Biblioteka umożliwiająca wydajne odczytywanie i pisanie dużych tablic wielowymiarowych.

warunek zakończenia

#rl

W uczeniu przez wzmacnianie warunki określające zakończenie odcinka, np. gdy agent osiągnie określony stan lub przekroczy progową liczbę przejść stanów. Na przykład w krzyżyku krzyżyk (znanym też jako znaków zapytania i krzyżyków) odcinek kończy się, gdy gracz oznaczy 3 kolejne spacje lub oznaczy wszystkie spacje.

test

#df

w drzewie decyzji inna nazwa warunku,

utrata testów

#fundamentals

Dane reprezentujące stratę modelu względem zbioru testowego. Podczas tworzenia model starasz się zwykle zminimalizować straty w testach. Dzieje się tak, ponieważ niska utrata testów jest silniejszym sygnałem jakości niż niska utrata wytrenowania lub niska utrata walidacji.

Duża przerwa między utratą testów a utratą trenowania lub walidacją może oznaczać konieczność zwiększenia częstotliwości regularyzacji.

zbiór testowy

Podzbiór zbioru danych zarezerwowany do testowania wytrenowanego modelu.

Tradycyjnie dzieli się przykłady w zbiorze danych na te 3 różne podzbiory:

zestawu szkoleniowego

zestawu weryfikacji,

zbiór testowy

Każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie powinien należeć jednocześnie do zbioru treningowego i testowego.

Zbiór treningowy i zestaw do walidacji są ściśle powiązane z trenowaniem modelu. Zbiór testowy jest tylko pośrednio powiązany z trenowaniem, dlatego utrata testów jest mniej tendencyjnym wskaźnikiem lepszej jakości niż utrata wytrenowania lub utrata walidacji.

rozpiętość tekstu

#language

Zakres indeksu tablicy powiązany z określoną podsekcją ciągu tekstowego. Na przykład słowo good w ciągu znaków s="Be good now" w Pythonie zajmuje fragment tekstu od 3 do 6.

tf.Example

#TensorFlow

Standardowy bufor protokołu do opisywania danych wejściowych na potrzeby trenowania lub wnioskowania modelu systemów uczących się.

tf.keras

#TensorFlow

Implementacja platformy Keras zintegrowana z TensorFlow.

próg (w przypadku drzew decyzyjnych)

#df

Wartość w warunku wyrównania do osi, z którą porównywana jest funkcja. Na przykład 75 to wartość progowa w przypadku tego warunku:

grade >= 75

Ten termin progu różni się od progu klasyfikacji.

analiza ciągów czasowych

#clustering

Podkategoria systemów uczących się i statystyk, która analizuje dane tymczasowe. Wiele typów problemów związanych z systemami uczącymi się wymaga analizy ciągów czasowych, w tym klasyfikacji, grupowania, prognozowania i wykrywania anomalii. Możesz na przykład użyć analizy ciągów czasowych, aby przewidzieć przyszłą sprzedaż płaszczy zimowych według miesięcy na podstawie historycznych danych o sprzedaży.

krok po kroku

#seq

1 „nieprzewinięta” komórka w powracającej sieci neuronowej. Na przykład na rysunku poniżej widać 3 kroki czasu (oznaczone indeksami dolnymi t-1, t i t+1):

token

#language

W modelu językowym atomowa jednostka, na której model się trenuje i na której tworzy prognozy. Token zwykle jest jednym z tych elementów:

słowo, na przykład wyrażenie „psy jak koty” składa się z 3 tokenów: „psy”, „jak” i „koty”.

po jednym znaku, np. wyrażenie „ryba na rowerze” składa się z 9 tokenów znakowych. (Pamiętaj, że puste miejsce jest liczone jako jeden z tokenów).

podsłowa, w których pojedyncze słowo może być pojedynczym tokenem lub wieloma tokenami; Słowo podrzędne składa się ze słowa głównego, prefiksu lub sufiksu. Na przykład model językowy używający słów podrzędnych jako tokenów może postrzegać słowo „psy” jako 2 tokeny (słowa głównego „pies” i przyrostek „s”). Ten sam model językowy może postrzegać pojedyncze słowo „wyższe” jako 2 słowa podrzędne (słowo główne „wysoki” i przyrostek „er”).

W domenach innych niż modele językowe tokeny mogą reprezentować inne rodzaje jednostek atomowych. Na przykład w przypadku rozpoznawania obrazów token może być podzbiorem obrazu.

Tower

Komponent głębokiej sieci neuronowej, który sam w sobie jest głęboką siecią neuronową. W niektórych przypadkach każda wieża odczytuje dane z niezależnego źródła danych, które pozostają niezależne, dopóki ich dane wyjściowe nie zostaną połączone w ostatniej warstwie. W niektórych przypadkach (np. w stosie/wieży kodera i dekodera wielu Transformatorów) wieże mają ze sobą połączenia krzyżowe.

TPU

#TensorFlow

#GoogleCloud

Skrót od wyrażenia Tensor Processing Unit.

Układ TPU

#TensorFlow

#GoogleCloud

Programowalny liniowy akcelerator algebry z wbudowaną pamięcią o dużej przepustowości i zoptymalizowaną pod kątem zbiorów zadań systemów uczących się. Urządzenie TPU jest wyposażone w wiele układów TPU.

Urządzenie TPU

#TensorFlow

#GoogleCloud

Płytka drukowana z wieloma układami TPU, interfejsami sieciowymi o dużej przepustowości i sprzętem chłodzącym system.

Główny TPU

#TensorFlow

#GoogleCloud

Centralny proces koordynacji działający na hoście, który wysyła i odbiera dane, wyniki, programy, wydajność i informacje o stanie systemu do instancji roboczych TPU. Główny moduł TPU zarządza też konfiguracją i wyłączaniem urządzeń TPU.

Węzeł TPU

#TensorFlow

#GoogleCloud

Zasób TPU w Google Cloud z określonym typem TPU. Węzeł TPU łączy się z Twoją siecią VPC przez równorzędną sieć VPC. Węzły TPU są zasobami zdefiniowanymi w Cloud TPU API.

pod TPU

#TensorFlow

#GoogleCloud

Konkretna konfiguracja urządzeń TPU w centrum danych Google. Wszystkie urządzenia w podzie TPU są połączone ze sobą przez dedykowaną szybką sieć. Pod TPU to największa konfiguracja urządzeń TPU dostępna dla określonej wersji TPU.

Zasób TPU

#TensorFlow

#GoogleCloud

Encja TPU w Google Cloud, którą tworzysz, którym zarządzasz lub którą używasz. Na przykład węzły TPU i typy TPU są zasobami TPU.

Wycinek TPU

#TensorFlow

#GoogleCloud

Wycinek TPU to ułamkowa część urządzeń TPU w podzie TPU. Wszystkie urządzenia w wycinku TPU są połączone ze sobą przez dedykowaną sieć o szybkości.

Typ TPU

#TensorFlow

#GoogleCloud

Konfiguracja co najmniej 1 urządzenia TPU z określoną wersją sprzętową TPU. Typ TPU wybierasz podczas tworzenia węzła TPU w Google Cloud. Na przykład typ TPU v2-8 to pojedyncze urządzenie TPU v2 z 8 rdzeniami. Typ TPU v3-2048 ma 256 urządzeń sieciowych TPU v3 i łącznie 2048 rdzeni. Typy TPU są zasobami zdefiniowanymi w Cloud TPU API.

Instancja robocza TPU

#TensorFlow

#GoogleCloud

Proces, który działa na hoście i uruchamia programy systemów uczących się na urządzeniach TPU.

szkolenie

#fundamentals

Proces określania idealnych parametrów (wag i odchyleń) wchodzących w skład modelu. Podczas trenowania system odczytuje dane z przykładów i stopniowo dostosowuje parametry. Podczas trenowania każdy przykład wykorzystywany jest od kilku do miliardów razy.

utrata treningu

#fundamentals

Dane reprezentujące utratę modelu podczas określonej iteracji trenowania. Załóżmy np., że funkcja straty to Średnia kwadratowa wartość błędu. Być może utrata trenowania (średni błąd podniesiony do kwadratu) przy 10. iteracji wynosi 2,2, a przy setnej iteracji – 1,9.

Krzywa straty przedstawia stratę trenowania w porównaniu z liczbą zakłóceń. Krzywa straty zawiera te wskazówki dotyczące trenowania:

Ten spadek oznacza, że model się poprawia.

Ten wzrost oznacza, że model się pogarsza.

Płaski spadek oznacza, że model osiągnął konwersję.

Na przykład tak wygląda nieco bardziej wyideizowana krzywa strat:

Ostry spadek w trakcie początkowych iteracji, co oznacza szybką poprawę modelu.

Stopniowo opadający (ale wciąż w dół) spadek aż do końca nauki, co oznacza ciągłe ulepszanie modelu w nieco wolniejszym tempie niż podczas początkowych iteracji.

Płaski spadek pod koniec trenowania, który sugeruje zbieżność.

Choć utrata trenowania jest ważna, zobacz też uogólnienie.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między wydajnością modelu podczas trenowania a wydajnością tego samego modelu podczas wyświetlania.

zestaw treningowy

#fundamentals

Podzbiór zbioru danych używany do trenowania modelu.

Zazwyczaj przykłady w zbiorze danych dzielą się na te 3 różne podzbiory:

zestaw treningowy

zestawu weryfikacji,

zbiór testowy,

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie powinien należeć jednocześnie do zbioru treningowego i zestawu do walidacji.

trajektoria

#rl

W obrębie uczenia się przez wzmacnianie jest to sekwencja elementów reprezentujących sekwencję przejścia stanu agenta, gdzie każda krotka odpowiada stanowi: działanie, nagroda i następny stan dla danego przejścia.

nauczanie związane z przekazywaniem danych

Przenoszenie informacji z jednego zadania systemów uczących się do innego. Na przykład w uczeniu wielozadaniowym pojedynczy model rozwiązuje wiele zadań, jak np. model głęboki, który ma różne węzły wyjściowe do różnych zadań. Przekazanie wiedzy może obejmować przenoszenie wiedzy z prostych zadań do bardziej złożonych lub przekazywanie wiedzy z zadań, w których jest więcej danych, do rozwiązania, w którym jest mniej danych.

Większość systemów uczących się wykonuje jedno zadanie. Nauka transferów to mały krok w kierunku sztucznej inteligencji, w którym pojedynczy program może rozwiązać wiele zadań.

Transformator

#language

Opracowana przez Google architektura sieci neuronowej, która opiera się na mechanizmach samodzielnej uwagi, aby przekształcać sekwencję reprezentacji właściwościowych w sekwencję osadzonych danych wyjściowych, nie korzystając z konwolucji ani powracających sieci neuronowych. Transformer to taki zbiór warstw, które skupiają uwagę.

Transformer może zawierać takie elementy:

kodera

dekoder

zarówno koder, jak i dekoder

Koder przekształca sekwencję wektorów dystrybucyjnych w nową sekwencję o tej samej długości. Koder zawiera N identycznych warstw, z których każda zawiera 2 warstwy podrzędne. Te 2 warstwy podrzędne są stosowane w każdej pozycji wejściowej sekwencji umieszczania, przekształcając każdy element sekwencji w nowe umieszczenie. Pierwsza warstwa podrzędna kodera agreguje informacje z sekwencji wejściowej. Druga warstwa podrzędna kodera przekształca zagregowane informacje w umieszczone dane wyjściowe.

Dekoder przekształca sekwencję reprezentacji właściwościowych w sekwencję reprezentacji danych wyjściowych, czasem o innej długości. Dekoder zawiera również N identycznych warstw z 3 warstwami podrzędnymi, z których 2 są podobne do warstw podrzędnych kodera. Trzecia podwarstwa dekodera pobiera dane wyjściowe kodera i stosuje mechanizm samodzielnej uwagi, aby zbierać z niej informacje.

Post na blogu Transformer: A Novel Neural Network Architecture for Language Understanding zawiera dobre wprowadzenie do Transformers.

niewariancja translacyjna

#image

W przypadku problemu z klasyfikacją obrazów algorytm musi skutecznie klasyfikować obrazy nawet wtedy, gdy zmieni się pozycja obiektów na obrazie. Na przykład algorytm nadal może zidentyfikować psa, niezależnie od tego, czy znajdzie się on w środkowej części kadru, czy po jego lewej stronie.

Patrz też niezmienność rozmiaru i niewariancja rotacji.

trygram

#seq

#language

N-gram, w którym N=3.

wynik prawdziwie negatywny (TN)

#fundamentals

Przykład, w którym model prawidłowo przewiduje klasę negatywną. Model zakłada na przykład, że dany e-mail nie jest spamem, a w rzeczywistości nie jest spamem.

prawdziwie dodatni (TP)

#fundamentals

Przykład, w którym model prawidłowo przewiduje klasę pozytywną. Model zakłada na przykład, że dany e-mail to spam, a ten naprawdę jest spamem.

Współczynnik prawdziwie dodatni (TPR)

#fundamentals

Synonim terminu wycofanie. Czyli:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Współczynnik wyników prawdziwie dodatnich to oś Y na krzywej ROC.

U

nieświadomość (w przypadku atrybutu o charakterze wrażliwym)

#fairness

Sytuacja, w której występują atrybuty poufne, ale nie są one uwzględnione w danych treningowych. Atrybuty wrażliwe często są skorelowane z innymi atrybutami danych, dlatego model wytrenowany z brakiem wiedzy na temat atrybutu poufnego nadal może mieć różnorodny wpływ w odniesieniu do tego atrybutu lub naruszać inne ograniczenia dotyczące obiektywności.

niedopasowany

#fundamentals

Utworzenie model o niskiej zdolności prognozowania, ponieważ nie udało się w pełni odzwierciedlić złożoności danych treningowych. Niedopasowanie może powodować wiele problemów, w tym:

Trenowanie z wykorzystaniem nieprawidłowego zestawu funkcji.

Trenowanie na zbyt małą liczbę epoki lub przy zbyt niskim tempie uczenia się.

Trenowanie ze zbyt wysoką częstotliwością regularyzacji.

Skonfigurowanie zbyt małej liczby ukrytych warstw w głębokiej sieci neuronowej.

niedopróbkowane

Usunięcie przykładów z klasy większości w zbiorze danych o niezrównoważonym klasie w celu utworzenia bardziej zrównoważonego zestawu szkoleniowego.

Weźmy na przykład zbiór danych, w którym stosunek klasy większości do klasy mniejszości wynosi 20:1. Aby przezwyciężyć tę nierównowagę klas, można utworzyć zbiór treningowy zawierający wszystkie przykłady klas mniejszości, ale tylko dziesiątkę takich przykładów klas większości. Dzięki temu współczynnik klas zbioru do trenowania będzie wynosić 2:1. Dzięki niedopróbkowaniu ten bardziej zrównoważony zbiór treningowy może wytworzyć lepszy model. Ten bardziej zrównoważony zbiór treningowy może też zawierać za mało przykładów, aby wytrenować skuteczny model.

Skontrastowanie z nadmiernym próbkowaniem.

jednokierunkowa

#language

System oceniający tylko tekst, który występuje przed docelową sekcją tekstu. Natomiast system dwukierunkowy ocenia zarówno tekst, który poprzedza, jak i następuje po docelowej sekcji tekstu. Więcej informacji znajdziesz w sekcji Dwukierunkowy.

jednokierunkowy model językowy

#language

Model językowy, którego prawdopodobieństwo opiera się wyłącznie na tokenach występujących przed, a nie po tokenach docelowych. Porównaj z dwukierunkowym modelem językowym.

przykład bez etykiety

#fundamentals

Przykład zawierający wartość features, ale bez atrybutu label. Na przykład w tabeli poniżej znajdują się 3 przykłady bez etykiet z modelu wyceny domu, z których każdy ma 3 cechy, ale nie ma wartości nieruchomości:

Liczba sypialni Liczba łazienek Wiek rodziny

3 2 15

2 1 72

4 2 34

W nadzorowanych systemach uczących się modele trenują na przykładach z etykietami i generują prognozy na przykładach bez etykiet.

W uczeniu częściowo nadzorowanym i nienadzorowanym podczas trenowania używane są przykłady bez etykiet.

Porównaj przykład bez etykiety z przykładem z etykietą.

nienadzorowane systemy uczące się

#clustering

#fundamentals

Trenowanie model służącego do znajdowania wzorców w zbiorze danych, zwykle bez etykiety.

Najpopularniejszym zastosowaniem nienadzorowanych systemów uczących się jest grupowanie danych w grupy podobnych przykładów. Na przykład nienadzorowany algorytm systemów uczących się może grupować utwory według różnych właściwości muzyki. Utworzone w ten sposób klastry mogą stać się danymi wejściowymi dla innych algorytmów systemów uczących się (np. usługi rekomendacji muzycznych). Grupowanie może być przydatne, gdy przydatnych etykiet brakuje lub w ogóle nie ma w nich przydatnych etykiet. Na przykład w domenach takich jak przeciwdziałanie nadużyciom i oszustwom klastry mogą pomóc użytkownikom lepiej zrozumieć dane.

Porównaj je z nadzorowanymi systemami uczącymi się.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi.

Innym przykładem nienadzorowanych systemów uczących się jest analiza głównych komponentów (PCA). Na przykład zastosowanie PCA do zbioru danych zawierającego miliony koszyków może ujawnić, że koszyki zawierające cytryny często zawierają też środki zobojętniające.

modelowanie wzrostu

Technika modelowania, powszechnie stosowana w marketingu, która modeluje „efekt przyczynowy” (zwany również „przyrostowym wpływem”) „leczenia” na „osobę”. Poniżej przedstawiamy dwa przykłady:

Lekarze mogą wykorzystywać modelowanie wzrostu, aby przewidzieć spadek śmiertelności (skutek powodujący) zabieg medyczny (leczenie) w zależności od wieku i historii medycznej pacjenta.

Marketerzy mogą wykorzystać modelowanie wzrostu, aby przewidzieć wzrost prawdopodobieństwa zakupu (efekt przyczynowy) z powodu reklamy (leczenia) odnoszącej się do osoby (osoby).

Modelowanie wzrostu różni się od klasyfikacji czy regresji tym, że w modelowaniu wzrostu zawsze brakuje niektórych etykiet (np. połowy etykiet w grupie binarnej). Na przykład pacjent może rozpocząć leczenie lub nie. Dlatego możemy tylko obserwować, czy uda się wyleczyć pacjenta tylko w jednej z tych 2 sytuacji (ale nigdy w obu). Główną zaletą modelu wzrostu jest to, że może on generować prognozy dla niezaobserwowanej sytuacji (kontrfaktycznej) i wykorzystywać go do obliczania efektu przyczynowo-skutkowego.

przeważanie

Przypisanie do klasy downspróbkowanej wagi równym współczynnikowi, o który próbowano w niższym stopniu.

macierz użytkowników

#recsystems

W systemach rekomendacji jest to wektor umieszczania generowany przez rozbicie macierzy, który przechowuje ukryte sygnały dotyczące preferencji użytkownika. Każdy wiersz w tablicy użytkowników zawiera informacje o względnej skuteczności różnych ukrytych sygnałów danego użytkownika. Weźmy na przykład system rekomendacji filmów. W tym systemie sygnały ukryte w tablicy użytkownika mogą reprezentować zainteresowania użytkownika konkretnymi gatunkami lub mogą być trudniejsze do zinterpretowania sygnałów, które wiążą się ze złożonymi interakcjami obejmującymi wiele czynników.

Macierz użytkowników zawiera kolumnę dla każdej funkcji ukrytej i po jednym wierszu dla każdego użytkownika. Oznacza to, że macierz użytkowników ma taką samą liczbę wierszy jak macierz docelowa, która jest uwzględniana na czynniki. Na przykład w systemie rekomendacji filmów obejmujących 1 000 000 użytkowników tablica użytkowników będzie zawierała 1 000 000 wierszy.

V

sprawdzanie poprawności

#fundamentals

Wstępna ocena jakości modelu. Weryfikacja pozwala sprawdzić jakość prognoz modelu w porównaniu z zbiorem walidacji.

Zbiór do walidacji różni się od zbioru treningowego, więc weryfikacja pomaga zapobiegać przestojom.

Ocena modelu w ramach zbioru do weryfikacji możesz potraktować jako pierwszą rundę testowania, a potem ocenić go w ramach zbioru testowego jako drugą rundę testowania.

utrata walidacji

#fundamentals

Dane reprezentujące utratę zbioru weryfikacji modelu podczas określonej iteracji trenowania.

Zobacz też krzywą uogólnienia.

zestaw do walidacji

#fundamentals

Podzbiór zbioru danych, który przeprowadza wstępną ocenę w porównaniu z wytrenowanym modelem. Zwykle porównujesz wytrenowany model kilka razy z zbiorem weryfikacji, zanim ocenisz go na podstawie zbioru testowego.

Tradycyjnie dzieli się przykłady w zbiorze danych na te 3 różne podzbiory:

zestawu szkoleniowego

zbiór do walidacji

zbiór testowy,

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie powinien należeć jednocześnie do zbioru treningowego i zestawu do walidacji.

przypisywanie wartości

Proces zastępowania brakującej wartości akceptowanym zamiennikiem. Jeśli brakuje wartości, możesz odrzucić cały przykład lub użyć przypisywania wartości, aby go odzyskać.

Weźmy na przykład zbiór danych zawierający funkcję temperature, która jest rejestrowana co godzinę. Przez konkretną godzinę odczyt temperatury był jednak niedostępny. Oto sekcja zbioru danych:

Sygnatura czasowa Temperatura

1680561000 10

1680564600 12

1680568200 brak

1680571800 20

1680575400 21

1680579000 21

W zależności od algorytmu imputacji system może usunąć brakujący przykład lub przypisać brakującą temperaturę jako 12, 16, 18 lub 20.

zadanie znikającego gradientu

#seq

Tendencje gradientów wczesnych ukrytych warstw w niektórych głębokich sieciach neuronowych staje się zaskakująco płaskie (niskie). Coraz niższy poziom gradientów oznacza coraz mniejsze zmiany wagi węzłów w głębokiej sieci neuronowej, co prowadzi do słabszego uczenia się lub jego braku. Trenowanie modeli cierpiących na problem znikającego gradientu staje się trudne lub niemożliwe. Komórki pamięci długoterminowej rozwiązują ten problem.

Porównaj z problemem z eksplozującym gradientem.

zmienne znaczenia

#df

Zbiór wyników wskazujący względne znaczenie poszczególnych cech dla modelu.

Rozważmy na przykład drzewo decyzji do szacowania cen domów. Załóżmy, że to drzewo decyzyjne ma 3 cechy: rozmiar, wiek i styl. Jeśli zbiór zmiennych znaczenia tych trzech cech obliczymy jako {size=5.8, age=2.5, style=4.7}, rozmiar jest ważniejszy dla drzewa decyzji niż wiek czy styl.

Istnieją różne wskaźniki ważności, które mogą przekazywać ekspertom ML informacje o różnych aspektach modeli.

wariacyjny autokoder (VAE)

#language

Rodzaj autokodera, który korzysta z rozbieżności między danymi wejściowymi i wyjściowymi w celu generowania zmodyfikowanych wersji danych wejściowych. Autokodery wariacyjne przydają się w przypadku generatywnej AI.

Wskaźniki VAE opierają się na wnioskowaniu wariacyjnym, czyli technice szacowania parametrów modelu prawdopodobieństwa.

wektor

Bardzo przeciążone termin, którego znaczenie różni się w zależności od dziedziny matematyki i nauki. W systemach uczących się wektor ma 2 właściwości:

Typ danych: wektory w systemach uczących się zawierają zwykle liczby zmiennoprzecinkowe.

Liczba elementów: długość wektora lub jego wymiar.

Rozważmy na przykład wektor funkcji zawierający 8 liczb zmiennoprzecinkowych. Ten wektor cech ma długość lub wymiar wynoszący osiem. Pamiętaj, że wektory systemów uczących się często mają ogromną liczbę wymiarów.

Za pomocą wektorów możesz przedstawiać różne rodzaje informacji. Na przykład:

Każda pozycja na powierzchni Ziemi może być przedstawiona jako wektor dwuwymiarowy, gdzie jeden wymiar to szerokość, a drugi długość geograficzna.

Aktualne ceny każdej z 500 akcji można przedstawić w postaci wektora 500 wymiarów.

Rozkład prawdopodobieństwa w skończonej liczbie klas można przedstawić jako wektor. Na przykład system klasyfikacji wieloklasowej, który przewiduje jeden z 3 kolorów wyjściowych (czerwony, zielony lub żółty), może zwrócić wektor (0.3, 0.2, 0.5) jako średnią P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Wektory można łączyć, więc różne media można przedstawić jako jeden. Niektóre modele działają bezpośrednio na konkatenacji wielu kodowań jednorazowych.

Specjalne procesory, takie jak TPU, są zoptymalizowane pod kątem wykonywania operacji matematycznych na wektorach.

Wektor to tensor o wartości rankingu 1.

Ś

Strata Wassersteina

Jedna z funkcji straty często stosowanych w generatywnych sieciach kontradyktoryjnych na podstawie odległości przesuwającego ziemi między dystrybucją wygenerowanych danych a danymi rzeczywistymi.

waga

#fundamentals

Wartość, którą model mnoży przez inną wartość. Trenowanie to proces ustalania idealnej wagi modelu, a wnioskowanie to proces wykorzystywania nauczonych wag do prognozowania.

Kliknij ją, aby zobaczyć przykładowe wagi w modelu liniowym.

Wyobraź sobie model liniowy z 2 elementami. Załóżmy, że trenowanie określa te wagi (i odchylenie):

Odchylenie, b, ma wartość 2,2.

Waga ₁ powiązana z jedną funkcją wynosi 1, 5.

Waga, w₂ powiązana z inną funkcją, wynosi 0,4.

Teraz wyobraźmy sobie przykład z następującymi wartościami funkcji:

Wartość 1 cechy, x₁, wynosi 6.

Wartość drugiej cechy, x₂, wynosi 10.

Ten model liniowy do wygenerowania prognozy używa tej formuły, tj. „y”:

$$y' = b + w_1x_1 + w_2x_2$$

Prognoza jest zatem:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Jeśli waga wynosi 0, odpowiadająca jej cecha nie jest uwzględniana w modelu. Jeśli np. w ₁ wartość wynosi 0, wartość x₁ jest nieistotna.

Naprzemienne ważone najmniejsze kwadraty (WALS)

#recsystems

Algorytm minimalizujący funkcję celu podczas fabrykacji macierzy w systemach rekomendacji, który umożliwia zmniejszenie wagi brakujących przykładów. WALS minimalizuje ważony błąd kwadratowy między oryginalną macierzą a rekonstrukcją, naprzemiennie między naprawieniem rozkładu wierszy a rozkładaniem kolumn na czynniki pierwsze. Każdą z tych optymalizacji można rozwiązać za pomocą optymalizacji wypukłej jak najmniejszych kwadratów. Więcej informacji znajdziesz w kursie dotyczącym systemów rekomendacji.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez odpowiadające im wagi. Załóżmy na przykład, że dane wejściowe składają się z tych elementów:

wartość wejściowa waga wejściowa

2 -1,3

-1 0,6

3 0,4

Suma ważona wygląda więc tak:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Suma ważona to argument wejściowy funkcji aktywacji.

model szeroki

Model liniowy, który zwykle ma wiele niewielkich funkcji wejściowych. Określamy je jako „szeroki”, ponieważ jest to specjalny typ sieci neuronowej z dużą liczbą danych wejściowych, które łączą się bezpośrednio z węzłem wyjściowym. Modele szerokie są często łatwiejsze do debugowania i sprawdzenia niż modele głębokie. Chociaż szerokie modele nie mogą wyrażać nieliniowości za pomocą ukrytych warstw, szerokie modele mogą wykorzystywać przekształcenia takie jak przekształcanie cech i zasobniki danych do modelowania nieliniowości na różne sposoby.

Skontrastowanie z modelem głębokim.

szerokość

Liczba neuronów w konkretnej warstwie sieci neuronowej.

mądrość tłumu

#df

koncepcja, że uśrednianie opinii lub szacunków dużej grupy osób („tłum”) często daje zaskakująco dobre wyniki. Weźmy na przykład grę, w której ludzie zgadują, ile galaretki w dużym słoiku. Choć większość przypuszczeń jest niedokładna, średnia wszystkich domysłów jest zaskakująco zbliżona do rzeczywistej liczby galaretek w słoiku.

Ensembles to programowy odpowiednik mądrości tłumu. Nawet wtedy, gdy poszczególne modele generują bardzo niedokładne prognozy, uśrednione prognozy wielu modeli często generują zaskakująco dobre prognozy. Na przykład drzewo decyzji może generować słabe prognozy, ale las decyzji często tworzy bardzo trafne prognozy.

wektor dystrybucyjny

#language

Reprezentowanie każdego słowa w zestawie słów w wektorze osadzonym, czyli reprezentowanie każdego słowa jako wektorze wartości zmiennoprzecinkowych z zakresu od 0.0 do 1.0. Wyrazy o podobnych instrukcjach wyglądają podobnie do innych słów. Na przykład marchew, celant i ogórek będą miały stosunkowo podobne obrazy, które bardzo różnią się od przykładów samolotu, okularów przeciwsłonecznych czy pasty do zębów.

X

XLA (Przyspieszona algebra liniowa)

Kompilator systemów uczących się typu open source dla GPU, procesorów i akceleratorów ML.

Kompilator XLA wykorzystuje modele z popularnych platform ML, takich jak PyTorch, TensorFlow i JAX, i optymalizuje je pod kątem wysokiej wydajności na różnych platformach sprzętowych, takich jak GPU, procesory i akceleratory systemów uczących się.

Z

nauka „zero-shot”

Rodzaj trenowania systemów uczących się, w którym model generuje prognozę dla zadania, w którym nie został jeszcze wytrenowany. Innymi słowy, model nie otrzyma przykładów trenowania do konkretnego działania, ale otrzyma prośbę o wnioskowanie w przypadku tego zadania.

prompt „zero-shot”

#language

#generatywna AI

Wskazówka, która nie zawiera przykładowego sposobu, w jaki duży model językowy ma reagować. Na przykład:

Elementy jednego promptu Notatki

Jaka jest oficjalna waluta danego kraju? Pytanie, na które ma odpowiedzieć LLM.

Indie: Faktyczne zapytanie.

Duży model językowy może odpowiadać dowolnej z tych wartości:

Rupia

INR

₹

Rupia indyjska

rupia

Rupia indyjska

Wszystkie odpowiedzi są prawidłowe, ale możesz preferować konkretny format.

Porównaj prompty typu zero-shot z tymi terminami:

prompt typu „one-shot”

prompt typufew-shot

Normalizacja wyniku Z

#fundamentals

Metoda skalowania, która zastępuje nieprzetworzoną wartość cechy wartością zmiennoprzecinkową reprezentującą liczbę odchyleń standardowych od wartości średniej cechy. Rozważmy np. funkcję, której średnia wartość wynosi 800, a odchylenie standardowe wynosi 100. W tabeli poniżej pokazujemy, jak normalizacja wyniku Z odwzorowałaby nieprzetworzoną wartość na jej wynik Z:

Wartość nieprzetworzona Ocena Z

800 0

950 +1,5

575 -2,25

Model systemów uczących się trenuje następnie na wynikach Z dla danej cechy, a nie na nieprzetworzonych wartościach.

	Casablanca	Historia Filadelfii	Czarna Pantera	Wonder Woman	Pulp fiction
Użytkownik 1	5,0	3,0	0.0	2,0	0.0
Użytkownik 2	4.0	0.0	0.0	1.0	5,0
Użytkownik 3	3,0	1.0	4.0	5,0	0.0

N	Nazwy dla tego rodzaju N-gramów	Przykłady
2	bigram, czyli 2 gramy	iść, jechać, zjeść obiad, zjeść kolację
3	trygram lub 3 gramy	zdało się za dużo, trzy niewidome myszki, dzwonki i dzwonki
4	4 gramy	spacerować w parku, pył na wietrze, chłopiec zjadł soczewicę

country	Wektor
„Dania”	1	0	0	0	0
„Szwecja”	0	1	0	0	0
„Norwegia”	0	0	1	0	0
„Finlandia”	0	0	0	1	0
„Islandia”	0	0	0	0	1

Kategoria promptu	Przykład	Notatki
Pytanie	`Jak szybko lata gołąb?`
Instrukcja	`Napisz zabawny wiersz o arbitrażu.`	Prompt z prośbą o wykonanie jakiegoś działania przez duży model językowy.
Przykład	`Przetłumacz kod Markdown na HTML. Na przykład: Markdown: * element listy HTML: <ul> <li>element listy</li> </ul>`	Pierwsze zdanie w tym przykładowym promptie to instrukcja. Pozostała część promptu jest przykładowa.
Rola	`Wyjaśnij, dlaczego zejście gradientowe jest używane podczas nauki systemów uczących się podczas studiów doktoranckich z fizyki.`	Pierwsza część zdania jest instrukcją, a zdania „dla doktora fizyki” – rolę.
Częściowe dane wejściowe do ukończenia modelu	`Premier Wielkiej Brytanii mieszka w`	Częściowe żądanie danych wejściowych może kończyć się nagle (jak w tym przykładzie) lub kończyć podkreśleniem.

Sygnatura czasowa	Temperatura
1680561000	10
1680564600	12
1680568200	brak
1680571800	20
1680575400	21
1680579000	21