Słowniczek systemów uczących się

W tym glosariuszu znajdziesz definicje terminów związanych z uczenie maszynowe.

A

ablacja

Technika oceny znaczenia cechy lub komponentu polegająca na ich tymczasowym usunięciumodelu. Następnie ponownie trenujesz model bez tej funkcji lub komponentu. Jeśli po ponownym przeszkoleniu model działa znacznie gorzej, prawdopodobnie usunięta funkcja lub komponent był ważny.

Załóżmy na przykład, że trenujesz model klasyfikacji na podstawie 10 cech i osiągasz 88% dokładności w zbiorze testowym. Aby sprawdzić znaczenie pierwszej cechy, możesz przetrenować model tylko z użyciem 9 innych cech. Jeśli model po ponownym przeszkoleniu działa znacznie gorzej (np. z dokładnością 55%), usunięty atrybut był prawdopodobnie ważny. Jeśli natomiast model po ponownym przeszkoleniu działa równie dobrze, prawdopodobnie dana cecha nie była aż tak ważna.

Ablazja może też pomóc określić znaczenie:

  • większe komponenty, takie jak cały podsystem większego systemu ML;
  • procesy lub techniki, takie jak etap wstępnego przetwarzania danych;

W obu przypadkach możesz obserwować, jak zmienia się (lub nie zmienia) skuteczność systemu po usunięciu komponentu.

Testy A/B

Statystyczny sposób porównywania 2 lub więcej technik: A i B. Zwykle A to istniejąca technika, a B to nowa technika. Testy A/B nie tylko określają, która technika jest skuteczniejsza, ale też czy różnica jest istotna statystycznie.

Test A/B zwykle porównuje 1 dane w 2 metodach, np. jak wypada dokładność w 2 metodach. Testy A/B mogą jednak porównywać dowolną ograniczoną liczbę danych.

element akceleratora

#GoogleCloud

Kategoria specjalistycznych komponentów sprzętowych zaprojektowanych do wykonywania kluczowych obliczeń potrzebnych do działania algorytmów uczenia głębokiego.

Urządzenia przyspieszające (czyli akceleratory) mogą znacznie zwiększyć szybkość i wydajność zadań związanych z trenowaniem oraz wnioskowaniem w porównaniu z procesorem uniwersalnym. Są one idealne do trenowania sieci neuronowych i podobnych zadań wymagających dużej mocy obliczeniowej.

Przykłady układów przyspieszających:

  • Jednostki Tensor Processing Unit (TPU) firmy Google (TPU) z dedykowanym sprzętem do deep learningu.
  • Procesory graficzne NVIDIA, które choć początkowo były przeznaczone do przetwarzania grafiki, umożliwiają przetwarzanie równoległe, co może znacznie zwiększyć szybkość przetwarzania.

dokładność

#fundamentals

Liczba poprawnych prognoz podzielona przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który trafnie przewidział 40 wartości i 10 wartości błędnie, miałby dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja binarna umożliwia nadawanie konkretnych nazw różnym kategoriom prawidłowych prognoznieprawidłowych prognoz. Wzór dokładności w przypadku klasyfikacji binarnej:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

Porównaj dokładność z precyzjościączułością.

Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane z nimi dane z Kursu intensywnego z systemów uczących się.

działanie

#rl

nauce przez wzmacnianie jest to mechanizm, za pomocą którego agent przechodzi między stanami środowiska. Agent wybiera działanie na podstawie polityki.

funkcja aktywacji

#fundamentals

Funkcja, która umożliwia sieciom neuronowym uczenie się nieliniowych (złożonych) relacji między cechami a etykietą.

Popularne funkcje aktywacji:

Wykresy funkcji aktywacji nigdy nie są prostymi liniami prostymi. Na przykład wykres funkcji aktywacyjnej ReLU składa się z dwóch linii prostych:

Układ kartezjański 2 linii. Pierwsza linia ma stałą wartość y równą 0, biegnącą wzdłuż osi x od –nieskończoności,0 do 0, –0.
          Druga linia zaczyna się od 0,0. Ma ona nachylenie +1, więc biegnie od 0,0 do +nieskończoność,+nieskończoność.

Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Dwowymiarowa krzywa z wartościami x w zakresie od -nieskończoności do +dodatnich, a wartościami y w zakresie od prawie 0 do prawie 1. Gdy x = 0, y = 0,5. Nachylenie krzywej jest zawsze dodatnie, przy czym największe nachylenie występuje przy wartości 0,05, a nachylenie stopniowo maleje wraz ze wzrostem bezwzględnej wartości x.

Więcej informacji znajdziesz w artykule Neural networks: Activation functions (Neural networks: funkcje aktywacyjne) z cyklu Crash Course z machine learning.

aktywne uczenie się

Metoda treningowa, w której algorytm wybiera część danych, z których się uczy. Aktywna nauka jest szczególnie przydatna, gdy oznaczone przykłady są trudno dostępne lub ich zdobycie jest kosztowne. Zamiast ślepo szukać zróżnicowanego zakresu przykładów z oznacznikami, algorytm aktywnego uczenia się selektywnie wyszukuje określony zakres przykładów, których potrzebuje do nauki.

AdaGrad

Zaawansowany algorytm gradientu prostego, który zmienia skalę gradientów każdego parametru, co w efekcie daje każdemu parametrowi niezależną szybkość uczenia się. Pełne wyjaśnienie znajdziesz w tym artykule na temat AdaGrad.

agent

#rl

W nauczaniu wzmacniającym jest to podmiot, który korzysta z reguły, aby zmaksymalizować oczekiwany zwrot uzyskany z przejścia między stanami otoczenia.

Ogólnie rzecz biorąc, agent to oprogramowanie, które autonomicznie planuje i wykonuje sekwencję działań w celu osiągnięcia celu, przy czym jest w stanie dostosować się do zmian w swoim środowisku. Na przykład agent oparty na LLM może używać LLM do generowania planu zamiast stosować zasady uczenia wzmacniającego.

klastering aglomeracyjny

#clustering

Zobacz hierarchiczne grupowanie.

wykrywanie anomalii

Proces identyfikowania wypadków. Jeśli na przykład średnia cechy wynosi 100, a odchylenie standardowe – 10, wykrywanie anomalii powinno oznaczyć wartość 200 jako podejrzaną.

AR

Skrót od rzeczywistości rozszerzonej.

obszar pod krzywą PR

Zobacz PR AUC (obszar pod krzywą PR).

obszar pod krzywą ROC

Zobacz AUC (obszar pod krzywą ROC).

sztuczna inteligencja ogólna

Mechanizm niebędący człowiekiem, który wykazuje szerokie spektrum zdolności do rozwiązywania problemów, kreatywności i adaptacji. Na przykład program demonstrujący sztuczną inteligencję ogólną może tłumaczyć tekst, tworzyć symfonie i wygrywać w gry, które jeszcze nie zostały wymyślone.

sztuczna inteligencja

#fundamentals

program lub model, który potrafi wykonywać złożone zadania. Na przykład program lub model, który tłumaczy tekst, lub program lub model, który identyfikuje choroby na podstawie obrazów radiologicznych, wykorzystuje sztuczną inteligencję.

Formalnie systemy uczące się to poddziedzina sztucznej inteligencji. Jednak w ostatnich latach niektóre organizacje zaczęły używać terminów sztuczna inteligencjauczenie maszynowe zamiennie.

uwaga

#language

Mechanizm używany w sieci neuronowej, który wskazuje znaczenie danego słowa lub jego części. Uwaga kompresuje ilość informacji, których model potrzebuje do przewidywania następnego tokena lub słowa. Typowe mechanizmy uwagi mogą składać się z ważonej sumy zbioru danych wejściowych, gdzie waga dla każdego wejścia jest obliczana przez inną część sieci neuronowej.

Zapoznaj się też z konceptami samouczenia uwagiwielopunktowej samouczenia uwagi, które są elementami składowymi transformacji.

Więcej informacji o samouczeniu znajdziesz w artykule LLM: czym są duże modele językowe? z cyklu „Szkolenie z systemów uczących się”.

atrybut

#fairness

Synonim funkcji.

W systemach uczących się sprawiedliwość często odnosi się do cech dotyczących poszczególnych osób.

próbkowanie atrybutów

#df

Taktyka trenowania lasu decyzyjnego, w której każdy drzewo decyzyjne bierze pod uwagę tylko losowy podzbiór możliwych cech podczas uczenia się stanu. Zazwyczaj w przypadku każdego węzła jest losowany inny podzbiór cech. Natomiast podczas trenowania drzewa decyzyjnego bez próbkowania atrybutów w przypadku każdego węzła są brane pod uwagę wszystkie możliwe cechy.

AUC (obszar pod krzywą ROC)

#fundamentals

Liczba z zakresu od 0,0 do 1,0 reprezentująca zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Im bliższa 1,0 jest wartość AUC, tym większa jest zdolność modelu do oddzielania klas od siebie.

Na przykład ilustracja poniżej przedstawia model klasyfikatora, który doskonale oddziela klasy pozytywne (zielone owalne pola) od klas negatywnych (fioletowe prostokąty). Ten nierealistycznie idealny model ma AUC 1,0:

Po jednej stronie osi liczbowej znajduje się 8 pozytywnych przykładów, a po drugiej – 9 negatywnych.

Ilustracja poniżej przedstawia wyniki modelu klasyfikatora, który generował losowe wyniki. Ten model ma AUC 0,5:

Linia liczbowa z 6 pozytywnymi i 6 ujemnymi przykładami.
          Kolejność przykładów to: pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny, pozytywny, negatywny.

Tak, poprzedni model ma AUC 0,5, a nie 0,0.

Większość modeli znajduje się gdzieś pomiędzy tymi dwoma skrajnościami. Na przykład poniższy model w pewnym stopniu oddziela pozytywne wyniki od negatywnych, dlatego jego AUC mieści się w zakresie od 0,5 do 1,0:

Linia liczbowa z 6 pozytywnymi i 6 ujemnymi przykładami.
          Kolejność przykładów to: negatywny, negatywny, negatywny, negatywny, pozytywny, negatywny, pozytywny, pozytywny, negatywny, pozytywny, pozytywny.

AUC ignoruje dowolną wartość ustawioną dla progu klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi kwalifikacji.

Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

rzeczywistość rozszerzona

#image

Technologia, która nakłada obraz wygenerowany komputerowo na widok świata widziany przez użytkownika, tworząc w ten sposób obraz złożony.

autoencoder

#language
#image

System, który uczy się wyodrębniać najważniejsze informacje z danych wejściowych. Autoenkodery to połączenie enkoderadekodera. Autoenkoder działa w ramach następującego dwuetapowego procesu:

  1. Koder mapuje dane wejściowe na (zazwyczaj) stratny format o mniejszej wymiarowości (pośredni).
  2. Dekoder tworzy wersję pierwotnego wejścia z utratą jakości, mapując format o mniejszym wymiarze na pierwotny format wejściowy o większym wymiarze.

Autoenkodery są trenowane kompleksowo, ponieważ dekoder próbuje odtworzyć oryginalne dane wejściowe z pośredniego formatu kodowania w jak najwierniejszy sposób. Ponieważ format pośredni jest mniejszy (ma mniejszą wymiarność) niż format oryginalny, autoencoder musi się nauczyć, które informacje z danych wejściowych są istotne. Dane wyjściowe nie będą dokładnie takie same jak dane wejściowe.

Na przykład:

  • Jeśli dane wejściowe to grafika, kopia nieścisła będzie podobna do oryginalnej grafiki, ale nieco zmodyfikowana. Być może kopia niepełna usuwa szum z pierwotnej grafiki lub wypełnia brakujące piksele.
  • Jeśli dane wejściowe to tekst, autoencoder wygeneruje nowy tekst, który będzie naśladował (ale nie będzie identyczny) z oryginałem.

Zobacz też wariacyjne autoenkodery.

automatyczna ocena

#language
#generativeAI

Korzystanie z oprogramowania do oceny jakości danych wyjściowych modelu.

Gdy dane wyjściowe modelu są stosunkowo proste, skrypt lub program może porównać je z złotą odpowiedzią. Ten typ automatycznej oceny jest czasem nazywany automatyczną oceną. Dane takie jak ROUGE lub BLEU są często przydatne do automatycznej oceny.

Gdy dane wyjściowe modelu są złożone lub nie ma jednej prawidłowej odpowiedzi, automatyczna ocena jest czasami wykonywana przez oddzielny program ML o nazwie autorater.

Porównaj z weryfikacją manualną.

błąd automatyzacji

#fairness

Gdy osoba podejmująca decyzję preferuje rekomendacje tworzone przez automatyczny system podejmowania decyzji nad informacjami tworzonymi bez automatyzacji, nawet gdy automatyczny system podejmowania decyzji popełnia błędy.

Więcej informacji znajdziesz w sekcji Uczciwość: rodzaje uprzedzeń z Kursu intensywnego na temat uczenia maszynowego.

AutoML

dowolny zautomatyzowany proces tworzenia modeli uczenia maszynowego, AutoML może automatycznie wykonywać takie zadania:

AutoML jest przydatny dla badaczy danych, ponieważ pozwala im zaoszczędzić czas i siły na tworzenie ścieżek uczenia maszynowego oraz poprawiać dokładność prognoz. Jest ona też przydatna dla osób bez specjalistycznej wiedzy, ponieważ ułatwia im wykonywanie skomplikowanych zadań związanych z systemami uczącymi się.

Więcej informacji znajdziesz w sekcji Automatyczne systemy uczące się (AutoML) w szybkim szkoleniu z uczenia maszynowego.

autorater evaluation

#language
#generativeAI
Hybrydowy mechanizm oceny jakości danych wyjściowych modelu generatywnej AI, który łączy ocenę manualną z oceną automatyczną. Autor tekstów to model ML trenowany na podstawie danych utworzonych przez ludzi. W idealnej sytuacji narzędzie automatyczne uczy się naśladować ludzkiego weryfikatora.

Dostępne są gotowe autory, ale najlepsze autory są dopasowywane do konkretnego zadania, które oceniasz.

model autoregresyjny

#language
#image
#generativeAI

model, który wyprowadza prognozę na podstawie swoich poprzednich prognoz. Na przykład autoregresyjne modele językowe przewidują następny token na podstawie wcześniej przewidzianych tokenów. Wszystkie duże modele językowe oparte na transformerach są autoregresyjne.

Z kolei modele obrazów oparte na GAN zwykle nie są autoregresyjne, ponieważ generują obraz w jednym przejeździe do przodu, a nie w kolejnych krokach. Jednak niektóre modele do generowania obrazów autoregresyjne, ponieważ generują obraz krok po kroku.

utrata pomocnicza

Funkcja utraty – używana w połączeniu z główną funkcją utraty modelu sieci neuronowej, która pomaga przyspieszyć trenowanie podczas wczesnych iteracji, gdy wagi są inicjowane losowo.

Funkcje pomocnicze funkcji straty przesyłają skuteczne gradienty do wcześniejszych warstw. Ułatwia to konwergencji podczas treningu, ponieważ zwalcza problem zanikania gradientu.

średnia precyzja w k

#language

Dane podsumowujące skuteczność modelu w przypadku pojedynczego promptu, który generuje wyniki w postaci rankingu, np. ponumerowaną listę rekomendacji książek. Średnia precyzja k to średnia precyzji dla każdego odpowiedniego wyniku. Wzór na średnią precyzję w przypadku k:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

gdzie:

  • \(n\) to liczba odpowiednich elementów na liście.

Porównaj z przypomnieniem na poziomie k.

warunek zgodny z osią

#df

W drzewie decyzyjnym warunek, który obejmuje tylko 1 cechę. Jeśli na przykład area jest cechą, to warunek dopasowany do osi będzie wyglądał tak:

area > 200

Kontrast z warunkiem ukośnym.

B

propagacja wsteczna

#fundamentals

Algorytm, który stosuje spadkowy gradientsieciach neuronowych.

Szkolenie sieci neuronowej obejmuje wiele iterations w ramach tego 2-etapowego cyklu:

  1. Podczas przesyłania do przodu system przetwarza partię przykładów, aby uzyskać prognozy. System porównuje każdą prognozę z każdą wartością etykiety. Różnica między prognozą a wartością etykiety to strata w danym przykładzie. System agreguje straty dla wszystkich przykładów, aby obliczyć łączną stratę dla bieżącego zbioru danych.
  2. Podczas przesyłania wstecznego (backpropagation) system zmniejsza straty przez dostosowanie wag wszystkich neuronów we wszystkich warstwach ukrytych.

Sieci neuronowe często zawierają wiele neuronów na wielu warstwach ukrytych. Każdy z tych neuronów w inny sposób wpływa na ogólną stratę. Wsteczna propagacja określa, czy zwiększyć czy zmniejszyć wagi zastosowane do poszczególnych neuronów.

Tempo uczenia się to mnożnik, który kontroluje stopień, w jakim każda iteracja wsteczna zwiększa lub zmniejsza każdą wagę. Duże tempo uczenia się będzie zwiększać lub zmniejszać każdą wagę bardziej niż małe tempo uczenia się.

W terminologii rachunku różniczkowego i zbiórczego propagacja wsteczna implementuje regułę łańcuszkową. Oznacza to, że propagacja wsteczna oblicza częściową pochodną błędu względem każdego parametru.

Jeszcze kilka lat temu użytkownicy ML musieli pisać kod, aby zaimplementować propagację wsteczną. Nowoczesne interfejsy API do uczenia maszynowego, takie jak Keras, implementują teraz wsteczną propagację za Ciebie. Uff...

Więcej informacji znajdziesz w sekcji Sieci neuronowe w szybkim szkoleniu z uczenia maszynowego.

bagging

#df

Metoda treningu zbioru, w którym każdy model jest trenowany na losowym podzbiorze przykładów treningowych z wymianą. Na przykład losowy las to zbiór drzew decyzyjnych wytrenowanych za pomocą metody baggingu.

Termin bagging to skrót od bootstrap aggregating.

Więcej informacji znajdziesz w temacie lasy losowe w kursie Lasy decyzyjne.

bag of words

#language

reprezentacja słów w wyrażeniu lub fragmencie tekstu, niezależnie od ich kolejności. Na przykład torebka słów reprezentuje te 3 wyrażenia w identyczny sposób:

  • pies skacze
  • skacze na psa
  • pies skacze

Każde słowo jest mapowane na indeks w rzadkim wektorze, który zawiera indeks dla każdego słowa w słowniku. Na przykład wyrażenie pies skacze jest mapowane na wektor cech z wartościami innymi niż 0 w 3 indeksach odpowiadających słowom the, dogjumps. Wartość różna od 0 może być dowolna:

  • 1, aby wskazać obecność słowa.
  • Liczba wystąpień słowa w worku. Jeśli na przykład wyrażenie brzmiałoby brązowy pies to pies o brązowym futrze, zarówno brąz, jak i pies miałyby wartość 2, a pozostałe słowa – wartość 1.
  • inną wartość, np. logarytm z liczby wystąpień słowa w worku.

bazowa

Model używany jako punkt odniesienia do porównania skuteczności innego modelu (zwykle bardziej złożonego). Na przykład model regresji logistycznej może stanowić dobrą podstawę dla głębokiego modelu.

W przypadku konkretnego problemu punkt odniesienia pomaga deweloperom modeli określić minimalną oczekiwaną skuteczność, jaką nowy model musi osiągnąć, aby był przydatny.

wsad

#fundamentals

Zestaw przykładów użytych w jednej iteracji. Rozmiar partii określa liczbę przykładów w partii.

Informacje o związku zbioru z epoką znajdziesz w sekcji epoka.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

zbiorcze wnioskowanie

#TensorFlow
#GoogleCloud

Proces wyprowadzania prognoz na podstawie wielu nieoznaczonych przykładów podzielonych na mniejsze podzbiory („partie”).

W przypadku zbiorczego wnioskowania można korzystać z funkcji równoległości układów przyspieszających. Oznacza to, że wiele akceleratorów może jednocześnie wyprowadzać prognozy na różnych partiach nieoznaczonych przykładów, znacznie zwiększając liczbę wnioskowań na sekundę.

Więcej informacji znajdziesz w sekcji Produkcyjne systemy ML: statystyczne a dynamiczne wnioskowanie z Kursu intensywnego z uczenia maszynowego.

normalizacja zbiorcza

Normalizacja danych wejściowych lub wyjściowych funkcji aktywacjiwarstwie utajonej. Normalizacja zbiorcza może przynieść następujące korzyści:

wielkość wsadu

#fundamentals

Liczba przykładówpartii. Jeśli na przykład rozmiar partii wynosi 100, model przetwarza 100 przypadków na iterację.

Oto popularne strategie dotyczące rozmiaru wsadu:

  • Stochastyczny spadek wzdłuż gradientu (SGD), w którym rozmiar partii wynosi 1.
  • pełny wsad, w którym rozmiar wsadu to liczba przykładów w całym zbiorze treningowym; Jeśli np. zbiór treningowy zawiera milion przykładów, rozmiar partii będzie wynosił milion przykładów. Strategia polegająca na użyciu pełnej partii jest zwykle nieskuteczna.
  • minipartyjnych, w których rozmiar partii wynosi zwykle od 10 do 1000. Strategia minipartii jest zwykle najskuteczniejsza.

Więcej informacji znajdziesz w tych artykułach:

Sieć neuronowa Bayesa

Probabilistyczna sieć neuronowa, która uwzględnia niepewność w wagach i wyjściach. Standardowy model regresji sieci neuronowej prognozuje wartość skalarną. Na przykład standardowy model prognozuje cenę domu na poziomie 853 tys. Natomiast sieć neuronowa bayesowska przewiduje rozkład wartości. Na przykład model bayesowski przewiduje cenę domu na poziomie 853 tys. zł z odchyleniem standardowym 67 tys. zł.

Sieć neuronowa Bayesa korzysta z  twierdzenia Bayesa do obliczania niepewności wag i prognoz. Sieć neuronowa Bayesa może być przydatna, gdy ważne jest ilościowe określenie niepewności, na przykład w modelach związanych z lekami. Sieci neuronowe Bayesa mogą też zapobiegać nadmiernemu dopasowaniu.

Optymalizacja bayesowska

Technika modelu regresji probabilistycznej służąca do optymalizacji kosztownej pod względem obliczeniowym funkcji celu, która zamiast tego optymalizuje funkcję zastępczą, która określa niepewność za pomocą techniki uczenia bayesowskiego. Optymalizacja bayesowska jest bardzo kosztowna, dlatego zwykle służy do optymalizowania zadań, które są kosztowne w weryfikacji i mają niewielką liczbę parametrów, np. dobierania hiperparametrów.

równanie Bellmana

#rl

W uczeniu ze wzmocnieniem ta tożsamość jest zaspokajana przez optymalną funkcję Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algorytmy uczenia przez wzmacnianie wykorzystują tę tożsamość do tworzenia uczenia przez wzmacnianie za pomocą reguły aktualizacji:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Poza uczeniem wzmacniającym równanie Bellmana ma zastosowanie w programowaniu dynamicznym. Zapoznaj się z  artykułem na temat równania Bellmana w Wikipedii.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Architektura modelu do reprezentowania tekstu. Wytrenowany model BERT może być częścią większego modelu do klasyfikacji tekstu lub innych zadań uczenia maszynowego.

BERT ma te cechy:

Dostępne warianty BERT:

Aby zapoznać się z omówieniem modelu BERT, przeczytaj artykuł Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing.

uprzedzenie (etyka/sprawiedliwość)

#fairness
#fundamentals

1. Tworzenie stereotypów lub faworyzowanie określonych rzeczy, ludzi lub grup względem innych. Te uprzedzenia mogą wpływać na zbieranie i interpretowanie danych, projektowanie systemu oraz sposób, w jaki użytkownicy z nim współpracują. Do tego rodzaju stronniczości należą m.in.:

2. Błąd systematyczny wprowadzony przez procedury próbkowania lub raportowania. Do tego rodzaju stronniczości należą m.in.:

Nie należy mylić tego pojęcia z terminem „bias” w modelach uczenia maszynowego ani z uprzedzeniem prognozy.

Więcej informacji znajdziesz w sekcji Uczciwość: rodzaje uprzedzeń z Kursu intensywnego z machine learningu.

uprzedzenie (matematyka) lub wyraz uprzedzenia

#fundamentals

Przecięcie lub przesunięcie od punktu początkowego. Uprzedzenie to parametr w modelach uczenia maszynowego, który jest symbolizowany przez jedną z tych wartości:

  • b
  • w0

Na przykład wartość przesunięcia to b w tej formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W przypadku prostej linii dwuwymiarowej nachylenie oznacza po prostu „współrzędna y”. Na przykład na ilustracji poniżej nachylenie linii wynosi 2.

Wykres linii o nachyle 0,5 i błądzie (współrzędna y) równym 2.

Występuje ona, ponieważ nie wszystkie modele zaczynają się od punktu wyjścia (0,0). Załóżmy na przykład, że wstęp do parku rozrywki kosztuje 2 euro, a za każdą dodatkową godzinę pobytu klient płaci dodatkowo 0,5 euro. Dlatego model mapujący łączny koszt ma odchylenie 2, ponieważ najniższy koszt wynosi 2 euro.

Uprzedzeń nie należy mylić z uprzedzeniami dotyczącymi etyki i obiektywności ani z uprzedzeniami w prognozach.

Więcej informacji znajdziesz w sekcji Regresja liniowa w Szybkim szkoleniu z uczenia maszynowego.

dwukierunkowy

#language

Termin używany do opisania systemu, który ocenia tekst zarówno poprzedzający, jak i następujący docelowy fragment tekstu. Natomiast jednokierunkowy system analizuje tylko tekst, który poprzedza docelowy fragment tekstu.

Weźmy na przykład zamaskowany model językowy, który musi określić prawdopodobieństwa dla słowa lub słów reprezentowanych przez podkreślenie w takim pytaniu:

Co jest dla Ciebie ważne?

Model językowy jednokierunkowy musiałby opierać swoje prawdopodobieństwa tylko na kontekście określonym przez słowa „co”, „jest” i „to”. Natomiast dwukierunkowy model językowy może uzyskać kontekst z wyrażeń „z” i „tobą”, co może pomóc w generowaniu lepszych prognoz.

dwukierunkowy model językowy

#language

model językowy, który określa prawdopodobieństwo wystąpienia danego tokena w danej lokalizacji w wyciągu z tekstu na podstawie poprzedniegonastępnego tekstu.

bigram

#seq
#language

N-gram, w którym N=2.

klasyfikacja binarna

#fundamentals

Typ zadania klasyfikacji, które przewiduje jedną z 2 wzajemnie wykluczających się klas:

Na przykład 2 modele systemów uczących się wykonują podział na klasy binarne:

  • Model, który określa, czy wiadomości e-mail są spamem (klasa pozytywna) czy nie są spamem (klasa negatywna).
  • Model, który ocenia objawy medyczne, aby określić, czy dana osoba ma określoną chorobę (klasa pozytywna) czy nie (klasa negatywna).

Porównaj z klasyfikacją wieloklasową.

Zobacz też tematy regresja logistycznawartość progowa klasyfikacji.

Więcej informacji znajdziesz w sekcji Klasyfikacja w Szybkim szkoleniu z uczenia maszynowego.

warunek binarny

#df

W drzewie decyzyjnym występuje warunek, który ma tylko 2 możliwe wyniki, zwykle tak lub nie. Przykładem warunku binarnego jest:

temperature >= 100

Porównaj z stanem niebinarnym.

Więcej informacji znajdziesz w sekcji Typy warunków w Kursie „Lasy decyzyjne”.

grupowanie

Synonim bucketingu.

BLEU (Bilingual Evaluation Understudy)

#language

Dane o zakresie od 0,0 do 1,0 służące do oceny tłumaczeń maszynowych, np. z hiszpańskiego na japoński.

Aby obliczyć wynik, BLEU zwykle porównuje tłumaczenie modelu ML (tekst wygenerowany) z tłumaczeniem eksperta (tekst referencyjny). Wynik BLEU zależy od stopnia dopasowania n-gramów w wygenerowanym tekście i tekście referencyjnym.

Pierwotny artykuł na temat tego wskaźnika to BLEU: a Method for Automatic Evaluation of Machine Translation.

Zobacz też BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

#language

Wskaźnik służący do oceny tłumaczeń maszynowych z jednego języka na inny, zwłaszcza z i na język angielski.

W przypadku tłumaczeń z i na język angielski BLEURT jest bardziej zbliżony do ocen nadawanych przez ludzi niż BLEU. W odróżnieniu od BLEU BLEURT kładzie nacisk na podobieństwo semantyczne (znaczeniowe) i może uwzględniać parafrazowanie.

BLEURT korzysta z wstępnie wytrenowanych dużych modeli językowych (dokładnie BERT), które są następnie dostrojone na podstawie tekstu od ludzkich tłumaczy.

Pierwotny artykuł na temat tego wskaźnika to BLEURT: Learning Robust Metrics for Text Generation.

wzmacnianie

Technika systemów uczących się, która iteracyjnie łączy zestaw prostych i niezbyt dokładnych klasyfikatorów (zwanych „słabymi”) w klasyfikator o wysokiej dokładności (czyli „silny”). Dokonuje tego, zwiększając wagę przykładów, które model obecnie klasyfikuje błędnie.

Więcej informacji znajdziesz w sekcji Czym są drzewa decyzyjne z wzmocnieniem gradientowym? w Kursie dotyczącym lasów decyzyjnych.

ramka ograniczająca

#image

Na obrazie współrzędne (x, y) prostokąta wokół obszaru zainteresowania, np. psa na obrazie poniżej.

Zdjęcie psa siedzącego na sofie. Zielona ramka ograniczająca z współrzędnymi (275, 1271) w lewym górnym rogu i współrzędnymi (2954, 2761) w prawym dolnym rogu obejmuje ciało psa

nadawanie

Rozszerzanie kształtu operandu w ramach operacji matematycznej na macierzach do wymiarów zgodnych z tą operacją. Na przykład w algebrze liniowej wymagane jest, aby 2 operandy w operacji dodawania macierzy miały te same wymiary. W związku z tym nie możesz dodawać macierzy o kształcie (m, n) do wektora o długości n. Transmisja umożliwia tę operację, wirtualnie rozszerzając wektor o długości n do macierzy o kształcie (m, n) przez powielanie tych samych wartości w każdej kolumnie.

Na przykład zgodnie z podanymi niżej definicjami algebra liniowa zabrania dodawania elementów A + B, ponieważ mają one różne wymiary:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Jednak transmisja umożliwia operację A + B poprzez wirtualne rozszerzenie B do:

 [[2, 2, 2],
  [2, 2, 2]]

W ten sposób A + B jest teraz prawidłową operacją:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Więcej informacji znajdziesz w poniższym opisie rozsyłania w NumPy.

skategoryzowanie w przedziałach

#fundamentals

Przekształcanie pojedynczej cechy w wiele cech binarnych zwanych zasobnikami lub bindami, zwykle na podstawie zakresu wartości. Funkcja pocięta jest zwykle ciągła.

Na przykład zamiast przedstawiać temperaturę jako pojedynczą ciągłą cechę zmiennoprzecinkową, możesz podzielić zakresy temperatur na oddzielne zbiory, takie jak:

  • < 10 stopni Celsjusza to „zimno”.
  • 11–24 stopnie Celsjusza to „umiarkowany” zakres.
  • >= 25 stopni Celsjusza to zakres „ciepły”.

Model będzie traktować wszystkie wartości w tym samym zbiorze w identyczny sposób. Na przykład wartości 1322 znajdują się w worku z umiarkowanym klimatem, więc model traktuje te 2 wartości tak samo.

Więcej informacji znajdziesz w sekcji Dane liczbowe: zagregowanie danych w szybkim szkoleniu z uczenia maszynowego.

C

warstwa kalibracji

Korekta po prognozie, która zwykle uwzględnia błąd prognozy. Skorygowane prognozy i wartości prawdopodobieństwa powinny być zgodne z rozkładem obserwowanego zbioru etykiet.

generowanie kandydatów

#recsystems

Początkowy zestaw rekomendacji wybrany przez system rekomendacji. Weźmy na przykład księgarnię, która oferuje 100 tys. tytułów. Faza generowania kandydatów tworzy znacznie mniejszą listę odpowiednich książek dla danego użytkownika, na przykład 500 książek. Ale nawet 500 książek to za dużo, aby polecić je użytkownikowi. Kolejne, droższe fazy systemu rekomendacji (np. ocenianieponownie ustalanie rankingu) ograniczają te 500 wartości do znacznie mniejszego, bardziej przydatnego zestawu rekomendacji.

Więcej informacji znajdziesz w omówieniu generowania kandydatów w Kursie z systemów rekomendacji.

próbkowanie kandydatów

Optymalizacja podczas trenowania, która oblicza prawdopodobieństwo dla wszystkich pozytywnych etykiet, używając na przykład softmaxa, ale tylko dla losowej próbki etykiet negatywnych. Na przykład w przypadku przykładu z etykietą beagledog próbkowanie kandydatów oblicza przewidywane prawdopodobieństwa i odpowiednie warunki utraty dla:

  • beagle
  • dog
  • losowy podzbiór pozostałych klas wyników negatywnych (np. kot, lizak, płot).

Założenie jest takie, że klasy negatywne mogą się uczyć na podstawie rzadszego wzmocnienia negatywnego, o ile klasy pozytywne zawsze otrzymują odpowiednie wzmocnienie pozytywne. Jest to rzeczywiście obserwowane empirycznie.

Próbkowanie kandydatów jest bardziej wydajne pod względem obliczeniowym niż algorytmy trenowania, które obliczają prognozy dla wszystkich klas negatywnych, zwłaszcza gdy liczba klas negatywnych jest bardzo duża.

dane kategorialne

#fundamentals

Cechy mające określony zestaw możliwych wartości. Rozważmy na przykład cechę metryczną o nazwie traffic-light-state, która może przyjmować jedną z 3 możliwych wartości:

  • red
  • yellow
  • green

Dzięki temu, że traffic-light-state jest reprezentowana jako cecha kategorialna, model może się uczyć o różnych wpływach zmiennych red, greenyellow na zachowanie kierowcy.

Funkcje kategorialne są czasami nazywane funkcjami dyskretnymi.

Kontrastuje z danymi liczbowymi.

Więcej informacji znajdziesz w sekcji Praca z danymi kategorycznymi w Kursie intensywnym z systemów uczących się.

przyczynowy model językowy

#language

Synonim jednokierunkowego modelu językowego.

Zapoznaj się z artykułem Dwukierunkowa model języka, aby poznać różne podejścia do modelowania języka.

centroid

#clustering

Środek klastra określony przez algorytm k-średnich lub k-median. Jeśli na przykład k = 3, algorytm k-średnich lub k-median znajdzie 3 centroidy.

Więcej informacji znajdziesz w sekcji Algorytmy klastrowe w Kursie z klastrów.

grupowanie na podstawie centroidów

#clustering

Kategoria algorytmów grupowania, które porządkują dane w grupy niehierarchiczne. Algorytm k-średnich to najczęściej używany algorytm grupowania oparty na środku ciężkości.

Porównaj z algorytmami hierarchicznego grupowania.

Więcej informacji znajdziesz w sekcji Algorytmy klastrowe w Kursie z klastrów.

wykorzystanie w prompcie łańcucha myśli

#language
#generativeAI

Technika zastosowania prompta, która zachęca duży model językowy (LLM) do wyjaśniania krok po kroku swojego rozumowania. Weź pod uwagę tę prośbę, zwracając szczególną uwagę na drugie zdanie:

Ile g siły przyspieszenia odczuwa kierowca w samochodzie, który przyspiesza z 0 do 60 mil na godzinę w 7 sekund? W odpowiedzi podaj wszystkie istotne obliczenia.

Odpowiedź LLM:

  • Wyświetl sekwencję wzorów fizycznych, podając w odpowiednich miejscach wartości 0, 60 i 7.
  • Wyjaśnij, dlaczego wybrano te wzory i co oznaczają poszczególne zmienne.

Prompty typu „ciąg myśli” zmuszają LLM do wykonania wszystkich obliczeń, co może skutkować bardziej poprawną odpowiedzią. Ponadto prompt łańcucha myślenia umożliwia użytkownikowi sprawdzenie kroków LLM, aby określić, czy odpowiedź ma sens.

czat

#language
#generativeAI

Treść dialogu z systemem ML, zwykle z dużym modelem językowym. Poprzednia interakcja w czacie (to, co wpisujesz i jak duży model językowy reaguje) staje się kontekstem dla kolejnych części czatu.

Czatbot to aplikacja oparta na dużym modelu językowym.

punkt kontroli

Dane, które rejestrują stan parametrów modelu podczas trenowania lub po jego zakończeniu. Na przykład podczas szkolenia możesz:

  1. Zatrzymanie trenowania, być może celowo lub w wyniku pewnych błędów.
  2. Przechwyć punkt kontrolny.
  3. Później ponownie załaduj punkt kontrolny, najlepiej na innym sprzęcie.
  4. Ponownie uruchom trening.

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Na przykład:

Model klasyfikacji prognozuje klasę. Z kolei model regresji prognozuje liczbę, a nie klasę.

Więcej informacji znajdziesz w sekcji Klasyfikacja w Szybkim szkoleniu z uczenia maszynowego.

model klasyfikacji

#fundamentals

model, którego prognoza to klasa. Na przykład wszystkie modele klasyfikacji:

  • Model, który przewiduje język zdania wejściowego (francuski? Hiszpański? włoski).
  • Model, który przewiduje gatunek drzewa (Maple? Oak? Baobab?).
  • Model, który prognozuje klasę pozytywną lub negatywną dla określonego stanu medycznego.

Modele regresji przewidują natomiast liczby, a nie klasy.

Dostępne są 2 popularne typy modeli klasyfikacji:

próg klasyfikacji

#fundamentals

W przypadku klasyfikacji binarnej liczba z zakresu od 0 do 1, która przekształca wynik nieprzetworzony modelu regresji logistycznej w prognozę klasy pozytywnej lub klasy negatywnej. Pamiętaj, że próg klasyfikacji to wartość wybrana przez człowieka, a nie przez trenowanie modelu.

Model regresji logistycznej zwraca wartość surową z zakresu od 0 do 1. Następnie:

  • Jeśli ta wartość jest większa od progu klasyfikacji, prognozowana jest klasa pozytywna.
  • Jeśli ta wartość jest niższa od progu klasyfikacji, przewidywana jest klasa negatywna.

Załóżmy na przykład, że próg klasyfikacji wynosi 0,8. Jeśli wartość nieprzetworzona wynosi 0,9, model prognozuje klasę pozytywną. Jeśli wartość surowa wynosi 0,7, model przewiduje klasę negatywną.

Wybór progu klasyfikacji ma duży wpływ na liczbę wyników fałszywie pozytywnychwyników fałszywie negatywnych.

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

zbiór danych z niezrównoważonymi klasami

#fundamentals

Zbiór danych do problemu klasyfikacji, w którym łączna liczba etykiet w poszczególnych klasach różni się znacznie. Rozważmy na przykład zbiór danych do klasyfikacji binarnej, w którym 2 etykiety są podzielone w ten sposób:

  • 1 000 000 etykiet negatywnych
  • 10 etykiet pozytywnych

Stosunek etykiet negatywnych do pozytywnych wynosi 100 000 do 1, więc jest to zbiór danych z niezrównowagą klas.

Natomiast ten zbiór danych nie jest niezrównoważony pod względem klas, ponieważ stosunek etykiet negatywnych do etykiet pozytywnych jest stosunkowo zbliżony do 1:

  • 517 etykiet negatywnych
  • 483 etykiety pozytywne

Zbiory danych z wieloma klasami mogą też być niezrównoważone pod względem klas. Na przykład ten zbiór danych do klasyfikacji wieloklasowej jest również niezrównoważony pod względem klas, ponieważ jedna etykieta ma znacznie więcej przykładów niż pozostałe 2:

  • 1 000 000 etykiet z klasą „green”
  • 200 etykiet z klasą „purple”
  • 350 etykiet z klasą „pomarańczowy”

Zobacz też entropię, klasę większościklasę mniejszości.

przycinanie

#fundamentals

Technika obsługi wartości odstające polegająca na wykonaniu jednej z tych czynności:

  • Obniżanie wartości cechy, które są wyższe niż maksymalny próg, do tego maksymalnego progu.
  • zwiększenie wartości atrybutów, które są mniejsze niż minimalny próg, do tego minimalnego progu;

Załóżmy na przykład, że mniej niż 0,5% wartości danej cechy wypada poza zakres 40–60. W takim przypadku możesz:

  • Wszystkie wartości powyżej 60 (maksymalny próg) są przycinane do 60.
  • Wszystkie wartości poniżej 40 (minimalny próg) są przycinane do 40.

Wartości odstające od reszty mogą uszkodzić modele, czasami powodując przepełnienie wag podczas trenowania. Niektóre wartości odstające mogą też znacznie zaburzać wskaźniki takie jak trafność. Przycinanie to powszechna technika ograniczania szkód.

Odcięcie gradientu wymusza wartości gradientu w określonym zakresie podczas trenowania.

Więcej informacji znajdziesz w sekcji Dane liczbowe: normalizacja z Kursu intensywnego na temat uczenia maszynowego.

Cloud TPU

#TensorFlow
#GoogleCloud

Specjalny akcelerator sprzętowy zaprojektowany z myślą o przyspieszaniu zadań systemów uczących się w Google Cloud.

grupowanie

#clustering

grupowanie powiązanych przykładów, zwłaszcza podczas nauki nienadzorowanej. Gdy wszystkie przykłady zostaną pogrupowane, użytkownik może opcjonalnie nadać znaczenie poszczególnym klasterom.

Istnieje wiele algorytmów grupowania. Na przykład algorytm k-średnich grupował przykłady według ich bliskości do środka ciężkości, jak widać na tym diagramie:

Wykres dwuwymiarowy, na którym oś X ma etykietę „szerokość drzewa”, a oś Y – „wysokość drzewa”. Wykres zawiera 2 centroidy i kilkanaście punktów danych. Punkty danych są kategoryzowane na podstawie ich bliskości. Oznacza to, że punkty danych
          najbliższe jednego centroidu są klasyfikowane jako klaster 1, a
          najbliższe drugiego centroidu – jako klaster 2.

Następnie badacz może przejrzeć klastry i na przykład oznaczyć klaster 1 jako „karłowate drzewa”, a klaster 2 jako „drzewa w normalnym rozmiarze”.

Innym przykładem jest algorytm grupowania oparty na odległości przykładu od punktu środkowego, jak pokazano na ilustracji:

Kilkanaście punktów danych jest rozmieszczonych w kolistych okręgach, niemal jak otwory wokół środka tarczy do rzutu lotką. Najwewnętrzny krąg punktów danych jest skategoryzowany jako klaster 1, środkowy krąg jako klaster 2, a zewnętrzny krąg jako klaster 3.

Więcej informacji znajdziesz w Kursie dotyczącym klasteringu.

współadaptacja

Gdy neurony przewidują wzorce w danych treningowych, opierając się prawie wyłącznie na wyjściach konkretnych innych neuronów, a nie na zachowaniu sieci jako całości. Jeśli w danych weryfikacyjnych nie występują wzorce, które powodują adaptację współbieżną, to adaptacja współbieżna powoduje nadmierne dopasowanie. Regulacja polegająca na pomijaniu zmniejsza współadaptację, ponieważ pomijanie sprawia, że neurony nie mogą polegać wyłącznie na innych neuronach.

filtrowanie grupowe

#recsystems

przewidywania zainteresowań jednego użytkownika na podstawie zainteresowań wielu innych użytkowników; Filtrowanie oparte na współpracy jest często używane w systemach rekomendacji.

Więcej informacji znajdziesz w temacie filtrowania współpracy w kursie dotyczącym systemów rekomendacji.

dryf koncepcji,

zmiana relacji między cechami a etykietą. Z upływem czasu odchylenie od koncepcji obniża jakość modelu.

Podczas trenowania model uczy się relacji między cechami a ich etykietami w zbiorze treningowym. Jeśli etykiety w zbiorze treningowym dobrze odzwierciedlają rzeczywistość, model powinien dobrze prognozować w rzeczywistych warunkach. Jednak z powodu zmiany koncepcji przewidywania trafność prognoz modelu z czasem spada.

Rozważmy na przykład model binarnej klasyfikacji, który przewiduje, czy dany model samochodu jest „oszczędny pod względem zużycia paliwa”. Oznacza to, że funkcje mogą:

  • masa samochodu
  • kompresja silnika
  • typ transmisji

gdy etykieta jest:

  • niskie spalanie
  • nie jest oszczędne pod względem zużycia paliwa;

Jednak koncepcja „oszczędnego samochodu” wciąż się zmienia. Model samochodu oznaczony w 1994 r. jako oszczędny w paliwo w 2024 r. z pewnością zostałby oznaczony jako nieoszczędny w paliwo. Model, który cierpi na problem z dryfowaniem koncepcji, z czasem generuje coraz mniej przydatnych prognoz.

Porównaj z niestacionarnością.

warunek

#df

W drzewie decyzji dowolny węzeł, który ocenia wyrażenie. Na przykład ta część drzewa decyzyjnego zawiera 2 warunki:

Drzewo decyzyjne z 2 warunkami: (x > 0) i (y > 0).

Warunek jest też nazywany podziałem lub testem.

Warunek kontrastu z liśćmi.

Zobacz także:

Więcej informacji znajdziesz w sekcji Typy warunków w Kursie „Lasy decyzyjne”.

konfabulacja

#language

Synonim halucynacji.

Konfabulacja jest prawdopodobnie bardziej poprawnym terminem technicznym niż halucynacja. Jednak najpierw popularność zyskała halucynacja.

konfiguracja

Proces przypisywania początkowych wartości właściwości służących do trenowania modelu, w tym:

W projektach systemów uczących się konfigurację można ustawić za pomocą specjalnego pliku konfiguracji lub bibliotek konfiguracji, takich jak:

efekt potwierdzenia

#fairness

to tendencja do wyszukiwania, interpretowania, faworyzowania i przywoływania informacji w sposób, który potwierdza wcześniejsze przekonania lub hipotezy. Deweloperzy systemów uczących się mogą nieumyślnie zbierać lub oznaczać dane w sposób, który wpływa na wynik, potwierdzając ich dotychczasowe przekonania. Efekt potwierdzenia jest formą nieświadomego uprzedzeń.

Błąd eksperymentatora to forma efektu potwierdzenia, w której eksperymentator kontynuuje trenowanie modeli do momentu potwierdzenia wcześniejszej hipotezy.

tablica pomyłek

#fundamentals

Tabela N × N, która podsumowuje liczbę poprawnych i niepoprawnych prognoz modelu klasyfikacji. Rozważmy na przykład tę tablicę pomyłek dla modelu dwumiantowej klasyfikacji:

Nowotwór (prognoza) Nienowotworowe (prognozy)
Nowotwór (dane podstawowe) 18 (TP) 1 (FN)
Nienowotwor (dane podstawowe) 6 (FP) 452 (TN)

Powyższa tablica pomyłek pokazuje:

  • Spośród 19 prognoz, w których dane podstawowe to „Nowotwór”, model prawidłowo zaklasyfikował 18 z nich, a jedną błędnie.
  • Spośród 458 prognoz, w których przypadku dane podstawowe wskazywały, że nie ma guza, model prawidłowo sklasyfikował 452 z nich, a nieprawidłowo 6.

Tablica pomyłek dla problemu wieloklasowej klasyfikacji może pomóc w identyfikacji wzorców błędów. Rozważ na przykład tę macierz błędów dla 3-klasowego modelu klasyfikacji wieloklasowej, który kategoryzuje 3 różne rodzaje irysów (Virginica, Versicolor i Setosa). Gdy dane podstawowe to „Virginica”, tablica pomyłek pokazuje, że model znacznie częściej błędnie przewidywał „Versicolor” niż „Setosa”:

  Setosa (prognoza) Versicolor (prognoza) Virginica (prognoza)
Setosa (dane podstawowe) 88 12 0
Versicolor (dane podstawowe) 6 141 7
Virginica (dane podstawowe) 2 27 109

Innym przykładem może być macierz błędów, która może ujawnić, że model wytrenowany do rozpoznawania odręcznie wpisanych cyfr często błędnie przewiduje 9 zamiast 4 lub 1 zamiast 7.

Matryc konfuzji zawiera wystarczającą ilość informacji do obliczenia różnych wskaźników skuteczności, w tym precyzjiczułości.

analizowanie okręgów wyborczych

#language

Dzielenie zdania na mniejsze struktury gramatyczne („elementy składowe”). Późniejsza część systemu ML, np. model rozumienia języka naturalnego, może analizować składniki z większą łatwością niż oryginalne zdania. Weź pod uwagę na przykład takie zdanie:

Mój przyjaciel adoptował 2 koty.

Analizator składowych może podzielić to zdanie na 2 składniki:

  • Mój przyjaciel to wyrażenie rzeczownikowe.
  • adopting two cats to wyrażenie czasownika.

Te składniki można dalej dzielić na mniejsze składniki. Na przykład czasownik

adoptował 2 koty

można podzielić na:

  • adopted to czasownik.
  • dwa koty to inny rzeczownik.

kontekstowy wektor dystrybucyjny języka

#language
#generativeAI

Wyraźnie, które zbliża się do „rozumienia” słów i wyrażeń w sposób zbliżony do tego, w jaki robią to użytkownicy będący rodzimymi użytkownikami języka. Umieszczanie w kontekście za pomocą wektorów osadzonych w języku pozwala zrozumieć złożoną składnię, semantykę i kontekst.

Rozważmy na przykład wektory zastępcze słowa cow (ang. „krowa”). Starsze wektory zanurzeniowe, takie jak word2vec, mogą reprezentować angielskie słowa w taki sposób, że odległość w przestrzeni wektorów zanurzeniowych od cow do bull jest podobna do odległości od ewe do ram (samiec owcy) lub od female do male (samiec). Umieszczanie w kontekście zasobów danych językowych może być jeszcze bardziej przydatne, ponieważ pozwala rozpoznać, że użytkownicy języka angielskiego czasami używają słowa cow (krowa) w oznaczaniu zarówno krowy, jak i byka.

okno kontekstu

#language
#generativeAI

Liczba tokenów, które model może przetworzyć w danym promptzie. Im większe okno kontekstu, tym więcej informacji może wykorzystać model, aby udzielić spójnych i konsekwentnych odpowiedzi na prompt.

ciągła funkcja

#fundamentals

Właściwość o typie zmiennopozycyjnym z nieskończonym zakresem możliwych wartości, np. temperatura lub waga.

W odróżnieniu od funkcji dyskretnej.

dobór wygodny

Korzystanie z zbioru danych zebranego nienaukowo do przeprowadzania szybkich eksperymentów. Później należy przejść na zbiór danych zebrany w sposób naukowy.

zbieżność

#fundamentals

Stan osiągnięty, gdy wartości utraty zmieniają się bardzo mało lub wcale w przypadku każdej iteracji. Na przykład na krzywej utraty funkcji celu widać, że zbieżność występuje po około 700 iteracjach:

Wykres kartezjański. Oś X to utrata. Oś Y to liczba iteracji trenowania. Straty są bardzo wysokie w pierwszych kilku iteracjach, ale gwałtownie spadają. Po około 100 iteracjach utrata nadal maleje, ale znacznie wolniej. Po około 700 iteracjach strata pozostaje na stałym poziomie.

Model zbiera się, gdy dodatkowe trenowanie nie poprawia jego wyników.

W deep learningu wartości strat czasami pozostają stałe lub prawie stałe przez wiele iteracji, zanim w końcu zaczną maleć. W przypadku długiego okresu stałej wartości utraty możesz mieć chwilowo fałszywe wrażenie zbieżności.

Zobacz też wczesne zatrzymanie.

Więcej informacji znajdziesz w sekcji Modele – krzywe zbieżności i strat w Szybkim szkoleniu z systemów uczących się.

funkcja wypukła

Funkcja, w której region nad wykresem funkcji jest konweksyjnym zbiorem. Prototypowa wypukła funkcja ma kształt zbliżony do litery U. Na przykład:

krzywe w kształcie litery U, z pojedynczym punktem minimalnym.

Natomiast funkcja podana poniżej nie jest wypukła. Zwróć uwagę, że region nad wykresem nie jest wypukły:

Krzywa w kształcie litery W z 2 różnymi lokalnymi punktami minimum.

Funkcja ściśle wypukła ma dokładnie jeden punkt lokalnego minimum, który jest też punktem globalnego minimum. Klasyczne funkcje o kształcie litery U są funkcjami ściśle wypukłymi. Jednak niektóre wypukłe funkcje (np. linie proste) nie mają kształtu litery U.

Więcej informacji znajdziesz w sekcji Konwergencja i funkcje wypukłe w Kursie intensywnym z systemów uczących się.

optymalizacja wklęsła

Proces korzystania z technik matematycznych, takich jak gradient prostego, w celu znalezienia minimum funkcji wypukłej. Wiele badań nad uczeniem maszynowym koncentrowało się na formułowaniu różnych problemów jako problemów z zakresu optymalizacji wklęsłej oraz na ich efektywniejszym rozwiązywaniu.

Szczegółowe informacje znajdziesz w książce Boyda i Vandenberghe Convex Optimization.

zestaw wypukły

Podzbiór przestrzeni euklidesowej, w którym linia narysowana między dowolnymi 2 punktami pozostaje całkowicie w podzbiorze. Na przykład te 2 kształty są zbiorami wypukłymi:

Ilustracja prostokąta. Inna ilustracja owalu

Natomiast te dwa kształty nie są wypukłymi zbiorami:

Ilustracja wykresu kołowego z brakującym kawałkiem.
          Inna ilustracja bardzo nieregularnego wielokąta.

splotu

#image

W matematyce, w ogólnym rozumieniu, mieszanina 2 funkcji. W uczeniu maszynowym konwolucja łączy konwolutor i macierz wejściową, aby wytrenować wagi.

Termin „konwolucja” w uczeniu maszynowym często jest skrótem od operacji konwolucyjnej lub warstwy konwolucyjnej.

Bez splotów algorytm systemów uczących się musiałby nauczyć się osobnego współczynnika dla każdej komórki w dużym tensorze. Na przykład algorytm uczenia maszynowego trenowany na obrazach 2K x 2K musiałby znaleźć 4 mln oddzielnych wag. Dzięki konwolucjom algorytm uczenia maszynowego musi tylko znaleźć wagi dla każdej komórki w filtrze konwolutywnym, co znacznie zmniejsza ilość pamięci potrzebnej do trenowania modelu. Gdy zastosujesz filtr konwolucyjny, zostanie on po prostu powielony w komórkach, tak aby każda z nich została pomnożona przez filtr.

Więcej informacji znajdziesz w modułach sieci neuronowych konwolucyjnych w kursie Klasyfikacja obrazów.

filtr konwolucyjny

#image

Jeden z 2 elementów w operacji konwolucyjnej. (Drugi aktor to wycinek macierzy wejściowej). Filtr konwolucyjny to macierz o tym samym rangu co wejściowa, ale o mniejszym kształcie. Na przykład w przypadku macierzy wejściowej 28 x 28 filtr może być dowolną macierzą 2D mniejszą niż 28 x 28.

W przypadku manipulacji fotograficznej wszystkie komórki w filtrze konwolutowym są zwykle ustawione na stały wzór jedynek i zer. W uczeniu maszynowym filtry konwolucyjne są zwykle zasilane losowymi liczbami, a następnie sieć trenowana dobiera optymalne wartości.

Więcej informacji znajdziesz w części Konwolucja kursu Klasyfikacja obrazów.

warstwa konwolucyjna

#image

Warstwa głębokiej sieci neuronowej, w której splotowy filtr przetwarza wejściową macierz. Weź pod uwagę na przykład ten filtr convoluucyjny o wymiarach 3 x 3:

Macierz 3 x 3 z tymi wartościami: [[0,1,0], [1,0,1], [0,1,0]]

Animacja poniżej przedstawia warstwa konwolucyjna, która składa się z 9 operacji konwolucyjnych z użyciem wejściowej macierzy 5 × 5. Zwróć uwagę, że każda operacja konwolucyjna działa na innym kawałku 3 × 3 macierzy wejściowej. Wynikowa macierz 3 x 3 (po prawej) składa się z wyników 9 operacji konwolucyjnych:

Animacja przedstawiająca 2 macierz. Pierwsza to macierz 5 × 5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          Druga to macierz 3 x 3:[[181,303,618], [115,338,605], [169,351,560]].
          Druga matryca jest obliczana przez zastosowanie filtra konwolucyjnego [[0, 1, 0], [1, 0, 1], [0, 1, 0]] do różnych podzbiorów 3 x 3 macierzy 5 x 5.

Więcej informacji znajdziesz w sekcji Pełno połączone warstwy w Kursie klasyfikacji obrazów.

konwolucyjna sieć neuronowa

#image

Sieci neuronowej, w której co najmniej jedna warstwa jest warstwą konwolucyjną. Typowa sieć neuronowa konwolucyjna składa się z pewnej kombinacji tych warstw:

Splotowe sieci neuronowe bardzo dobrze sprawdzają się w rozwiązywaniu niektórych problemów, takich jak rozpoznawanie obrazów.

operacja splotu

#image

Następująca dwuetapowa operacja matematyczna:

  1. Element-wise multiplication of the convolutional filter and a slice of an input matrix. (wycinek macierzy wejściowej ma ten sam wymiar i rozmiar co filtr konwolucyjny).
  2. Suma wszystkich wartości w wynikającej z tego macierzy wynikowej.

Weźmy na przykład tę macierz wejściową 5 x 5:

Macierz 5 x 5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Wyobraź sobie teraz ten filtr splotowy 2 x 2:

Matryca 2 x 2: [[1, 0], [0, 1]]

Każda operacja konwolucyjna obejmuje jeden wycinek 2 x 2 z macierzy wejściowej. Załóżmy na przykład, że używamy wycinka 2 x 2 w lewym górnym rogu macierzy wejściowej. Operacja splotu na tym kawałku wygląda tak:

Zastosowanie filtra konwolucyjnego [[1, 0], [0, 1]] do lewego górnego narożnika
          sekcji 2 x 2 macierzy wejściowej, która ma postać [[128,97], [35,22]].
          Filtr konwolucyjny pozostawia wartości 128 i 22 bez zmian, ale ustawia na 0 wartości 97 i 35. W związku z tym operacja sprzężenia daje wartość 150 (128 + 22).

Warstwa konwolucyjna składa się z szeregu operacji konwolucyjnych, z których każda działa na innym fragmencie macierzy wejściowej.

koszt

Synonim straty.

wspólne szkolenie

Metoda uczenia nadzorowanego częściowego jest szczególnie przydatna, gdy spełnione są wszystkie te warunki:

Współszkolienie polega na wzmacnianiu niezależnych sygnałów, aby uzyskać silniejszy sygnał. Rozważmy na przykład model klasyfikacji, który przypisuje poszczególnym używanym samochodom kategorie Dobry lub Zły. Jeden zestaw funkcji predykcyjnych może skupiać się na cechach zbiorczych, takich jak rok, marka i model samochodu, a inny zestaw funkcji predykcyjnych może skupiać się na historii jazdy poprzedniego właściciela i historii konserwacji samochodu.

Pionierskim artykułem na temat wspólnego trenowania jest Combining Labeled and Unlabeled Data with Co-Training (ang. „Połączenie danych z oznacznikami i bez nich za pomocą wspólnego trenowania”) Bluma i Mitchella.

obiektywność kontrfaktyczna

#fairness

Miara sprawiedliwości, która sprawdza, czy klasyfikator daje ten sam wynik dla jednej osoby co dla innej osoby, która jest identyczna z pierwszą, z wyjątkiem co najmniej jednego wrażliwego atrybutu. Ocena klasyfikatora pod kątem obiektywności warunkowej to jeden ze sposobów na wykrycie potencjalnych źródeł stronniczości w modelu.

Więcej informacji znajdziesz w jednym z tych artykułów:

błąd pokrycia

#fairness

Zobacz błąd doboru.

crash blossom

#language

zdanie lub wyrażenie o niejednoznacznym znaczeniu; Crash blossoms stanowią poważny problem w rozumieniu języka naturalnego. Na przykład nagłówek Nadmiarkowa biurokracja blokuje wieżowiec to kwintesencja szaleństwa, ponieważ model NLU może interpretować nagłówek dosłownie lub przenośnie.

krytyk

#rl

Synonim Deep Q-Network.

entropia krzyżowa

Uogólnienie straty logarytmicznej na problemy z klasyfikacją wieloklasową. Entropia krzyżowa pozwala określić różnicę między dwoma rozkładami prawdopodobieństwa. Zobacz też perplexity.

walidacja krzyżowa

Mechanizm służący do oszacowania, jak dobrze model będzie działał na nowych danych. Polega on na przetestowaniu modelu na co najmniej jednym nienakładającym się podzbiorze danych, które nie zostało użyte do zbioru danych treningowych.

dystrybuanta (CDF);

Funkcja definiująca częstotliwość próbek mniejszą lub równą wartości docelowej. Rozważmy na przykład rozkład normalny wartości ciągłych. Z wykresu CDF wynika, że około 50% próbek powinno być mniejsze lub równe średniej, a około 84% próbek powinno być mniejsze lub równe jednej odchyleniu standardowemu powyżej średniej.

D

analiza danych

poznawanie danych poprzez analizę próbek, pomiarów i wizualizacji; Analiza danych może być szczególnie przydatna, gdy zbiór danych zostanie po raz pierwszy odebrany, zanim uda się utworzyć pierwszy model. Jest to też kluczowe w rozumieniu eksperymentów i rozwiązywaniu problemów z systemem.

wzbogacanie danych

#image

Sztuczne zwiększanie zakresu i liczby przykładów treningowych przez przekształcanie dotychczasowych przykładów w celu utworzenia dodatkowych przykładów. Załóżmy na przykład, że obrazy są jedną z właściwości, ale Twój zbiór danych nie zawiera wystarczającej liczby przykładów obrazów, aby model mógł się nauczyć przydatnych skojarzeń. W idealnej sytuacji do zbioru danych należy dodać wystarczającą liczbę oznaczonych obrazów, aby umożliwić prawidłowe trenowanie modelu. Jeśli nie jest to możliwe, rozszerzanie danych może obracać, rozciągać i odbijać poszczególne obrazy, aby wygenerować wiele wersji oryginalnego zdjęcia. Dzięki temu można uzyskać wystarczającą ilość danych z oznacznikami, aby umożliwić skuteczne trenowanie.

[struktura] DataFrame

#fundamentals

Popularny typ danych pandas służący do reprezentowania zbiorów danych w pamięci.

DataFrame jest podobny do tabeli lub arkusza kalkulacyjnego. Każda kolumna DataFrame ma nazwę (nagłówek), a każdy wiersz jest identyfikowany za pomocą unikalnego numeru.

Każda kolumna w ramach DataFrame jest sformatowana jak tablica dwuwymiarowa, z tą różnicą, że każdej kolumnie można przypisać własny typ danych.

Zobacz też oficjalną stronę referencyjną pakietu pandas.DataFrame.

równoległość danych

Sposób skalowania treningu lub wyciągania wniosków, który polega na powielaniu całego modelu na wielu urządzeniach, a następnie przekazywaniu podzbioru danych wejściowych na każde z nich. Równoległość danych może umożliwiać trenowanie i wykonywanie wnioskowania na bardzo dużych rozmiarach partii. Równoległość danych wymaga jednak, aby model był wystarczająco mały, aby zmieścić się na wszystkich urządzeniach.

Równoległość danych zwykle przyspiesza trenowanie i wykonywanie wnioskowania.

Zapoznaj się też z paralelizmem modelu.

Dataset API (tf.data)

#TensorFlow

Ogólny interfejs API TensorFlow do odczytywania danych i przekształcania ich w postać wymaganą przez algorytm uczenia maszynowego. Obiekt tf.data.Dataset reprezentuje sekwencję elementów, w których każdy element zawiera co najmniej 1 tensor. Obiekt tf.data.Iterator zapewnia dostęp do elementów Dataset.

zbiór danych

#fundamentals

Zbiór danych nieprzetworzonych, zwykle (ale nie zawsze) uporządkowanych w jednym z tych formatów:

  • arkusz kalkulacyjny
  • plik w formacie CSV (wartości rozdzielone przecinkami),

granica decyzji

Separator między klasami wyuczonymi przez modelklasie binarnej lub w problemach klasyfikacji wieloklasowej. Na przykład na poniższym obrazie przedstawiającym problem klasyfikacji binarnej krawędź decyzyjna jest granicą między klasą pomarańczową a klasą niebieską:

wyraźna granica między jedną klasą a drugą;

las decyzyjny

#df

Model utworzony na podstawie wielu drzew decyzyjnych. Las decyzyjny formułuje prognozę na podstawie agregacji prognoz swoich drzew decyzyjnych. Popularne typy lasów decyzyjnych to losowe lasy i drzewa z wzmocnieniem gradientowym.

Więcej informacji znajdziesz w sekcji Lasy decyzyjne w szkoleniu Lasy decyzyjne.

próg decyzji

Synonim progu klasyfikacji.

drzewo decyzyjne

#df

Nadzorowany model systemów uczących się, który składa się z zestawu warunkówgałęzi uporządkowanych hierarchicznie. Oto przykład drzewka decyzji:

Drzewo decyzyjne składające się z 4 warunków uporządkowanych hierarchicznie, które prowadzą do 5 węzłów.

dekoder

#language

Ogólnie chodzi o dowolny system ML, który przekształca przetworzoną, gęstą lub wewnętrzną reprezentację w nieprzetworzoną, rzadką lub zewnętrzną reprezentację.

Dekodery są często elementem większego modelu, w którym często są sparowane z enkoderem.

W zadaniach sekwencja–sekwencja dekoder zaczyna się od stanu wewnętrznego wygenerowanego przez koder, aby przewidzieć następną sekwencję.

Definicję dekodera w ramach architektury transformera znajdziesz w artykule Transformer.

Więcej informacji znajdziesz w sekcji Duże modele językowe w Szybkim szkoleniu z uczenia maszynowego.

model głęboki

#fundamentals

Sieci neuronowej zawierającej więcej niż 1 ukrytą warstwę.

Model głęboki to także głęboka sieć neuronowa.

Porównaj z modelem szerokim.

głęboka sieć neuronowa

Synonim głbokiego modelu.

Deep Q-Network (DQN)

#rl

Q-learningu wykorzystuje się głęboką sieci neuronową, która prognozuje funkcje Q.

Krytyk to synonim sieci Deep Q.

parytet demograficzny

#fairness

Wskaźnik obiektywności, który jest spełniony, jeśli wyniki klasyfikacji modelu nie zależą od danego atrybutu wrażliwego.

Jeśli np. zarówno Lilliputianie, jak i Brobdingnagijczycy aplikują do Uniwersytetu w Glubbdubdrib, równość demograficzna jest osiągnięta, gdy odsetek przyjętych Lilliputian jest taki sam jak odsetek przyjętych Brobdingnagijczyków, niezależnie od tego, czy jedna grupa jest średnio lepiej wykwalifikowana od drugiej.

W odróżnieniu od równych szansrówności szans, które umożliwiają, aby wyniki klasyfikacji w ujęciu zbiorczym zależały od atrybutów wrażliwych, ale nie zezwalają, aby wyniki klasyfikacji dla określonych etykiet rzeczywistego stanu zależały od atrybutów wrażliwych. Aby zobaczyć wizualizację przedstawiającą kompromisy, jakie należy dokonać podczas optymalizacji pod kątem parytetu demograficznego, przeczytaj artykuł „Walka z dyskryminacją dzięki inteligentniejszym systemom uczącym się”.

Więcej informacji znajdziesz w sekcji Uczciwość: parytety demograficzne w Szybkim szkoleniu z uczenia maszynowego.

usuwanie szumów

#language

Typowe podejście do samokontrolowanego uczenia się:

  1. Szum jest sztucznie dodawany do zbioru danych.
  2. Model próbuje usunąć szum.

Denoising umożliwia uczenie się na nieoznaczonych przykładach. Pierwotny zbiór danych służy jako docel lub etykieta, a zaszumione dane są wejściem.

Niektóre zamaskowane modele językowe używają redukcji szumów w ten sposób:

  1. Do nieoznaczonego zdania dodawany jest sztucznie szum przez zamaskowanie niektórych tokenów.
  2. Model próbuje przewidzieć oryginalne tokeny.

funkcja gęsta

#fundamentals

Cecha, w której większość lub wszystkie wartości są różne od 0, zwykle tensor wartości zmiennoprzecinkowych. Na przykład ten 10-elementowy tensor jest gęsty, ponieważ 9 jego wartości jest niezerowych:

8 3 7 5 2 4 0 4 9 6

W odróżnieniu od rzadkiej funkcji.

gęsta warstwa

Synonim pełnej warstwy połączeń.

głębokość

#fundamentals

Suma tych wartości w sieci neuronowej:

Na przykład sieć neuronowa z 5 ukrytymi warstwami i 1 warstwą wyjściową ma głębokość 6.

Zwróć uwagę, że warstwa wejściowa nie wpływa na głębokość.

splotowa sieć neuronowa z separowanymi filtrami (sepCNN)

#image

Architektura sieci neuronowej z konwolucją oparta na Inception, ale z modułami Inception zastąpionymi przez konwolucje rozdzielcze pod względem głębokości. Inna nazwa to Xception.

Konwolucja rozdzielna w głębi (nazywana też konwolucją rozdzielną) dzieli standardową konwolucję 3D na 2 osobne operacje konwolucji, które są bardziej wydajne pod względem obliczeniowym: najpierw konwolucję w głębi o głębokości 1 (n × n × 1), a potem konwolucję punktową o długości i szerokości 1 (1 × 1 × n).

Więcej informacji znajdziesz w artykule Xception: Deep Learning with Depthwise Separable Convolutions.

etykieta derywowana

Synonim etykiety proxy.

urządzenie

#TensorFlow
#GoogleCloud

Przeciążony termin z 2 możliwymi definicjami:

  1. Kategoria sprzętu, na którym można uruchamiać sesję TensorFlow, w tym procesory CPU, GPU i TPU.
  2. Podczas trenowania modelu ML na urządzeniach przyspieszających (kartach graficznych lub jednostkach TPU) część systemu, która faktycznie manipuluje tensoramiwkładami. Urządzenie działa na chipach akceleratora. Natomiast host zwykle działa na procesorze.

prywatność różnicowa

W uczeniu maszynowym anonimizacja służy do ochrony zbioru danych treningowych zawierającego dane wrażliwe (np. dane osobowe), aby nie zostały one ujawnione. Dzięki temu model nie uczy się ani nie zapamiętuje zbyt wiele informacji o konkretnej osobie. Osiąga się to przez próbkowanie i dodawanie szumu podczas trenowania modelu, aby ukryć poszczególne punkty danych i zmniejszyć ryzyko ujawnienia wrażliwych danych treningowych.

Prywatność różnicowa jest też używana poza uczeniem maszynowym. Na przykład analitycy danych czasami używają prywatności różnicowej, aby chronić prywatność użytkowników podczas obliczania statystyk dotyczących korzystania z usług dla różnych grup demograficznych.

redukcja wymiarów

Zmniejszenie liczby wymiarów używanych do reprezentowania określonej cechy w wektorze cech, zwykle przez przekształcenie na wektora dystrybucyjnego.

wymiary

Przeciążony termin, który ma jedną z tych definicji:

  • Liczba poziomów współrzędnych w Tensor. Przykład:

    • Wartość skalarna ma wymiary zerowe, np. ["Hello"].
    • Wektor ma 1 wymiar, np. [3, 5, 7, 11].
    • Matryca ma 2 wymiary, np. [[2, 4, 18], [5, 7, 14]]. Komórkę w wektorze jednowymiarowym można jednoznacznie określić za pomocą jednej współrzędnej, natomiast do jednoznacznego określenia komórki w macierz dwuwymiarowej potrzeba dwóch współrzędnych.
  • Liczba wpisów w wektorze cech.

  • Liczba elementów w warstwie umieszczania.

bezpośrednie prompty

#language
#generativeAI

Synonim promptów „zero-shot”.

funkcja dyskretna

#fundamentals

cecha z ograniczonym zbiorem możliwych wartości. Na przykład cecha, której wartościami mogą być tylko zwierzę, warzywo lub minerał, jest cecha dyskretna (czyli kategorialna).

W odróżnieniu od funkcji ciągłej.

model dyskryminacyjny

Model, który prognozuje etykietę na podstawie co najmniej jednego zestawu cech. Bardziej formalnie modele dyskryminacyjne definiują prawdopodobieństwo warunkowe wyjścia na podstawie funkcji i wag, czyli:

p(output | features, weights)

Na przykład model, który na podstawie cech i wag przewiduje, czy e-mail jest spamem, jest modelem dyskryminacyjnym.

Większość modeli uczenia się nadzorowanego, w tym modele klasyfikacji i regresji, to modele dyskryminacyjne.

Kontrast z modelem generatywnym.

wyróżnik

System, który określa, czy przykłady są prawdziwe czy fałszywe.

Może to być też podsystem w generatywnej sieci antagonistycznej, który określa, czy przykłady utworzone przez generator są prawdziwe czy fałszywe.

Więcej informacji znajdziesz w części Dyskriminator kursu GAN.

dyskryminujące skutki

#fairness

podejmowanie decyzji dotyczących osób, które mają nieproporcjonalny wpływ na różne podgrupy populacji; Zwykle dotyczy to sytuacji, w których algorytmiczny proces podejmowania decyzji szkodzi niektórym podgrupom lub przynosi im korzyści bardziej niż innym.

Załóżmy na przykład, że algorytm, który określa, czy liliput ma prawo do pożyczki na zakup miniaturowego domu, prawdopodobnie sklasyfikuje go jako „niekwalifikującego się”, jeśli jego adres pocztowy zawiera określony kod pocztowy. Jeśli mieszkańcy Lilliputu z wielkim endianem częściej mają adresy pocztowe z tym kodem pocztowym niż mieszkańcy Lilliputu z małym endianem, ten algorytm może mieć nierówny wpływ.

W przeciwieństwie do różnego traktowania, które koncentruje się na różnicach wynikających z charakterystyk podgrup, które są jawnymi danymi wejściowymi w ramach procesu podejmowania decyzji przez algorytm.

odmienne traktowanie

#fairness

uwzględnianie wrażliwych danych użytkowników w algorytmicznym procesie podejmowania decyzji, tak aby różne podgrupy osób były traktowane inaczej;

Rozważmy na przykład algorytm, który określa, czy mieszkańcy Lilliputu kwalifikują się do uzyskania pożyczki na miniaturowy dom na podstawie danych podanych w wniosku o pożyczkę. Jeśli algorytm używa afiliacji Lilliputian jako dużego lub małego endiana, stosuje różne traktowanie w tym wymiarze.

W przeciwieństwie do różnych wpływów, które koncentrują się na różnicach w społecznych skutkach decyzji algorytmicznych na podgrupy, niezależnie od tego, czy te podgrupy są danymi wejściowymi modelu.

destylacja

#generativeAI

Proces zmniejszania rozmiaru jednego modelu (nazywanego nauczycielem) do mniejszego modelu (nazywanego uczniem), który emuluje prognozy oryginalnego modelu w jak najbardziej wierny sposób. Distillation jest przydatna, ponieważ mniejszy model ma 2 kluczowe zalety w porównaniu z większym modelem (nauczycielem):

  • Krótszy czas wnioskowania
  • Zmniejszone zużycie pamięci i energii

Prognozy ucznia są jednak zwykle gorsze niż prognozy nauczyciela.

Destylacja trenuje model ucznia, aby zminimalizować funkcję straty na podstawie różnicy między wynikami przewidywań modelu ucznia i nauczyciela.

Porównaj destylację z tymi pojęciami:

Więcej informacji znajdziesz w artykule LLMs: Fine-tuning, distillation, and prompt engineering z szybkiego szkolenia z uczenia maszynowego.

distribution

Częstotliwość i zakres różnych wartości danej cechy lub etykiety. Rozkład określa prawdopodobieństwo wystąpienia konkretnej wartości.

Na ilustracji widać histogramy 2 różnych rozkładów:

  • Po lewej stronie widać rozkład majątku według prawa potęgi w zależności od liczby osób, które mają ten majątek.
  • Po prawej stronie widać normalny rozkład wzrostu w zależności od liczby osób o danym wzroście.

2 histogramy. Jeden histogram pokazuje rozkład według prawa potęgowego z bogactwem na osi X i liczbą osób z tym bogactwem na osi Y. Większość ludzi ma bardzo mało pieniędzy, a nieliczni mają ich bardzo dużo. Drugi histogram pokazuje rozkład normalny z wysokością na osi X i liczbą osób o tej wysokości na osi Y. Większość osób mieści się w grupie zbliżonej do średniej.

Poznanie rozkładu poszczególnych cech i etykiet może pomóc w określeniu sposobu normalizacji wartości i wykrywania wartości odstających.

Wyrażenie poza dystrybucją odnosi się do wartości, która nie występuje w zbiorze danych lub jest bardzo rzadka. Na przykład obraz przedstawiający planetę Saturn byłby uznany za nierozpowszechniany w przypadku zbioru danych zawierającego zdjęcia kotów.

podział na podzbiory

#clustering

Zobacz hierarchiczne grupowanie.

próbkowanie w dół

#image

Termin z przeciążeniem, który może oznaczać:

  • Zmniejszenie ilości informacji w cechu, aby trenować model w bardziej efektywny sposób. Na przykład przed wytrenowaniem modelu do rozpoznawania obrazów zmniejsz rozdzielczość zdjęć o wysokiej rozdzielczości do formatu o niższej rozdzielczości.
  • trenowanie na przykładach o nieproporcjonalnie niskim odsetku nadreprezentowanych klas, aby poprawić trenowanie modelu na przykładach underrepresented classes. Na przykład w zbiorze danych z niezrównowagą klas modele zwykle dużo się uczą o klasie większościowej, ale niewystarczająco dużo o klasie mniejszościowej. Próbkowanie w dół pomaga zrównoważyć ilość treningu na klasach większości i mniejszości.

Więcej informacji znajdziesz w sekcji Zbiory danych: nierównowaga w zbiorach danych w Szybkim szkoleniu z uczenia maszynowego.

DQN

#rl

Skrót od Deep Q-Network.

regularyzacja dropout

Forma regularyzacji przydatna do trenowania sieci neuronowych. Regularyzacja polegająca na pomijaniu jednostek polega na losowym usuwaniu określonej liczby jednostek w warstwie sieci w pojedynczym kroku gradientu. Im więcej jednostek zostanie wyeliminowanych, tym silniejsza będzie regularyzacja. Jest to analogiczne do trenowania sieci w celu emulowania wykładniczo dużego zespołu mniejszych sieci. Więcej informacji znajdziesz w artykule Dropout: A Simple Way to Prevent Neural Networks from Overfitting (ang. „Dropout: prosty sposób na zapobieganie przetrenowaniu sieci neuronowych”).

dynamiczny

#fundamentals

coś, co jest wykonywane często lub stale; W uczeniu maszynowym terminy dynamicznyonline są synonimami. Oto najczęstsze zastosowania dynamicznychinternetowych w przypadku uczenia maszynowego:

  • Model dynamiczny (lub model online) to model, który jest często lub stale ponownie trenowany.
  • Szkolenie dynamiczne (lub szkolenie online) to proces szkolenia często lub ciągle.
  • Wyraźnie dynamiczne wnioskowanie (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

model, który jest często (a nawet stale) ponownie trenowany. Model dynamiczny to „uczeń przez całe życie”, który stale dostosowuje się do zmieniających się danych. Model dynamiczny jest też nazywany modelem online.

Porównaj z modelem statycznym.

E

wykonanie natychmiastowe

#TensorFlow

Środowisko programowania TensorFlow, w którym operacje są wykonywane natychmiast. Z drugiej strony operacje wywoływane w wykonaniu grafu nie są wykonywane, dopóki nie zostaną wyraźnie ocenione. Szybkie wykonanie to wyrażenie imperatywne, czyli takie, które działa podobnie do kodu w większości języków programowania. Programy o bezpośrednim wykonywaniu są zazwyczaj znacznie łatwiejsze do debugowania niż programy o wykonywaniu w ramach grafu.

wczesne zatrzymanie

#fundamentals

Metoda regularyzacji, która polega na zakończeniu treningu przed zakończeniem zmniejszania się straty w treningu. W przypadku wczesnego zatrzymania celowo przerywasz trenowanie modelu, gdy strata na zbiorze danych do weryfikacji zaczyna się zwiększać, czyli gdy skuteczność w zakresie generalizacji się pogarsza.

odległość w przypadku maszyn budowlanych (EMD);

Pomiar względnego podobieństwa 2 rozkładów. Im mniejsza odległość przemieszczania, tym bardziej podobne są rozkłady.

edytuj odległość

#language

Pomiar podobieństwa 2 ciągów tekstowych. W systemach uczących się odległość edytowania jest przydatna z tych powodów:

  • Odległość edytowania jest łatwa do obliczenia.
  • Odległość edycji umożliwia porównanie 2 ciągów, które są do siebie podobne.
  • Odległość edycji może określać stopień podobieństwa różnych ciągów znaków do danego ciągu.

Istnieje kilka definicji odległości edycji, z których każda używa różnych operacji na ciągach znaków. Przykładem jest odległość Levenshteina.

notacja Einsum

Skuteczna notacja opisująca sposób łączenia dwóch tensorów. Tensory są łączone przez pomnożenie elementów jednego tensora przez elementy drugiego tensora, a następnie zsumowanie otrzymanych produktów. Notacja Einsum używa symboli do identyfikowania osi każdego tensora, a te same symbole są przestawiane, aby określić kształt nowego wynikowego tensora.

NumPy udostępnia typową implementację Einsum.

warstwa wstawiania

#language
#fundamentals

Specjalny warstwę ukrytą, która jest trenowana na podstawie cechy kategorialnej o dużej wymiarowości, aby stopniowo uczyć się wektora zanurzonego o mniejszej wymiarowości. Warstwę embeddingu można wykorzystać do trenowania sieci neuronowej w znacznie bardziej wydajny sposób niż przy użyciu tylko cechy wielowymiarowej.

Na przykład Earth obsługuje obecnie około 73 tys. gatunków drzew. Załóżmy, że gatunek drzewa jest atrybutem w Twoim modelu,więc warstwa wejściowa modelu zawiera wektor typu one-hot o długości 73 tys. elementów. Na przykład baobab może być przedstawione w ten sposób:

Tablica 73 tys. elementów. Pierwsze 6232 elementy mają wartość 0. Następny element zawiera wartość 1. Ostatnie 66 767 elementów ma wartość zero.

Tablica o 73 tys. elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy embeddingu, trenowanie zajmie bardzo dużo czasu z powodu mnożenia 72 999 zer. Możesz wybrać warstwę z 12 wymiarami. W konsekwencji warstwa embeddingu będzie stopniowo uczyć się nowego wektora embeddingu dla każdego gatunku drzewa.

W niektórych sytuacjach zaszyfrowanie jest odpowiednią alternatywą dla warstwy umieszczania.

Więcej informacji znajdziesz w sekcji Embeddings w szybkim szkoleniu z uczenia maszynowego.

przestrzeń do wklejania

#language

D-wymiarowa przestrzeń wektorowa, do której są mapowane cechy z wyższej wymiarowości. Przestrzeń do wklejania jest trenowana w celu przechwytywania struktury, która jest istotna dla danego zastosowania.

Iloczyn skalarny 2 wewnętrznych obiektów jest miarą ich podobieństwa.

wektor dystrybucyjny

#language

Ogólnie mówiąc, tablica liczb zmiennoprzecinkowych pobranych z dowolnego ukrytego warstwy, które opisują dane wejściowe tej ukrytej warstwy. Często wektor ten jest tablicą liczb zmiennoprzecinkowych wytrenowanych w warstwie embeddingu. Załóżmy na przykład, że warstwa embeddingu musi nauczyć się wektora embeddingu dla każdego z 73 tys. gatunków drzew na Ziemi. Być może następująca tablica jest wektorem dystrybucyjnym baobabu:

Tablica 12 elementów, z których każdy zawiera liczbę zmiennoprzecinkową
          z zakresu od 0,0 do 1,0.

Wektor dystrybucyjny to nie zbiór losowych liczb. Warstwę wbudowania określają te wartości podczas trenowania, podobnie jak sieć neuronowa uczy się innych wag podczas trenowania. Każdy element tablicy to ocena pewnej cechy gatunku drzewa. Który element reprezentuje którą cechę gatunku drzew? Jest to bardzo trudne do określenia przez ludzi.

Matematycznie niezwykłą cechą wektora dystrybucyjnego jest to, że podobne elementy mają podobne zbiory liczb zmiennoprzecinkowych. Na przykład podobne gatunki drzew mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż niepodobna do siebie roślina. Sekwoje i sekwojadendro są spokrewnionymi gatunkami drzew, więc będą miały bardziej podobny zestaw liczb zmiennoprzecinkowych niż sekwoje i palmy kokosowe. Liczby w wektorze zastępczym będą się zmieniać za każdym razem, gdy ponownie przeszkolisz model, nawet jeśli będziesz to robić z identycznymi danymi wejściowymi.

empiryczna dystrybuanta (eCDF lub EDF)

dystrybuanta kumulatywna oparta na pomiarach empirycznych pochodzących z rzeczywistego zbioru danych. Wartość funkcji w dowolnym punkcie na osi x to ułamek obserwacji w zbiorze danych, które są mniejsze lub równe określonej wartości.

empiryczne minimalizowanie ryzyka (ERM)

Wybór funkcji, która minimalizuje straty na zbiorze treningowym. W odróżnieniu od strukturalnego minimalizowania ryzyka.

koder

#language

Ogólnie chodzi o dowolny system ML, który przekształca dane w postaci nieprzetworzonej, rzadkiej lub zewnętrznej w postać bardziej przetworzoną, gęstszą lub bardziej wewnętrzną.

Enkodery są często elementem większego modelu, w którym często są połączone z dekoderem. Niektóre transformery łączą kodery z dekoderami, ale inne używają tylko kodera lub tylko dekodera.

Niektóre systemy używają danych wyjściowych kodera jako danych wejściowych do sieci klasyfikacyjnej lub regresyjnej.

zadaniach sekwencja–sekwencja enkoder przyjmuje sekwencję wejściową i zwraca stan wewnętrzny (wektory). Następnie dekoder używa tego stanu wewnętrznego do przewidywania następnej sekwencji.

Definicję enkodera w architekturze Transformer znajdziesz w artykule Transformer.

Więcej informacji znajdziesz w części LLMs: What's a large language model (Duże modele językowe: co to jest duży model językowy) w sekcji Szybkie szkolenie z systemów uczących się.

ensemble

Kolekcja modeli wytrenowanych niezależnie, których prognozy są uśredniane lub agregowane. W wielu przypadkach ensemble generuje lepsze prognozy niż pojedynczy model. Na przykład losowy las to zestaw utworzony z kilku drzew decyzyjnych. Pamiętaj, że nie wszystkie lasy decyzyjne są zbiorami.

Więcej informacji znajdziesz w sekcji Random Forest w szybkim szkoleniu z systemów uczących się.

entropia

#df

W teorii informacji jest to opis tego, jak nieprzewidywalna jest rozkład prawdopodobieństwa. Entropię można też zdefiniować jako ilość informacji zawartych w każdym przykładzie. Rozkład ma najwyższą możliwą entropię, gdy wszystkie wartości zmiennej losowej są równie prawdopodobne.

Entropia zbioru o dwóch możliwych wartościach „0” i „1” (np. etykiety w problemie dwudzielnej klasyfikacji) ma postać:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

gdzie:

  • H to entropia.
  • p to ułamek przykładów „1”.
  • q to ułamek przykładów o wartości „0”. Zwróć uwagę, że q = (1 - p)
  • log to zwykle log2. W tym przypadku jednostką entropii jest bit.

Załóżmy na przykład, że:

  • 100 przypadków zawiera wartość „1”.
  • 300 przykładów zawiera wartość „0”

Dlatego wartość entropii wynosi:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 b na przykład

Zbiór, który jest idealnie zrównoważony (np.200 wartości „0” i 200 wartości „1”), będzie miał entropię wynoszącą 1,0 bita na przykład. W miarę jak zbiór staje się bardziej niezrównoważony, jego entropia zbliża się do 0,0.

W drzewach decyzyjnych entropia pomaga formułować wzrost informacji, aby ułatwić spółczynnikowi wybór warunków podczas tworzenia drzewa decyzyjnego klasyfikacji.

Porównaj entropię z:

Entropia jest często nazywana entropią Shannona.

Więcej informacji znajdziesz w sekcji Rozdzielacz dokładny do klasyfikacji binarnej z cechami liczbowymi w Kursie lasów decyzyjnych.

środowisko

#rl

W nagradzaniu świat to świat, który zawiera agenta i pozwala mu obserwować jego stan. Przedstawiany świat może być na przykład grą w szachy lub fizycznym labiryntem. Gdy agent zastosuje działanie do środowiska, środowisko przechodzi między stanami.

odcinek

#rl

W nauce ze wzmocnieniem każda z powtarzanych prób agenta polega na uczeniu się środowiska.

początek epoki : epoka

#fundamentals

pełne trenowanie całego zbioru treningowego, w którym każdy przykład został przetworzony raz;

Jedna epoka to N/rozmiar wsadu iteracji treningowych, gdzie N to łączna liczba przykładów.

Załóżmy na przykład, że:

  • Zbiór danych zawiera 1000 przykładów.
  • Wielkość wsadu to 50 przykładów.

Dlatego jedna epoka wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

strategia epsilon-greedy

#rl

W nagradzaniu polityka to zbiór reguł, które z poziomem prawdopodobieństwa równym epsilon są losowe lub chłonne. Jeśli na przykład epsilon = 0,9, to w 90% przypadków polityka będzie zgodna z polityka losową, a w 10% przypadków – z polityka chciwą.

W kolejnych odcinkach algorytm zmniejsza wartość epsilona, aby przejść od stosowania losowej strategii do stosowania strategii chciwej. Gdy zmieniasz politykę, agent najpierw losowo eksploruje środowisko, a potem wykorzystuje wyniki tej eksploracji.

równość szans

#fairness

Wskaźnik sprawiedliwości, który pozwala ocenić, czy model prognozuje pożądany wynik równie dobrze w przypadku wszystkich wartości wrażliwego atrybutu. Inaczej mówiąc, jeśli pożądanym wynikiem działania modelu jest klasa pozytywna, celem jest osiągnięcie prawdziwej wartości pozytywnej w przypadku wszystkich grup.

Równe szanse są powiązane z równymi szansami, które wymagają, aby zarówno współczynniki wyników prawdziwie pozytywnych, jak i wyników fałszywie dodatnich były takie same we wszystkich grupach.

Załóżmy, że Uniwersytet Glubbdubdrib przyjmuje zarówno Liliputan, jak i Brobdingnagijczyków do rygorystycznego programu matematycznego. Szkoły średnie w Lilliput oferują solidny program nauczania matematyki, a znaczna większość uczniów kwalifikuje się do studiów uniwersyteckich. Szkoły średnie w Brobdingnag nie oferują w ogóle zajęć z matematyki, w wyniku czego znacznie mniej ich uczniów ma odpowiednie kwalifikacje. Równe szanse są zapewnione w przypadku preferowanej etykiety „przyjęcie” w związku z przynależnością narodową (Lilliputianin lub Brobdingnagijczyk), jeśli kwalifikujący się uczniowie mają równe szanse na przyjęcie niezależnie od tego, czy są Lilliputianami czy Brobdingnagijczykami.

Załóżmy na przykład, że na Uniwersytet Glubbdubdrib aplikuje 100 mieszkańców Lilliputu i 100 mieszkańców Brobdingnag. Decyzje dotyczące przyjęcia na studia są podejmowane w następujący sposób:

Tabela 1. Lilliputian applicants (90% are qualified)

  Zakwalifikowany Niezakwalifikowany
Przyjęty 45 3
Odrzucono 45 7
Łącznie 90 10
Odsetek przyjętych kwalifikujących się uczniów: 45/90 = 50%
Odsetek odrzuconych niekwalifikujących się uczniów: 7/10 = 70%
Całkowity odsetek przyjętych uczniów z Lilliput: (45+3)/100 = 48%

 

Tabela 2. Kandydaci z Brodbingnii (10% kwalifikuje się):

  Zakwalifikowany Niezakwalifikowany
Przyjęty 5 9
Odrzucono 5 81
Łącznie 10 90
Odsetek przyjętych studentów spełniających kryteria: 5/10 = 50%
Odsetek odrzuconych studentów niespełniających kryteriów: 81/90 = 90%
Całkowity odsetek przyjętych studentów z Brobdingnagi: (5+9)/100 = 14%

Powyższe przykłady spełniają wymóg równości szans w przyjmowaniu kwalifikujących się uczniów, ponieważ zarówno kwalifikujący się Lilliputanie, jak i Brobdingnagowie mają 50% szans na przyjęcie.

Warunek równości szans jest spełniony, ale nie spełniają się 2 kryteria obiektywności:

  • parytet demograficzny: Lilliputanie i Brobdingnagowie są przyjmowani na studia w różnym stopniu; 48% Lilliputanów zostaje przyjętych, ale tylko 14% Brobdingnagów.
  • Równe szanse: choć kwalifikujący się studenci z Lilliput i Brobdingnag mają takie same szanse na przyjęcie, nie jest spełniony dodatkowy warunek, że kwalifikujący się studenci z Lilliput i Brobdingnag mają takie same szanse na odrzucenie. Niekwalifikujący się Liliputanie mają wskaźnik odrzuceń na poziomie 70%, a niekwalifikujący się Brobdingnanie – 90%.

Więcej informacji znajdziesz w sekcji Uczciwość: równe szanse w Szybkim szkoleniu z uczenia maszynowego.

wyrównane szanse

#fairness

Dane o sprawiedliwości, które pozwalają ocenić, czy model prognozuje wyniki równie dobrze dla wszystkich wartości wrażliwego atrybutu w przypadku zarówno klasy pozytywnej, jak i klasy negatywnej, a nie tylko jednej z nich. Inaczej mówiąc, zarówno współczynnik wyników prawdziwie pozytywnych, jak i współczynnik wyników fałszywie negatywnych powinny być takie same we wszystkich grupach.

Równe szanse są powiązane z równością szans, która skupia się tylko na współczynnikach błędów w pojedynczej klasie (dodatnich lub ujemnych).

Załóżmy na przykład, że Uniwersytet Glubbdubdrib przyjmuje do rygorystycznego programu matematycznego zarówno Liliputan, jak i Brobdingnagijczyków. Szkoły średnie na Lilliputii oferują solidny program nauczania matematyki, a znaczna większość uczniów kwalifikuje się do studiów uniwersyteckich. Szkoły średnie w Brobdingnadze w ogóle nie oferują zajęć z matematyki, w wyniku czego znacznie mniej uczniów spełnia wymagania. Warunek równości szans jest spełniony, jeśli bez względu na to, czy kandydat jest Liliputanem czy Brobdingnagijczykiem, jeśli spełnia wymagania, ma równe szanse na przyjęcie do programu, a jeśli ich nie spełnia, ma równe szanse na odrzucenie.

Załóżmy, że do uniwersytetu Glubbdubdrib zgłosiło się 100 Lilliputów i 100 Brobdingnagów, a decyzje o przyjęciu zostały podjęte w ten sposób:

Tabela 3. Lilliputian applicants (90% are qualified)

  Zakwalifikowany Niezakwalifikowany
Przyjęty 45 2
Odrzucono 45 8
Łącznie 90 10
Odsetek przyjętych kwalifikujących się uczniów: 45/90 = 50%
Odsetek odrzuconych niekwalifikujących się uczniów: 8/10 = 80%
Całkowity odsetek przyjętych uczniów z Lilliput: (45+2)/100 = 47%

 

Tabela 4. Kandydaci z Brodbingnii (10% kwalifikuje się):

  Zakwalifikowany Niezakwalifikowany
Przyjęty 5 18
Odrzucono 5 72
Łącznie 10 90
Odsetek przyjętych studentów spełniających wymagania: 5/10 = 50%
Odsetek odrzuconych studentów, którzy nie spełniali wymagań: 72/90 = 80%
Całkowity odsetek przyjętych studentów z Brobdingnagi: (5 + 18)/100 = 23%

Warunek równych szans jest spełniony, ponieważ zarówno kwalifikujący się studenci z Lilliputu, jak i z Brobdingnag mają 50% szans na przyjęcie, a niekwalifikujący się studenci z Lilliputu i z Brobdingnag mają 80% szans na odrzucenie.

Równe szanse są formalnie zdefiniowane w artykule „Równe szanse w nauce nadzorowanej” w ten sposób: „Predictor Ŷ spełnia warunek równych szans w odniesieniu do chronionego atrybutu A i wyniku Y, jeśli Ŷ i A są niezależne, warunkowo na Y”.

Estimator

#TensorFlow

Wycofany interfejs TensorFlow API. Zamiast Estimators użyj funkcji tf.keras.

evals

#language
#generativeAI

Jest to głównie skrót od oceny LLM. Ogólnie rzecz biorąc, evals to skrót od dowolnej formy oceny.

ocena

#language
#generativeAI

Proces pomiaru jakości modelu lub porównywania różnych modeli.

Aby ocenić nadzorowany model uczenia maszynowego, zwykle porównujemy go z zestawami danychzestawami danych testowych. Ocena modelu LLMzazwyczaj obejmuje szerszą ocenę jakości i bezpieczeństwa.

przykład

#fundamentals

wartości jednego wiersza cechy i ewentualnie etykiety, Przykłady w nauce nadzorowanej można podzielić na 2 ogólne kategorie:

  • Znakowane przykłady zawierają co najmniej 1 cechę i etykietę. Oznaczone etykietami przykłady są używane podczas trenowania.
  • Nieoznaczony przykład składa się z co najmniej 1 cechy, ale nie ma etykiety. Przykłady bez etykiet są używane podczas wnioskowania.

Załóżmy na przykład, że trenujesz model, aby określić wpływ warunków pogodowych na wyniki egzaminów uczniów. Oto 3 oznaczone przykłady:

Funkcje Etykieta
Temperatura wilgotność, Ciśnienie Wynik testu
15 47 998 Dobry
19 34 1020 Świetna
18 92 1012 Niska

Oto 3 przykłady bez etykiet:

Temperatura wilgotność, Ciśnienie  
12 62 1014  
21 47 1017  
19 41 1021  

Wiersz zbioru danych jest zwykle źródłem danych nieprzetworzonych. Oznacza to, że przykład zwykle składa się z podzbioru kolumn zbioru danych. Ponadto funkcje w przykładzie mogą obejmować funkcje syntetyczne, takie jak krzyżowanie funkcji.

Więcej informacji znajdziesz w sekcji Nauczanie nadzorowane w kursie Wprowadzenie do systemów uczących się.

odtwarzanie

#rl

W uczeniu się przez wzmocnienie technika DQN służąca do zmniejszania korelacji czasowych w danych treningowych. Agent przechowuje przejścia stanu w buforze odtwarzania, a potem pobiera próbki przejść z bufora odtwarzania, aby utworzyć dane treningowe.

efekt eksperymentatora

#fairness

Zobacz efekt potwierdzenia.

problem eksplodującego gradientu

#seq

Gradientygłębokich sieciach neuronowych (zwłaszcza w sieciach neuronowych z powrotnymi połączeniami) stają się zaskakująco strome (duże). Strome gradienty często powodują bardzo duże aktualizacje wag każdego węzła w głębokiej sieci neuronowej.

Modele, które mają problem z wybuchem gradientu, stają się trudne lub niemożliwe do wytrenowania. Odcięcie gradientu może rozwiązać ten problem.

Porównaj z problemem zanikania gradientu.

F

F1

Dane „podstawowe” klasyfikacji binarnej, które zależą zarówno od precyzyjności, jak i od czułości. Oto formuła:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

zgodność z prawdą

#generativeAI

W świecie ML: właściwość opisująca model, którego dane wyjściowe są oparte na rzeczywistości. Rzetelność to pojęcie, a nie rodzaj danych. Załóżmy na przykład, że wysyłasz do dużego modelu językowego ten prompt:

Jaka jest formuła chemiczna soli kuchennej?

Model optymalizujący trafność odpowiedzi:

NaCl

Kuszące jest założenie, że wszystkie modele powinny opierać się na faktach. Jednak niektóre prompty, takie jak te, powinny powodować, że model generatywnej AI będzie optymalizował kreatywność, a nie rzeczywistość.

Powiedz mi limericka o astronaucie i gąsienicy.

Jest mało prawdopodobne, aby powstały limerick był oparty na rzeczywistości.

Kontrastuje z uziemieniem.

ograniczenie obiektywności

#fairness
Zastosowanie ograniczenia do algorytmu w celu zapewnienia spełnienia co najmniej jednej definicji obiektywności. Przykłady ograniczeń związanych z sprawiedliwością:

wskaźnik obiektywności

#fairness

matematyczna definicja „obiektywności”, która jest możliwa do zmierzenia; Do najczęściej używanych wskaźników sprawiedliwości należą:

Wiele wskaźników obiektywności wyklucza się wzajemnie. Więcej informacji znajdziesz w artykule Brak spójności wskaźników obiektywności.

fałszywie negatywny (FN),

#fundamentals

Przykład, w którym model błędnie przewiduje klasę negatywną. Na przykład model przewiduje, że dana wiadomość e-mail nie jest spamem (klasa negatywna), ale okazuje się, że jest to spam.

współczynnik wyników fałszywie negatywnych

Odsetek rzeczywistych przykładów pozytywnych, dla których model błędnie przewidział klasę negatywną. Odsetek fałszywie negatywnych wyników jest obliczany według tego wzoru:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

wynik fałszywie pozytywny (FP).

#fundamentals

Przykład, w którym model błędnie prognozuje klasę pozytywną. Na przykład model przewiduje, że dana wiadomość e-mail jest spamem (klasa pozytywna), ale w rzeczywistości nie jest to spam.

Więcej informacji znajdziesz w sekcji Próg i macierz zamętenia w szybkim szkoleniu z uczenia maszynowego.

współczynnik wyników fałszywie pozytywnych (FPR);

#fundamentals

Odsetek rzeczywistych przykładów negatywnych, dla których model błędnie przewidział klasę pozytywną. Odsetek wyników fałszywie dodatnich oblicza się za pomocą tej formuły:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie pozytywnych to oś X na krzywej ROC.

Więcej informacji znajdziesz w sekcji Klasyfikacja: ROC i AUC w szybkim szkoleniu z uczenia maszynowego.

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa modelu uczenia maszynowego. Przykład składa się z co najmniej jednej funkcji. Załóżmy na przykład, że trenujesz model, aby określić wpływ warunków pogodowych na wyniki testów uczniów. W tabeli poniżej znajdziesz 3 przykłady, z których każdy zawiera 3 funkcje i 1 etykietę:

Funkcje Etykieta
Temperatura wilgotność, Ciśnienie Wynik testu
15 47 998 92
19 34 1020 84
18 92 1012 87

Kontrast z etykietą.

Więcej informacji znajdziesz w sekcji Nauczanie nadzorowane w kursie Wprowadzenie do systemów uczących się.

funkcja krzyżowa

#fundamentals

Cecha syntetyczna utworzona przez „przecięcie” cech kategorialnych lub zbiorowych.

Rozważmy na przykład model „prognozowania nastroju”, który przedstawia temperaturę w jednym z tych 4 zakresów:

  • freezing
  • chilly
  • temperate
  • warm

I reprezentuje prędkość wiatru w jednym z tych 3 zakresów:

  • still
  • light
  • windy

Bez krzyżowania cech model liniowy trenuje się niezależnie w przypadku każdego z 7 poprzednich różnych zbiorów. Model trenuje na przykład na danych freezing niezależnie od trenowania na przykład na danych windy.

Możesz też utworzyć funkcję krzyżową temperatury i prędkości wiatru. Ta syntetyczna cecha miałaby 12 możliwych wartości:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dzięki skrzyżowaniu cech model może uczyć się różnic w nastroju między dniem freezing-windyfreezing-still.

Jeśli utworzysz funkcję syntetyczną na podstawie 2 funkcji, z których każda ma wiele różnych zbiorników, otrzymana funkcja krzyżowa będzie miała ogromną liczbę możliwych kombinacji. Jeśli na przykład jedna cecha ma 1000 segmentów, a druga – 2000 segmentów, to ich iloczyn ma 2 000 000 segmentów.

Formalnie krzyż jest iloczynem kartezjańskim.

Krzyżowanie cech jest używane głównie w przypadku modeli liniowych i rzadko w przypadku sieci neuronowych.

Więcej informacji znajdziesz w sekcji Dane kategoryczne: krzyżowanie cech w Szybkim szkoleniu z uczenia maszynowego.

ekstrakcja wyróżników

#fundamentals
#TensorFlow

Proces obejmujący te kroki:

  1. Określanie, które cechy mogą być przydatne podczas trenowania modelu.
  2. konwertowanie nieprzetworzonych danych ze zbioru danych na wydajne wersje tych funkcji;

Możesz na przykład uznać, że temperature może być przydatną funkcją. Następnie możesz eksperymentować z bucketingiem, aby zoptymalizować to, czego model może się nauczyć z różnych zakresów temperature.

Inżynieria cech jest czasami nazywana wyodrębnianiem cech lub tworzeniem cech.

Więcej informacji znajdziesz w sekcji Dane liczbowe: jak model przetwarza dane za pomocą wektorów cech z Kursu intensywnego z uczenia maszynowego.

ekstrakcja cech

Przeciążony termin, który ma jedno z tych znaczeń:

znaczenie cech

#df

Synonim wartości zmiennej.

zestaw cech

#fundamentals

Grupa funkcji, na podstawie których trenowany jest model systemów uczących się. Na przykład kod pocztowy, wielkość i stan nieruchomości mogą stanowić prosty zbiór cech dla modelu, który prognozuje ceny mieszkań.

specyfikacja funkcji

#TensorFlow

Opisuje informacje wymagane do wyodrębnienia danych funkcji z bufora protokołu tf.Example. Ponieważ bufor protokołu tf.Example to tylko kontener na dane, musisz określić:

  • Dane do wyodrębnienia (czyli klucze funkcji).
  • typ danych (np. liczba zmiennoprzecinkowa lub całkowita);
  • długość (stała lub zmienna);

wektor cech

#fundamentals

Tablica wartości cechy, która zawiera przykład. Wektor cech jest podawany podczas treningu i podczas wyciągania wniosków. Na przykład wektor cech w przypadku modelu z 2 cechami dyskretnymi może wyglądać tak:

[0.92, 0.56]

4 warstwy: warstwa wejściowa, 2 warstwy ukryte i jedna warstwa wyjściowa.
          Warstwa wejściowa zawiera 2 węzły: jeden z wartością 0,92, a drugi z wartością 0,56.

Każdy przykład podaje różne wartości wektora cech, więc wektor cech w następnym przykładzie może wyglądać tak:

[0.73, 0.49]

Przygotowanie danych określa, jak przedstawiać cechy w wektorze cech. Na przykład dwuwartościowa cecha kategorialna z 5 możliwymi wartościami może być reprezentowana za pomocą kodowania 1-hot. W tym przypadku część wektora cech w przypadku konkretnego przykładu składałaby się z 4 zer i 1 wartości 1,0 na 3.pozycji:

[0.0, 0.0, 1.0, 0.0, 0.0]

Innym przykładem może być model składający się z 3 cech:

  • binarna cecha kategorialna o 5 możliwych wartościach reprezentowanych za pomocą kodowania 1-hot, np.: [0.0, 1.0, 0.0, 0.0, 0.0]
  • kolejna dwuwartościowa cecha kategorialna o 3 możliwych wartościach reprezentowanych za pomocą kodowania 1-hot, np.: [0.0, 0.0, 1.0]
  • funkcja zmiennoprzecinkowa, np. 8.3.

W tym przypadku wektor cech każdego przykładu będzie reprezentowany przez 9 wartości. Na podstawie przykładowych wartości z poprzedniej listy wektor cech wyglądałby tak:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Więcej informacji znajdziesz w sekcji Dane liczbowe: jak model przetwarza dane za pomocą wektorów cech z Kursu intensywnego z uczenia maszynowego.

featurization

Proces wyodrębniania cech ze źródła danych, takiego jak dokument lub film, oraz mapowania tych cech w wektorze cech.

Niektórzy eksperci od uczenia maszynowego używają pojęcia „featuryzacja” jako synonimu tworzenia cech lub wyodrębniania cech.

sfederowane uczenie się

Rozproszone podejście do uczenia maszynowego, w którym modele uczenia maszynowego są trenowane za pomocą zdecentralizowanych przykładów znajdujących się na urządzeniach, takich jak smartfony. W ramach sfederowanego uczenia się podzbiór urządzeń pobiera bieżący model z centralnego serwera koordynującego. Urządzenia korzystają z przykładów zapisanych na urządzeniach, aby ulepszać model. Następnie urządzenia przesyłają ulepszenia modelu (ale nie przykłady szkoleniowe) do serwera sterującego, gdzie są agregowane z innymi aktualizacjami, aby uzyskać ulepszony model globalny. Po agregacji aktualizacje modelu obliczone przez urządzenia nie są już potrzebne i można je odrzucić.

Ponieważ przykłady treningowe nigdy nie są przesyłane, sfederowane uczenie się jest zgodne z zasadami ochrony prywatności dotyczącymi skoncentrowanego gromadzenia danych i ich minimalizacji.

Więcej informacji o sfederowanym uczeniu się znajdziesz w tym samouczku.

pętla informacji zwrotnych

#fundamentals

W uczeniu maszynowym sytuacja, w której prognozy modelu wpływają na dane treningowe tego samego modelu lub innego modelu. Na przykład model, który rekomenduje filmy, wpływa na to, jakie filmy widzą użytkownicy, a to z kolei wpływa na kolejne modele rekomendacji filmów.

Więcej informacji znajdziesz w sekcji Produkcyjne systemy ML: pytania do zastanowienia się w Kursie intensywnym z uczenia maszynowego.

sieć neuronowa do przodu (FFN)

Sieć neuronowa bez połączeń cyklicznych ani rekurencyjnych. Na przykład tradycyjne głębokie sieci neuronowe to sieci neuronowe typu feedforward. W odróżnieniu od powtarzających się sieci neuronowych, które są cykliczne.

uczenie się w kilku przykładach

Systemy uczące się, często używane do klasyfikacji obiektów, zaprojektowane w celu trenowania skutecznych klasyfikatorów na podstawie niewielkiej liczby przykładów.

Zobacz też uczenie jednorazowym przykłademuczenie zero-shot.

prompty „few-shot”

#language
#generativeAI

prompt zawierający więcej niż 1 (czyli „kilka”) przykładów pokazujących, jak duży model językowy powinien odpowiadać. Na przykład poniższy długi prompt zawiera 2 przykłady, które pokazują dużemu modelowi językowemu, jak odpowiadać na zapytanie.

Części jednego promptu Uwagi
Jaka jest oficjalna waluta w wybranym kraju? Pytanie, na które chcesz uzyskać odpowiedź od modelu LLM.
Francja: EUR Przykład:
Wielka Brytania: GBP Inny przykład
Indie: rzeczywiste zapytanie,

Prompty „few-shot” zwykle przynoszą lepsze wyniki niż prompty „zero-shot” i „one-shot”. Prompty „few-shot” wymagają jednak dłuższego promptu.

Prompty „few-shot” to forma uczenia się typu „few-shot”, która wykorzystuje uczenie się na podstawie promptów.

Więcej informacji znajdziesz w sekcji Projektowanie promptów w szybkim szkoleniu z uczenia maszynowego.

Skrzypce

#language

Biblioteka konfiguracyjna napisana głównie w Pythonie, która ustawia wartości funkcji i klas bez konieczności stosowania inwazyjnego kodu lub infrastruktury. W przypadku Pax i innych baz kodu ML te funkcje i klasy reprezentują modele i trenowanie parametry hiperzmiennych.

Fiddle zakłada, że kody baz danych systemów uczących się są zwykle podzielone na:

  • kod biblioteki, który definiuje warstwy i optymalizatory;
  • kod „klejący” zbiór danych, który wywołuje biblioteki i połącza wszystko ze sobą.

Fiddle rejestruje strukturę wywołań kodu pośredniczącego w nieocenionej i zmiennej formie.

dostrojenie

#language
#image
#generativeAI

Drugi przejazd treningowy, który dotyczy konkretnego zadania i jest wykonywany na wytrenowanym wcześniej modelu w celu dostosowania jego parametrów do konkretnego zastosowania. Przykładowa pełna sekwencja trenowania niektórych dużych modeli językowych:

  1. Wstępne trenowanie: trenowanie dużego modelu językowego na ogromnym ogólnym zbiorze danych, takim jak wszystkie strony Wikipedii w języku angielskim.
  2. Dostosowywanie: wytrenowanie wstępnie wytrenowanego modelu do wykonywania konkretnego zadania, np. odpowiadania na pytania medyczne. Dostrojenie polega zwykle na wykorzystaniu setek lub tysięcy przykładów dotyczących konkretnego zadania.

Innym przykładem jest pełna sekwencja trenowania dużego modelu obrazu:

  1. Wstępne trenowanie: trenowanie dużego modelu obrazów na olbrzymim ogólnym zbiorze danych, takim jak wszystkie obrazy w Wikimedia Commons.
  2. Dostrojenie: wytrenowanie wstępnie przeszkolonego modelu do wykonywania konkretnego zadania, np. generowania obrazów orek.

Dostosowanie dokładne może obejmować dowolną kombinację tych strategii:

  • zmodyfikować wszystkie istniejące parametry wytrenowanego wcześniej modelu; Czasami nazywa się to pełnym dostrojeniem.
  • Modyfikowanie tylko niektórych istniejących parametrów wstępnie wytrenowanego modelu (zazwyczaj warstw najbliżej warstwy wyjściowej), przy zachowaniu innych istniejących parametrów (zazwyczaj warstw najbliżej wejściowej warstwy). Zapoznaj się z artykułem Optymalizacja pod kątem wydajności parametrów.
  • Dodawanie kolejnych warstw, zwykle na wierzchu istniejących warstw najbliżej warstwy wyjściowej.

Dostrojenie to forma uczenia się przez przenoszenie. W ramach dostrojenia można użyć innej funkcji utraty lub innego typu modelu niż te, które zostały użyte do trenowania wstępnie wytrenowanego modelu. Możesz na przykład dostosować wstępnie wytrenowany model dużych obrazów, aby uzyskać model regresji zwracający liczbę ptaków na obrazie wejściowym.

Porównaj dostosowanie do tych terminów:

Więcej informacji znajdziesz w części Dostrojenie w Szybkim szkoleniu z uczenia maszynowego.

Len

#language

Wysokowydajna biblioteka open source do uczenia głębokiego oparta na JAX. Flax udostępnia funkcje treningu sieci neuronowych oraz metody oceny ich wydajności.

Flaxformer

#language

Biblioteka Transformer oparta na Flaxie, przeznaczona głównie do przetwarzania języka naturalnego i badania multimodalnego.

forget gate

#seq

Część komórki długotrwałej pamięci krótkotrwałej, która reguluje przepływ informacji przez komórkę. Bramki zapominania zachowują kontekst, określając, które informacje z stanu komórki mają zostać odrzucone.

ułamek sukcesów

#generativeAI

Dane służące do oceny wygenerowanego tekstu przez model ML. Ułamek sukcesów to liczba „udanych” wygenerowanych tekstów wyjściowych podzielona przez łączną liczbę wygenerowanych tekstów wyjściowych. Jeśli na przykład duży model językowy wygenerował 10 bloków kodu, z których 5 było pomyślnych, odsetek sukcesów wyniesie 50%.

Chociaż odsetek sukcesów jest przydatny w różnych statystykach, w ML ten wskaźnik jest przydatny głównie do pomiaru weryfikowalnych zadań, takich jak generowanie kodu czy rozwiązywanie problemów matematycznych.

pełny softmax

Synonim softmax.

Porównaj z próbkowaniem kandydatów.

Więcej informacji znajdziesz w sekcji Neural networks: Multi-class classification (neuronowe sieci: klasyfikacja wieloklasowa) w Kursie intensywnym z machine learning.

warstwa w pełni połączona

Ukryty poziom, na którym każdy węzeł jest połączony z każdym węzłem na kolejnym ukrytym poziomie.

Warstwę w pełni połączoną nazywa się też gęstą warstwą.

transformacja funkcji

Funkcja, która przyjmuje funkcję jako argument wejściowy, a jako wynik zwraca przekształconą funkcję. JAX używa przekształceń funkcji.

G

GAN

Skrót od generatywnej sieci antagonistycznej.

Gemini

#language
#image
#generativeAI

Ekosystem obejmujący najbardziej zaawansowaną AI od Google. Elementy tego ekosystemu to:

  • różne modele Gemini.
  • Interaktywny interfejs konwersacyjny do modelu Gemini. Użytkownicy wpisują prompty, a Gemini na nie odpowiada.
  • różne interfejsy Gemini API.
  • różne usługi biznesowe oparte na modelach Gemini, np. Gemini dla Google Cloud.

Modele Gemini

#language
#image
#generativeAI

Najnowocześniejsze modele multimodalne oparte na Transformerze od Google. Modele Gemini zostały zaprojektowane specjalnie do integracji z agentami.

Użytkownicy mogą wchodzić w interakcje z modelami Gemini na różne sposoby, m.in. za pomocą interaktywnego interfejsu dialogowego i pakietów SDK.

uogólnianie

#fundamentals

Zdolność modelu do trafnego przewidywania nowych, wcześniej niewidzianych danych. Model, który może uogólniać, jest przeciwieństwem modelu, który nadmiernie dopasowuje się.

Więcej informacji znajdziesz w sekcji Ogólnienie w szybkim szkoleniu z uczenia maszynowego.

krzywa generalizacji

#fundamentals

Wykres straty na etapie trenowaniastraty na etapie walidacji w funkcji liczby iteracji.

Krzywa generalizacji może pomóc w wykryciu możliwego nadmiernego dopasowania. Na przykład krzywa generalizacji sugeruje przetrenowanie, ponieważ strata weryfikacyjna staje się ostatecznie znacznie większa niż strata podczas trenowania.

Wykres kartezjański, na którym oś Y ma etykietę „strata”, a oś X – „iteracje”. Pojawiają się 2 wykresy. Jeden wykres pokazuje stratę podczas trenowania, a drugi – stratę podczas weryfikacji.
          Oba wykresy zaczynają się podobnie, ale strata podczas trenowania w końcu spada znacznie poniżej straty podczas walidacji.

Więcej informacji znajdziesz w sekcji Ogólnienie w szybkim szkoleniu z uczenia maszynowego.

uogólniony model liniowy

Uogólnianie modeli regresji najmniejszych kwadratów, które opierają się na szumie Gaussa, na inne typy modeli oparte na innych rodzajach szumu, takich jak szum Poissona lub szum kategorialny. Przykłady uogólnionych modeli liniowych:

Parametry modelu liniowego z ogólnionym zbiorem danych można znaleźć za pomocą optymalizacji wypukłej.

Modele liniowe ogólne mają te właściwości:

  • Średnia prognoza optymalnego modelu regresji najmniejszych kwadratów jest równa średniej etykiecie w danych treningowych.
  • Średnie prawdopodobieństwo prognozowane przez optymalny model regresji logistycznej jest równe średniej etykiecie w danych treningowych.

Moc modelu liniowego ogólnego jest ograniczona przez jego cechy. W przeciwieństwie do modelu głębokiego, uogólniony model liniowy nie może „uczyć się nowych cech”.

wygenerowany tekst

#language
#generativeAI

Ogólnie tekst generowany przez model ML. Podczas oceny dużych modeli językowych niektóre dane porównują wygenerowany tekst z tekstem odniesienia. Załóżmy na przykład, że chcesz sprawdzić, jak skutecznie model ML tłumaczy z języka francuskiego na holenderski. W tym przypadku:

  • Wygenerowany tekst to tłumaczenie na język niderlandzki, które generuje model uczenia maszynowego.
  • Tekst referencyjny to tłumaczenie na język niderlandzki, które zostało utworzone przez tłumacza (lub oprogramowanie).

Pamiętaj, że niektóre strategie oceny nie uwzględniają tekstu odniesienia.

generatywne sieci współzawodniczące (GAN)

System do tworzenia nowych danych, w którym generator tworzy dane, a element dyskryminujący określa, czy utworzone dane są prawidłowe.

Więcej informacji znajdziesz w Kursie Generative Adversarial Networks.

generatywnej AI

#language
#image
#generativeAI

Nowe, rewolucyjne pole, które nie ma formalnej definicji. Większość ekspertów zgadza się jednak, że modele generatywnej AI mogą tworzyć („generować”) treści, które:

  • złożone
  • spójny
  • oryginał

Na przykład model generatywnej AI może tworzyć zaawansowane eseje lub obrazy.

Niektóre starsze technologie, w tym sieci LSTMsieci RNN, również mogą generować oryginalne i spójne treści. Niektórzy eksperci uważają, że te wcześniejsze technologie są generatywną AI, podczas gdy inni uważają, że prawdziwa generatywna AI wymaga bardziej złożonego wyjścia niż te wcześniejsze technologie.

W przeciwieństwie do systemów ML prognozujących.

model generatywny

W praktyce model, który wykonuje jedną z tych czynności:

  • Tworzy (generuje) nowe przykłady na podstawie zbioru danych treningowych. Na przykład model generatywny może tworzyć poezję po wytrenowaniu na zbiorze wierszy. Do tej kategorii należy część generatora generatywnej sieci generatywnej.
  • Określa prawdopodobieństwo, że nowy przykład pochodzi ze zbioru treningowego lub został utworzony za pomocą tego samego mechanizmu, który został użyty do utworzenia zbioru treningowego. Na przykład po przeszkoleniu na zbiorze danych zawierającym zdania w języku angielskim model generatywny może określić prawdopodobieństwo, że nowe dane wejściowe są prawidłowym zdaniem w tym języku.

Model generatywny może teoretycznie rozróżniać rozkład przykładów lub poszczególnych cech w zbiorze danych. Czyli:

p(examples)

Modele uczenia nienadzorowanego są generatywne.

W przeciwieństwie do modeli dyskryminacyjnych.

generator

Podsystem w generatywnej sieci antagonistycznej, która tworzy nowe przykłady.

Kontrast w porównaniu z modelem dyskryminacyjnym.

wskaźnik gini,

#df

Dane podobne do entropii. Separatory używają wartości pochodzących z nieczystości Gini lub entropii do tworzenia warunków służących do klasyfikacji w drzewach decyzyjnych. Zyskane informacje pochodzą z entropii. Nie ma ogólnie przyjętego odpowiednika dla danych pochodzących z wskaźnika gini; jednak te nienazwane dane są równie ważne jak zysk informacji.

Zanieczyszczenie Giniego nazywane jest też wskaźnikiem Giniego lub po prostu Ginim.

zbiór danych typu „złoty standard”

Zestaw ręcznie sporządzonych danych, który zawiera dane podstawowe. Aby ocenić jakość modelu, zespoły mogą użyć co najmniej 1 złotego zbioru danych.

Niektóre złote zbiory danych obejmują różne podzbiory dokładnych informacji. Na przykład zbiór danych złotego standardu do klasyfikacji obrazów może uwzględniać warunki oświetlenia i rozdzielczość obrazu.

złota odpowiedź

#language
#generativeAI

Odpowiedź, która jest uznana za dobrą. Na przykład w przypadku tego prompta:

2 + 2

Najlepszą odpowiedzią jest:

4

GPT (generatywna, wstępnie wytrenowana sieć Transformer)

#language

Rodzina dużych modeli językowych opartych na architekturze Transformer opracowanych przez OpenAI.

Warianty GPT mogą dotyczyć wielu modalności, w tym:

  • generowanie obrazów (np. ImageGPT);
  • generowanie obrazu na podstawie tekstu (np. DALL-E).

gradient

Wektor częściowych pochodnych względem wszystkich zmiennych niezależnych. W uczeniu maszynowym gradient to wektor pochodnych cząstkowych funkcji modelu. Punkty gradientu wskazują kierunek największego wzniesienia.

kumulacja gradientu

Technika propagacji wstecznej, która aktualizuje parametry tylko raz na erę, a nie raz na iterację. Po przetworzeniu każdej minipartii gromadzenie gradientów po prostu aktualizuje bieżącą sumę gradientów. Następnie, po przetworzeniu ostatniego mini-zbioru w epoce, system aktualizuje parametry na podstawie sumy wszystkich zmian gradientu.

Gromadzenie gradientów jest przydatne, gdy rozmiar wsadu jest bardzo duży w stosunku do dostępnej pamięci na potrzeby trenowania. Gdy pamięć jest problemem, naturalną tendencją jest zmniejszanie rozmiaru partii. Jednak zmniejszenie rozmiaru partii w ramach zwykłego rekurencyjnego propagowania wstecznego zwiększa liczbę aktualizacji parametrów. Dzięki gromadzeniu gradientów model może uniknąć problemów z pamięcią, a jednocześnie nadal efektywnie się uczyć.

drzewa gradientowe (decyzyjne) (GBT)

#df

Typ lasu decyzyjnego, w którym:

Więcej informacji znajdziesz w sekcji Gradient Boosted Decision Trees w szkoleniu dotyczącego lasów decyzyjnych.

wzmacnianie gradientowe

#df

Algorytm trenowania, w którym słabe modele są trenowane w celu stopniowego polepszania jakości (zmniejszania strat) silnego modelu. Słabością modelu może być np. model liniowy lub małe drzewo decyzyjne. Mocny model staje się sumą wszystkich wcześniej wytrenowanych słabych modeli.

W najprostszej formie wzmacniania gradientu na każdej iteracji słaby model jest trenowany do przewidywania gradientu utraty siły modelu silnego. Następnie dane wyjściowe modelu silnego są aktualizowane przez odjęcie przewidywanego gradientu, podobnie jak w przypadku spadku gradientu.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

gdzie:

  • $F_{0}$ to silny model początkowy.
  • $F_{i+1}$ to kolejny silny model.
  • $F_{i}$ to bieżący silny model.
  • $\xi$ to wartość z zakresu od 0,0 do 1,0 nazywana kurczeniem, która jest analogią stopy uczenia się w metodach gradientu schodkowego.
  • $f_{i}$ to słaby model wytrenowany do przewidywania gradientu straty $F_{i}$.

Nowoczesne warianty wzmacniania gradientu uwzględniają w swoim działaniu także drugą pochodną (Hesjana) funkcji strat.

Drzewa decyzyjne są często używane jako słabe modele w wzmacnianiu gradientowym. Zobacz drzewa decyzyjne z wzmocnieniem gradientowym.

przycinanie gradientu

#seq

Często stosowany mechanizm ograniczający problem wybuchowego gradientu przez sztuczne ograniczanie (przycinanie) maksymalnej wartości gradientów podczas stosowania metody gradientu prostego do treningu modelu.

spadku wzdłuż gradientu

#fundamentals

Technika matematyczna służąca do minimalizowania strat. Metoda gradientu stochastycznego iteracyjnie dostosowuje wagi i uśrednia błędy, stopniowo znajdując najlepszą kombinację w celu zminimalizowania strat.

Metoda gradientu stosowana jest od dawna, czyli znacznie wcześniej niż systemy uczące się.

Więcej informacji znajdziesz w artykule Regresja liniowa: metoda gradientu schodkowego z Kursu intensywnego na temat uczenia się maszynowego.

wykres

#TensorFlow

W TensorFlow jest to specyfikacja obliczeń. Węzły na wykresie reprezentują operacje. Krawędzie są kierunkowe i reprezentują przekazywanie wyniku operacji (Tensor) jako operanda do innej operacji. Użyj TensorBoard, aby zwizualizować wykres.

wykonanie grafu

#TensorFlow

Środowisko programowania TensorFlow, w którym program najpierw tworzy graf, a następnie wykonuje go w całości lub częściowo. Wykonywanie wykresu jest domyślnym trybem wykonywania w TensorFlow 1.x.

W przeciwieństwie do opóźnionego wykonania.

zasada zachłanności

#rl

W uczeniu ze wzmocnieniem polityka, która zawsze wybiera działanie o najwyższym oczekiwanym zwrocie.

groundedness

Właściwość modelu, której dane wyjściowe są oparte na określonych materiałach źródłowych. Załóżmy na przykład, że przesyłasz cały podręcznik do fizyki jako dane wejściowe („kontekst”) do dużego modelu językowego. Następnie zadasz dużemu modelowi językowemu pytanie z fizyki. Jeśli odpowiedź modelu odzwierciedla informacje z podręcznika, model jest oparty na tym podręczniku.

Pamiętaj, że model oparty na faktach nie zawsze jest modelem opartym na faktach. Na przykład podręcznik do fizyki może zawierać błędy.

dane podstawowe (ground truth)

#fundamentals

Realizm.

co faktycznie się wydarzyło.

Rozważmy na przykład model dwuklasowej klasyfikacji, który przewiduje, czy student pierwszego roku studiów ukończy je w ciągu 6 lat. Dane podstawowe dla tego modelu to informacje o tym, czy dany student ukończył studia w ciągu 6 lat.

błąd uogólnienia,

#fairness

Zakładanie, że to, co jest prawdziwe w przypadku danej osoby, jest też prawdziwe w przypadku wszystkich innych osób w tej grupie. Skutki błędu atrybucji grupowej mogą być nasilone, jeśli do zbierania danych używasz próbkowania dogodnego. W przypadku próby niereprezentatywnej mogą wystąpić przypisania, które nie odzwierciedlają rzeczywistości.

Zobacz też błąd jednorodności grupy obcejbłąd stronniczości wewnątrzgrupowej. Więcej informacji znajdziesz w artykule Uczciwość: rodzaje stronnicości z cyklu Crash Course o systemach uczących się.

H

halucynacje

#language

wygenerowanie przez model generatywnej AI danych wyjściowych, które wydają się wiarygodne, ale są nieprawdziwe, i które rzekomo stanowią twierdzenie o rzeczywistym świecie. Na przykład model generatywnej AI, który twierdzi, że Barack Obama zmarł w 1865 r., halucynuje.

wyliczanie skrótu

W uczeniu maszynowym mechanizm grupowania danych kategorycznych, zwłaszcza gdy liczba kategorii jest duża, ale liczba kategorii, które faktycznie występują w danym zbiorze danych, jest stosunkowo niewielka.

Na przykład na Ziemi występuje około 73 tys. gatunków drzew. Możesz reprezentować 73 tys. gatunków drzew w 73 tys. oddzielnych zbiornikach miar . Jeśli w zbiorze danych występuje tylko 200 gatunków drzew, możesz użyć haszowania, aby podzielić je na około 500 grup.

Jeden kosz może zawierać wiele gatunków drzew. Na przykład funkcja hashowania może umieścić baobab i klon czerwony – 2 gatunki różniące się genetycznie – w tym samym zbiorze. Mimo to haszowanie jest nadal dobrym sposobem na mapowanie dużych zbiorów kategorii na wybraną liczbę puli. Funkcja haszująca zamienia cechę kategorialną o dużej liczbie możliwych wartości na znacznie mniejszą liczbę wartości przez zgrupowanie wartości w sposób deterministyczny.

Więcej informacji znajdziesz w artykule Dane kategoryczne: słownik i kodowanie jednowymiarowe z cyklu samouczków z machine learningu.

heurystyka

proste i szybko wdrażane rozwiązanie problemu; Na przykład: "Dzięki heurystycznym algorytmom udało nam się uzyskać dokładność na poziomie 86%. Gdy przełączyliśmy się na głęboką sieć neuronową, dokładność wzrosła do 98%”.

warstwa ukryta

#fundamentals

Warstwa w sieci neuronowej między warstwą wejściową (cechy) a warstwą wyjściową (prognoza). Każda warstwa ukryta składa się z co najmniej 1 neurona. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy:

4 warstwy. Pierwsza warstwa to warstwa wejściowa zawierająca 2 cechy. Druga warstwa to warstwa ukryta zawierająca 3 neurony. Trzecia warstwa to warstwa ukryta zawierająca 2 neurony. Czwarta warstwa to warstwa wyjściowa. Każda cecha zawiera 3 krawędzie, z których każda wskazuje inny neuron na drugim poziomie. Każdy z neuronów na 2 poziomie zawiera 2 krawędzie, z których każda wskazuje inny neuron na 3 poziomie. Każdy z neuronów na 3 poziomie zawiera 1 krawędzie, z których każda wskazuje na warstwę wyjściową.

Głęboka sieć neuronowa zawiera więcej niż 1 warstwę ukrytą. Na przykład poprzednia ilustracja przedstawia głęboką sieć neuronową, ponieważ model zawiera 2 warstwy ukryte.

Więcej informacji znajdziesz w artykule Neural networks: Nodes and hidden layers z cyklu Crash Course z machine learningu.

grupowanie hierarchiczne

#clustering

Kategoria algorytmów klasterowania, które tworzą drzewo klastrów. Gromadzenie hierarchiczne jest odpowiednie do danych hierarchicznych, takich jak systemy klasyfikacji biologicznej. Istnieją 2 rodzaje hierarchicznych algorytmów grupowania:

  • Klasterowanie aglomeracyjne polega na przypisaniu każdego przykładu do własnego klastra, a następnie na iteracyjnym łączeniu najbliższych klastrów w celu utworzenia hierarchicznego drzewa.
  • Klasteryzacja dzieląca najpierw grupuje wszystkie przykłady w jeden klaster, a potem dzieli go iteracyjnie na drzewo hierarchiczne.

Porównaj z zagnieżdżonym zgrupowaniem na podstawie środka ciężkości.

Więcej informacji znajdziesz w sekcji Algorytmy klastrowania w Kursie z klasteringu.

wspinaczka

Algorytm, który pozwala stopniowo ulepszać („wspinać się”) model uczenia maszynowego, aż przestanie się on poprawiać („dociera do szczytu”). Ogólny format algorytmu:

  1. Utwórz model początkowy.
  2. Utwórz nowe modele docelowe, wprowadzając niewielkie zmiany w sposobie treningu lub dostrajania. Może to wymagać korzystania z nieco innego zestaju treningowego lub z innych hiperparametrów.
  3. Oceń nowe modele docelowe i podejmij jedno z tych działań:
    • Jeśli model kandydata przewyższy model wyjściowy, stanie się on nowym modelem wyjściowym. W takim przypadku powtórz kroki 1, 2 i 3.
    • Jeśli żaden model nie przewyższa modelu początkowego, oznacza to, że osiągnięto już maksimum i należy przestać iterować.

Więcej informacji o dostrajaniu hiperparametrów znajdziesz w przewodniku po dostrajaniu głębokiego uczenia się. Aby uzyskać wskazówki dotyczące inżynierii danych, zapoznaj się z modułami dotyczącymi danych w szybkim szkoleniu z uczenia maszynowego.

utrata zawiasu,

Rodzina funkcji straty do klasyfikacji, która ma na celu znalezienie granicy decyzyjnej jak najbardziej oddalonej od każdego przykładu treningowego, maksymalizując w ten sposób margines między przykładami a granicą. KSVM używają funkcji hinge loss (lub powiązanej z nią funkcji, np. kwadratowej funkcji hinge loss). W przypadku klasyfikacji binarnej funkcja straty sprężynowej jest zdefiniowana w ten sposób:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

gdzie y to właściwa etykieta (-1 lub +1), a y' to nieprzetworzone dane wyjściowe modelu klasyfikatora:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W związku z tym wykres straty stycznej w zależności od (y * y') wygląda tak:

Wykres kartezjański utworzony z 2 złączonych odcinków linii. Pierwszy odcinek linii zaczyna się w punktach (-3, 4) i kończy w punktach (1, 0). Drugi segment linii zaczyna się w punkcie (1, 0) i ciągnie się w nieskończoność z nachyleniem 0.

efekt historyczny

#fairness

Typ uprzedzeń, który występuje już w świecie i znalazł się w zbiorze danych. Te uprzedzenia mają tendencję do odzwierciedlania istniejących stereotypów kulturowych, nierówności demograficznych i uprzedzeń wobec niektórych grup społecznych.

Rozważ na przykład model klasyfikacji, który przewiduje, czy pożyczkobiorca nie spłaci pożyczki. Model został wytrenowany na podstawie historycznych danych o niespłaconych pożyczkach pochodzących z lat 80. XX w. z banków lokalnych z dwóch różnych społeczności. Jeśli w przypadku poprzednich wniosków złożonych przez członków społeczności A ryzyko niespłacenia kredytu było 6 razy większe niż w przypadku wniosków złożonych przez członków społeczności B, model może nauczyć się historycznego uprzedzeństwa, co spowoduje, że będzie mniej skłonny do zatwierdzania kredytów w społeczności A, nawet jeśli historyczne warunki, które spowodowały wyższe wskaźniki niespłacenia w tej społeczności, nie są już istotne.

Więcej informacji znajdziesz w sekcji Uczciwość: rodzaje uprzedzeń z Kursu intensywnego na temat uczenia maszynowego.

dane wstrzymane

Przykłady celowo nieużyte („zatrzymane”) podczas treningu. Zbiór danych do weryfikacjizbiór danych do testów to przykłady danych holdout. Dane z danych nieużywanych pomagają ocenić zdolność modelu do uogólniania na dane inne niż dane, na których został wytrenowany. Strata na zbiorze testowym daje lepsze oszacowanie straty na nieznanym zbiorze danych niż strata na zbiorze treningowym.

host

#TensorFlow
#GoogleCloud

Podczas trenowania modelu ML na urządzeniach przyspieszających (kartach graficznych lub urządzeniach TPU) część systemu, która kontroluje:

  • ogólny przepływ kodu;
  • wyodrębnianie i przekształcanie potoku danych wejściowych;

Host zwykle działa na procesorze, a nie na chipie akceleratora. Urządzenie manipuluje tensorami na chipach akceleratora.

sprawdzenie przez weryfikatora

#language
#generativeAI

Proces, w którym ludzie oceniają jakość danych wyjściowych modelu AI; na przykład dwujęzyczne osoby oceniają jakość modelu tłumaczenia maszynowego. Weryfikacja manualna jest szczególnie przydatna do oceny modeli, które nie mają jednej prawidłowej odpowiedzi.

Porównaj z automatyczną ocenąocenianiem przez autoratera.

z udziałem człowieka (HITL),

#generativeAI

luźno zdefiniowany idiom, który może oznaczać jedno z tych wyrażeń:

  • Zasady dotyczące krytycznego lub sceptycznego podejścia do wyników generatywnej AI. Na przykład autorzy tego słownika ML są pod wrażeniem tego, co potrafią duże modele językowe, ale zdają sobie sprawę z błędów, które popełniają.
  • Strategia lub system zapewniający, że ludzie pomagają kształtować, oceniać i ulepszać zachowanie modelu. Dzięki temu, że człowiek jest w ciągły sposób informowany o działaniach AI, system może korzystać zarówno z inteligencji maszynowej, jak i ludzkiej. Na przykład system, w którym AI generuje kod, który następnie jest sprawdzany przez inżynierów oprogramowania, jest systemem z ludzkim udziałem.

hiperparametr

#fundamentals

zmienne, które Ty lub usługa dostrajania hiperparametrówdostosowujesz podczas kolejnych sesji trenowania modelu; Na przykład tempo uczenia się jest hiperparametrem. Przed rozpoczęciem sesji treningowej możesz ustawić szybkość uczenia się na 0,01. Jeśli uznasz, że 0,01 jest zbyt wysoką wartością, możesz ustawić szybkość uczenia się na 0,003 w następnej sesji treningowej.

Natomiast parametry to różne wagiuprzedzenia, których model uczy się podczas trenowania.

Więcej informacji znajdziesz w sekcji Regresja liniowa: hiperparametry w Kursie intensywnym z obsługi uczenia maszynowego.

hipersamolot

Granica, która dzieli przestrzeń na 2 podprzestrzenie. Na przykład linia jest hiperpłaszczyzną w 2 wymiarach, a płaszczyzna jest hiperpłaszczyzną w 3 wymiarach. W uczeniu maszynowym hiperpłaszczyzna to zwykle granica oddzielająca przestrzeń o dużej wymiarowości. Kernety maszyn wektorów pomocniczych używają hiperpłaszczyzn do oddzielania klas pozytywnych od klas negatywnych, często w bardzo wysokiej wymiarowości.

I

i.i.d.

Skrót od niezależnie i identycznie rozłożonych.

rozpoznawanie obrazów

#image

Proces klasyfikowania obiektów, wzorów lub pojęć na obrazie. Rozpoznawanie obrazów to także klasyfikacja obrazów.

Więcej informacji znajdziesz w artykule ML Practicum: Image Classification.

Więcej informacji znajdziesz w praktycznym kursie dotyczącym uczenia maszynowego: klasyfikacja obrazów.

zbiór danych z niezrównoważonymi danymi

Synonim zbioru danych o niezrównoważonych klasach.

nieświadome uprzedzenia

#fairness

Automatyczne tworzenie skojarzeń lub założeń na podstawie modeli i wspomnień. Ukryte uprzedzenia mogą wpływać na:

  • sposobach zbierania i klasyfikowania danych;
  • Jak projektować i rozwijać systemy uczące się.

Na przykład podczas tworzenia klasyfikatora do rozpoznawania zdjęć ślubnych inżynier może użyć jako cechy obecności białej sukni na zdjęciu. Jednak białe suknie były zwyczajowo noszone tylko w określonych epokach i kulturach.

Zobacz też efekt potwierdzenia.

przypisywanie

Skrócona forma przypisania wartości.

niezgodność wskaźników obiektywności

#fairness

Pogląd, że niektóre pojęcia obiektywności są niekompatybilne i nie mogą być spełnione jednocześnie. W rezultacie nie ma jednego uniwersalnego wskaźnika obiektywności, który można stosować do wszystkich problemów z użyciem uczenia maszynowego.

Chociaż może to zniechęcać, brak spójności wskaźników obiektywności nie oznacza, że wysiłki na rzecz obiektywności są bezowocne. Zamiast tego sugeruje, że obiektywność trzeba definiować w kontekście określonego problemu związanego z ML, aby zapobiegać szkodom związanym z danymi zastosowaniami.

Więcej informacji na ten temat znajdziesz w artykule „O możliwościach i niemożnościach zapewnienia sprawiedliwości”.

uczenie się w kontekście

#language
#generativeAI

Synonim promptów „few-shot”.

niezależne i identycznie rozłożone (i.i.d)

#fundamentals

Dane pochodzące z rozkładu, który się nie zmienia, a każda z wylosowanych wartości nie zależy od wcześniej wylosowanych wartości. IID to gaz doskonały w uczeniu maszynowym – przydatna konstrukcja matematyczna, która w rzeczywistych warunkach występuje bardzo rzadko. Na przykład w krótkim przedziale czasu rozkład wizyt na stronie internetowej może być niezależny od identyfikatora, co oznacza, że rozkład nie zmienia się w tym krótkim przedziale czasu, a wizyta jednej osoby jest zazwyczaj niezależna od wizyty innej osoby. Jeśli jednak rozszerzysz ten przedział czasu, mogą pojawić się sezonowe różnice w liczbie odwiedzających stronę.

Zobacz też niestacjonarność.

obiektywność w stosunku do poszczególnych osób,

#fairness

Dane dotyczące sprawiedliwości, które sprawdzają, czy podobne osoby są klasyfikowane w podobny sposób. Na przykład Brobdingnagian Academy może chcieć zapewnić sprawiedliwość indywidualną, dbając o to, aby dwoje uczniów z identycznymi ocenami i wynikami testów standaryzowanych mieli równe szanse na przyjęcie.

Pamiętaj, że indywidualna sprawiedliwość zależy wyłącznie od tego, jak zdefiniujesz „podobność” (w tym przypadku oceny i wyniki testów). Jeśli wskaźnik podobieństwa pomija ważne informacje (np. rygorystyczne wymagania programu nauczania), możesz narazić się na ryzyko wprowadzenia nowych problemów z sprawiedliwością.

Aby dowiedzieć się więcej o sprawiedliwości indywidualnej, zapoznaj się z artykułem „Fairness Through Awarenes”.

wnioskowanie

#fundamentals

W uczeniu maszynowym proces dokonywania prognoz polega na zastosowaniu wytrenowanego modelu do nieoznaczonych przykładów.

W statystyce wnioskowanie ma nieco inne znaczenie. Więcej informacji znajdziesz w  tym artykule na temat wnioskowania statystycznego w Wikipedii.

Aby poznać rolę wnioskowania w systemie uczenia nadzorowanego, zapoznaj się z uczenie nadzorowane w Kursie wprowadzającym do uczenia maszynowego.

ścieżka wnioskowania

#df

drzewie decyzyjnym podczas uogólniania przykład przechodzi od korzenia do innych warunków, aż do listka. Na przykład w tym schemacie decyzyjnym grubsze strzałki wskazują ścieżkę wnioskowania w przypadku przykładu z tymi wartościami cech:

  • x = 7
  • y = 12
  • z = –3

Ścieżka wnioskowania na ilustracji poniżej przechodzi przez 3 warunki, zanim dotrze do liścia (Zeta).

Drzewo decyzyjne składające się z 4 warunków i 5 węzłów
          Warunek pierwotny to (x > 0). Ponieważ odpowiedź to „Tak”, ścieżka wnioskowania przechodzi od węzła głównego do następnego warunku (y > 0).
          Ponieważ odpowiedź to „Tak”, ścieżka wnioskowania przechodzi do następnego warunku (z > 0). Ponieważ odpowiedź to „Nie”, ścieżka wnioskowania dociera do węzła końcowego, który jest węzłem końcowym (Zeta).

3 grube strzałki wskazują ścieżkę wnioskowania.

Więcej informacji znajdziesz w schematach decyzyjnych w kursie „Lasy decyzyjne”.

zysk informacji

#df

W lasach decyzyjnych jest to różnica między entropią węzła a ważoną (pod względem liczby przykładów) sumą entropii jego węzłów podrzędnych. Entropia węzła to entropia przykładów w tym węźle.

Weźmy na przykład te wartości entropii:

  • entropia węzła nadrzędnego = 0,6
  • entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
  • entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1

Oznacza to, że 40% przykładów znajduje się w jednym węźle podrzędnym, a 60% – w drugim. Dlatego:

  • ważona suma entropii węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Informacje, które można uzyskać, to:

  • przyrost informacji = entropia węzła nadrzędnego – ważona suma entropii węzłów podrzędnych
  • przyrost informacji = 0,6 - 0,14 = 0,46

Większość rozdzielaczy stara się tworzyć warunki, które maksymalizują zysk informacji.

stronniczość wewnątrzgrupowa

#fairness

Przejawianie stronniczości wobec własnej grupy lub własnych cech. Jeśli testerzy lub oceniający to przyjaciele, rodzina lub współpracownicy dewelopera, testy produktu lub zestaw danych mogą być niewiarygodne z powodu stronniczości wewnątrz grupy.

Stronniczość wewnątrzgrupowa jest formą błędu uogólnienia. Zobacz też błąd jednorodności grupy obcej.

Więcej informacji znajdziesz w sekcji Uczciwość: rodzaje uprzedzeń z Kursu intensywnego z machine learningu.

generator danych wejściowych

Mechanizm wczytywania danych do sieci neuronowej.

Generator danych wejściowych można traktować jako komponent odpowiedzialny za przetwarzanie danych źródłowych na tensory, które są iterowane w celu generowania partii danych na potrzeby trenowania, oceny i wnioskowania.

warstwa wejściowa

#fundamentals

Warstwa sieci neuronowej, która przechowuje wektory cech. Oznacza to, że warstwa wejściowa dostarcza przykładów do trenowania lub wyciągania wniosków. Na przykład warstwa wejściowa w tej sieci neuronowej składa się z 2 elementów:

4 warstwy: warstwa wejściowa, 2 warstwy ukryte i warstwa wyjściowa.

warunek w zestawie

#df

drzewie decyzyjnym warunek, który sprawdza obecność jednego elementu w zbiorze elementów. Przykładem warunku w zbiorze jest:

  house-style in [tudor, colonial, cape]

Jeśli podczas wnioskowania wartość cechy typu domu wynosi tudor, colonial lub cape, to ten warunek jest oceniany jako „Tak”. Jeśli wartość funkcji typu domu jest inna (np. ranch), warunek ten przyjmuje wartość Nie.

Warunki w zbiorze zwykle prowadzą do bardziej wydajnych drzewek decyzyjnych niż warunki testujące zmienną zakodowaną w postaci 1-hot.

instancja

Synonim przykład.

dostrajanie przy użyciu instrukcji

#generativeAI

Forma dostrojenia, która zwiększa zdolność modelu generatywnej AI do wykonywania poleceń. Dostrajanie przy użyciu instrukcji polega na trenowaniu modelu na podstawie serii promptów instrukcji, które zwykle obejmują wiele różnych zadań. Powstały w ten sposób model dostosowany do instrukcji zwykle generuje przydatne odpowiedzi na prompty bez przykładów w różnych zadaniach.

Porównaj z:

interpretowalność

#fundamentals

Umiejętność wyjaśnienia lub przedstawienia rozumowania modelu ML w zrozumiały sposób.

Na przykład większość modeli regresji liniowej jest łatwa do interpretacji. (wystarczy spojrzeć na wytrenowane wagi dla każdej cechy). Lasy decyzyjne są też bardzo czytelne. Interpretowalność niektórych modeli wymaga jednak rozbudowanej wizualizacji.

Do interpretowania modeli ML możesz użyć narzędzia do analizowania interpretowalności (LIT).

umowa między recenzentami

Miara, która określa, jak często weryfikatorzy zgadzają się ze sobą podczas wykonywania zadania. Jeśli oceniający się nie zgadzają, może być konieczne poprawienie instrukcji zadania. Czasem jest też nazywany porozumieniem między selekcjonerami lub wiarygodnością między oceniającymi. Zobacz też współczynnik kappa Cohena, który jest jednym z najpopularniejszych wskaźników zgodności między oceniającymi.

Więcej informacji znajdziesz w sekcji Dane kategoryczne: typowe problemy z Kursu intensywnego na temat uczenia maszynowego.

współczynnik podobieństwa (IoU)

#image

Przecięcie 2 zbiorów podzielone przez ich związek. W zadaniach związanych z wykrywaniem obrazów za pomocą uczenia maszynowego współczynnik podobieństwa służy do pomiaru dokładności prognozowanej ramki ograniczającej modelu w odniesieniu do ramki ograniczającej danych podstawowych. W tym przypadku współczynnik podobieństwa dla dwóch pól to stosunek obszaru nakładania się do całkowitego obszaru, a jego wartość waha się od 0 (brak nakładania się prognozowanej ramki ograniczającej i ramki ograniczającej danych podstawowych) do 1 (prognozowana i rzeczywista ramka ograniczająca mają dokładnie te same współrzędne).

Na przykład na obrazie poniżej:

  • Zaznaczony na fioletowo jest ramka ograniczająca (współrzędne określające, gdzie według modelu znajduje się nocny stolik na obrazie).
  • Zaznaczony na zielono jest obszar ograniczony (box) danych podstawowych (współrzędne określające, gdzie na obrazie znajduje się stół nocny).

Obraz Van Gogha „Sypialnia Vincenta w Arles” z dwoma różnymi obwiedzionymi obszarami wokół stolika nocnego obok łóżka. Ramka ograniczająca danych podstawowych (w kolorze zielonym) idealnie obejmuje stół nocny. Prognozowana ramka ograniczająca (fioletowa) jest przesunięta o 50% w dół i w prawo od ramki podstawowej. Obejmuje ona ćwiartkę tabeli nocnej w prawym dolnym rogu, ale nie obejmuje reszty tabeli.

Współrzędna ramek ograniczających prognozy i danych podstawowych (po lewej stronie na dole) wynosi 1, a zbiór ramek ograniczających prognozy i danych podstawowych (po prawej stronie na dole) – 7, więc współczynnik podobieństwa to \(\frac{1}{7}\).

Ten sam obraz co powyżej, ale z ramkami ograniczającymi podzielonymi na 4 ćwiartki. W ogóle jest 7 kwaterałów, ponieważ prawy dolny kwadrant ramki ograniczającej danych podstawowych i lewy górny kwadrant prognozowanej ramki ograniczającej nakładają się na siebie. Ta nakładająca się sekcja (wyróżniona na zielono) reprezentuje skrzyżowanie i ma powierzchnię 1. Ten sam obraz co powyżej, ale z ramkami ograniczającymi podzielonymi na 4 ćwiartki. W ogóle jest 7 kwaterałów, ponieważ prawy dolny kwadrant ramki ograniczającej danych podstawowych i lewy górny kwadrant prognozowanej ramki ograniczającej nakładają się na siebie.
          Cały obszar wewnątrz obu pudeł (zaznaczony na zielono) reprezentuje związek i ma powierzchnię 7.

IoU

Skrót od współczynnik podobieństwa.

tablica elementów

#recsystems

W systemach rekomendacji jest to macierz wektorów zastępczych wygenerowana przez faktoryzację macierzy, która zawiera ukryte sygnały dotyczące każdego elementu. Każdy wiersz macierzy elementów zawiera wartość pojedynczej cechy ukrytej dla wszystkich elementów. Weźmy na przykład system rekomendacji filmów. Każda kolumna w macierz elementów odpowiada jednemu filmowi. Te ukryte sygnały mogą reprezentować gatunki lub mogą być trudniejsze do interpretacji sygnały, które obejmują złożone interakcje między gatunkiem, gwiazdami, wiekiem filmu lub innymi czynnikami.

Macierz elementów ma taką samą liczbę kolumn co docelowa macierz, która jest czynnikowana. Jeśli np. system rekomendacji filmów ocenia 10 tys. tytułów, ma 10 tys. kolumn.

items

#recsystems

W systemie rekomendacji są to elementy, które system rekomenduje. Na przykład filmy to produkty rekomendowane przez sklep z filmami, a książki to produkty rekomendowane przez księgarnię.

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modelu (waguprzedzeń) podczas trenowania. Rozmiar wsadu określa, ile przykładów model przetwarza w ramach jednej iteracji. Jeśli na przykład rozmiar partii wynosi 20, model przetwarza 20 przykładów, zanim dostosuje parametry.

Podczas trenowania sieci neuronowej pojedyncza iteracja obejmuje 2 przebiegi:

  1. Przejście do przodu w celu oszacowania utraty na pojedynczym zbiorze danych.
  2. Przejście wstecz (wsteczne propagowanie) w celu dostosowania parametrów modelu na podstawie utraty i tempo uczenia się.

J

JAX

Biblioteka do obliczeń tablicowych, która łączy XLA (przyspieszona algebra liniowa) z automatyczną różniczkowaniem na potrzeby wydajnych obliczeń numerycznych. JAX udostępnia prosty i wydajny interfejs API do pisania przyspieszonego kodu numerycznego za pomocą składanych transformacji. JAX zapewnia takie funkcje jak:

  • grad (automatyczne zróżnicowanie)
  • jit (kompilacja w czasie wykonywania)
  • vmap (automatyczna wektoryzacja lub grupowanie)
  • pmap (paralelizacja)

JAX to język do wyrażania i komponowania przekształceń kodu numerycznego, analogiczny do biblioteki NumPy w Pythonie, ale o znacznie szerszym zakresie. (W rzeczywistości biblioteka .numpy w JAX jest funkcjonalnie odpowiednikiem biblioteki NumPy w Pythonie, ale została całkowicie przepisana).

Biblioteka JAX szczególnie dobrze nadaje się do przyspieszania wielu zadań związanych z uczeniem maszynowym poprzez przekształcanie modeli i danych w postać odpowiednią do równoległości w układzie GPU i TPU chipów akceleratora.

Flax, Optax, Pax i wiele innych bibliotek są tworzone na podstawie infrastruktury JAX.

K

Keras

popularny interfejs API do uczenia maszynowego w Pythonie, Keras działa na kilku platformach deep learning, w tym na TensorFlow, gdzie jest dostępny jako tf.keras.

Kernel Support Vector Machines (KSVM)

Algorytm klasyfikacji, który maksymalizuje margines między pozytywnymiujemnymi klasami, mapując wektory danych wejściowych na przestrzeń o większej wymiarowości. Rozważmy na przykład problem klasyfikacji, w którym zbiór danych wejściowych zawiera 100 cech. Aby zmaksymalizować margines między klasami pozytywnymi i ujemnymi, KSVM może wewnętrznie mapować te cechy w przestrzeni o milionie wymiarów. KSVM używa funkcji utraty o nazwie hinge loss.

keypoints

#image

współrzędne poszczególnych elementów na obrazie; Na przykład w przypadku modelu rozpoznawania obrazów, który rozróżnia gatunki kwiatów, punktami kluczowymi mogą być środek każdego płatka, łodyga, pręciki itp.

weryfikacja krzyżowa k-krokowa,

Algorytm przewidujący zdolność modelu do generalizacji na nowe dane. Wartość k w k-krotnym oznacza liczbę grup równych przykładów, na które podzielono zbiór danych. Oznacza to, że model trenujesz i testujesz k razy. W każdej rundzie treningu i testowania inna grupa jest zbiorem testowym, a wszystkie pozostałe grupy stają się zbiorem treningowym. Po k okrążeniach trenowania i testowania obliczasz średnią i odchylenie standardowe wybranych danych testowych.

Załóżmy na przykład, że Twój zbiór danych składa się ze 120 przykładów. Załóżmy, że zdecydujesz się ustawić wartość k na 4. Dlatego po losowaniu przykładów dzielisz zbiór danych na 4 równe grupy po 30 przykładów i przeprowadzasz 4 okrążenia treningu i testowania:

Zbiór danych podzielony na 4 równe grupy przykładów. W pierwszym etapie 3 pierwsze grupy służą do trenowania, a ostatnia – do testowania. W 2. rundzie pierwsze 2 grupy i ostatnia grupa są używane do trenowania, a trzecia grupa – do testowania. W 3 rundzie pierwsza grupa i 2 ostatnie grupy są używane do trenowania, a druga grupa – do testowania.
          W 4. kolu pierwsza grupa jest używana do testowania, a ostatnie 3 grupy są używane do trenowania.

Na przykład błąd średniokwadratowy (MSE) może być najbardziej przydatnym wskaźnikiem w przypadku modelu regresji liniowej. W związku z tym obliczysz średnią i odchylenie standardowe MSE w przypadku wszystkich 4 rund.

k-średnich

#clustering

Popularny algorytm zagnieżdżonego podziału, który grupował przykłady w ramach uczenia się nienadzorowanego. Algorytm k-średnich wykonuje te czynności:

  • Metoda iteracyjna określa najlepsze k punktów środkowych (zwanych centroidami).
  • Przypisuje każdy przykład do najbliższego centroidu. Przykłady, które są najbliżej tego samego centroidu, należą do tej samej grupy.

Algorytm k-średnich wybiera lokalizacje centroidów, aby zminimalizować kwadrat odległości od każdego przykładu do najbliższego centroidu.

Rozważ na przykład wykres wysokości i szerokości psa:

Układ kartezjański z kilkudziesięcioma punktami danych.

Jeśli k=3, algorytm k-średnich określi 3 centroidy. Każdy przykład jest przypisany do najbliższego centroidu, co daje 3 grupy:

Ten sam wykres kartezjański co na ilustracji powyżej, ale z dodanymi trzema środkami ciężkości.
          Poprzednie punkty danych są grupowane w 3 odrębne grupy, z których każda reprezentuje punkty danych najbliższe danemu centroidowi.

Załóżmy, że producent chce określić idealne rozmiary małych, średnich i dużych swetrów dla psów. 3 centroidy określają średnią wysokość i średnią szerokość każdego psa w danym klastrze. Dlatego producent powinien określić rozmiary swetrów na podstawie tych trzech centroidów. Pamiętaj, że centrum ciężkości klastra zwykle nie jest przykładem w klastrze.

Poprzednie ilustracje pokazują algorytm k-średnich w przypadku przykładów z tylko dwoma cechami (wysokość i szerokość). Pamiętaj, że metoda k-średnich może grupować przykłady według wielu cech.

k-mediana

#clustering

Algorytm grupowania blisko związany z grupowaniem k-średnich. Praktyczna różnica między tymi 2 elementami:

  • W metodzie k-średnich centroidy są określane przez minimalizowanie sumy kwadratów odległości między kandydatem na centroid a każdym z jego przykładów.
  • W metodzie k-median centroidy są określane przez minimalizowanie sumy odległości między kandydatem na centroid a każdym z jego przykładów.

Pamiętaj, że definicje odległości również się różnią:

  • Grupowanie k-średnich opiera się na odległości euklidesowej od centroida do przykładu. (W 2 wymiarach odległość euklidesowa oznacza użycie twierdzenia Pitagorasa do obliczenia przeciwprostokątnej). Na przykład odległość k-średnich między (2,2) a (5,-2) wynosi:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • K-mediana opiera się na odległości Manhattana od centroida do przykładu. Ta odległość to suma bezwzględnych różnic w każdym wymiarze. Na przykład odległość k-mediany między (2,2) a (5,-2) wynosi:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularyzacja L0

#fundamentals

Typ regularyzacji, która nakłada kary na łączną liczbę niezerowych wag w modelu. Na przykład model z 11 wartościami wag niezerowych byłby obciążony większą karą niż podobny model z 10 wartościami wag niezerowych.

Regularyzacja L0 jest czasami nazywana regularyzacją normy L0.

Straty L1

#fundamentals

Funkcja strat, która oblicza bezwzględną wartość różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Oto na przykład obliczenie utraty L1partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu Wartość prognozowana przez model Wartość bezwzględna delty
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1

Strata L1 jest mniej wrażliwa na wartości wyizolowane niż strata L2.

Średni bezwzględny błąd to średnia utrata informacji L1 na przykład.

Regularyzacja L1

#fundamentals

Typ regularyzacji, która nakłada kary na wagi proporcjonalnie do ich sumy wartości bezwzględnych. Regularyzacja L1 pomaga doprowadzić wagi nieistotnych lub mało istotnych cech do dokładnie 0. Cecha o wadze 0 zostaje skutecznie usunięta z modelu.

Porównaj z regularyzacją L2.

Strata L2

#fundamentals

Funkcja strat, która oblicza kwadrat różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Oto na przykład obliczenie strat L2 dla partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu Wartość prognozowana przez model Kwadrat delty
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2

Z powodu kwadratowania strata L2 wzmacnia wpływ wartości odstających. Oznacza to, że strata L2 reaguje silniej na złe prognozy niż strata L1. Na przykład strata L1 w poprzednim zbiorze wynosi 8, a nie 16. Zwróć uwagę, że 9 z 16 wyników to wartości odstające.

Modele regresji zwykle używają funkcji utraty L2 jako funkcji utraty.

Wartość błędu średniokwadratowego to średnia strata funkcji L2 na przykład. Strata kwadratowa to inna nazwa straty L2.

Regularyzacja L2

#fundamentals

Rodzaj regularyzacji, która nakłada kary na wagi proporcjonalnie do sumy kwadratów tych wag. Regularyzacja L2 pomaga zbliżyć wagi wyjści poza zakres (czyli te o wysokich dodatnich lub niskich ujemnych wartościach) do 0, ale nie doprowadzi ich do dokładnie tej wartości. Cechy o wartościach bardzo zbliżonych do 0 pozostają w modelu, ale nie mają większego wpływu na jego prognozy.

Regularyzacja L2 zawsze poprawia uogólnianie w modelach liniowych.

Porównaj z regularyzacją L1.

etykieta

#fundamentals

uczeniu nadzorowanym jest to część „odpowiedź” lub „wynik” przykładu.

Każdy oznaczony przykład składa się z co najmniej 1 cechy i etykiety. Na przykład w zbiorze danych do wykrywania spamu etykietą byłaby prawdopodobnie wartość „spam” lub „nie spam”. W przypadku zbioru danych o opadach atmosferycznych etykietą może być ilość opadów w okresie.

przykład z oznaczeniem

#fundamentals

Przykład zawierający co najmniej jedną cechęetykietę. Na przykład w tabeli poniżej znajdują się 3 oznaczone przykłady z modelu wyceny domu, z których każdy ma 3 cechy i 1 etykietę:

Liczba sypialni Liczba łazienek Wiek domu Cena domu (etykieta)
3 2 15 345 tys. USD
2 1 72 179 tys. USD
4 2 34 392 000 USD

nadzorowanym uczeniu maszynowym modele są trenowane na przykładach z oznacznikami i wydają prognozy na podstawie przykładów bez oznaczeń.

Porównanie przykładu z oznaczoną etykietą z przykładami bez etykiety.

wyciek etykiety

Wada w projektowaniu modelu, w której cecha jest zastępnikiem etykiety. Rozważ na przykład model dwumianowej klasyfikacji, który przewiduje, czy potencjalny klient kupi dany produkt. Załóżmy, że jedną z funkcji modelu jest wartość logiczna o nazwie SpokeToCustomerAgent. Załóżmy też, że pracownik obsługi klienta jest przypisany do klienta dopiero po zakupie przez niego produktu. Podczas trenowania model szybko nauczy się kojarzyć SpokeToCustomerAgent z etykietą.

lambda

#fundamentals

Synonim stawki legalizacji.

Lambda to przeciążony termin. Tutaj skupiamy się na definicji tego terminu w kontekście regularyzacji.

LaMDA (Language Model for Dialogue Applications)

#language

Duża wersja modelu językowego oparta na transformerach opracowana przez Google na podstawie dużego zbioru danych dialogowych, która może generować realistyczne odpowiedzi w formie konwersacji.

LaMDA – nasza rewolucyjna technologia konwersacyjna zawiera omówienie.

punkty orientacyjne

#image

Synonim punktów kluczowych.

model językowy

#language

Model, który szacuje prawdopodobieństwo wystąpienia tokena lub sekwencji tokenów w dłuższej sekwencji tokenów.

duży model językowy

#language

Minimalnie model językowy o bardzo dużej liczbie parametrów. Nieformalnie: dowolny model językowy oparty na Transformerze, np. Gemini lub GPT.

przestrzeń ukryta

#language

Synonim przestrzeni wektorów dystrybucyjnych.

warstwa

#fundamentals

Zbiór neuronówsieci neuronowej. Oto 3 najczęstsze typy warstw:

Na przykład ilustracja poniżej przedstawia sieć neuronową z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwsza ukryta warstwa składa się z 3 neuronów, a druga – z 2 neuronów. Warstwa wyjściowa składa się z pojedynczego węzła.

TensorFlow warstwy to też funkcje Pythona, które przyjmują jako dane wejściowe tensory i inne tensory jako dane wyjściowe.

Layers API (tf.layers)

#TensorFlow

Interfejs API TensorFlow do tworzenia głębokiej sieci neuronowej jako kompozycji warstw. Interfejs Layers API umożliwia tworzenie różnych warstw, takich jak:

Interfejs Layers API stosuje konwencje interfejsu Keras. Oznacza to, że poza innym prefiksem wszystkie funkcje w interfejsie Layers API mają te same nazwy i signatury co ich odpowiedniki w interfejsie Keras layers API.

liść

#df

dowolny punkt końcowy w drzewie decyzyjnym. W przeciwieństwie do warunku element nie wykonuje testu. Liść jest tylko możliwym przewidywanym wynikiem. Liść jest też węzłem ścieżki wnioskowania.

Na przykład ten schemat decyzyjny zawiera 3 liście:

Drzewo decyzyjne z 2 warunkami prowadzącymi do 3 wierzchołków

Narzędzie do analizowania interpretowalności (LIT)

Wizualne, interaktywne narzędzie do analizowania modeli i wizualizacji danych.

Możesz użyć LIT open source, aby interpretować modele lub wizualizować dane tekstowe, obrazowe i tablicowe.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która informuje algorytm gradientu prostego, jak mocno dostosowywać wagi i uśrednienia na każdej iteracji. Na przykład szybkość uczenia się 0,3 będzie wpływać na wagi i przechylenia 3 razy silniej niż szybkość uczenia się 0,1.

Tempo uczenia się to kluczowy hiperparametr. Jeśli ustawisz zbyt niski współczynnik nauki, proces trenowania potrwa zbyt długo. Jeśli tempo uczenia się jest zbyt wysokie, metoda gradientu prostego często ma problemy z osiągnięciem konwergencji.

regresja najmniejszych kwadratów

Model regresji liniowej trenowany przez minimalizowanie straty L2.

odległość Levenshteina,

#language
#metric

Wskaźnik odległość edycji, który oblicza najmniejszą liczbę operacji usuwania, wstawiania i zastępowania niezbędnych do zamiany jednego słowa na drugie. Na przykład odległość Levenshteina między słowami „serce” i „rzutki” wynosi 3, ponieważ te 3 zmiany wymagają najmniejszej liczby modyfikacji, aby jedno słowo zamienić na drugie:

  1. heart → deart (zastąp „h” przez „d”)
  2. deart → dart (usuń „e”)
  3. dart → darts (insert "s")

Powyższa sekwencja nie jest jedyną ścieżką z 3 edycjami.

jednostajne

#fundamentals

Związek między co najmniej 2 zmiennymi, który można przedstawić wyłącznie za pomocą dodawania i mnożenia.

Wykres zależności liniowej to linia.

Kontrast z nielinearnym.

model liniowy

#fundamentals

Model przypisuje wagę na każdą cechę, aby tworzyć prognozy. (modele liniowe uwzględniają też uprzedzenie). Natomiast relacja między cechami a prognozami w modelach głębokich jest zwykle nieliniowa.

Modele liniowe są zwykle łatwiejsze do wytrenowania i bardziej zrozumiałe niż modele głębokie. Modele głębokie mogą jednak uczyć się złożonych relacji między cechami.

Regresja liniowaregresja logistyczna to 2 typy modeli liniowych.

regresja liniowa

#fundamentals

Typ modelu uczenia maszynowego, który spełnia oba te warunki:

  • Model jest liniowy.
  • Prognoza jest wartością zmiennoprzecinkową. (jest to część dotycząca regresji w ramach regresji liniowej).

Porównaj regresję liniową z regresją logistyczną. Porównaj regresję z klasyfikacją.

LIT

Skrót od narzędzia do analizowania interpretowalności (LIT), które było wcześniej znane jako narzędzie do analizowania interpretowalności języka.

LLM

#language
#generativeAI

Skrót od duży model językowy.

Oceny LLM (evals)

#language
#generativeAI

Zestaw danych i punktów odniesienia do oceny skuteczności dużych modeli językowych (LLM). Ogólnie oceny LLM:

  • Pomagać badaczom w określaniu obszarów, w których modele LLM wymagają poprawy.
  • przydają się do porównywania różnych modeli LLM i określania, który z nich najlepiej nadaje się do danego zadania;
  • pomagać w zapewnieniu bezpieczeństwa i zgody z zasadami etycznymi w przypadku modeli LLM.

regresja logistyczna

#fundamentals

Typ modelu regresji, który prognozuje prawdopodobieństwo. Modele regresji logistycznej mają te cechy:

  • Etykieta jest kategoryczna. Termin „regresja logistyczna” zwykle odnosi się do binarnej regresji logistycznej, czyli modelu, który oblicza prawdopodobieństwa dla etykiet o 2 możliwych wartościach. Mniej popularna wielomianowa regresja logistyczna oblicza prawdopodobieństwa dla etykiet o większej liczbie niż 2 możliwe wartości.
  • Funkcja utraty podczas trenowania to logarytmiczna utrata. (w przypadku etykiet z większą liczbą niż 2 możliwe wartości można umieścić równolegle wiele jednostek utraty logarytmicznej).
  • Model ma architekturę liniową, a nie jest siecią głęboką. Pozostała część tej definicji dotyczy jednak również głębokich modeli, które przewidują prawdopodobieństwa dla etykiet kategorycznych.

Rozważmy na przykład model regresji logistycznej, który oblicza prawdopodobieństwo, że podany e-mail jest spamem lub nie jest spamem. Podczas wnioskowania model przewiduje wartość 0, 72. Dlatego model szacuje:

  • 72% szans, że e-mail jest spamem.
  • 28% szans, że e-mail nie jest spamem.

Model regresji logistycznej korzysta z tej 2-stopniowej architektury:

  1. Model generuje prognozę wstępną (y') przez zastosowanie funkcji liniowej cech wejściowych.
  2. Model używa tej prognozy nieprzetworzonej jako danych wejściowych do funkcji sigmoidalnej, która konwertuje tę prognozę nieprzetworzoną na wartość z zakresu od 0 do 1.

Podobnie jak każdy model regresji, model regresji logistycznej prognozuje liczbę. Jednak liczba ta zwykle staje się częścią modelu klasyfikacji binarnej w ten sposób:

  • Jeśli prognozowana liczba jest większa od progu klasyfikacji, model klasyfikacji binarnej prognozuje klasę pozytywną.
  • Jeśli przewidywana liczba jest mniejsza od progu klasyfikacji, model klasyfikacji binarnej przewiduje klasę negatywną.

logit

Wektor surowych (nieznormalizowanych) prognoz wygenerowanych przez model klasyfikacji, który jest zwykle przekazywany do funkcji normalizacji. Jeśli model rozwiązuje problem klasyfikacji wieloklasowej, logity są zwykle podawane jako argument funkcji softmax. Następnie funkcja softmax generuje wektor (znormalizowanych) prawdopodobieństw z jedną wartością dla każdej możliwej klasy.

Logarytmiczna funkcja straty

#fundamentals

Funkcja utraty używana w binarnej regresji logistycznej.

log-odds

#fundamentals

Logarytm prawdopodobieństwa wystąpienia danego zdarzenia.

Długa pamięć krótkotrwała (LSTM)

#seq

Typ komórki w powtarzającej się sieci neuronowej, która służy do przetwarzania sekwencji danych w aplikacji, np. do rozpoznawania pisma odręcznego, tłumaczenia maszynowego i dodawania podpisów do obrazów. Sieci LSTM rozwiązują problem zanikania gradientu, który występuje podczas trenowania sieci RNN z powodu długich sekwencji danych. Rozwiązanie to polega na przechowywaniu historii w wewnętrznym stanie pamięci na podstawie nowych danych i kontekstu z poprzednich komórek sieci RNN.

LoRA

#language
#generativeAI

Skrót od Low-Rank Adaptation.

przegrana

#fundamentals

Podczas treningu modelu nadzorowanego mierzy się, jak daleko prognoza modelu odbiega od etykiety.

Funkcja utraty oblicza utratę.

agregator strat

Typ algorytmu uczenia maszynowego, który poprawia skuteczność modelu poprzez połączenie prognoz z kilku modeli i wykorzystanie tych prognoz do wygenerowania pojedynczej prognozy. W efekcie agregator strat może zmniejszyć wariancję prognoz i poprawić ich dokładność.

krzywa utraty

#fundamentals

Wykres straty jako funkcji liczby iteracji. Na wykresie poniżej widać typowy przebieg funkcji utraty:

Graficzny wykres strat w funkcji iteracji treningu, na którym widać szybki spadek strat w przypadku początkowych iteracji, a potem stopniowy spadek i płaską krzywą w przypadku ostatnich iteracji.

Krzywe strat mogą pomóc w określeniu, kiedy model zbiera dane lub nadmiernie dopasowuje się.

Krzywe strat mogą przedstawiać wszystkie te typy strat:

Zobacz też krzywą generalizacji.

funkcja utraty

#fundamentals

Podczas trenowania lub testowania funkcja matematyczna, która oblicza stratę na partii przykładów. Funkcja straty zwraca mniejszą stratę w przypadku modeli, które dobrze przewidują, niż w przypadku modeli, które źle przewidują.

Celem trenowania jest zwykle minimalizowanie straty zwracanej przez funkcję straty.

Istnieje wiele różnych rodzajów funkcji strat. Wybierz odpowiednią funkcję utraty dla rodzaju modelu, który budujesz. Na przykład:

powierzchnia strat

Wykres przedstawiający wagę(wagi) w porównaniu z utratą wagi. Metoda gradientu schodkowego ma na celu znalezienie wag, dla których powierzchnia strat jest na lokalnym minimum.

Adaptacja niskiego rzędu (LoRA)

#language
#generativeAI

Techniczne zagadnienia dotyczące parametrów dotyczące dokładnego dostrojenia, które polega na „zamrożeniu” wstępnie wytrenowanych wag modelu (aby nie można ich było już modyfikować), a następnie wstawianiu do modelu małego zestawu wag do trenowania. Ten zbiór trenowanych wag (znany też jako „macierze aktualizacji”) jest znacznie mniejszy niż model podstawowy, a więc jego trenowanie przebiega znacznie szybciej.

LoRA zapewnia te korzyści:

  • Poprawia jakość prognoz modelu w przypadku domeny, w której zastosowano dostrajanie.
  • Szybciej dostosowuje model niż techniki, które wymagają dostosowania wszystkich jego parametrów.
  • Zmniejsza koszt obliczeń wywnioskowania przez umożliwienie jednoczesnego obsługiwania wielu wyspecjalizowanych modeli, które mają ten sam model podstawowy.

LSTM

#seq

Skrót od długiej pamięci krótkotrwałej.

M

systemy uczące się

#fundamentals

To programy lub systemy, które trenowały model na podstawie danych wejściowych. Wytrenowany model może tworzyć przydatne prognozy na podstawie nowych (wcześniej nieużywanych) danych pobranych z tego samego rozkładu, co dane użyte do trenowania modelu.

Uczenie maszynowe odnosi się też do dziedziny nauki związanej z tymi programami lub systemami.

tłumaczenie maszynowe

#generativeAI

Korzystanie z oprogramowania (zazwyczaj modelu systemów uczących się) do konwertowania tekstu z jednego języka na inny, np. z angielskiego na japoński.

klasa większościowa

#fundamentals

Więcej informacji zawiera sekcja opisująca typowe błędy. Na przykład w przypadku zbioru danych zawierającego 99% etykiet negatywnych i 1% etykiet pozytywnych etykiety negatywne stanowią większość.

Porównaj z klasą mniejszościową.

Proces decyzyjny Markowa (MDP)

#rl

Graf przedstawiający model podejmowania decyzji, w którym decyzje (czyli działania) są podejmowane w celu przejścia przez sekwencję stanów przy założeniu, że zachodzi właściwość Markowa. W nauce ze wzmocnieniem te przejścia między stanami zwracają liczbową nagrodę.

Właściwość Markowa

#rl

Właściwość niektórych środowisk, w których przejścia między stanami są całkowicie określane przez informacje zawarte w bieżącym stanie i działaniu agenta.

zamaskowany model językowy

#language

model językowy, który przewiduje prawdopodobieństwo, że tokeny kandydatów wypełnią puste miejsca w sekwencji. Na przykład model języka z zamaskowanymi danymi może obliczyć prawdopodobieństwo dla wybranych słów, aby zastąpić podkreślenie w tym zdaniu:

Znalazł się ____ w czapce.

W dokumentacji zamiast podkreślenia zwykle używany jest ciąg „MASK”. Na przykład:

Maska w kapeluszu wróciła.

Większość współczesnych zamaskowanych modeli językowych jest dwukierunkowa.

matplotlib

Biblioteka open source do tworzenia wykresów 2D w Pythonie. matplotlib pomaga wizualizować różne aspekty uczenia maszynowego.

rozkład macierzy,

#recsystems

W matematyce mechanizm znajdowania macierz, których iloczyn skalarny jest przybliżeniem do macierzy docelowej.

W systemach rekomendacji tablica docelowych danych często zawiera oceny elementów przez użytkowników. Na przykład docelowa tablica dla systemu rekomendacji filmów może wyglądać tak: dodatnie liczby całkowite to oceny użytkowników, a 0 oznacza, że użytkownik nie ocenił filmu:

  Casablanca The Philadelphia Story Czarna Pantera Wonder Woman Pulp Fiction
Użytkownik 1 5,0 3,0 0,0 2,0 0,0
Użytkownik 2 4.0 0,0 0,0 1,0 5,0
Użytkownik 3 3,0 1,0 4.0 5,0 0,0

System rekomendacji filmów ma przewidywać oceny użytkowników w przypadku filmów bez oceny. Czy na przykład użytkownik 1 spodobała się Czarna Pantera?

Jednym z podejść do systemów rekomendacji jest użycie czynnika macierzowego do wygenerowania tych 2 macierzy:

Na przykład zastosowanie czynnikowej analizy macierzy w przypadku 3 użytkowników i 5 produktów może dać następującą macierz użytkowników i macierzy produktów:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Punktowy iloczyn macierzy użytkowników i macierzy elementów daje macierz rekomendacji, która zawiera nie tylko oryginalne oceny użytkowników, ale także prognozy dotyczące filmów, których dany użytkownik nie widział. Użytkownik 1 ocenił film Casablanca na 5,0. Produkt skalarny odpowiadający tej komórce w macierz rekomendacji powinien wynosić około 5, 0.W tym przypadku jest to:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Co ważniejsze, czy użytkownik 1 polubi film Czarna Pantera? Wynik mnożenia wektorów odpowiadających pierwszemu wierszowi i trzeciej kolumnie to przewidywana ocena 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Rozkład macierzy zwykle daje macierz użytkowników i macierz elementów, które razem są znacznie bardziej zwarte niż macierz docelowa.

Średni błąd bezwzględny (MAE)

Średnia utrata na przykładzie, gdy używana jest strategia L1. Oblicz średni błąd bezwzględny w ten sposób:

  1. Oblicz stratę L1 dla partii.
  2. Podziel stratę L1 przez liczbę przykładów w partii.

Weźmy na przykład obliczenie utraty L1 na podstawie tej grupy 5 przykładów:

Rzeczywista wartość przykładu Wartość prognozowana przez model Strata (różnica między wartością rzeczywistą a przewidywaną)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1

Współczynnik utraty informacji L1 wynosi 8, a liczba przykładów – 5. Średni błąd bezwzględny wynosi więc:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Średni bezwzględny błąd kontrastu z błędem średniokwadratowymśrednią kwadratową błędów.

średnia średnia precyzja w k (mAP@k)

#language
#generativeAI

Statystyczna średnia wszystkich wyników średniej precyzji na k w przypadku zbioru danych do weryfikacji. Średnia średnia dokładność w k służy m.in. do oceny jakości rekomendacji generowanych przez system rekomendacji.

Chociaż wyrażenie „średnia średnia” brzmi niepotrzebnie, nazwa tego wskaźnika jest odpowiednia. Ten wskaźnik oblicza średnią średnią dokładność w przypadku k wartości.

Średnia kwadratowa błędu (MSE)

Średnia utrata na przykładzie, gdy używana jest utrata L2. Oblicz błąd średniokwadratowy w ten sposób:

  1. Oblicz straty L2 dla partii.
  2. Podziel stratę L2 przez liczbę przykładów w partii.

Rozważmy na przykład straty w przypadku tej serii 5 przypadków:

Rzeczywista wartość Prognoza modelu Strata Strata kwadratowa
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2

Dlatego błąd średniokwadratowy wynosi:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Błąd średniokwadratowy to popularny optymalizator, zwłaszcza w przypadku regresji liniowej.

Porównaj błąd średniokwadratowy z średnim bezwzględnym błędemśrednią kwadratową błędów.

TensorFlow Playground używa średniej kwadratowej błędów do obliczania wartości utraty.

sieć typu mesh

#TensorFlow
#GoogleCloud

W programowaniu równoległym z wykorzystaniem uczenia maszynowego termin związany z przypisywaniem danych i modelu do chipów TPU oraz definiowaniem sposobu ich dzielenia na fragmenty lub replikowania.

Sieć to pojęcie o wielu znaczeniach, które może oznaczać:

  • Fizyczny układ układów TPU.
  • Abstrakcyjny konstrukt logiczny służący do mapowania danych i modelu na procesory TPU.

W obu przypadkach siatka jest określana jako kształt.

metauczenie się

#language

Podzbiór systemów uczących się, który wykrywa lub ulepsza algorytm uczenia się. System metanauki może też dążyć do wytrenowania modelu, aby szybko uczyć się nowego zadania na podstawie niewielkiej ilości danych lub doświadczenia zdobytego podczas wykonywania poprzednich zadań. Algorytmy metauczenia się zazwyczaj próbują osiągnąć te cele:

  • Ulepszać lub uczyć się funkcji ręcznie zaprojektowanych (takich jak inicjalizator czy optymalizator).
  • oszczędność danych i zasobów obliczeniowych;
  • poprawa uogólniania;

Metanauka jest powiązana z nauką typu few-shot.

wskaźnik

#TensorFlow

Statystyka, która Cię interesuje.

Cel to dane, które system uczących się próbuje zoptymalizować.

Metrics API (tf.metrics)

Interfejs API TensorFlow do oceny modeli. Na przykład tf.metrics.accuracyokreśla, jak często prognozy modelu zgadzają się z etykietami.

mini-batch

#fundamentals

Mała, losowo wybrana podgrupa partii przetworzonej w jednej iteracji. Rozmiar minipartii zwykle wynosi od 10 do 1000 przykładów.

Załóżmy na przykład, że cały zbiór treningowy (pełna partia) składa się ze 1000 przypadków. Załóżmy też, że wielkość partii każdej minipartii wynosi 20. Dlatego w każdej iteracji określamy stratę dla 20 losowych przykładów spośród 1000 dostępnych, a następnie odpowiednio dostosowujemy wagiuświadczenia.

Obliczanie strat na mini-partii jest znacznie wydajniejsze niż na wszystkich przykładach w pełnej partii.

mini-batch stochastic gradient descent

Algorytm gradientu prostego, który używa minipartii. Inaczej mówiąc, stochastyczny gradient z minipartiami szacuje gradient na podstawie niewielkiego podzbioru danych treningowych. Standardowy stochastyczny zstępujący gradient używa minipartii o rozmiarze 1.

minimalna strata

Funkcja utraty dla generatywnej sieci antagonistycznej, oparta na krzyżowej entropii między dystrybucją wygenerowanych danych a rzeczywistymi danymi.

Strata minimax jest używana w pierwszym artykule do opisania generatywnych sieci antagonistycznych.

klasa mniejszościowa

#fundamentals

Etykieta występująca rzadziej w zbiorze danych z niezrównoważonymi klasami. Na przykład w przypadku zbioru danych zawierającego 99% etykiet negatywnych i 1% etykiet pozytywnych etykiety pozytywne stanowią klasę mniejszościową.

Kontrastuje z klasą większości.

mieszanka ekspertów

#language
#generativeAI

Schemat zwiększania wydajności sieci neuronowej przez wykorzystanie tylko podzbioru jej parametrów (zwanego ekspertem) do przetwarzania danego wejściowego tokena lub przykładu. Gating network kieruje każdy token wejściowy lub przykład do odpowiednich ekspertów.

Szczegółowe informacje znajdziesz w tych artykułach:

ML

Skrót od systemów uczących się.

MMIT

#language
#image
#generativeAI

Skrót od multimodal instruction-tuned.

MNIST

#image

Dane publicznie dostępne, opracowane przez LeCuna, Cortesa i Burgesa,zawierające 60 tys. obrazów. Każdy obraz pokazuje, jak człowiek ręcznie napisał daną cyfrę w zakresie 0–9. Każdy obraz jest przechowywany jako tablica liczb całkowitych 28 x 28, gdzie każda liczba całkowita to wartość szarości z zakresu od 0 do 255 włącznie.

MNIST to kanoniczny zbiór danych do uczenia maszynowego, który jest często używany do testowania nowych metod uczenia maszynowego. Więcej informacji znajdziesz w  bazie danych MNIST z odręcznie napisanymi cyframi.

modalność

#language

Ogólna kategoria danych. Na przykład liczby, tekst, obrazy, filmy i dźwięk to 5 różnych modalności.

model

#fundamentals

Ogólnie rzecz biorąc, każda konstrukcja matematyczna, która przetwarza dane wejściowe i zwraca dane wyjściowe. Inaczej mówiąc, model to zestaw parametrów i struktury, które są potrzebne systemowi do prognozowania. W nadzorowanym uczeniu maszynowym model otrzymuje jako dane wejściowe przykład, a jako dane wyjściowe wyprowadza prognozę. W ramach uczenia maszynowego nadzorowanego modele różnią się nieco od siebie. Na przykład:

  • Model regresji liniowej składa się z zestawu wagbłędu średniego.
  • Model sieci neuronowej składa się z tych elementów:
    • Zestaw ukrytych warstw, z których każda zawiera co najmniej neuron.
    • Wagi i błądy związane z każdym neuronem.
  • Model drzewa decyzyjnego składa się z tych elementów:
    • Kształt drzewa, czyli wzór, w którym warunki i liście są połączone.
    • Warunki i liście.

Możesz zapisać model, przywrócić go lub utworzyć jego kopie.

Nienadzorowane systemy uczące się generują też modele, zwykle funkcję, która może odwzorować przykład wejściowy na najbardziej odpowiedni klaster.

pojemność modelu

Złożoność problemów, których model może się uczyć. Im bardziej złożone problemy może rozwiązywać model, tym większa jest jego zdolność uczenia się. Zdolność modelu do generowania trafnych prognoz zwykle rośnie wraz z liczbą parametrów modelu. Nieformalną definicję pojemności klasyfikatora znajdziesz w sekcji Wymiar VC.

model kaskadowy

#generativeAI

System, który wybiera idealny model do konkretnego zapytania o wyznaczanie wniosków.

Wyobraź sobie grupę modeli, od bardzo dużych (wiele parametrów) do znacznie mniejszych (znacznie mniej parametrów). Bardzo duże modele zużywają więcej zasobów obliczeniowych na etapie wyciągania wniosków niż mniejsze modele. Jednak bardzo duże modele mogą zwykle wyciągać wnioski na podstawie bardziej złożonych żądań niż mniejsze modele. Modele kaskadowe określają złożoność zapytania wnioskowania, a następnie wybierają odpowiedni model do wykonania wnioskowania. Głównym powodem stosowania kaskadowego modelowania jest obniżenie kosztów wnioskowania przez wybieranie zazwyczaj mniejszych modeli i tylko większych modeli w przypadku bardziej złożonych zapytań.

Załóżmy, że mały model działa na telefonie, a większa wersja tego modelu działa na zdalnym serwerze. Dobre kaskadowe stosowanie modeli zmniejsza koszty i opóźnienia, ponieważ umożliwia mniejszym modelom obsługę prostych żądań i wywoływanie tylko modelu zdalnego do obsługi złożonych żądań.

Zobacz też model routera.

model równoległości

#language

Sposób skalowania treningu lub wnioskowania, który polega na umieszczeniu różnych części jednego modelu na różnych urządzeniach. Modelowanie równoległe umożliwia tworzenie modeli, które są zbyt duże, aby zmieścić się na jednym urządzeniu.

Aby wdrożyć równoległość modelu, system zwykle wykonuje te czynności:

  1. dzieli model na mniejsze części.
  2. rozprowadza szkolenie tych mniejszych części na wiele procesorów. Każdy procesor trenuje inną część modelu.
  3. Łączy wyniki, aby utworzyć jeden model.

Równoległe wykonywanie działań przez model spowalnia trenowanie.

Zobacz też równoległość danych.

model routera

#generativeAI

Algorytm, który określa idealny model do wykorzystywaniakaskadowaniu modeli. Przekaźnik modeli to zwykle model systemów uczących się, który stopniowo uczy się, jak wybrać najlepszy model dla danego wejścia. Model routera może jednak czasami być prostszym algorytmem, który nie wykorzystuje uczenia maszynowego.

trenowanie modelu

Proces określania najlepszego modelu.

MOE

#language
#image
#generativeAI

Skrót od mixture of experts.

Wykorzystanie chwili

Zaawansowany algorytm zstępowania ku minimum gradientu, w którym krok uczenia się zależy nie tylko od pochodnej bieżącego kroku, ale też od pochodnej kroków bezpośrednio poprzedzających go. Prędkość to obliczenie wykładniczo ważonej średniej ruchomej gradientów w czasie, analogicznej do pędu w fizyce. Momentum czasami uniemożliwia uczeniu się utknięcie w lokalnym minimum.

MT

#generativeAI

Skrót od tłumaczenia maszynowego.

klasyfikacja wieloklasowa

#fundamentals

W przypadku uczenia nadzorowanego problem klasyfikacji, w którym zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą należeć do jednej z tych trzech klas:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Model wytrenowany na zbiorze danych Iris, który prognozuje typ kwiatu na podstawie nowych przykładów, wykonuje klasyfikację wieloklasową.

Z kolei problemy klasyfikacji, które rozróżniają dokładnie 2 klasy, to binarne modele klasyfikacji. Na przykład model e-maila, który prognozuje spam lub nie spam, jest modelem klasyfikacji binarnej.

W problemach z klasteringiem klasyfikacja wieloklasowa odnosi się do więcej niż 2 klas.

wieloklasowa regresja logistyczna

Używanie regresji logistycznej w problemach klasyfikacji wieloklasowej.

wieloczęściowa samouwaga

#language

Rozszerzenie samouczenia, które stosuje mechanizm samouczenia wielokrotnie w przypadku każdej pozycji w sekwencji wejściowej.

Transformers wprowadziło wielogłowe mechanizmy samouczenia.

multimodal instruction-tuned

#language

model dostosowany do instrukcji, który może przetwarzać dane wejściowe inne niż tekst, np. obrazy, filmy i dźwięk.

model multimodalny

#language

Model, którego dane wejściowe lub wyjściowe obejmują więcej niż 1 modalność. Weźmy na przykład model, który jako cechy przyjmuje obraz i tekst (2 modalności) oraz zwraca wynik wskazujący, jak dobrze tekst pasuje do obrazu. Dane wejściowe tego modelu są multimodalne, a dane wyjściowe – unimodalne.

klasyfikacja wielomianowa

Synonim klasyfikacji wieloklasowej.

regresja wielomianowa

Synonim wieloklasowej regresji logistycznej.

wielozadaniowość

Technika uczenia maszynowego, w której pojedynczy model jest trenowany do wykonywania wielu zadań.

Modele wielozadaniowe są tworzone przez trenowanie na danych odpowiednich dla każdego z zadań. Dzięki temu model uczy się udostępniać informacje w ramach zadań, co pomaga mu skuteczniej się uczyć.

Model wytrenowany do wykonywania wielu zadań często ma lepsze zdolności do uogólniania i może skuteczniej obsługiwać różne typy danych.

N

pułapka NaN.

Gdy podczas trenowania jedna liczba w Twoim modelu staje się wartością NaN, co powoduje, że w końcu wszystkie lub prawie wszystkie pozostałe liczby w tym modelu stają się wartością NaN.

NaN to skrót od Not a Number.

przetwarzanie języka naturalnego

#language
Nauka komputerów przetwarzania wypowiedzi lub wpisów użytkownika za pomocą reguł językowych. Prawie wszystkie współczesne systemy przetwarzania języka naturalnego opierają się na uczeniu maszynowym.

rozumienie języka naturalnego

#language

Podzbiór przetwarzania języka naturalnego, który określa zamiary wypowiedzi lub wpisów. Rozumienie języka naturalnego może wykraczać poza przetwarzanie języka naturalnego i uwzględniać złożone aspekty języka, takie jak kontekst, sarkazm i nastawienie.

klasa wyników negatywnych

#fundamentals

W przypadku klasyfikacji binarnej jedna klasa jest określana jako dodatnia, a druga jako ujemna. Klasa pozytywna to rzecz lub zdarzenie, które model testuje, a klasa negatywna to inna możliwość. Na przykład:

  • Klasa negatywna w teście medycznym może być oznaczona jako „nie nowotwór”.
  • Klasa negatywna w klasyfikatorze e-maili może być oznaczona jako „nie spam”.

Porównaj z klasą wyników pozytywnych.

próbkowanie wykluczające

Synonim próbkowania kandydatów.

Neural Architecture Search (NAS)

Technika automatycznego projektowania architektury sieci neuronowej. Algorytmy NAS mogą skrócić czas i zredukować zasoby potrzebne do trenowania sieci neuronowej.

NAS zwykle używa:

  • przestrzeń wyszukiwania, czyli zestaw możliwych architektur;
  • Funkcja dopasowania, która jest miarą tego, jak dobrze dana architektura radzi sobie z określonym zadaniem.

Algorytmy NAS często zaczynają od małego zbioru możliwych architektur i stopniowo poszerzają przestrzeń wyszukiwania, gdy algorytm uczy się, które architektury są skuteczne. Funkcja dopasowania jest zwykle oparta na wydajności architektury w zbiorze treningowym, a algorytm jest zwykle trenowany za pomocą techniki uczenia wzmacniającego.

Algorytmy NAS okazały się skuteczne w znajdowaniu wydajnych architektur do wykonywania różnych zadań, w tym klasyfikacji obrazów, klasyfikacji tekstu i tłumaczenia maszynowego.

sieć neuronowa

#fundamentals

Model zawierający co najmniej 1 ukrytą warstwę. Głęboka sieć neuronowa to rodzaj sieci neuronowej zawierającej więcej niż jedną warstwę ukrytą. Na przykład diagram poniżej przedstawia głęboką sieć neuronową z 2 ukrytymi warstwami.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami na następnej warstwie. Na przykład na diagramie powyżej widać, że każdy z 3 neuronów na pierwszej warstwie ukrytej jest osobno połączony z obamia neuronami na drugiej warstwie ukrytej.

Sieci neuronowe wdrażane na komputerach są czasami nazywane sztucznymi sieciami neuronowymi, aby odróżnić je od sieci neuronowych występujących w mózgu i innych układach nerwowych.

Niektóre sieci neuronowe mogą naśladować bardzo złożone zależności nieliniowe między różnymi cechami a etykietą.

Zobacz też splotową sieć neuronowąpowtarzalną sieć neuronową.

neuron

#fundamentals

W uczeniu maszynowym: odrębna jednostka w ukrytej warstwie sieci neuronowej. Każdy neuron wykonuje tę dwuetapową czynność:

  1. Oblicza sumę ważoną wartości wejściowych pomnożoną przez ich odpowiednie wagi.
  2. Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacyjnej.

Neuron w pierwszym ukrytym warstwie przyjmuje dane wejściowe z wartości cech w warstwie wejściowej. Neuron w dowolnej warstwie ukrytej poza pierwszą przyjmuje dane wejściowe od neuronów w poprzedniej warstwie ukrytej. Na przykład neuron na 2. warstwie ukrytej przyjmuje dane wejściowe od neuronów na 1. warstwie ukrytej.

Na ilustracji poniżej zaznaczono 2 neurony i ich wejścia.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową. Wyróżniono 2 neurony: jeden na pierwszej warstwie ukrytej i jeden na drugiej warstwie ukrytej. Zaznaczony neuron na pierwszej warstwie ukrytej otrzymuje dane wejściowe z obu funkcji na warstwie wejściowej. Wyróżniony neuron na 2. ukrytej warstwie otrzymuje dane wejściowe od każdego z 3 neuronów na 1. ukrytej warstwie.

Neuron w sieci neuronowej naśladuje działanie neuronów w mózgu i innych częściach układu nerwowego.

N-gram

#seq
#language

Uporządkowana sekwencja N słów. Na przykład truly madly to 2-gram. Kolejność wyrazów ma znaczenie, więc madly truly to inny 2-gram niż truly madly.

N Nazwy tego typu N-gramów Przykłady
2 bigram lub 2-gram go, go to, eat lunch, eat dinner
3 trigram lub 3-gram ate too much, three blind mice, the bell tolls
4 4-gram walk in the park, dust in the wind, the boy ate lentils

Wiele modeli rozumiejących język naturalny korzysta z modeli N-gramów, aby przewidywać kolejne słowo, które użytkownik wpisze lub powie. Załóżmy na przykład, że użytkownik wpisał three blind. Model NLU oparty na trygramach najprawdopodobniej przewiduje, że użytkownik wpisze mice.

Kontrastuj N-gramy z teczką słów, która jest nieuporządkowanym zbiorem słów.

NLP

#language

Skrót od przetwarzania języka naturalnego.

NLU

#language

Skrót od rozumienia języka naturalnego.

węzeł (drzewo decyzyjne)

#df

W drzewie decyzyjnym dowolny warunek lub liść.

Drzewo decyzyjne z 2 warunkami i 3 listkami.

węzeł (sieć neuronowa)

#fundamentals

Neuronukrytej warstwie.

węzeł (graf TensorFlow)

#TensorFlow

Operacja w grafie TensorFlow.

szum

Mówiąc ogólnie, wszystko, co zaciemnia sygnał w zbiorze danych. Szum może być wprowadzany do danych na różne sposoby. Na przykład:

  • Weryfikatorzy popełniają błędy przy oznaczaniu etykietami.
  • Ludzie i urządzenia nieprawidłowo rejestrują lub pomijają wartości cech.

warunek niebinarny

#df

Warunek zawierający więcej niż 2 możliwe wyniki. Na przykład ten warunek niebinarny zawiera 3 możliwe wyniki:

Warunek (number_of_legs = ?) prowadzący do 3 możliwych wyników. Jeden wynik (number_of_legs = 8) prowadzi do liścia o nazwie pająk. Drugi wynik (number_of_legs = 4) prowadzi do liścia o nazwie pies. Trzeci wynik (number_of_legs = 2) prowadzi do liścia o nazwie pingwin.

nieliniowe

#fundamentals

Związek między co najmniej 2 zmiennymi, którego nie można przedstawić wyłącznie za pomocą dodawania i mnożenia. Linearna relacja może być przedstawiona w postaci linii, a nielinearna nie może być przedstawiona w postaci linii. Rozważmy na przykład 2 modele, z których każdy łączy jedną cechę z jedną etykietą. Model po lewej stronie jest liniowy, a model po prawej – nieliniowy:

2 wykresy. Jeden wykres jest linią, więc jest to zależność liniowa.
          Drugi wykres jest krzywą, więc jest to związek nieliniowy.

błąd braku odpowiedzi

#fairness

Zobacz błąd doboru.

niestałość

#fundamentals

Cecha, której wartości zmieniają się w ramach co najmniej 1 wymiaru, zwykle czasu. Oto przykłady niestałości:

  • Liczba strojów kąpielowych sprzedanych w danym sklepie zależy od sezonu.
  • Ilość danego owocu zebranego w danym regionie przez większość roku wynosi 0, ale w krótkim okresie jest duża.
  • Z powodu zmian klimatu średnie temperatury roczne się zmieniają.

Kontrastuje z stacionarnością.

no one right answer (NORA)

#language
#generativeAI

prompt zawierający kilka odpowiednich odpowiedzi. Na przykład ten prompt nie ma jednej prawidłowej odpowiedzi:

Opowiedz mi kawał o słoniach.

Ocenianie promptów z brakiem jednoznacznej odpowiedzi może być trudne.

NORA

#language
#generativeAI

Skrót od brak prawidłowej odpowiedzi.

normalizacja

#fundamentals

Ogólnie rzecz biorąc, jest to proces konwertowania rzeczywistego zakresu wartości zmiennej na standardowy zakres wartości, np.:

  • -1 do +1
  • Od 0 do 1
  • Z-wyniki (w przybliżeniu od -3 do +3)

Załóżmy na przykład, że rzeczywisty zakres wartości danej cechy wynosi od 800 do 2400. W ramach tworzenia cech możesz znormalizować rzeczywiste wartości do standardowego zakresu, np. -1 do +1.

Normalizacja jest częstym zadaniem w ramach inżynierii cech. Modele zwykle trenują szybciej (i wydają lepsze prognozy), gdy wszystkie cechy liczbowe w wektorze cech mają mniej więcej ten sam zakres.

Więcej informacji znajdziesz w module „Praca z danymi liczbowymi” z Kursu intensywnego na temat uczenia maszynowego. Zobacz też normalizację według wyniku z testu Z.

wykrywanie nowości

Proces określania, czy nowy (nowy) przykład pochodzi z tego samego rozkładu prawdopodobieństwa co zbiór treningowy. Innymi słowy, po przeszkoleniu na zbiorze treningowym wykrywanie nowości określa, czy nowy przykład (podczas wnioskowania lub dodatkowego szkolenia) jest odstępstwem.

Porównaj z wykrywaniem wyników odstających.

dane liczbowe

#fundamentals

Cechy reprezentowane jako liczby całkowite lub rzeczywiste. Na przykład model wyceny domu prawdopodobnie przedstawia wielkość domu (w stopach kwadratowych lub metrach kwadratowych) jako dane liczbowe. Przedstawienie cechy jako danych liczbowych wskazuje, że wartości tej cechy mają matematyczny związek z etykietą. Oznacza to, że liczba metrów kwadratowych domu prawdopodobnie ma pewien związek matematyczny z wartością domu.

Nie wszystkie dane całkowite powinny być reprezentowane jako dane liczbowe. Na przykład kody pocztowe w niektórych częściach świata są liczbami całkowitymi, ale nie należy ich przedstawiać w modelach jako danych liczbowych. Dzieje się tak, ponieważ kod pocztowy 20000 nie jest dwa razy (ani o połowę) mniej skuteczny niż kod pocztowy 10000. Co więcej, chociaż różne kody pocztowe powiązane z różnymi wartościami nieruchomości, nie możemy zakładać, że wartości nieruchomości w kodach pocztowych 20000 są dwa razy wyższe niż wartości nieruchomości w kodach pocztowych 10000. Kody pocztowe powinny być zamiast tego reprezentowane jako dane kategoryczne.

Cechy liczbowe są czasami nazywane ciągłymi cechami.

NumPy

biblioteka matematyczna open source, która umożliwia wydajne operacje na tablicach w Pythonie. pandas opiera się na NumPy.

O

cel

Dane, które algorytm próbuje zoptymalizować.

funkcja celu

Formuła matematyczna lub dane, które model ma optymalizować. Na przykład funkcja celu w regresji liniowej to zwykle średnia kwadratowa utrata. Dlatego podczas trenowania modelu regresji liniowej celem jest zminimalizowanie średniej straty kwadratowej.

W niektórych przypadkach celem jest maksymalizowanie funkcji celu. Jeśli np. funkcją celu jest dokładność, celem jest maksymalizacja dokładności.

Zobacz też utrata.

warunek ukośny

#df

W drzewie decyzyjnym warunek, który obejmuje więcej niż 1 cechę. Jeśli na przykład wysokość i szerokość są cechami, to warunek ukośny będzie wyglądał tak:

  height > width

Porównaj z warunkiem dopasowanym do osi.

offline

#fundamentals

Synonim statycznej.

wnioskowanie offline

#fundamentals

Proces generowania przez model zbioru prognoz, a następnie zapisywania tych prognoz w pamięci podręcznej. Aplikacje mogą wtedy korzystać z wywnioskowanej prognozy z pamięci podręcznej zamiast ponownie uruchamiać model.

Weźmy na przykład model, który generuje prognozy pogody lokalne (prognozy) co 4 godziny. Po każdym uruchomieniu modelu system przechowuje w pamięci podręcznej wszystkie lokalne prognozy pogody. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Wnioskowanie offline nazywane jest też wnioskowaniem statycznym.

Porównaj z inferencją online.

kodowanie one-hot

#fundamentals

Przedstawianie danych kategorialnych jako wektora, w którym:

  • Jeden element ma wartość 1.
  • Wszystkie pozostałe elementy mają wartość 0.

Kodowanie jednoelementowe jest często używane do reprezentowania ciągów znaków lub identyfikatorów, które mają skończony zbiór możliwych wartości. Załóżmy na przykład, że dana cecha kategorialna o nazwie Scandinavia ma 5 możliwych wartości:

  • „Dania”
  • „Szwecja”
  • „Norwegia”
  • „Finlandia”
  • „Islandia”

Kodowanie 1-hot może przedstawiać każdą z tych 5 wartości w ten sposób:

country Wektor
„Dania” 1 0 0 0 0
„Szwecja” 0 1 0 0 0
„Norwegia” 0 0 1 0 0
„Finlandia” 0 0 0 1 0
„Islandia” 0 0 0 0 1

Dzięki kodowaniu one-hot model może uczyć się różnych połączeń na podstawie każdego z 5 krajów.

Reprezentowanie cechy jako danych liczbowych jest alternatywą dla kodowania 1-hot. Niestety reprezentowanie krajów skandynawskich za pomocą liczb nie jest dobrym pomysłem. Weź pod uwagę tę postać liczbową:

  • „Dania” to 0
  • „Sweden” to 1
  • „Norway” to 2
  • „Finlandia” to 3
  • „Islandia” to 4

W przypadku kodowania liczbowego model interpretuje liczby w postaci liczbowej i próbuje się na nich uczyć. Jednak Islandia nie jest w żaden sposób dwukrotnie większa (ani w połowie mniejsza) od Norwegii, więc model doszedłby do dziwnych wniosków.

nauka jednorazowa

podejście oparte na systemach uczących się, często wykorzystywane do klasyfikowania obiektów, zaprojektowane w celu tworzenia skutecznych klasyfikatorów na podstawie pojedynczego przykładu treningowego;

Zobacz też uczenie „few-shot”uczenie „zero-shot”.

prompty „one-shot”

#language
#generativeAI

prompt zawierający jeden przykład pokazujący, jak duży model językowy powinien odpowiadać. Na przykład poniższy prompt zawiera jeden przykład pokazujący dużemu modelowi językowemu, jak powinien odpowiedzieć na zapytanie.

Części jednego promptu Uwagi
Jaka jest oficjalna waluta w wybranym kraju? Pytanie, na które chcesz uzyskać odpowiedź od modelu LLM.
Francja: EUR Przykład:
Indie: rzeczywiste zapytanie,

Porównaj promptowanie jednorazowe z tymi terminami:

jeden na wszystkich

#fundamentals

Rozwiązanie problemu klasyfikacji z N klasami składa się z N oddzielnych binarnych klasyfikatorów – po jednym binarnym klasyfikatorze dla każdego możliwego wyniku. Na przykład w przypadku modelu, który klasyfikuje przykłady jako zwierzęta, warzywa lub minerały, rozwiązanie typu jeden-przeciwko-wszystkim zapewniłoby te 3 osobne klasyfikatory binarne:

  • zwierzę a nie-zwierzę
  • warzywa a nie-warzywa
  • mineral versus not mineral

online

#fundamentals

Synonim dynamiczny.

wnioskowanie online

#fundamentals

generowanie prognoz na żądanie. Załóżmy, że aplikacja przekazuje dane wejściowe do modelu i wysyła żądanie prognozy. System korzystający z wnioskowania online odpowiada na żądanie, uruchamiając model (i zwracając prognozę do aplikacji).

W przeciwieństwie do offline inference.

operacja (op)

#TensorFlow

W TensorFlow: każda procedura, która tworzy, manipuluje lub niszczy Tensor. Na przykład mnożenie macierzy to operacja, która przyjmuje 2 tensory jako dane wejściowe i generuje 1 tensor jako dane wyjściowe.

Optax

Biblioteka do przetwarzania i optymalizacji gradientów na potrzeby JAX. Optax ułatwia badania, udostępniając elementy składowe, które można łączyć na niestandardowe sposoby, aby optymalizować modele parametryczne, takie jak głębokie sieci neuronowe. Inne cele to:

  • Udostępnianie czytelnych, dobrze przetestowanych i skutecznych implementacji kluczowych komponentów.
  • Zwiększanie produktywności dzięki możliwości łączenia składników niskiego poziomu w specjalistyczne optymalizatory (lub inne komponenty przetwarzania gradientowego).
  • przyspieszenie wdrażania nowych pomysłów dzięki ułatwieniu ich udostępniania;

optimizer

Konkretna implementacja algorytmu spadku wzdłuż gradientu. Popularne optymalizatory to:

  • AdaGrad, czyli metoda gradientu prostego z dopasowaniem.
  • Adam, co oznacza ADAptive with Momentum.

błąd jednorodności grupy obcej

#fairness

skłonność do postrzegania członków grupy obcej jako bardziej podobnych do siebie niż członków grupy własnej podczas porównywania postaw, wartości, cech osobowości i innych cech. Grupa wewnętrzna to osoby, z którymi regularnie się kontaktujesz, a grupa zewnętrzna to osoby, z którymi nie masz regularnych kontaktów. Jeśli zbiór danych zostanie utworzony przez poproszenie uczestników o podanie atrybutów dotyczących grup zewnętrznych, te atrybuty mogą być mniej zróżnicowane i bardziej stereotypowe niż atrybuty, które uczestnicy podają w przypadku osób z ich grupy.

Na przykład Liliputanie mogą szczegółowo opisywać domy innych Liliputan, podając niewielkie różnice w stylach architektonicznych, oknach, drzwiach i rozmiarach. Jednak ci sami Liliputanie mogą po prostu oświadczyć, że wszyscy Brobdingnagowie mieszkają w identycznych domach.

Błąd jednorodności grupy obcej jest formą błędu uogólnienia.

Zapoznaj się też z stronniczością wewnątrzgrupową.

wykrywanie wyników odstających,

Proces identyfikowania elementów odstającychzbiorze treningowym.

W odróżnieniu od wykrywania nowości.

nietypowych danych

wartości odbiegające od większości pozostałych wartości, W uczeniu maszynowym za wartości odstające od reszty uważa się:

  • Dane wejściowe, których wartości różnią się od średniej o ponad 3 odchylenia standardowe.
  • Wagi o wysokich wartościach bezwzględnych.
  • Przewidywane wartości są stosunkowo daleko od rzeczywistych wartości.

Załóżmy na przykład, że widget-price to funkcja określonego modelu. Załóżmy, że średnia widget-price wynosi 7 euro, a odchylenie standardowe – 1 euro. Przykłady zawierające wartość widget-price 12 euro lub 2 euro będą więc uważane za wartości odstające, ponieważ każda z tych cen jest pięć standardowych odchyleń od średniej.

Wyjątki są często spowodowane literówkami lub innymi błędami wprowadzania danych. W innych przypadkach wartości odstające nie są błędami. W szakramie wartości odbiegające od średniej o 5 odchyleń standardowych są rzadkie, ale nie są niemożliwe.

Wyjątki często powodują problemy podczas trenowania modelu. Odcięcie wartości odstających to jeden ze sposobów zarządzania wartościami odstającymi.

ocena „out-of-bag” (OOB)

#df

Mechanizm oceny jakości lasu decyzji polegający na testowaniu każdego drzewa decyzji na przykładach nie używanych podczas trenowania tego drzewa decyzji. Na przykład na poniższym diagramie widać, że system trenuje każde drzewo decyzyjne na około 2/3 przykładów, a potem ocenia je na podstawie pozostałej 1/3 przykładów.

Las decyzyjny składający się z 3 drzew decyzyjnych.
          Jedno drzewo decyzyjne jest trenowane na 2 / 3 przykładów, a następnie wykorzystuje pozostałą 1 / 3 do oceny poza zakresem.
          Drugie drzewo decyzyjne jest trenowane na 2/3 innych przykładów niż poprzednie drzewo decyzyjne, a potem używa innej 1/3 do oceny poza zakresem poprzedniego drzewa decyzyjnego.

Ocena z wykorzystaniem danych z innych próbek to wydajne i konserwatywne zastąpienie mechanizmu potwierdzenia krzyżowego. W przypadku walidacji krzyżowej w każdej rundzie walidacji krzyżowej trenowany jest jeden model (np. w walidacji krzyżowej 10-krotnej trenowanych jest 10 modeli). W przypadku oceny OOB trenowany jest jeden model. Podczas trenowania bagging zatrzymuje niektóre dane z każdego drzewa, dlatego ocena OOB może używać tych danych do przybliżonej walidacji krzyżowej.

warstwa wyjściowa

#fundamentals

„Ostateczna” warstwa sieci neuronowej. Warstwy wyjściowe zawierają prognozę.

Ilustracja poniżej przedstawia małą głęboką sieć neuronową z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwsza ukryta warstwa składa się z 3 neuronów, a druga – z 2 neuronów. Warstwa wyjściowa składa się z pojedynczego węzła.

nadmierne dopasowanie

#fundamentals

Utworzenie modelu, który jest tak dokładnym odwzorowaniem danych treningowych, że nie jest w stanie generować prawidłowych prognoz na podstawie nowych danych.

Regulizacja może ograniczyć nadmierne dopasowanie. Trenowanie na dużym i zróżnicowanym zbiorze treningowym może też zmniejszyć nadmierne dopasowanie.

nadpróbkowanie

Ponowne użycie przykładów klasy mniejszościowejzbiorze danych z niezrównowagą klas w celu utworzenia bardziej zrównoważonego zbioru danych treningowych.

Rozważmy na przykład problem dwuklasowej klasyfikacji, w którym stosunek klasy większościowej do klasy mniejszościowej wynosi 5000:1. Jeśli zbiór danych zawiera milion przykładów, to zbiór danych zawiera tylko około 200 przykładów klasy mniejszości, co może być zbyt małą liczbą przykładów do skutecznego trenowania. Aby rozwiązać ten problem, możesz wielokrotnie wykorzystać te 200 przykładów (czyli przeprowadzić nadpróbkowanie), co może zapewnić wystarczającą liczbę przykładów do przydatnego treningu.

Podczas nadpróbkowania należy uważać na nadmierne dopasowanie.

W przeciwieństwie do podpróbkowania.

P

zapakowane dane

podejście do efektywniejszego przechowywania danych;

Dane skompresowane są przechowywane w formacie skompresowanym lub w inny sposób, który umożliwia szybszy dostęp do danych. Zapakowane dane minimalizują ilość pamięci i przetwarzanie wymagane do uzyskania do nich dostępu, co prowadzi do szybszego trenowania i skuteczniejszego wnioskowania modelu.

Zapakowane dane są często używane z innymi technikami, takimi jak rozszerzanie danychregularyzacja, co jeszcze bardziej poprawia wydajność modeli.

pandy

#fundamentals

Interfejs API do analizy danych ukierunkowanej na kolumny, zbudowany na bazie biblioteki numpy. Wiele platform uczenia maszynowego, w tym TensorFlow, obsługuje struktury danych pandas jako dane wejściowe. Szczegółowe informacje znajdziesz w dokumentacji pandas.

parametr

#fundamentals

wagibłędy, których model uczy się podczas treningu. Na przykład w przypadku modelu regresji liniowej parametry to współczynnik błędu (b) i wszystkie wagi (w1, w2 itd.) w formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Natomiast hiperparametry to wartości, które Ty (lub usługa dostrajania hiperparametrów) podajesz do modelu. Na przykład tempo uczenia się jest hiperparametrem.

dostrajanie z optymalnym wykorzystaniem parametrów

#language
#generativeAI

Zestaw technik dostrajania dużego wstępnie wytrenowanego modelu językowego (PLM) w bardziej efektywny sposób niż pełne dostrajanie. Dostrajanie konkretnych parametrów zwykle dotyczy znacznie mniejszej liczby parametrów niż pełne dostrajanie, ale ogólnie tworzy duży model językowy, który działa tak samo dobrze (lub prawie tak samo dobrze) jak duży model językowy utworzony na podstawie pełnego dostrajania.

Porównaj dostrajanie z uwzględnieniem wydajności parametrów z:

Dostrajanie z uwzględnieniem wydajności parametrów to także dostrajanie z uwzględnieniem wydajności parametrów.

Serwer parametrów (PS)

#TensorFlow

zadanie, które śledzi parametry modelu w rozproszonej konfiguracji.

aktualizacja parametru

Operacja dostosowywania parametrów modelu podczas trenowania, zwykle w ramach pojedynczej iteracji gradientu prostego.

pochodna cząstkowa

Pochodna, w której wszystkie zmienne oprócz jednej są uważane za stałe. Na przykład pochodna cząstkowa funkcji f(x, y) względem x to pochodna funkcji f rozpatrywanej jako funkcji od x (czyli przy stałej wartości y). Częściowa pochodna funkcji f względem x skupia się tylko na zmianach x i ignoruje wszystkie inne zmienne w równaniu.

efekt udziału

#fairness

Synonim błędu braku odpowiedzi. Zobacz błąd doboru.

strategia partycjonowania

Algorytm, według którego zmienne są rozdzielane na serwery parametrów.

pass at k (pass@k)

Dane określające jakość kodu (np. Pythona), który generuje duży model językowy. W szczególności pass at k określa prawdopodobieństwo, że co najmniej jeden wygenerowany blok kodu z k wygenerowanych bloków kodu przejdzie wszystkie testy jednostkowe.

Duże modele językowe często mają problemy z generowaniem dobrego kodu w przypadku skomplikowanych problemów programistycznych. Inżynierowie oprogramowania radzą sobie z tym problemem, prosząc duży model językowy o wygenerowanie wielu (k) rozwiązań tego samego problemu. Następnie inżynierowie oprogramowania testują każde z rozwiązań za pomocą testów jednostkowych. Obliczenie wartości k zależy od wyniku testów jednostkowych:

  • Jeśli co najmniej jedno z tych rozwiązań przejdzie test jednostkowy, LLM przejmie to wyzwanie dotyczące generowania kodu.
  • Jeśli żadne z rozwiązań nie przejdzie testu jednostkowego, LLM nie przejdzie tego wyzwania dotyczącego generowania kodu.

Formuła dla pass at k:

$$\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}$$

Ogólnie im wyższe wartości parametru k, tym lepsze wyniki testów z parametrem k, ale wyższe wartości k wymagają większych zasobów do testowania modeli językowych i testowania jednostkowego.

Pax

Platforma programistyczna przeznaczona do trenowania dużych modeli sieci neuronowych, które obejmują wiele układów TPUslice lub podów.

Pax jest oparty na Flaxie, który z kolei opiera się na JAX.

Diagram pokazujący pozycję Pax w składniku oprogramowania.
          Pax jest oparty na JAX. Pax składa się z 3 warstw. Dolna warstwa zawiera TensorStore i Flax.
          Warstwa środkowa zawiera Optax i Flaxformer. Najwyższy poziom zawiera bibliotekę modeli Praxis. Fiddle jest oparty na Pax.

perceptron

System (sprzęt lub oprogramowanie), który przyjmuje co najmniej 1 wartość wejściową, wykonuje funkcję na podstawie ważonej sumy danych wejściowych i oblicza jedną wartość wyjściową. W uczeniu maszynowym funkcja jest zwykle nieliniowa, np. ReLU, sigmoid lub tanh. Na przykład ten perceptron używa funkcji sigmoidalnej do przetwarzania 3 wartości wejściowych:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Na ilustracji poniżej perceptron ma 3 wejścia, z których każde jest modyfikowane przez współczynnik przed wejściem do perceptronu:

Perceptron, który przyjmuje 3 wejścia, z których każde jest mnożone przez osobne współczynniki. Perceptron zwraca jedną wartość.

Perceptrony to neuronysieciach neuronowych.

występ

Termin o wielu znaczeniach:

  • Standardowe znaczenie w inżynierii oprogramowania. Chodzi o to, jak szybko (lub wydajnie) działa to oprogramowanie.
  • znaczenie w uczeniu maszynowym. W tym przypadku skuteczność odpowiada na pytanie: „Jak dokładny jest ten model?”. Czyli jak trafne są prognozy modelu?

permutacyjna ważność zmiennych

#df

Typ znaczenia zmiennej, który ocenia wzrost błędu prognozy modelu po permutacji wartości cechy. Permutacyjna ważność zmiennej jest miarą niezależną od modelu.

perplexity

Miara, która określa, jak dobrze model wykonuje swoje zadanie. Załóżmy na przykład, że Twoim zadaniem jest odczytanie kilku pierwszych liter słowa, które użytkownik wpisują na klawiaturze telefonu, oraz podanie listy możliwych słów do dokończenia. W przypadku tego zadania liczba prób, które należy zaproponować, aby lista zawierała rzeczywiste słowo, które użytkownik próbuje wpisać, to liczba P.

Złożoność jest powiązana z entropią krzyżową w ten sposób:

$$P= 2^{-\text{cross entropy}}$$

potok

Infrastruktura związana z algorytmem systemów uczących się. Proces ten obejmuje zbieranie danych, umieszczanie ich w plikach danych do trenowania, trenowanie co najmniej jednego modelu i eksportowanie modeli do wersji produkcyjnej.

przetwarzanie w potoku

#language

Forma paralelizowania modelu, w której przetwarzanie modelu jest dzielone na kolejne etapy, a każdy z nich jest wykonywany na innym urządzeniu. Podczas przetwarzania jednej partii przez jeden etap poprzedni etap może pracować nad kolejną partią.

Zobacz też szkolenie w etapach.

pjit

Funkcja JAX, która dzieli kod na fragmenty do wykonania na wielu urządzeniach przyspieszających. Użytkownik przekazuje funkcję do pjit, która zwraca funkcję o równoważnej semantyce, ale skompilowaną do obliczeń XLA, które są wykonywane na wielu urządzeniach (takich jak procesory graficzne lub rdzenie TPU).

pjit umożliwia użytkownikom dzielenie obliczeń bez ich ponownego zapisywania za pomocą SPMD.

W marcu 2023 r. pjit zostało połączone z jit. Więcej informacji znajdziesz w artykule Rozproszone tablice i automatyczna paralelizacja.

PLM

#language
#generativeAI

Skrót od wytrenowanego modelu językowego.

pmap

Funkcja JAX, która wykonuje kopie funkcji wejściowej na wielu urządzeniach sprzętowych (procesorach, kartach graficznych lub procesorach TPU) z różnymi wartościami wejściowymi. pmap korzysta z SPMD.

zasada

#rl

W uczeniu się przez wzmacnianie agent korzysta z mapowania probabilistycznego stanów na działania.

wspólnego korzystania z zasobów,

#image

Redukcja macierzy (lub macierz) utworzonych przez wcześniejszy warstw convolacyjną do mniejszej macierzy. Zwykle polega ono na przyjęciu maksymalnej lub średniej wartości w obszarze zbiorczym. Załóżmy na przykład, że mamy taką oto macierz 3 x 3:

Macierz 3 x 3: [[5,3,1], [8,2,5], [9,4,3]].

Operacja zliczania, podobnie jak operacja konwolucyjna, dzieli tę macierz na części, a następnie przesuwa tę operację konwolucyjną o skok. Załóżmy na przykład, że operacja zliczania dzieli macierz konwolucyjną na części 2 x 2 o skoku 1 x 1. Jak widać na diagramie poniżej, występują 4 operacje łączenia. Załóżmy, że każda operacja zgrupowania wybiera maksymalną wartość 4 elementów w danym przekroju:

Wejściem jest macierz 3 x 3 o wartościach: [[5,3,1], [8,2,5], [9,4,3]].
          Lewostronna podmacierz 2 x 2 macierzy wejściowej ma postać [[5,3], [8,2]], więc operacja zliczania lewym górnym rogu daje wartość 8 (czyli maksimum z 5, 3, 8 i 2). Prawy górny podmacierz 2 × 2 macierzy wejściowej ma postać [[3,1], [2,5]], więc operacja zliczania w prawym górnym rogu daje wartość 5. Lewo-doły macierz podrzędna o wymiarach 2 × 2 ma postać [[8,2], [9,4]], więc operacja zliczania w lewym dolnym rogu zwraca wartość 9. Prawy dolny podmacierz 2 × 2 macierzy wejściowej ma postać [[2,5], [4,3]], więc operacja zliczania w prawym dolnym rogu zwraca wartość 5. Podsumowując, operacja zliczania daje macierz 2 x 2: [[8,5], [9,5]].

Połączenie pomaga zapewnić niezmienność w translacji w macierz wejściowej.

Zbiory danych w przypadku aplikacji do przetwarzania obrazu są bardziej formalnie nazywane zbiorami danych przestrzennych. W przypadku aplikacji wykorzystujących dane czasowe złączanie nazywa się zwykle złączaniem czasowym. W mniej formalnym ujęciu zgrupowanie jest często nazywane podpróbkowaniem lub próbkowaniem w dół.

kodowanie pozycyjne

#language

Technika polegająca na dodawaniu informacji o pozycji tokena w sekwencji do jego ujęcia. Modele typu transformer korzystają z kodowania pozycyjnego, aby lepiej zrozumieć zależność między różnymi częściami sekwencji.

Typowa implementacja kodowania pozycyjnego używa funkcji sinusoidalnej. (W szczególności częstotliwość i amplituda funkcji sinusoidalnej są określane przez pozycję tokena w sekwencji). Ta technika umożliwia modelowi Transformer uczenie się zwracania uwagi na różne części sekwencji na podstawie ich pozycji.

klasa wyników pozytywnych

#fundamentals

Zajęcia, których dotyczy test.

Na przykład klasa pozytywna w modelu dotyczącym raka może być „guz”. Klasa pozytywna w klasyfikatorze e-maili może być „spam”.

Porównaj z klasą wyników negatywnych.

przetwarzanie końcowe

#fairness
#fundamentals

Dostosowywanie danych wyjściowych modelu po jego uruchomieniu. Przetwarzanie wsteczne można wykorzystać do egzekwowania ograniczeń sprawiedliwości bez modyfikowania samych modeli.

Można na przykład zastosować przetwarzanie wsteczne do klasyfikatora binarnego, ustawiając próg klasyfikacji w taki sposób, aby równać szanse w przypadku danego atrybutu. W tym celu należy sprawdzić, czy wskaźnik prawdziwych wyników dodatnich jest taki sam dla wszystkich wartości tego atrybutu.

model po trenowaniu

#language
#image
#generativeAI

Luźno zdefiniowany termin, który zwykle odnosi się do wytrenowanego wstępnie modelu, który przeszedł pewien proces przetwarzania w treningu, np. jeden lub więcej z tych elementów:

PR AUC (obszar pod krzywą PR)

Obszar pod interpolowaną krzywą precyzji i czułości uzyskany przez naniesienie punktów (czułość, precyzja) dla różnych wartości progu klasyfikacji.

Praxis

Podstawowa, wydajna biblioteka ML w ramach Pax. Praxis jest często nazywany „biblioteką warstw”.

Praxis zawiera nie tylko definicje klasy Layer, ale też większość jej komponentów pomocniczych, w tym:

Praxis zawiera definicje klasy Model.

precyzja

Dane dotyczące modeli klasyfikacji, które odpowiadają na to pytanie:

Kiedy model przewidział klasę pozytywną, jaki był odsetek poprawnych prognoz?

Oto formuła:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

gdzie:

  • Prawdziwy pozytywny wynik oznacza, że model prawidłowo przewidział klasę pozytywną.
  • Wynik fałszywie pozytywny oznacza, że model pomylonie przewidział klasę pozytywną.

Załóżmy na przykład, że model wygenerował 200 pozytywnych prognoz. Spośród tych 200 pozytywnych prognoz:

  • 150 z nich to wyniki prawdziwie pozytywne.
  • 50 z nich to wyniki fałszywie pozytywne.

W tym przypadku:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

W przeciwieństwie do dokładnościczułości.

Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane dane.

dokładność k (precision@k)

#language

Dane służące do oceny uszeregowanej (posortowanej) listy elementów. Dokładność na poziomie k określa ułamek pierwszych k elementów na liście, które są „odpowiednie”. Czyli:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Wartość k musi być mniejsza lub równa długości zwracanej listy. Pamiętaj, że długość zwróconej listy nie jest uwzględniana w obliczeniach.

Odpowiednie treści są często subiektywną kwestią. Nawet eksperci oceniacze często nie zgadzają się co do tego, które treści są odpowiednie.

Porównaj z:

krzywej precyzji i czułości

Krzywa precyzyjności w zależności od czułości przy różnych progach klasyfikacji.

prognoza

#fundamentals

Dane wyjściowe modelu. Na przykład:

  • Prognoza modelu klasyfikacji binarnej to klasa pozytywna lub negatywna.
  • Prognoza modelu klasyfikacji wieloklasowej to jedna klasa.
  • Prognoza modelu regresji liniowej jest liczbą.

błędy prognozowania

Wartość wskazująca, jak daleko od siebie jest średnia prognoz i średnia etykiet w zbiorze danych.

Nie należy mylić tego pojęcia z terminem „bias” w modelach uczenia maszynowego ani z uprzedzeniami w zakresie etyki i sprawiedliwości.

systemy ML prognozujące

dowolny standardowy („klasyczny”) system uczenia maszynowego;

Termin prognostyczne uczenie maszynowe nie ma formalnej definicji. Termin ten służy raczej do odróżnienia kategorii systemów ML, które nie są oparte na generatywnej AI.

równość prognozowana

#fairness

Dane dotyczące sprawiedliwości, które sprawdzają, czy w przypadku danego klasyfikatora współczynniki precyzyjności są równoważne w przypadku rozpatrywanych podgrup.

Na przykład model, który przewiduje przyjęcie na studia, spełnia warunek równości prognoz dla narodowości, jeśli jego współczynnik dokładności jest taki sam w przypadku Lilliputów i Brobdingnagijczyków.

Równość prognozowana jest czasami nazywana równością stawek prognozowanych.

Więcej informacji o równości w ramach prognozowania znajdziesz w sekcji „Definicje uczciwości” (sekcja 3.2.1).

parytet stawek prognozowanych

#fairness

Inna nazwa prognostycznych parzystw.

przetwarzanie wstępne

#fairness
Przetwarzanie danych przed ich użyciem do trenowania modelu. Przetwarzanie wstępne może być tak proste jak usuwanie z korpusu tekstów w języku angielskim słów, które nie występują w słowniku angielskim, lub tak złożone jak ponowne wyrażanie punktów danych w sposób, który eliminuje jak najwięcej atrybutów skorelowanych z wrażliwymi atrybutami. Przetwarzanie wstępne może pomóc w spełnieniu ograniczeń obiektywności.

wytrenowany model

#language
#image
#generativeAI

Zwykle jest to model, który został już wytrenowany. Termin ten może też oznaczać wcześniej wytrenowany wektor zanurzeniowy.

Termin wstępnie wytrenowany model językowy zwykle odnosi się do już wytrenowanego dużego modelu językowego.

przed treningiem

#language
#image
#generativeAI

Wstępne trenowanie modelu na dużym zbiorze danych. Niektóre wytrenowane wstępnie modele są niezgrabnymi olbrzymami i zwykle trzeba je dopracować, przeprowadzając dodatkowe szkolenie. Na przykład eksperci od uczenia maszynowego mogą wstępnie wytrenować duży model językowy na podstawie ogromnego zbioru danych tekstowych, takiego jak wszystkie strony w języku angielskim w Wikipedii. Po wstępnym trenowaniu model może zostać dopracowany za pomocą jednej z tych technik:

przekonanie wstępne

Twoje przekonania dotyczące danych przed rozpoczęciem ich trenowania. Na przykład regularyzacja L2 opiera się na założeniu, że wagi powinny być małe i normalnie rozłożone wokół zera.

model regresji probabilistycznej

Model regresji, który wykorzystuje nie tylko wagi dla każdej cechy, ale też niepewność tych wag. Model regresji probabilistycznej generuje prognozę i niepewność tej prognozy. Na przykład model regresji probabilistycznej może podać prognozę 325 z odchyleniem standardowym 12. Więcej informacji o modelach regresji probabilistycznej znajdziesz w tym notebooku Colab na tensorflow.org.

funkcja gęstości prawdopodobieństwa

Funkcja, która identyfikuje częstotliwość występowania próbek danych o dokładnie określonej wartości. Gdy wartości w danym zbiorze danych są ciągłymi liczbami zmiennoprzecinkowymi, dopasowania ścisłe występują rzadko. Jednak zintegrowanie funkcji gęstości prawdopodobieństwa od wartości x do wartości y daje oczekiwaną częstotliwość próbek danych z zakresu xy.

Rozważmy na przykład rozkład normalny o średniej 200 i odchyleniu standardowym 30. Aby określić oczekiwaną częstotliwość próbek danych w zakresie od 211,4 do 218,7, możesz zintegrować funkcję gęstości prawdopodobieństwa dla rozkładu normalnego w zakresie od 211,4 do 218,7.

prompt

#language
#generativeAI

dowolny tekst wprowadzony jako dane wejściowe do dużego modelu językowego, aby model zachowywał się w określony sposób. Prompty mogą być krótkie (wyrażenie) lub dowolnie długie (np. cały tekst powieści). Prompty dzielą się na kilka kategorii, m.in. te wymienione w tabeli poniżej:

Kategoria promptu Przykład Uwagi
Pytanie Jak szybko potrafi latać gołąb?
Instrukcja Napisz zabawny wiersz o arbitrażu. Prompt, który prosi duży model językowy o coś zrobienie.
Przykład Przekształcaj kod Markdown w kod HTML. Na przykład:
Markdown: * element listy
HTML: <ul> <li>element listy</li> </ul>
Pierwsze zdanie w tym przykładowym promptu to instrukcja. Pozostała część promptu to przykład.
Rola Wyjaśnij, dlaczego w przypadku osób z doktoratem z fizyki stosuje się w uczeniu maszynowym metodę gradientu prostego. Pierwsza część zdania to instrukcja, a wyrażenie „doktorat z fizyki” to część dotycząca roli.
Częściowe dane wejściowe dla modelu Premier Wielkiej Brytanii mieszka pod adresem Prompt dotyczący częściowego wprowadzania danych może kończyć się nagle (jak w tym przykładzie) lub podkreśleniem.

Model generatywnej AI może odpowiadać na prompt tekstem, kodem, obrazami, embeddingami, filmami... prawie wszystkim.

nauka oparta na promptach,

#language
#generativeAI

Umiejętność niektórych modeli, która umożliwia im dostosowanie ich zachowania w odpowiedzi na dowolny tekst wejściowy (prompty). W ramach typowej paradygmatu uczenia się na podstawie promptów duży model językowy odpowiada na prompt, generując tekst. Załóżmy na przykład, że użytkownik wpisuje ten prompt:

Opisz trzecią zasadę dynamiki Newtona.

Model zdolny do uczenia się na podstawie promptów nie jest specjalnie trenowany do odpowiadania na poprzedni prompt. Model „zna” wiele faktów z fizyki, wiele o ogólnych regułach językowych i wiele o tym, co stanowi ogólnie przydatne odpowiedzi. Ta wiedza wystarczy, aby udzielić (miejmy nadzieję) przydatnej odpowiedzi. Dodatkowe opinie użytkowników (np. „Ta odpowiedź była zbyt skomplikowana” lub „Co sądzisz?”) umożliwiają niektórym systemom uczącym się na podstawie promptów stopniowe polepszanie przydatności odpowiedzi.

projektowanie promptów

#language
#generativeAI

Synonim tworzenia promptów.

tworzenie promptów

#language
#generativeAI

Sztuka tworzenia promptów, które wywołują pożądane odpowiedzi dużych modeli językowych. prompty są tworzone przez ludzi. Pisanie dobrze sformatowanych promptów jest kluczowe, aby uzyskać przydatne odpowiedzi od dużego modelu językowego. Projektowanie promptów zależy od wielu czynników, w tym:

Więcej informacji o tworzeniu przydatnych promptów znajdziesz w artykule Wprowadzenie do projektowania promptów.

Projektowanie promptów to synonim tworzenia promptów.

dostrajanie promptów

#language
#generativeAI

Mechanizm skutecznego doboru parametrów, który uczy się „prefiksu”, który system dołącza do rzeczywistego promptu.

Jedną z wariacji dostrajania promptu – czasami nazywanego dostrajaniem prefiksu – jest dodawanie prefiksu do każdej warstwy. Większość ustawień prompta dodaje tylko prefiks do warstwy wejściowej.

proxy (atrybuty wrażliwe)

#fairness
Atrybut używany jako zamiennik atrybutu wrażliwego. Na przykład kod pocztowy może być używany jako przybliżony wskaźnik dochodu, rasy lub pochodzenia etnicznego.

etykiety proxy

#fundamentals

Dane używane do przybliżonego określania etykiet, które nie są dostępne bezpośrednio w zbiorze danych.

Załóżmy na przykład, że musisz wytrenować model do przewidywania poziomu stresu pracowników. Twój zbiór danych zawiera wiele funkcji predykcyjnych, ale nie zawiera etykiety o nazwie poziom stresu. Nieustraszony, wybierasz „wypadki w miejscu pracy” jako etykietę zastępczą dla poziomu stresu. W końcu pracownicy pod wpływem silnego stresu mają więcej wypadków niż pracownicy zachowujący spokój. Czy tak jest? Może wypadki przy pracy faktycznie wzrastają i maleją z różnych powodów.

Drugi przykład: zakładamy, że chcesz, aby etykietą logiczną w przypadku Twojego zbioru danych była wartość czy pada deszcz?, ale Twój zbiór danych nie zawiera danych o opadach. Jeśli masz zdjęcia, możesz użyć zdjęć przedstawiających osoby z parasolami jako etykiety zastępczej dla pytania czy pada deszcz?. Czy to odpowiednia etykieta zastępcza? Być może, ale w niektórych kulturach ludzie częściej noszą parasole, aby chronić się przed słońcem, a nie przed deszczem.

Etykiety zastępcze często nie są idealne. Jeśli to możliwe, wybieraj etykiety rzeczywiste zamiast etykiet zastępczych. Jeśli jednak nie ma etykiety, wybierz etykietę zastępczą bardzo ostrożnie, wybierając tę, która jest najmniej zła.

czysta funkcja

Funkcja, której dane wyjściowe zależą tylko od danych wejściowych i która nie ma żadnych skutków ubocznych. W szczególności funkcja czysta nie używa ani nie zmienia żadnego stanu globalnego, takiego jak zawartość pliku czy wartość zmiennej poza funkcją.

Funkcje czyste można stosować do tworzenia kodu bezpiecznego w wątkach, co jest przydatne podczas dzielenia kodu modelu na wiele układów przyspieszających.

Metody przetwarzania funkcji w JAX'ie wymagają, aby funkcje wejściowe były funkcjami czystymi.

P

Funkcja Q

#rl

W nauczaniu wzmacniającym funkcja, która przewiduje oczekiwany zwrot z wykonania działaniastanie, a następnie działa zgodnie z danym regułem.

Funkcja Q jest też nazywana funkcją wartości stanu i działania.

Q-learning

#rl

Uczenie ze wzmocnieniem to algorytm, który pozwala agentowi uczyć się optymalnej funkcji Q procesu decyzyjnego Markova przez zastosowanie równania Bellmana. Proces decyzyjny Markowa modeluje otoczenie.

kwantyl

Każdy zasobnik w grupowaniu według kwantyli.

skategoryzowanie w przedziałach kwantytylowych

Rozprowadzanie wartości cech w zasobnikach, tak aby każdy z nich zawierał taką samą (lub prawie taką samą) liczbę przykładów. Na przykład na rysunku poniżej 44 punkty są podzielone na 4 grupy, z których każda zawiera 11 punktów. Aby każdy z zasobników na rysunku zawierał tę samą liczbę punktów, niektóre z nich obejmują różne zakresy wartości osi X.

44 punkty danych podzielone na 4 grupy po 11 punktów każda.
          Chociaż każdy zasobnik zawiera taką samą liczbę punktów danych, niektóre zasobniki zawierają szerszy zakres wartości cech niż inne.

kwantyzacja

Przeciążony termin, który może być używany na jeden z tych sposobów:

  • Wdrożenie zbiorników kwantyli dla konkretnej cechy.
  • Przekształcanie danych w zera i jedynki w celu szybszego przechowywania, trenowania i wyciągania wniosków. Dane logiczne są mniej podatne na szum i błędy niż inne formaty, dlatego kwantyzacja może poprawić poprawność modelu. Techniki kwantowania obejmują zaokrąglanie, obcinanie i binowanie.
  • Zmniejsz liczbę bitów używanych do przechowywania parametrów modelu. Załóżmy na przykład, że parametry modelu są przechowywane jako 32-bitowe liczby zmiennoprzecinkowe. Kwantyzowanie konwertuje te parametry z 32 bitów na 4, 8 lub 16 bitów. Kwantyzacja zmniejsza:

    • Wykorzystanie zasobów obliczeniowych, pamięci, dysku i sieci
    • Czas potrzebny na wywnioskowanie prognozy
    • Zużycie energii

    Jednak kwantyzacja może czasami zmniejszać trafność prognoz modelu.

kolejka

#TensorFlow

Operacja TensorFlow Operation, która implementuje strukturę danych kolejki. Zwykle używane w przypadku I/O.

R

RAG

#fundamentals

Skrót od generowania rozszerzonego przez wyszukiwanie w zapisanych informacjach.

las losowy

#df

Zbiór drzew decyzyjnych, w których każde drzewo decyzyjne jest trenowane z użyciem określonego losowego szumu, takiego jak bagging.

Lasy losowe to rodzaj lasu decyzyjnego.

zasada losowa

#rl

nauce wzmacniającej polityka, która losowo wybiera działanie.

pozycja (kolejność),

Pozycja porządkowa klasy w problemie uczenia maszynowego, który kategoryzuje klasy od najwyższej do najniższej. Na przykład system rankingowy może przypisywać nagrody dla psa od najwyższej (stek) do najniższej (zwiędłe warzywa).

rank (Tensor)

#TensorFlow

Liczba wymiarów w Tensor. Na przykład: skalarze mają rangę 0, wektory – rangę 1, a macierze – rangę 2.

Nie należy mylić z pozycją (kolejnością).

ranking

Rodzaj nauczenia nadzorowanego, którego celem jest uporządkowanie listy elementów.

weryfikator

#fundamentals

Osoba, która tworzy etykiety dla przykładów. „Komentator” to inna nazwa oceniającego.

wycofanie

Dane dotyczące modeli klasyfikacji, które odpowiadają na to pytanie:

Gdy dane podstawowe to klasa pozytywna, jaki odsetek prognoz model poprawnie zidentyfikował jako klasę pozytywną?

Oto formuła:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

gdzie:

  • Prawdziwy pozytywny wynik oznacza, że model prawidłowo przewidział klasę pozytywną.
  • Fałszywie negatywny oznacza, że model pomyłkowo przewidział klasę negatywną.

Załóżmy na przykład, że model wygenerował 200 prognoz na przykładach, dla których ground truth to klasa pozytywna. Spośród tych 200 prognoz:

  • 180 z nich to wyniki prawdziwie pozytywne.
  • 20 z nich to wyniki fałszywie negatywne.

W tym przypadku:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Więcej informacji znajdziesz w artykule Klasyfikacja: dokładność, czułość, precyzja i powiązane dane.

skuteczność przy k (recall@k)

#language

Dane służące do oceny systemów, które zwracają posortowaną listę elementów. Zwrot recall at k wskazuje ułamek odpowiednich elementów w pierwszych k elementach na liście spośród łącznej liczby zwróconych odpowiednich elementów.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Porównaj z dokładnością w przypadku k.

system rekomendacji

#recsystems

System, który wybiera dla każdego użytkownika stosunkowo niewielki zestaw pożądanych elementów z dużego zbioru. System rekomendacji filmów może na przykład polecić 2 filmy z korpusu 100 tys. filmów, wybierając Casablancę i Philadelphia Story dla jednego użytkownika oraz Wonder Woman i Czarna pantera dla drugiego. System rekomendacji filmów może opierać swoje rekomendacje na takich czynnikach jak:

  • filmy, które ocenili lub obejrzeli użytkownicy o podobnych zainteresowaniach;
  • Gatunek, reżyserzy, aktorzy, grupa docelowa...

Wyprostowana jednostka liniowa (ReLU)

#fundamentals

funkcja aktywacji o takim działaniu:

  • Jeśli dane wejściowe są ujemne lub równe 0, dane wyjściowe mają wartość 0.
  • Jeśli wartość wejściowa jest dodatnia, wynik jest równy wartości wejściowej.

Na przykład:

  • Jeśli wartość wejściowa to -3, wynik to 0.
  • Jeśli dane wejściowe to +3, wynik to 3,0.

Oto wykres funkcji ReLU:

Układ kartezjański 2 linii. Pierwsza linia ma stałą wartość y równą 0, biegnącą wzdłuż osi x od –nieskończoności,0 do 0, –0.
          Druga linia zaczyna się od 0,0. Ma ona nachylenie +1, więc biegnie od 0,0 do +nieskończoność,+nieskończoność.

ReLU jest bardzo popularną funkcją aktywacji. Pomimo prostego działania ReLU umożliwia sieci neuronowej uczenie się nieliniowych relacji między cechamioznacznikiem.

rekurencyjna sieć neuronowa

#seq

Sieci neuronowej, która jest celowo uruchamiana wielokrotnie, a części każdego uruchomienia są przekazywane do następnego. W szczególności warstwy ukryte z poprzedniego przebiegu dostarczają części danych wejściowych do tej samej warstwy ukrytej w następnym przebiegu. Sieci neuronowe rekurencyjne są szczególnie przydatne do oceny sekwencji, ponieważ ich ukryte warstwy mogą uczyć się na podstawie poprzednich uruchomień sieci neuronowej w przypadku wcześniejszych części sekwencji.

Na przykład na rysunku poniżej widać rekurencyjną sieć neuronową, która działa 4 razy. Zwróć uwagę, że wartości wyuczone w pierwszym przebiegu w warstwach ukrytych stają się częścią danych wejściowych tych samych warstw ukrytych w drugim przebiegu. Podobnie wartości wyuczone w drugim przebiegu przez ukrytą warstwę staną się częścią danych wejściowych dla tej samej warstwy ukrytej w trzecim przebiegu. W ten sposób rekurencyjna sieć neuronowa stopniowo trenuje i przewiduje znaczenie całej sekwencji, a nie tylko znaczenie poszczególnych słów.

Sieć RNN, która działa 4 razy, aby przetworzyć 4 słowa wejściowe.

tekst referencyjny

#language
#generativeAI

odpowiedź eksperta na prompt. Na przykład:

Przetłumacz pytanie „Jak masz na imię?” z angielskiego na francuski.

Odpowiedź eksperta może wyglądać tak:

Comment vous appelez-vous ?

Różne wskaźniki (np. ROUGE) mierzą stopień, w jakim tekst referencyjny pasuje do tekstu wygenerowanego przez model AI.

model regresji

#fundamentals

Nieformalnie: model, który generuje prognozę liczbową. (model klasyfikacji generuje prognozę klasy). Na przykład wszystkie modele regresji:

  • Model, który prognozuje wartość domu w euro,np. 423 000.
  • Model, który prognozuje długość życia danego drzewa w latach, na przykład 23,2.
  • Model, który prognozuje ilość opadów w calach w okresie najbliższych 6 godzin w danym mieście, np.0,18.

Dostępne są 2 popularne typy modeli regresji:

  • Regresja liniowa, która znajduje linię, która najlepiej dopasowuje wartości etykiet do cech.
  • Regresja logistyczna, która generuje prawdopodobieństwo z zakresu od 0,0 do 1,0, które system zwykle mapuje na prognozę klasy.

Nie każdy model, który generuje prognozy liczbowe, jest modelem regresji. W niektórych przypadkach prognoza liczbowa to tak naprawdę model klasyfikacji, który ma nazwy klas w postaci liczb. Na przykład model, który prognozuje liczbowy kod pocztowy, jest modelem klasyfikacji, a nie regresji.

regularyzacja

#fundamentals

Każdy mechanizm, który zmniejsza nadmierne dopasowanie. Popularne typy regularyzacji:

Regularyzację można też zdefiniować jako karę za złożoność modelu.

współczynnik regularyzacji

#fundamentals

Liczba określająca względne znaczenie regularyzacji podczas trenowania. Zwiększenie współczynnika regularyzacji zmniejsza nadmierne dopasowanie, ale może też zmniejszyć zdolność modelu do przewidywania. Z kolei zmniejszenie lub pominięcie współczynnika regularyzacji zwiększa ryzyko przetrenowania.

uczenie się przez wzmacnianie (RL);

#rl

Rodzina algorytmów, które uczą się optymalnej polityki, której celem jest maksymalizacja zysku w interakcjach z otoczeniem. Na przykład w większości gier ostateczną nagrodą jest zwycięstwo. Systemy uczenia się przez wzmacnianie mogą stać się ekspertami w zaawansowanych grach, oceniając sekwencję poprzednich ruchów, które doprowadziły do wygranej, i sekwencje, które doprowadziły do przegranej.

Uczenie przez wzmacnianie na podstawie opinii użytkowników (RLHF)

#generativeAI
#rl

Korzystanie z opinii weryfikatorów, aby poprawić jakość odpowiedzi modelu. Na przykład mechanizm RLHF może prosić użytkowników o ocena jakości odpowiedzi modelu za pomocą emotikonów 👍 lub 👎. System może następnie dostosować swoje przyszłe odpowiedzi na podstawie tych informacji.

ReLU

#fundamentals

Skrót od Rectified Linear Unit.

bufor powtórki

#rl

W przypadku algorytmów podobnych do DQN pamięć używana przez agenta do przechowywania przejść stanu na potrzeby odtwarzania doświadczeń.

replika

kopia zbioru danych szkoleniowych lub modelu, zwykle na innym komputerze. System może na przykład zastosować tę strategię implementowania paralelizmu danych:

  1. umieszczać kopie istniejącego modelu na wielu maszynach.
  2. Wyślij do każdej repliki różne podzbiory zbioru danych treningowego.
  3. Zagreguj aktualizacje parametru.

błędy w raportowaniu,

#fairness

Częstotliwość, z jaką ludzie piszą o działaniach, wynikach lub właściwościach, nie odzwierciedla ich rzeczywistej częstotliwości występowania ani stopnia, w jakim dana właściwość jest charakterystyczna dla danej grupy osób. Uprzedzeń w raportowaniu może wpływać na skład danych, z których systemy uczące się maszynowo czerpią informacje.

Na przykład w książkach słowo laughed występuje częściej niż breathed. Model uczenia maszynowego, który szacuje względną częstotliwość śmiechu i oddychania na podstawie zbioru tekstów, prawdopodobnie ustali, że śmiech jest częstszy niż oddychanie.

reprezentacja

Proces mapowania danych na użyteczne funkcje.

ponowne ustalanie rankingu

#recsystems

Ostatni etap systemu rekomendacji, podczas którego elementy z oceniami mogą zostać ponownie ocenione według innego algorytmu (zwykle innego niż ML). Ponowne ustalanie rankingu polega na ocenie listy elementów wygenerowanej w etap określania wartości, w którym podejmowane są takie działania jak:

  • usuwanie elementów, które użytkownik już kupił;
  • Zwiększanie wyniku nowszych produktów.

generowanie rozszerzone przez wyszukiwanie w zapisanych informacjach (RAG)

#fundamentals

Technika polepszania jakości danych wyjściowych dużego modelu językowego (LLM) poprzez powiązanie ich ze źródłami wiedzy wyodrębnionymi po wytrenowaniu modelu. RAG zwiększa dokładność odpowiedzi LLM, zapewniając trenowanemu modelowi dostęp do informacji pobranych z zaufanych baz wiedzy lub dokumentów.

Oto kilka typowych powodów, dla których warto używać generacji wspomaganej przez wyszukiwanie:

  • zwiększenie dokładności faktograficznej odpowiedzi generowanych przez model;
  • Dawanie modelowi dostępu do wiedzy, na której nie był on trenowany.
  • Zmiana wiedzy, której używa model.
  • Umożliwienie modelowi cytowania źródeł.

Załóżmy na przykład, że aplikacja do chemii korzysta z interfejsu PaLM API do generowania podsumowań dotyczących zapytań użytkowników. Gdy backend aplikacji otrzyma zapytanie, wykona te czynności:

  1. Wyszukuje („pobiera”) dane pasujące do zapytania użytkownika.
  2. Dodaje („rozszerza”) odpowiednie dane chemiczne do zapytania użytkownika.
  3. Instrukcja dla LLM, aby utworzyć podsumowanie na podstawie dołączonych danych.

powrót

#rl

W nauce wzmacniającej, przy założeniu określonej strategii i stanu, zwrot to suma wszystkich nagród, które agent oczekuje otrzymać, gdy będzie przestrzegać strategii od stanu do końca sesji. Agent uwzględnia opóźnienie w przyznawaniu nagród, stosując dyskonto na podstawie stanów przejściowych wymaganych do uzyskania nagrody.

Jeśli więc współczynnik rabatu wynosi \(\gamma\), a  \(r_0, \ldots, r_{N}\) oznacza nagrody do końca odcinka, to obliczenie zwrotu wygląda tak:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

nagrody

#rl

W uczeniu się przez wzmocnienie jest to wynik liczbowy wykonania działaniastanie określonym przez środowisko.

regularyzacja grzebieni

Synonim regularyzacji L2. Termin regularyzacja Ridge jest częściej używany w kontekstach czysto statystycznych, natomiast regularyzacja L2 jest częściej stosowana w uczeniu maszynowym.

RNN

#seq

Skrót od sieci neuronowych o powtarzającej się strukturze.

Krzywa ROC (charakterystyka operacyjna odbiornika)

#fundamentals

Wykres przedstawiający wskaźnik prawdziwie pozytywnych wyników w porównaniu z wskaźnikiem fałszywie pozytywnych wyników dla różnych progów klasyfikacji w przypadku klasyfikacji binarnej.

Kształt krzywej ROC wskazuje na zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od klas negatywnych. Załóżmy na przykład, że binarny model klasyfikacji doskonale oddziela wszystkie klasy negatywne od wszystkich klas pozytywnych:

Linia liczbowa z 8 pozytywnymi przykładami po prawej stronie i 7 ujemnymi po lewej.

Krzywa ROC dla poprzedniego modelu wygląda tak:

Krzywa ROC Na osi X jest współczynnik wyników fałszywie pozytywnych, a na osi Y współczynnik wyników prawdziwie pozytywnych. Krzywa ma kształt odwróconej litery L. Krzywa zaczyna się w punkcie (0,0) i prosto idzie w górę do punktu (0,1). Następnie krzywa przechodzi z (0,0,1,0) do (1,0,1,0).

Natomiast na ilustracji poniżej pokazano nieobrobione wartości regresji logistycznej w przypadku kiepskiego modelu, który w ogóle nie potrafi odróżnić klas negatywnych od klas pozytywnych:

Linia liczbowa z pozytywnymi przykładami i negatywnymi klasami
          całkowicie pomieszanymi.

Krzywa ROC dla tego modelu wygląda tak:

Krzywa ROC, która jest w istocie linią prostą od punktu (0,0) do punktu (1,1).

W prawdziwym życiu większość modeli binarnej klasyfikacji w pewnym stopniu oddziela klasy pozytywne i negatywne, ale zwykle nie robi tego idealnie. Krzywa ROC zwykle znajduje się gdzieś pomiędzy tymi dwoma skrajnościami:

Krzywa ROC Na osi X jest współczynnik wyników fałszywie pozytywnych, a na osi Y współczynnik wyników prawdziwie pozytywnych. Krzywa ROC jest przybliżeniem wstrząśniętego łuku przechodzącego przez kierunki kompasu od zachodu do północy.

Punkt na krzywej ROC najbliższy punktowi (0,0,1,0) teoretycznie wskazuje idealny próg klasyfikacji. Wybór optymalnego progu klasyfikacji zależy jednak od kilku innych rzeczywistych problemów. Może na przykład okazać się, że fałszywie wyniki negatywne są znacznie bardziej uciążliwe niż fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC do jednej wartości zmiennoprzecinkowej.

prompty dotyczące ról

#language
#generativeAI

Opcjonalna część prompta, która identyfikuje odbiorców docelowych odpowiedzi modelu generatywnej AI. Bez promptu duży model językowy podaje odpowiedź, która może być przydatna dla osoby zadającej pytanie, a może nie. Za pomocą prompta o roli duży model językowy może udzielać odpowiedzi w sposób bardziej odpowiedni i przydatny dla konkretnej grupy odbiorców. Na przykład w tych promptach pogrubiliśmy fragmenty dotyczące ról:

  • Streść ten artykuł dla osoby z doktoratem z ekonomii.
  • Opisz, jak działają pływy dziecku w wieku 10 lat.
  • Wyjaśnij kryzys finansowy z 2008 r. Mów tak, jak do małego dziecka lub złotego retrievera.

poziom główny

#df

Węzeł początkowy (pierwszy warunek) w drzewie decyzyjnym. Zgodnie z zasadą na diagramach węzeł główny znajduje się u góry drzewa decyzyjnego. Na przykład:

Drzewo decyzyjne z 2 warunkami i 3 listkami. Warunek początkowy (x > 2) to pierwiastek.

katalog główny

#TensorFlow

Katalog, który wskazujesz jako miejsce przechowywania podkatalogów plików checkpoint i zdarzeń TensorFlow dla wielu modeli.

Średnia kwadratowa błędów (RMSE)

#fundamentals

Pierwiastek kwadratowy z błędu średniokwadratowego.

niezmienniczość obrotowa

#image

W przypadku problemu klasyfikacji obrazów chodzi o zdolność algorytmu do prawidłowej klasyfikacji obrazów nawet wtedy, gdy zmienia się ich orientacja. Na przykład algorytm nadal rozpoznaje rakietę tenisową, niezależnie od tego, czy jest skierowana w górę, w bok czy w dół. Pamiętaj, że odporność na obrót nie zawsze jest pożądana. Na przykład odwrócona cyfra 9 nie powinna być klasyfikowana jako cyfra 9.

Zobacz też niezmienność w translacjiniezmienność w skali.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language

Rodzina wskaźników, które oceniają automatyczne streszczenia i modele tłumaczenia maszynowego. Dane ROUGE określają, w jakim stopniu tekst referencyjny pokrywa się z tekstem wygenerowanym przez model ML. Każdy z elementów rodziny ROUGE różni się od siebie sposobem nakładanie się pomiarów. Wyższe wyniki ROUGE wskazują na większe podobieństwo tekstu referencyjnego do wygenerowanego niż niższe wyniki ROUGE.

Każdy element rodziny ROUGE generuje zwykle te dane:

  • Precyzja
  • Czułość
  • F1

Szczegółowe informacje i przykłady znajdziesz w tych artykułach:

ROUGE-L

#language

Jest to element z rodziny ROUGE, który skupia się na długości najdłuższego wspólnego podciągutekście referencyjnymtekście wygenerowanym. Te formuły obliczają czułość i precyzję w przypadku ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Następnie możesz użyć F1, aby zsumować czułość ROUGE-L i dokładność ROUGE-L w jednym wskaźniku:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ignoruje wszystkie znaki nowej linii w tekście referencyjnym i wygenerowanym, więc najdłuższa wspólna podciąg znaków może obejmować kilka zdań. Gdy tekst referencyjny i wygenerowany tekst zawierają kilka zdań, lepszym wskaźnikiem jest zazwyczaj wariant ROUGE-L o nazwie ROUGE-Lsum. ROUGE-Lsum określa najdłuższy wspólny podciąg w każdej frazie w fragmentach tekstu, a następnie oblicza średnią z tych najdłuższych wspólnych podciągów.

ROUGE-N

#language

Zestaw wskaźników z rodziny ROUGE, który porównuje wspólne N-gramy o określonym rozmiarze w tekście referencyjnymtekście wygenerowanym. Na przykład:

  • ROUGE-1 mierzy liczbę wspólnych tokenów w tekście referencyjnym i wygenerowanym.
  • ROUGE-2 mierzy liczbę wspólnych bigramów (2-gramów) w tekście referencyjnym i wygenerowanym.
  • ROUGE-3 mierzy liczbę wspólnych trójgramów (3-gramów) w tekście referencyjnym i wygenerowanym tekście.

Aby obliczyć ROUGE-N i ROUGE-N dla dowolnego elementu z rodziny ROUGE-N, użyj tych wzorów:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Następnie możesz użyć F1, aby zsumować czułość ROUGE-N i precyzję ROUGE-N w jednym wskaźniku:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#language

To łagodna forma ROUGE-N, która umożliwia dopasowanie skip-gram. Oznacza to, że ROUGE-N zlicza tylko n-gramy, które dokładnie pasują, ale ROUGE-S zlicza też n-gramy rozdzielone co najmniej 1 słowem. Na przykład:

Podczas obliczania ROUGE-N 2-gram White clouds nie pasuje do White billowing clouds. Jednak podczas obliczania ROUGE-S White clouds pasuje do White billowing clouds.

R-kwadrat

Regresja wskazująca, jaka część zmian w etykiecie jest spowodowana przez pojedynczą cechę lub zestaw cech. R-squared to wartość z zakresu od 0 do 1, którą możesz interpretować w następujący sposób:

  • Wartość R-kwadrat równa 0 oznacza, że żadna z wariacji etykiety nie jest spowodowana zbiorem cech.
  • Wartość R2 równa 1 oznacza, że wszystkie zmiany etykiety są spowodowane przez zestaw funkcji.
  • Wartość R-squared między 0 a 1 wskazuje, w jakim stopniu zmienność etykiety można przewidzieć na podstawie konkretnej cechy lub zbioru cech. Na przykład wartość R-kwadrat 0,10 oznacza, że 10% wariancji etykiety jest spowodowane zbiorem cech, wartość R-kwadrat 0,20 oznacza, że 20% jest spowodowane zbiorem cech itd.

R-kwadrat to kwadrat współczynnika korelacji Pearsona między wartościami prognozowanymi przez model a danymi podstawowymi (ground truth).

S

błąd próbkowania

#fairness

Zobacz błąd doboru.

próbkowanie z wymianą,

#df

Metoda wybierania elementów z zestawu elementów kandydujących, w której ten sam element może zostać wybrany kilka razy. Wyrażenie „z zastąpieniem” oznacza, że po każdym wyborze wybrany element wraca do puli elementów kandydujących. Metoda odwrotna, czyli próbkowanie bez zastąpienia, oznacza, że element kandydat może zostać wybrany tylko raz.

Weź pod uwagę te owoce:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Załóżmy, że system losowo wybiera fig jako pierwszy element. Jeśli używasz próbkowania z wymianą, system wybiera drugi element z tego zbioru:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Tak, to ten sam zestaw, co wcześniej, więc system może ponownie wybrać fig.

Jeśli używasz próbkowania bez zastępowania, wybranej próbki nie można wybrać ponownie. Jeśli na przykład system losowo wybierze fig jako pierwszą próbkę, fig nie zostanie wybrana ponownie. Dlatego system wybiera drugą próbkę z tego (zmniejszonego) zbioru:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

zalecany format zapisywania i przywracania modeli TensorFlow; SavedModel to niezależny od języka format serializacji, który umożliwia systemom i narzędziom wyższego poziomu tworzenie, wykorzystywanie i przekształcanie modeli TensorFlow.

Szczegółowe informacje znajdziesz w sekcji dotyczącej zapisywania i przywracania w przewodniku dla programistów TensorFlow.

Ekonomiczna

#TensorFlow

Obiekt TensorFlow odpowiedzialny za zapisywanie punktów kontrolnych modelu.

wartość skalarna

Pojedyncza liczba lub pojedynczy ciąg znaków, który może być reprezentowany jako tensorrang 0. Na przykład te wiersze kodu tworzą w TensorFlow po jednym wektorze:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

skalowanie

Dowolna transformacja matematyczna lub technika, która zmienia zakres wartości etykiety lub funkcji. Niektóre formy skalowania są bardzo przydatne do przekształcania danych, np. normalizacji.

Typowe formy skalowania przydatne w uczeniu maszynowym:

  • skalowania liniowego, które zwykle wykorzystuje kombinację odejmowania i dzielenia, aby zastąpić wartość początkową liczbą z zakresu od -1 do +1 lub od 0 do 1.
  • skalowania logarytmicznego, które zastępuje pierwotną wartość jej logarytmem.
  • Z-score normalization, która zastępuje pierwotną wartość wartością zmiennoprzecinkową reprezentującą liczbę odchyleń standardowych od średniej tej cechy.

scikit-learn

popularna platforma systemów uczących się open source, scikit-learn.org.

ocena

#recsystems

Część systemu rekomendacji, która przypisuje wartość lub ranking do każdego elementu wygenerowanego w fazie generowania kandydatów.

błąd doboru

#fairness

Błędy w wnioskach wywnioskowanych na podstawie danych próbnych z powodu procesu selekcji, który powoduje systematyczne różnice między próbami obserwowanymi w danych a tymi, których nie obserwowano. Występują następujące formy błędu doboru:

  • błąd pokrycia: populacja reprezentowana w zbiorze danych nie jest taka sama jak populacja, dla której model systemów uczących się dokonuje prognoz.
  • błąd próbkowania: dane nie są zbierane losowo w grupie docelowej.
  • Błąd nieodpowiadania (nazywany też błędem udziału): użytkownicy z pewnych grup rezygnują z ankiet w innym stopniu niż użytkownicy z innych grup.

Załóżmy na przykład, że tworzysz model uczenia maszynowego, który przewiduje, czy ludziom spodoba się dany film. Aby zebrać dane szkoleniowe, rozdaj ankietę wszystkim osobom w pierwszym rzędzie kina, w którym wyświetlany jest film. Na pierwszy rzut oka może się wydawać, że jest to rozsądny sposób zbierania zbioru danych, ale ta forma gromadzenia danych może wprowadzać następujące rodzaje błędów doboru:

  • błędy związane z zasięgiem: ze względu na to, że próba pochodzi od osób, które zdecydowały się obejrzeć film, przewidywania modelu mogą nie dotyczyć osób, które nie wyraziły jeszcze zainteresowania tym filmem.
  • błędy doboru próby: zamiast losowo wybrać osoby z wybranej populacji (wszystkich widzów w kinie), wybrano tylko osoby z pierwszego rzędu. Możliwe, że osoby siedzące w pierwszym rzędzie były bardziej zainteresowane filmem niż te z innych rzędów.
  • stronniczość: ogólnie osoby o mocnych poglądach częściej odpowiadają na opcjonalne ankiety niż osoby o słabszych poglądach. Ankieta dotycząca filmu jest opcjonalna, więc odpowiedzi prawdopodobnie będą miały rozkład bimodalny, a nie rozkład normalny (w kształcie dzwonu).

samouwaga (nazywana też warstwą samouwagi)

#language

Warstw sieci neuronowej, która przekształca sekwencję wektorów zanurzeniowych (np. wektorów zanurzeniowych tokenów) w inną sekwencję wektorów zanurzeniowych. Każde wbudowanie w sekwencji wyjściowej jest tworzone przez integrację informacji z elementów sekwencji wejściowej za pomocą mechanizmu uwagi.

Element selfself-attention odnosi się do sekwencji, która zwraca uwagę na siebie, a nie na inny kontekst. Samouwaga jest jednym z głównych elementów składowych transformacji i korzysta z terminologii wyszukiwania w słowniku, takiej jak „zapytanie”, „klucz” i „wartość”.

Warstwę samouczenia rozpoczyna sekwencja wejść, po jednym dla każdego słowa. Dane wejściowe odpowiadające słowu mogą być prostym w ramach embeddingiem. W przypadku każdego słowa w sekwencji wejściowej sieć ocenia trafność słowa w odniesieniu do wszystkich elementów w całej sekwencji słów. Wyniki trafności określają, w jakim stopniu ostateczne przedstawienie słowa uwzględnia przedstawienia innych słów.

Weź pod uwagę na przykład takie zdanie:

Zwierzę nie mogło przejść przez ulicę, ponieważ było zbyt zmęczone.

Ilustracja poniżej (z artykułu Transformer: nowatorska architektura sieci neuronowych na potrzeby rozumienia języka) przedstawia wzór uwagi warstwy samouczenia w przypadku zaimka to. Im ciemniejszy jest dany wiersz, tym większy wkład ma on w reprezentację:

Zdanie to pojawia się dwukrotnie: Zwierzę nie mogło przejść przez ulicę, ponieważ było zbyt zmęczone. Linie łączą zaimka „it” w jednym zdaniu z 5 tokenami (The, animal, street, it, and
          the period) w drugim zdaniu.  Granica między zaimkiem it i słowem animal jest najsilniejsza.

Warstwę samouczenia wyróżnia słowa, które są istotne dla „it”. W tym przypadku warstwa uwagi nauczyła się wyróżniać słowa, które może odnosić się do on, przypisując najwyższą wagę słowu zwierzę.

W przypadku sekwencji n tokenów transformacja samouczenia działa n razy, po jednym razie na każdą pozycję w sekwencji.

Zapoznaj się też z artykułami na temat uczenia z użyciem mechanizmu uwagiuczenia z użyciem mechanizmu samouwagi wielogłowego.

uczenie nienadzorowane

Rodzina technik służących do konwertowania problemu uczenia nadzorowanego na problem nadzorowanego uczenia maszynowego poprzez tworzenie zastępczych etykiet na podstawie nieoznaczonych przykładów.

Niektóre modele oparte na Transformerze, takie jak BERT, korzystają z samokontrolowanego uczenia się.

Trening z samokontrolą to metoda częściowo nadzorowanego uczenia się.

samokształcenie

Odmiana samokontrolowanego uczenia się, która jest szczególnie przydatna, gdy spełnione są wszystkie te warunki:

Samodzielne trenowanie polega na powtarzaniu tych 2 czynności, dopóki model przestanie się poprawiać:

  1. Użyj nadzorowanego uczenia maszynowego, aby wytrenować model na podstawie przykładów z oznacznikami.
  2. Użyj modelu utworzonego w kroku 1 do wygenerowania prognoz (etykiet) na przykładach bez etykiet, przenosząc te, które mają wysoki poziom pewności, do przykładów z etykietami z wygenerowaną etykietą.

Zwróć uwagę, że każda iteracja kroku 2 dodaje więcej przykładów z oznaczoną etykietą do wykorzystania na potrzeby treningu w kroku 1.

częściowo nadzorowane uczenie się

Trenowanie modelu na danych, w których niektóre przykłady treningowe mają etykiety, a inne nie. Jedną z technik uczenia się z częściowym nadzorem jest wywnioskowanie etykiet dla przykładów bez etykiet, a następnie trenowanie na podstawie wywnioskowanych etykiet w celu utworzenia nowego modelu. Uczenie półnadzorowane może być przydatne, jeśli etykiety są drogie w uzyskaniu, ale przykładów bez etykiet jest pod dostatkiem.

Samodzielne trenowanie to jedna z technik uczenia częściowo nadzorowanego.

atrybut wrażliwy

#fairness
Atrybut człowieka, który może wymagać szczególnej rozwagi z przyczyn prawnych, etycznych, społecznych lub osobistych.

analiza nastawienia

#language

Korzystanie z algorytmów statystycznych lub systemów uczących się do określania ogólnego nastawienia grupy (pozytywnego lub negatywnego) wobec usługi, produktu, organizacji lub tematu. Na przykład za pomocą rozumienia języka naturalnego algorytm mógłby przeprowadzić analizę nastawienia na podstawie tekstowych opinii z kursu uniwersyteckiego, aby określić, na ile ogólnie uczniom podobał się ten kurs.

model sekwencyjny

#seq

Model, którego dane wejściowe mają zależność sekwencyjną. Na przykład przewidywanie następnego filmu na podstawie sekwencji wcześniej obejrzanych filmów.

zadanie sekwencja-sekwencja

#language

Zadanie, które konwertuje sekwencję wejściową tokenów na wyjściową sekwencję tokenów. Na przykład 2 popularne rodzaje zadań sekwencyjnych to:

  • Tłumacze:
    • Przykładowa sekwencja wejściowa: „Kocham Cię”.
    • Przykładowa sekwencja danych wyjściowych: „Je t'aime”.
  • Odpowiadanie na pytania:
    • Przykładowa sekwencja danych wejściowych: „Czy potrzebuję samochodu w Nowym Jorku?”
    • Przykładowa sekwencja danych wyjściowych: „Nie. Proszę zostawić samochód w domu”.

porcja

Proces udostępniania wytrenowanego modelu w celu generowania prognoz za pomocą wywnioskowania online lub wywnioskowania offline.

shape (Tensor)

Liczba elementów w każdej płaszczyźnie tensora. Kształt jest reprezentowany jako lista liczb całkowitych. Na przykład ten dwuwymiarowy tensor ma kształt [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow używa formatu wierszowego (w stylu C) do reprezentowania kolejności wymiarów, dlatego kształt w TensorFlow to [3,4], a nie [4,3]. Innymi słowy, w przypadku dwuwymiarowego tensora TensorFlow kształt jest następujący: [liczba wierszy, liczba kolumn].

Kształt statyczny to kształt tensora, który jest znany w momencie kompilacji.

Kształt dynamiczny jest nieznany w momencie kompilacji i dlatego zależy od danych w czasie wykonywania. Ten tensor może być reprezentowany w TensorFlow za pomocą wymiaru zastępczego, np. [3, ?].

fragment

#TensorFlow
#GoogleCloud

Logiczne podziały zbioru danych treningowych lub modelu. Zwykle jakiś proces tworzy fragmenty, dzieląc przykłady lub parametry na kawałki o zwykle jednakowej wielkości. Każdy fragment jest następnie przypisywany do innej maszyny.

Dzielenie modelu nazywa się paralelizmem modelu, a dzielenie danych – paralelizmem danych.

kurczenie się

#df

Hiperparametrwzmacnianiu gradientu, który kontroluje nadmierne dopasowanie. Zmniejszenie w wzmacnianiu gradientem jest analogiczne do tempa uczenia sięspadku wzdłuż gradientu. Skurcz to wartość dziesiętna z zakresu od 0,0 do 1,0. Mniejsza wartość skurczenia zmniejsza ryzyko przetrenowania bardziej niż większa wartość skurczenia.

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „ściska” wartość wejściową w ograniczonym zakresie, zazwyczaj od 0 do 1 lub od –1 do +1. Oznacza to, że możesz przekazać dowolną liczbę (2, milion, minus miliard itd.) do funkcji sigmoidalnej, a wyjście nadal będzie należeć do ograniczonego zakresu. Wykres funkcji aktywacji sigmoidalnej wygląda tak:

Dwowymiarowa krzywa z wartościami x w zakresie od -nieskończoności do +dodatnich, a wartościami y w zakresie od prawie 0 do prawie 1. Gdy x = 0, y = 0,5. Nachylenie krzywej jest zawsze dodatnie, przy czym największe nachylenie występuje przy wartości 0,05, a nachylenie stopniowo maleje wraz ze wzrostem bezwzględnej wartości x.

Funkcja sigmoidalna ma wiele zastosowań w uczeniu maszynowym, m.in.:

miara podobieństwa

#clustering

W algorytmach zagnieżdżania jest to miara służąca do określania, na ile podobne (czyli podobne) są 2 dowolne przykłady.

pojedynczy program / wiele danych (SPMD)

Technika równoległości, w której te same obliczenia są wykonywane na różnych danych wejściowych równolegle na różnych urządzeniach. Celem SPMD jest szybsze uzyskiwanie wyników. Jest to najczęstszy styl programowania równoległego.

niezmienność rozmiaru

#image

W przypadku problemu klasyfikacji obrazów chodzi o zdolność algorytmu do prawidłowej klasyfikacji obrazów nawet wtedy, gdy zmienia się ich rozmiar. Na przykład algorytm nadal może rozpoznać kota, niezależnie od tego, czy zajmuje on 2 mln pikseli, czy 200 tys. pikseli. Pamiętaj, że nawet najlepsze algorytmy klasyfikacji obrazów mają praktyczne ograniczenia dotyczące nieczułości na zmiany rozmiaru. Na przykład algorytm (ani człowiek) nie będzie w stanie prawidłowo sklasyfikować obrazu kota, który zajmuje tylko 20 pikseli.

Zobacz też niezmienność względem przesunięcianiezmienność względem obrotu.

szkicowanie

#clustering

nienadzorowanym systemie uczącym się, czyli kategorii algorytmów, które wykonują wstępną analizę podobieństwa na przykładach. Algorytmy szkicowania używają funkcji haszującej wrażliwej na lokalizację do identyfikowania punktów, które są prawdopodobnie podobne, a następnie grupowania ich w worki.

Szkicowanie zmniejsza liczbę obliczeń wymaganych do obliczenia podobieństwa w przypadku dużych zbiorów danych. Zamiast obliczać podobieństwo dla każdej pary przykładów w zbiorze danych, obliczamy podobieństwo tylko dla każdej pary punktów w każdym zbiorze.

skip-gram

#language

n-gram, który może pomijać (czyli „przeskakiwać”) słowa z pierwotnego kontekstu, co oznacza, że słowa N niekoniecznie muszą być pierwotnie sąsiadujące. Dokładniej rzecz biorąc, „k-skok-n-gram” to n-gram, w którym może zostać pominięty maksymalnie k słów.

Na przykład wyrażenie „szybka brązowa lisica” zawiera te 2-gramy:

  • „the quick”
  • „quick brown”
  • „brown fox”

„1-skip-2-gram” to para słów, między którymi jest maksymalnie 1 słowo. Dlatego wyrażenie „szybka brązowa lisica” ma następujące 2-gramy z 1 przeskokiem:

  • „brązowy”
  • „quick fox”

Dodatkowo wszystkie dwugramy są również jednowyrazowymi dwugramami, ponieważ nie można pominąć mniej niż jednego słowa.

Skip-gramy są przydatne do zrozumienia szerszego kontekstu danego słowa. W tym przykładzie słowo „fox” było bezpośrednio powiązane ze słowem „quick” w zbiorze 1-skip-2-gramów, ale nie w zbiorze 2-gramów.

Modele skip-gram pomagają trenować modele word embedding.

funkcja softmax

#fundamentals

Funkcja określająca prawdopodobieństwa dla każdej możliwej klasy w modelu klasyfikacji wieloklasowej. Prawdopodobieństwo musi łącznie wynosić dokładnie 1,0. Na przykład w tabeli poniżej widać, jak softmax rozkłada różne prawdopodobieństwa:

Obraz jest... Probability,
pies 0,85
kot 0,13
koń 0,02

Softmax jest też nazywany pełnym softmaxem.

Porównaj z próbkowaniem kandydatów.

dostosowanie promptów,

#language
#generativeAI

Technika dostosowywania dużego modelu językowego do konkretnego zadania bez korzystania z wielu zasobów w ramach dokładnego dostrajania. Zamiast ponownego trenowania wszystkich wag w modelu, dostrajanie za pomocą promptów miękkich automatycznie dostosowuje prompt, aby osiągnąć ten sam cel.

W przypadku promptu tekstowego dostosowanie promptu zwykle polega na dołączeniu do promptu dodatkowych zaszyfrowanych tokenów i użyciu odwrotnej propagacji do optymalizacji danych wejściowych.

„Twardy” prompt zawiera tokeny zamiast ich zaimplementowania.

rozproszona cecha

#language
#fundamentals

Cecha, której wartości są w większości równe 0 lub puste. Na przykład cecha zawierająca pojedynczą wartość 1 i milion wartości 0 jest rzadka. Natomiast gęsta cecha ma wartości, które w większości nie są równe 0 ani puste.

W uczeniu maszynowym zaskakująco wiele cech jest cech rzadkich. Funkcje kategorialne są zwykle rzadkie. Na przykład z 300 możliwych gatunków drzew w lesie pojedynczy przykład może zidentyfikować tylko klon. Z milionów możliwych filmów w bibliotece filmów jeden może być oznaczony jako „Casablanca”.

W modelu rzadkie cechy są zwykle reprezentowane za pomocą kodowania 1-hot. Jeśli kodowanie jednobitowe jest duże, możesz umieścić na nim warstwę zanurzeniową, aby zwiększyć wydajność.

rzadka reprezentacja

#language
#fundamentals

przechowywanie tylko pozycji elementów o wartości niezerowej w funkcji rzadkiej;

Załóżmy na przykład, że zmienna jakościowa o nazwie species identyfikuje 36 gatunków drzew w danym lesie. Załóżmy też, że każdy przykład identyfikuje tylko jeden gatunek.

W każdym przykładzie gatunek drzewa można reprezentować za pomocą wektora typu one-hot. Wektor jednoelementowy zawierałby 1 element 1 (reprezentujący dany gatunek drzewa w tym przykładzie) i 35 elementów 0 (reprezentujących 35 gatunków drzew nie w tym przykładzie). Reprezentacja jednoelementowa maple może wyglądać tak:

Wektor, w którym pozycje 0–23 mają wartość 0, pozycja 24 ma wartość 1, a pozycje 25–35 mają wartość 0.

Inną możliwością jest skąpa reprezentacja, która po prostu wskazuje pozycję danego gatunku. Jeśli maple znajduje się w pozycji 24, rzadka reprezentacja maple będzie wyglądać tak:

24

Zwróć uwagę, że rzadka reprezentacja jest znacznie bardziej zwarta niż reprezentacja jednoelementowa.

wektor rozproszony

#fundamentals

Wektor, którego wartości są w większości równe 0. Zobacz też tematy rzadkierzadkość.

rozproszenie

Liczba elementów w wektorze lub macierzy ustawionych na 0 (lub null) podzielona przez łączną liczbę elementów w tym wektorze lub macierzy. Weź pod uwagę np. macierz 100-elementową, w której 98 komórek zawiera 0. Obliczanie rzadkości przebiega w ten sposób:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Małospójna reprezentacja cech odnosi się do ubóstwa wektora cech, a małospójna reprezentacja modelu – do ubóstwa wag modelu.

agregacja przestrzenna

#image

Zobacz pooling.

podziel

#df

W drzewie decyzyjnym inna nazwa warunku.

splitter

#df

Podczas trenowania drzewa decyzji rutyna (i algorytm) odpowiedzialna za znajdowanie najlepszej warunku w każdym węźle.

SPMD

Skrót od pojedynczy program / wiele danych.

utrata kwadratowa zawiasu

Kwadrat straty na zawiasach. Strata narożna kwadratowa penalizuje wartości odstające od normy bardziej niż zwykła strata narożna.

strata kwadratowa

#fundamentals

Synonim straty na poziomie L2.

stopniowe szkolenie

#language

Strategia trenowania modelu w kolejności oddzielnych etapów. Celem może być przyspieszenie procesu uczenia się lub poprawa jakości modelu.

Poniżej przedstawiamy ilustrację progresywnego układania:

  • Etap 1 zawiera 3 ukryte warstwy, etap 2 – 6 ukrytych warstw, a etap 3 – 12 ukrytych warstw.
  • Etap 2 rozpoczyna się od uczenia się wag na podstawie 3 ukrytych warstw z etapu 1. Etap 3 rozpoczyna się od uczenia się wag wyuczonych na 6 ukrytych warstwach w etapie 2.

3 etapy: etap 1, etap 2 i etap 3.
          Każdy etap zawiera inną liczbę warstw: etap 1 zawiera 3 warstwy, etap 2 zawiera 6 warstw, a etap 3 zawiera 12 warstw.
          3 warstwy z etapu 1 stają się pierwszymi 3 warstwami etapu 2.
          Podobnie 6 warstw z etapu 2 staje się 6 pierwszymi warstwami etapu 3.

Zobacz też przetwarzanie w sekwencji.

stan

#rl

W nagradzaniu wartości parametrów opisujące bieżącą konfigurację środowiska, których agent używa do wyboru działania.

funkcja wartości stanu-działania

#rl

Synonim funkcji Q.

statyczne

#fundamentals

coś, co jest wykonywane raz, a nie stale; Terminy statycznyoffline są synonimami. Oto najczęstsze zastosowania statycznychofflineowych danych w nauczaniu maszynowym:

  • Model statyczny (lub model offline) to model wytrenowany raz, a następnie używany przez pewien czas.
  • Trenowanie statyczne (lub trenowanie offline) to proces trenowania modelu statycznego.
  • Wnioskowanie statyczne (lub wnioskowanie offline) to proces, w którym model generuje zbiorczy zestaw prognoz naraz.

Kontrast z dynamiczną.

wnioskowanie statyczne

#fundamentals

Synonim offline inference.

stacjonarność

#fundamentals

Cecha, której wartości nie zmieniają się w przypadku co najmniej 1 wymiaru, zwykle czasu. Na przykład cecha, której wartości są mniej więcej takie same w 2021 i 2023 roku, jest stacjonarna.

W rzeczywistych warunkach bardzo niewiele cechy wykazują stacjonarność. Nawet cechy kojarzone ze stabilnością (np. poziom morza) zmieniają się z czasem.

W odróżnieniu od niestacjonarności.

kroku

Przesyłanie do przodu i wstecz jednego bloków.

Więcej informacji o przesyłaniu do przodu i do tyłu znajdziesz w sekcji backpropagation.

wielkość kroku

Synonim tempa uczenia się.

stochastyczny spadek wzdłuż gradientu (SGD),

#fundamentals

Algorytm schodziny gradientu, w którym rozmiar partii wynosi 1. Innymi słowy, SGD trenuje na podstawie pojedynczego przykładu wybranego losowo z równą częstotliwością z zbioru treningowego.

stride

#image

W operacji konwolucyjnej lub zgrupowaniu jest to delta w każdym wymiarze następnej serii kawałków danych wejściowych. Na przykład ta animacja pokazuje krok (1,1) podczas operacji konwolucyjnej. Dlatego następny plaster danych wejściowych zaczyna się o jedną pozycję w prawo od poprzedniego. Gdy operacja dotrze do prawej krawędzi, następny plaster przesunie się w lewo o jedną pozycję.

Wejście: macierz 5 x 5 i filtr convolucyjny 3 x 3. Ponieważ krok wynosi (1,1), filtr konwolucyjny zostanie zastosowany 9 razy. Pierwszy wycinek skonwolucyjny ocenia lewy górny podzbiór 3 × 3 macierzy wejściowej. Drugi wycinek ocenia górną środkową submacierz 3 x 3. Trzeci slice konwolucyjny oblicza macierz podrzędną 3 × 3 w prawym górnym rogu.  Czwarty wycinek analizuje lewośrodkową podmacierz 3 x 3.
     Piąty wycinek ocenia środkową podmacierz 3 x 3. Szósty wycinek
    sprawdza podmacierz 3 x 3 pośrodku po prawej stronie. Siódma część analizuje lewy dolny podzbiór 3 × 3.  Ósma część analizuje podmacierz 3 x 3 w środku u dołu. Dziewiąty wycinek ocenia prawy dolny róg macierzy podrzędnej 3 x 3.

Poprzedni przykład pokazuje dwuwymiarowy krok. Jeśli wejściowa matryca jest trójwymiarowa, krok będzie też trójwymiarowy.

minimalizacja ryzyka strukturalnego (SRM)

algorytm, który równoważy 2 cele:

  • potrzeba stworzenia modelu o największej trafności (np. o najmniejszym współczynniku utraty).
  • konieczność utrzymania modelu w jak największej prostocie (np. silna regularyzacja);

Na przykład funkcja, która minimalizuje stratę i regularyzację na zbiorze treningowym, jest algorytmem minimalizacji ryzyka strukturalnego.

Porównaj z empiryczną minimalizacją ryzyka.

podpróbkowanie

#image

Zobacz pooling.

token podsłowa

#language

modelach językowych token to podciąg słówka, który może być całym słowem.

Na przykład słowo „wyszczególnić” może zostać podzielone na części „wyszczególnić” (wyraz podstawowy) i „-ować” (przyrostek), z których każdy jest reprezentowany przez własny token. Dzielenie nietypowych słów na takie elementy, zwane podsłowami, pozwala modelom językowym działać na bardziej typowych częściach składowych słowa, takim jak przedrosty i przyrostki.

Z drugiej strony, częste słowa, takie jak „going”, mogą nie być dzielone i reprezentowane przez pojedynczy element.

podsumowanie

#TensorFlow

W TensorFlow wartość lub zbiór wartości obliczanych w określonym kroku, zwykle używane do śledzenia danych modelu podczas trenowania.

uczenie maszynowe nadzorowane

#fundamentals

Trenowanie modelu na podstawie cech i odpowiadających im etykiet. Uczenie nadzorowane jest podobne do uczenia się danego tematu przez analizowanie zestawu pytań i odpowiednich odpowiedzi. Po opanowaniu mapowania pytań i odpowiedzi uczeń może udzielać odpowiedzi na nowe (nigdy wcześniej niewidziane) pytania dotyczące tego samego tematu.

Porównaj z nienadzorowanym systemem uczącym się.

funkcja syntetyczna

#fundamentals

Cecha, która nie występuje w śród danych wejściowych, ale jest tworzona z jednego lub większej liczby tych danych. Metody tworzenia cech syntetycznych:

  • Grupowanie ciągłej cechy w zakresy.
  • Tworzenie przecięcia cech.
  • mnożenie (lub dzielenie) jednej wartości cechy przez inne wartości cech lub przez siebie. Jeśli np. ab to dane wejściowe, przykładami danych syntetycznych są:
    • ab
    • a2
  • Zastosuj funkcję transcendentalną do wartości cechy. Jeśli np. c to cecha wejściowa, przykładami cech syntetycznych są:
    • sin(c)
    • ln(c)

Cechy utworzone przez normalizację lub skalowanie nie są uważane za cechy syntetyczne.

T

T5

#language

Model uczenia się przez przenoszenie tekst-tekst wprowadzony przez Google AI w 2020 roku. T5 to model enkodera-dekodera oparty na architekturze Transformer, wytrenowany na bardzo dużym zbiorze danych. Jest ona skuteczna w rozwiązywaniu różnych zadań związanych z przetwarzaniem języka naturalnego, takich jak generowanie tekstu, tłumaczenie języków i odpowiadanie na pytania w formie konwersacji.

Nazwa T5 pochodzi od 5 liter w nazwie „Text-to-Text Transfer Transformer”.

T5X

#language

Platforma open source uczenia maszynowego, która służy do tworzenia i trenownia modeli przetwarzania języka naturalnego (NLP) na dużą skalę. T5 jest implementowany w bazie kodu T5X (zbudowanej na podstawie JAXFlax).

tablicowy algorytm Q-learning

#rl

W uczeniu ze wzmocnieniem można zastosować naukę Q, korzystając z tabeli do przechowywania funkcji Q dla każdej kombinacji stanudziałania.

cel

Synonim etykiety.

sieć docelowa

#rl

uczeniu głębokim Q-learning jest to sieć neuronowa, która jest stabilną przybliżeniem głównej sieci neuronowej, gdzie główna sieć neuronowa implementuje albo funkcję Q, albo zasady. Następnie możesz trenować główną sieć na podstawie wartości Q przewidywanych przez sieć docelową. Dzięki temu zapobiegasz pętli sprzężenia zwrotnego, która występuje, gdy główna sieć uczy się na podstawie wartości Q, które sama przewiduje. Dzięki temu zwiększysz stabilność treningu.

działanie

Problem, który można rozwiązać za pomocą technik uczenia maszynowego, takich jak:

temperatura

#language
#image
#generativeAI

parametr nadrzędny, który kontroluje stopień losowości danych wyjściowych modelu. Wyższe temperatury powodują bardziej losowe wyniki, a niższe – mniej losowe.

Wybór najlepszej temperatury zależy od konkretnego zastosowania i preferowanych właściwości wyników modelu. Na przykład prawdopodobnie podniesiesz temperaturę, gdy tworzysz aplikację, która generuje kreacje. Z kolei, aby zwiększyć dokładność i spójność modelu, który klasyfikuje obrazy lub tekst, prawdopodobnie obniżysz temperaturę.

Temperatura jest często używana z softmax.

dane czasowe

dane zarejestrowane w różnych momentach, Na przykład dane o sprzedaży płaszczy zimowych zarejestrowane w poszczególnych dniach roku byłyby danymi czasowymi.

Tensor

#TensorFlow

Podstawowa struktura danych w programach TensorFlow. Tensory to struktury danych o wymiarach N (gdzie N może być bardzo dużych), najczęściej skalary, wektory lub macierze. Elementy tensora mogą zawierać wartości całkowite, zmiennoprzecinkowe lub ciągi znaków.

TensorBoard

#TensorFlow

Panel, który wyświetla podsumowania zapisane podczas wykonywania co najmniej jednego programu TensorFlow.

TensorFlow

#TensorFlow

Rozproszona platforma systemów uczących się na dużą skalę. Termin ten odnosi się też do podstawowej warstwy interfejsu API w zestawie TensorFlow, która obsługuje ogólne obliczenia na wykresach przepływu danych.

Chociaż TensorFlow jest używany głównie do uczenia maszynowego, możesz go też używać do zadań innych niż uczenie maszynowe, które wymagają obliczeń numerycznych przy użyciu diagramów przepływu danych.

TensorFlow Playground

#TensorFlow

Program, który wizualizuje wpływ różnych parametrów hiperobliczeń na trenowanie modelu (głównie sieci neuronowej). Wejdź na stronę http://playground.tensorflow.org , aby eksperymentować z TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Platforma do wdrażania wytrenowanych modeli w środowisku produkcyjnym.

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Specjalistyczny układ scalony (ASIC) optymalizujący wydajność zadań systemów uczących się. Te układy ASIC są wdrażane jako wiele układów TPU na urządzeniu TPU.

Poziom tensora

#TensorFlow

Zobacz rank (Tensor).

Kształt tensora

#TensorFlow

Liczba elementów, które zawiera Tensor w różnych wymiarach. Na przykład tensor [5, 10] ma kształt 5 w jednym wymiarze i 10 w drugim.

Rozmiar tensora

#TensorFlow

Łączna liczba elementów skalarnych, które zawiera Tensor. Na przykład:[5, 10] tensor ma rozmiar 50.

TensorStore

Biblioteka do efektywnego odczytywania i zapisywania dużych tablic wielowymiarowych.

warunek zakończenia,

#rl

W nauce ze wzmocnieniem warunki określające, kiedy kończy się etap, takie jak osiągnięcie przez agenta określonego stanu lub przekroczenie progowego poziomu liczby przejść między stanami. Na przykład w grze kółko i krzyżyk (znanej też jako kółko i krzyżyk) rozgrywka kończy się, gdy gracz zaznaczy 3 kolejne pola lub gdy zaznaczy wszystkie pola.

test

#df

W drzewie decyzyjnym inna nazwa warunku.

test strat

#fundamentals

Dane przedstawiające utratę modelu na zbiorze testowym. Podczas tworzenia modelu zwykle staramy się zminimalizować straty testowe. Dzieje się tak, ponieważ niski wskaźnik utraty w trakcie testu jest silniejszym sygnałem jakości niż niski wskaźnik utraty w trakcie treningu czy niski wskaźnik utraty w trakcie walidacji.

Duża różnica między stratą na etapie testowania a stratą na etapie trenowania lub walidacji może oznaczać, że należy zwiększyć stopień regularyzacji.

zbiór testowy

Podzbiór zbioru danych zarezerwowany na potrzeby testowania wytrenowanego modelu.

Tradycyjnie przykłady w zbiorze danych dzieli się na 3 odrębne podzbiory:

Każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie może należeć zarówno do zbioru treningowego, jak i do zbioru testowego.

Zbiór treningowy i zbiór walidacyjny są ściśle powiązane z trenowaniem modelu. Zestaw testowy jest tylko pośrednio powiązany z trenowaniem, dlatego strata na teście jest mniej stronnicza i ma wyższą jakość niż strata na treningu lub strata na walidacji.

element tekstowy

#language

Zakres indeksu tablicy powiązany z określonym podzbiorem ciągu tekstowego. Na przykład słowo good w ciągu tekstowym Pythona s="Be good now" zajmuje zakres znaków od 3 do 6.

tf.Example

#TensorFlow

standardowy bufor protokołu do opisywania danych wejściowych na potrzeby trenowania modelu systemów uczących się lub wnioskowania.

tf.keras

#TensorFlow

Implementacja Keras zintegrowana z TensorFlow.

próg (w przypadku drzew decyzyjnych),

#df

W warunku dopasowanym do osi porównywana jest wartość atrybutu. Na przykład 75 to wartość progowa w tym warunku:

grade >= 75

analiza szeregów czasowych

#clustering

Poddziedzina systemów uczących się i statystyki, która analizuje dane czasowe. Wiele typów problemów z uczenia maszynowego wymaga analizy szeregów czasowych, w tym klasyfikacji, grupowania, prognozowania i wykrywania anomalii. Możesz na przykład użyć analizy szeregów czasowych, aby prognozować przyszłe sprzedaż płaszczy zimowych według miesięcy na podstawie historycznych danych o sprzedaży.

interwał czasowy

#seq

Jedna „rozwinięta” komórka w sieci neuronowej z pamięcią rekurencyjną. Na przykład na rysunku poniżej widać 3 momenty w czasie (oznaczone indeksami t-1, t i t+1):

Trzy kroki czasowe w powtarzalnej sieci neuronowej. Dane wyjściowe pierwszego interwału czasowego stają się danymi wejściowymi drugiego interwału czasowego. Dane wyjściowe drugiego kroku czasowego stają się wejściem dla trzeciego kroku czasowego.

token

#language

modelu językowym jest to element atomowy, na podstawie którego model się uczy i wydaje prognozy. Token to zwykle jeden z tych elementów:

  • słowa – np. wyrażenie „psy lubią koty” składa się z 3 tokenów słownych: „psy”, „lubią” i „koty”.
  • znaku – na przykład wyrażenie „bike fish” składa się z 9 znaków. (pamiętaj, że spacje są liczone jako jeden token).
  • podsłowach – w których pojedyncze słowo może być pojedynczym tokenem lub wieloma tokenami. Podsłowo składa się z rdzenia, prefiksu lub sufiksu. Na przykład model językowy, który używa podsłow jako tokenów, może traktować słowo „psy” jako 2 tokeny (podstawowe słowo „pies” i przyrostek liczby mnogiej „y”). Ten sam model językowy może traktować pojedyncze słowo „wyższy” jako 2 podsłowa (podstawowe słowo „wysoki” i przyrostek „szy”).

W domenach innych niż modele językowe tokeny mogą reprezentować inne rodzaje jednostek atomowych. Na przykład w przypadku widzenia komputerowego tokenem może być podzbiór obrazu.

dokładność top-k

#language

Odsetek wystąpień „oznacznika docelowego” na pierwszych kpozycjach wygenerowanych list. Mogą to być spersonalizowane rekomendacje lub lista elementów uporządkowana według softmax.

Dokładność top-k jest też nazywana dokładnością w k-tym przypadku.

wieża

Komponent głębokiej sieci neuronowej, który jest sam w sobie głęboką siecią neuronową. W niektórych przypadkach każdy komponent odczytuje dane z niezależnego źródła danych i te komponenty pozostaną niezależne, dopóki ich dane nie zostaną połączone na ostatnim poziomie. W innych przypadkach (np. w wieży enkodera i dekodera wielu przekształcaczy) wieże są ze sobą połączone.

toksyczne

#language

stopień, w jakim treści są obraźliwe, zawierają groźby lub są nękające; Wiele modeli systemów uczących się może wykrywać i mierzyć toksyczność. Większość z nich identyfikuje toksyczność na podstawie wielu parametrów, takich jak poziom obraźliwego języka i poziom języka groźnego.

TPU

#TensorFlow
#GoogleCloud

Skrót od Tensor Processing Unit.

Układ scalony TPU

#TensorFlow
#GoogleCloud

Programowalny akcelerator do obliczeń algebraicznych liniowych z pamięcią o wysokiej przepustowości na chipie, zoptymalizowany pod kątem zadań związanych z systemami uczącymi się. Na urządzeniu TPU jest instalowanych wiele układów TPU.

Urządzenie TPU

#TensorFlow
#GoogleCloud

Płytka drukowana (PCB) z wieloma układami TPU, interfejsami sieci o dużej przepustowości i sprzętem do chłodzenia systemu.

Usługa TPU master

#TensorFlow
#GoogleCloud

Centralny proces koordynacji działający na komputerze hosta, który wysyła i odbiera dane, wyniki, programy, informacje o wydajności i stanie systemu do procesów TPU. Główny TPU zarządza też konfiguracją i wyłączaniem urządzeń TPU.

Węzeł TPU

#TensorFlow
#GoogleCloud

zasób TPU w Google Cloud o określonym typie TPU. TPU łączy się z siecią VPC z siecią VPC peer. Węzły TPU to zasoby zdefiniowane w interfejsie Cloud TPU API.

pod TPU

#TensorFlow
#GoogleCloud

Określona konfiguracja urządzeń TPU w centrum danych Google. Wszystkie urządzenia w podzie TPU są połączone ze sobą za pomocą dedykowanej sieci o wysokiej przepustowości. Pod TPU to największa konfiguracja urządzeń TPU dostępna w przypadku konkretnej wersji TPU.

Zasób TPU

#TensorFlow
#GoogleCloud

Element TPU w Google Cloud, który tworzysz, nim zarządzasz lub z niego korzystasz. Na przykład węzły TPU i typy TPU to zasoby TPU.

Wycinek TPU

#TensorFlow
#GoogleCloud

Wycinek TPU to ułamkowa część urządzeń TPU w podzie TPU. Wszystkie urządzenia w wycinku TPU są połączone ze sobą za pomocą dedykowanej sieci o wysokiej przepustowości.

Typ TPU

#TensorFlow
#GoogleCloud

Konfiguracja co najmniej 1 urządzenia TPU z określoną wersją sprzętową TPU. Typ TPU wybierasz podczas tworzenia węzła TPU w Google Cloud. Na przykład v2-8 Typ TPU to pojedyncze urządzenie TPU v2 z 8 rdzeniami. Typ v3-2048 TPU ma 256 urządzeń TPU v3 połączonych w sieć i łącznie 2048 rdzeni. Typy TPU to zasoby zdefiniowane w Cloud TPU API.

Zasób roboczy TPU

#TensorFlow
#GoogleCloud

Proces, który działa na komputerze hosta i wykonuje programy systemów uczących się na urządzeniach TPU.

szkolenie

#fundamentals

Proces określania optymalnych parametrów (wag i uprzedzeń) modelu. Podczas trenowania system odczytuje przykłady i stopniowo dostosowuje parametry. Podczas trenowania każdy przykład jest używany od kilku do miliardów razy.

strata podczas treningu

#fundamentals

Dane przedstawiające stratę modelu podczas konkretnej iteracji treningu. Załóżmy na przykład, że funkcja utraty to średnia kwadratowa błędu. Strata podczas trenowania (średni kwadratowy błąd) w 10.itracji wynosi 2,2, a w 100.itracji – 1,9.

Krzywa strat przedstawia straty podczas trenowania w zależności od liczby iteracji. Krzywa strat zawiera te wskazówki dotyczące trenowania:

  • Spadek wskazuje, że model się poprawia.
  • Wzrost oznacza, że model staje się gorszy.
  • Płaski spadek oznacza, że model osiągnął konwergencję.

Na przykład z tego nieco uproszczonego zakrzywienia strat:

  • ostry spadek podczas początkowych iteracji, który oznacza szybkie ulepszanie modelu;
  • stopniowo spłaszczający się (ale nadal skierowany w dół) spadek aż do końca trenowania, co oznacza dalsze polepszanie modelu w trochę wolniejszym tempie niż podczas początkowych iteracji;
  • Płaski spadek pod koniec trenowania, który sugeruje konwergencję.

Wykres straty trenowania w zależności od iteracji. Krzywa strat zaczyna się od stromego spadku. Nachylenie stopniowo się zmniejsza, aż osiągnie wartość zero.

Strata na etapie treningu jest ważna, ale warto też zapoznać się z generalizacją.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między wydajnością modelu podczas treningu a jego wydajnością podczas stosowania.

treningowy zestaw danych

#fundamentals

Podzbiór zbioru danych używany do trenowania modelu.

Tradycyjnie przykłady w zbiorze danych dzieli się na 3 odrębne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie może należeć zarówno do zbioru treningowego, jak i do zbioru do weryfikacji.

trajektoria

#rl

W nauce ze wzmocnieniem sekwencja tupli reprezentujących sekwencję stanów agenta, przy czym każda tupla odpowiada stanowi, działaniu, nagradzeniu i następnemu stanowi w przypadku danego przejścia między stanami.

uczenie się przez przenoszenie

Przenoszenie informacji z jednego zadania związanego z systemami uczącymi się do innego. Na przykład w nauce wielozadaniowej jeden model rozwiązuje wiele zadań, takich jak model głęboki, który ma różne węzły wyjściowe do różnych zadań. Nauka transferowa może polegać na przenoszeniu wiedzy z rozwiązania prostszego zadania do bardziej złożonego lub z zadania, w którym jest więcej danych, do zadania, w którym jest mniej danych.

Większość systemów uczenia maszynowego wykonuje pojedyncze zadanie. Uczenie się przez transfer to pierwszy krok w kierunku sztucznej inteligencji, w której pojedynczy program może wykonywać wiele zadań.

Transformator

#language

Architektura sieci neuronowej opracowana w Google, która wykorzystuje mechanizmy samouczenia do przekształcania sekwencji wejść w sekwencję wyjść bez korzystania z konwolucji ani powtarzających się sieci neuronowych. Sieć Transformer można traktować jako zestaw warstw samouczenia.

Transformator może zawierać:

Koderek przekształca sekwencję zaszyfrowanych danych w nową sekwencję o tej samej długości. Koder zawiera N identycznych warstw, z których każda zawiera 2 podwarstwy. Te 2 podwarstwy są stosowane w każdej pozycji sekwencji embeddingu wejściowego, przekształcając każdy element sekwencji w nowy embedding. Pierwszy podwarstwowy koder agreguje informacje z całości sekwencji wejściowej. Druga warstwa podrzędna kodera przekształca zagregowane informacje w embedding wyjściowy.

Dekodery przekształcają sekwencję wejść w sekwencję wyjść, która może mieć inną długość. Dekoder zawiera też N identycznych warstw z 3 podwarstwami, z których 2 są podobne do podwarstw kodera. Trzeci podwarstw decodera pobiera dane wyjściowe z enkodera i za pomocą mechanizmu samouczenia zbiera z nich informacje.

W poście na blogu Transformer: nowatorska architektura sieci neuronowych na potrzeby rozumienia języka znajdziesz dobre wprowadzenie do transformacji.

niezmienniczość w przełożeniu

#image

W przypadku problemu klasyfikacji obrazów chodzi o zdolność algorytmu do prawidłowej klasyfikacji obrazów nawet wtedy, gdy pozycja obiektów na obrazie ulega zmianie. Na przykład algorytm może nadal rozpoznawać psa, niezależnie od tego, czy znajduje się w środku kadru, czy po lewej stronie.

Zobacz też niezmienność rozmiaruniezmienność obrotu.

trygram

#seq
#language

N-gram, w którym N=3.

prawdziwie negatywny (PN).

#fundamentals

Przykład, w którym model prawidłowo prognozuje klasę negatywną. Na przykład model wnioskuje, że dana wiadomość e-mail nie jest spamem, i faktycznie tak jest.

prawdziwie pozytywny (TP).

#fundamentals

Przykład, w którym model prawidłowo prognozuje klasę pozytywną. Na przykład model wnioskuje, że dana wiadomość e-mail jest spamem, i faktycznie jest to spam.

współczynnik wyników prawdziwie pozytywnych (TPR).

#fundamentals

Synonim przypomnienia. Czyli:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Współczynnik wyników prawdziwie pozytywnych to oś Y na krzywej ROC.

U

brak świadomości (w przypadku atrybutu wrażliwego)

#fairness

Sytuacja, w której występują atrybuty wrażliwe, ale nie są one uwzględnione w danych treningowych. Atrybuty wrażliwe są często skorelowane z innymi atrybutami danych, dlatego model trenowany bez uwzględnienia atrybutu wrażliwego może nadal mieć nieproporcjonalny wpływ na ten atrybut lub naruszać inne ograniczenia dotyczące sprawiedliwości.

niedopasowanie

#fundamentals

wygenerowanie modelu o słabych zdolnościach prognostycznych, ponieważ nie uchwycił on w pełni złożoności danych treningowych; Niedopasowanie może być spowodowane wieloma problemami, w tym:

niedobór próbek

Usuwanie przykładów z klasy większości w zbiorze danych z nierównowagą klas w celu utworzenia bardziej zrównoważonego zbioru danych treningowych.

Rozważmy na przykład zbiór danych, w którym stosunek klasy większości do klasy mniejszości wynosi 20:1. Aby wyeliminować tę nierównowagę, możesz utworzyć zbiór treningowy zawierający wszystkie przykłady z klasy mniejszości, ale tylko 10% przykładów z klasy większości, co da stosunek 2:1. Dzięki niedobórkowi próbek ten bardziej zrównoważony zbiór danych treningowych może wygenerować lepszy model. Z drugiej strony bardziej zrównoważony zbiór treningowy może zawierać za mało przykładów, aby wytrenować skuteczny model.

Porównaj z przeskalowaniem.

jednokierunkowy

#language

System, który ocenia tylko tekst poprzedzający docelowy fragment tekstu. System dwukierunkowy analizuje zarówno tekst poprzedzający, jak i następujący wybrany fragment tekstu. Więcej informacji znajdziesz w sekcji dwukierunkowa.

jednokierunkowy model językowy

#language

Model językowy, który określa prawdopodobieństwa tylko na podstawie tokenów pojawiających się przed, a nie po tokenach docelowych. W przeciwieństwie do dwukierunkowej modelu językowego.

przykład bez etykiety

#fundamentals

Przykład, który zawiera funkcje, ale nie ma etykiety. Na przykład w tabeli poniżej znajdują się 3 beznazwane przykłady z modelu wyceny domu, z których każdy zawiera 3 cechy, ale nie ma wartości domu:

Liczba sypialni Liczba łazienek Wiek domu
3 2 15
2 1 72
4 2 34

nadzorowanym uczeniu maszynowym modele są trenowane na przykładach z oznacznikami i wydają prognozy na podstawie przykładów bez oznaczeń.

uczeniu częściowo nadzorowanymnienadzorowanym podczas trenowania używa się przykładów bez etykiet.

Porównaj przykład bez etykiety z przykładem z etykietą.

uczenie maszynowe bez nadzoru

#clustering
#fundamentals

Trenowanie modelu w celu znajdowania wzorców w zbiorze danych, zwykle zbiorze danych bez etykiet.

Najczęstszym zastosowaniem uczenia maszynowego nienadzorowanego jest zgrupowanie danych w grupy podobnych przykładów. Na przykład algorytm uczenia maszynowego bez nadzoru może grupować utwory na podstawie różnych właściwości muzyki. Uzyskane klastry mogą stać się danymi wejściowymi dla innych algorytmów uczenia maszynowego (np. dla usługi rekomendacji muzycznej). Grupowanie może być przydatne, gdy przydatnych etykiet jest niewiele lub ich brak. Na przykład w przypadku domen takich jak zapobieganie nadużyciom i oszustwo klastry mogą pomóc ludziom lepiej zrozumieć dane.

W odróżnieniu od nadzorowanego uczenia maszynowego.

modelowanie wzrostu

Technika modelowania, powszechnie stosowana w marketingu, która modeluje „efekt przyczynowy” (znany też jako „wzrost wpływu”) „interwencji” na „osobę”. Poniżej przedstawiamy dwa przykłady:

  • Lekarze mogą używać modelowania wzrostu do przewidywania zmniejszenia śmiertelności (skutek przyczynowy) procedury medycznej (leczenia) w zależności od wieku i historii medycznej pacjenta (osoby).
  • Marketerzy mogą używać modelowania wzrostu, aby przewidywać wzrost prawdopodobieństwa zakupu (skutek przyczynowy) dzięki reklamie (interwencji) skierowanej do osoby (osoby fizycznej).

Modelowanie wzrostu różni się od klasyfikacji lub regresji tym, że w modelowaniu wzrostu zawsze brakuje niektórych etykiet (np. połowy etykiet w eksperymentach binarnych). Na przykład pacjent może przejść leczenie lub nie. Możemy więc zaobserwować, czy pacjent wyzdrowieje, czy nie, tylko w jednej z tych 2 sytuacji (ale nigdy w obu). Główną zaletą modelu wzrostu jest to, że może generować prognozy dotyczące nieobserwowanej sytuacji (hipotezy przeciwstawnej) i wykorzystywać je do obliczania efektu przyczynowego.

zwiększanie wagi

Przypisanie wagi klasie zmniejszonego próbkowania równej współczynnikowi, o który zmniejszono próbkowanie.

tablica użytkowników

#recsystems

W systemach rekomendacji wektor zanurzeniowy jest generowany przez faktoryzację macierzy, która zawiera ukryte sygnały dotyczące preferencji użytkowników. Każdy wiersz macierzy użytkownika zawiera informacje o względnej sile różnych ukrytych sygnałów w przypadku pojedynczego użytkownika. Weźmy na przykład system rekomendacji filmów. W tym systemie sygnały ukryte w macierz użytkownika mogą reprezentować zainteresowanie poszczególnych użytkowników określonymi gatunkami lub mogą być trudniejsze do zinterpretowania sygnały, które obejmują złożone interakcje między wieloma czynnikami.

Macierz użytkowników zawiera kolumnę dla każdej cechy ukrytej i wiersz dla każdego użytkownika. Oznacza to, że macierz użytkowników ma taką samą liczbę wierszy jak macierz docelowa, która jest czynnikiem. Jeśli np. system rekomendacji filmów ma 1 000 000 użytkowników, matryca użytkowników będzie miała 1 000 000 wierszy.

V

walidacja

#fundamentals

Wstępna ocena jakości modelu. Podczas walidacji sprawdzana jest jakość prognoz modelu na podstawie zbioru danych do walidacji.

Zestaw weryfikacyjny różni się od zbioru treningowego, dlatego weryfikacja pomaga zapobiegać nadmiernemu dopasowaniu.

Ocena modelu na zbiorze walidacyjnym może być pierwszą rundą testowania, a ocena modelu na zestawie testowym – drugą.

utrata walidacji

#fundamentals

Dane przedstawiające stratę modelu na zbiorze testowym podczas określonej iteracji trenowania.

Zobacz też krzywą generalizacji.

zestaw weryfikacji

#fundamentals

Podzbiór zbioru danych, na którym przeprowadzana jest wstępna ocena wytrenowanego modelu. Zazwyczaj trenowany model ocenia się na zestawie walidacyjnym kilkakrotnie, zanim oceni się go na zestawie testowym.

Tradycyjnie przykłady w zbiorze danych dzieli się na 3 odrębne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie może należeć zarówno do zbioru treningowego, jak i do zbioru do weryfikacji.

przypisywanie wartości

Proces zastępowania brakującej wartości akceptowalnym zamiennikiem. Jeśli brakuje wartości, możesz odrzucić cały przykład lub użyć przypisywania wartości, aby go zachować.

Wyobraź sobie na przykład zbiór danych zawierający atrybuty temperature, które mają być rejestrowane co godzinę. Jednak odczyt temperatury był niedostępny w określonym dniu. Oto fragment zbioru danych:

Sygnatura czasowa Temperatura
1680561000 10
1680564600 12
1680568200 brak
1680571800 20
1680575400 21
1680579000 21

System może usunąć brakujące dane lub zastąpić brakujące wartości temperatury wartościami 12, 16, 18 lub 20, w zależności od algorytmu zastępczego.

problem znikającego gradientu

#seq

W przypadku niektórych głębokich sieci neuronowych gradienty na pierwszych ukrytych warstwach są zaskakująco płaskie (mają małe wartości). Coraz mniejsze gradienty powodują coraz mniejsze zmiany wag w węzłach głębokiej sieci neuronowej, co prowadzi do niewielkiego lub żadnego uczenia się. Modele, które mają problem z znikającym gradientem, stają się trudne lub niemożliwe do wytrenowania. Długa pamięć krótkotrwała rozwiązuje ten problem.

Porównaj z problemem eksplodującego gradientu.

wagi zmiennych

#df

Zestaw wyników, który wskazuje względne znaczenie poszczególnych cech dla modelu.

Rozważ na przykład drzewo decyzyjne, które szacuje ceny domów. Załóżmy, że ten schemat decyzyjny używa 3 cech: rozmiar, wiek i styl. Jeśli zestaw zmiennych ważności dla 3 cech został obliczony jako {rozmiar=5,8, wiek=2,5, styl=4,7}, to rozmiar jest ważniejszy dla drzewa decyzji niż wiek lub styl.

Istnieją różne wskaźniki znaczenia zmiennych, które mogą informować ekspertów ds. ML o różnych aspektach modeli.

autoenkoder wariancyjny (VAE)

#language

Rodzaj autoenkodera, który wykorzystuje rozbieżność między danymi wejściowymi a danymi wyjściowymi do generowania zmodyfikowanych wersji danych wejściowych. Autokodeki wariancyjne są przydatne w przypadku generatywnej AI.

VAE opiera się na wnioskowaniu wariancjalnym, czyli metodzie szacowania parametrów modelu prawdopodobieństwa.

wektor

Bardzo obciążony termin, którego znaczenie różni się w zależności od dziedziny matematyki i nauki. W uczeniu maszynowym wektor ma 2 właściwości:

  • Typ danych: wektory w uczeniu maszynowym zwykle zawierają liczby zmiennoprzecinkowe.
  • Liczba elementów: jest to długość wektora lub jego wymiar.

Weźmy na przykład wektory cech, które zawierają 8 liczb zmiennoprzecinkowych. Ten wektor cech ma długość lub wymiar równy 8. Pamiętaj, że wektory uczenia maszynowego często mają ogromną liczbę wymiarów.

W postaci wektorów można przedstawiać wiele różnych rodzajów informacji. Na przykład:

  • Każde położenie na powierzchni Ziemi może być reprezentowane jako wektor dwuwymiarowy, w którym jeden wymiar to szerokość geograficzna, a drugi – długość geograficzna.
  • Obecne ceny 500 akcji można przedstawić jako wektor 500-wymiarowy.
  • Rozkład prawdopodobieństwa dla skończonej liczby klas można przedstawić jako wektor. Na przykład system wieloklasowej klasyfikacji, który przewiduje jeden z 3 kolorów wyjściowych (czerwony, zielony lub żółty), może zwrócić wektor (0.3, 0.2, 0.5) o znaczeniu P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Wektory można łączyć, dzięki czemu różne media mogą być reprezentowane jako jeden wektor. Niektóre modele działają bezpośrednio na podstawie ciągu wielu kodowań typu one-hot.

Specjalistyczne procesory, takie jak TPU, są zoptymalizowane pod kątem wykonywania operacji matematycznych na wektorach.

Wektor to tensorrang 1.

W

Strata Wassersteina

Jedna z funkcji utraty powszechnie stosowanych w generatywnej sieci antagonistycznej, oparta na odległości Earth Mover między dystrybucją wygenerowanych danych a rzeczywistymi danymi.

waga

#fundamentals

Wartość, którą model mnoży przez inną wartość. Trenowanie to proces określania idealnych wag modelu, a wyciąganie wniosków to proces wykorzystywania tych wag do prognozowania.

Ważona metoda alternatywnych najmniejszych kwadratów (WALS)

#recsystems

Algorytm minimalizujący funkcję celu podczas faktoryzacji macierzy w systemach rekomendacji, który umożliwia obniżenie wagi przykładów, których brakuje. WALS minimalizuje ważoną średnią kwadratową różnicę między oryginalną matrycą a odtworzoną przez naprzemienny wybór sprowadzania do macierzy wierszy i kolumn. Każdą z tych optymalizacji można rozwiązać za pomocą konweksyjnej optymalizacji najmniejszych kwadratów. Więcej informacji znajdziesz w Kursie Systemy rekomendacji.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez ich wagi. Załóżmy na przykład, że odpowiednie dane wejściowe to:

wartość wejściowa waga wejściowa
2 -1,3
-1 0,6
3 0,4

Suma ważona jest więc równa:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Waga jest argumentem wejściowym funkcji aktywacji.

model szeroki

Model liniowy, który zwykle zawiera wiele rzadkich cech wejściowych. Nazywamy go „szeroki”, ponieważ jest to specjalny typ sieci neuronowej z dużą liczbą wejść, które łączą się bezpośrednio z węzłem wyjściowym. Modele szerokie często łatwiej debugować i sprawdzać niż modele głębokie. Chociaż modele szerokie nie mogą wyrażać nieliniowości za pomocą ukrytych warstw, mogą używać przekształceń takich jak krzyżowanie cech i bucketyzacja, aby modelować nieliniowości na różne sposoby.

Porównaj z modelem głębokiego uczenia.

szerokość

Liczba neuronów w określonej warstwie sieci neuronowej.

mądrość tłumu

#df

Według tej teorii uśrednianie opinii lub szacunków dużej grupy osób („grupy”) często przynosi zaskakująco dobre wyniki. Załóżmy na przykład, że w grze uczestnicy mają odgadnąć liczbę cukierków w dużym słoiku. Chociaż większość indywidualnych przewidywań będzie niedokładna, średnia wszystkich przewidywań okazała się zaskakująco zbliżona do rzeczywistej liczby żelek w słoiku.

Zestawy to oprogramowanie, które wykorzystuje mądrość tłumu. Nawet jeśli poszczególne modele generują bardzo niedokładne prognozy, uśrednianie prognoz wielu modeli często daje zaskakująco dobre wyniki. Na przykład drzewo decyzyjne może generować słabe prognozy, ale las decyzyjny często generuje bardzo dobre prognozy.

wektor dystrybucyjny słowa

#language

Reprezentowanie każdego słowa w zbiorze słów za pomocą wektora zanurzeniowego, czyli reprezentowanie każdego słowa za pomocą wektora wartości zmiennoprzecinkowych z zakresu od 0,0 do 1,0. Wyrazy o podobnym znaczeniu mają bardziej podobne reprezentacje niż wyrazy o różnym znaczeniu. Na przykład marchew, selerogórek miałyby podobne reprezentacje, które różniłyby się od reprezentacji samolotu, okularówpasty do zębów.

X

XLA (przyspieszona algebra liniowa)

Kompilator uczenia maszynowego open source dla procesorów GPU, CPU i akceleratorów ML.

Kompilator XLA pobiera modele z popularnych platform ML, takich jak PyTorch, TensorFlowJAX, i optymalizuje je pod kątem wydajnego działania na różnych platformach sprzętowych, w tym na GPU, CPU i przyspieszaczach.

Z

uczenie się „zero-shot”

Typ treningu systemów uczących się, w którym model wyprowadza prognozę dla zadania, do którego nie został wcześniej specjalnie trenowany. Inaczej mówiąc, model otrzymuje 0 przykładów do trenowania, ale jest proszony o wyciąganie wniosków dotyczących tego zadania.

prompty „zero-shot”

#language
#generativeAI

prompt, który nie podaje przykładu tego, jak chcesz, aby duży model językowy odpowiadał. Na przykład:

Części jednego promptu Uwagi
Jaka jest oficjalna waluta w wybranym kraju? Pytanie, na które chcesz uzyskać odpowiedź od modelu LLM.
Indie: rzeczywiste zapytanie,

Duży model językowy może odpowiedzieć:

  • Rupia
  • INR
  • Rupia indyjska
  • Rupia
  • rupia indyjska,

Wszystkie odpowiedzi są prawidłowe, ale możesz preferować określony format.

Porównaj promptowanie bez przykładów z tymi pojęciami:

Standaryzacja Z

#fundamentals

Technika skalowania, która zastępuje nieprzetworzoną wartość cechy wartością zmiennoprzecinkową reprezentującą liczbę odchyleń standardowych od średniej tej cechy. Weźmy na przykład cechę o średniej 800 i odchyleniu standardowym 100. W tabeli poniżej pokazano, jak normalizacja wartości Z-score mapuje wartość pierwotną na wartość Z-score:

Wartość nieprzetworzona Standaryzacja Z
800 0
950 +1,5
575 -2,25

Model uczenia maszynowego jest następnie trenowany na podstawie wartości Z-score tej cechy zamiast wartości surowych.