Słowniczek systemów uczących się: modele graficzne

Ta strona zawiera hasła z glosariusza modeli obrazów. Aby wyświetlić wszystkie terminy w glosariuszu, kliknij tutaj.

O

rzeczywistość rozszerzona

#image

Technologia, która nakłada obraz wygenerowany komputerowo na widok użytkownika w rzeczywistości, uzyskując w ten sposób widok złożony.

autokoder

#language
#image

System, który uczy się wyodrębniać najważniejsze informacje z danych wejściowych. Autokodery to połączenie kodera i dekodera. Autokodery opierają się na tym dwuetapowym procesie:

  1. Koder mapuje dane wejściowe na (zwykle) stratny format dolnego rozmiaru (średnio).
  2. Dekoder tworzy stratną wersję pierwotnych danych wejściowych, mapując format o niższych wymiarach na oryginalny, droższy format wejściowy.

Autokodery są w pełni trenowane przez dekoder, który stara się jak najwierniej odtworzyć pierwotne dane wejściowe z formatu pośredniego kodera. Format pośredni jest mniejszy (niższy) niż format oryginalny, dlatego autokoder jest zmuszony do uczenia się, jakie informacje są niezbędne, a dane wyjściowe nie będą więc identyczne z danymi wejściowymi.

Na przykład:

  • Jeśli dane wejściowe mają postać grafiki, niedokładna kopia jest podobna do oryginalnej grafiki, ale nieco zmodyfikowana. Być może kopia niedokładna usuwa szum z oryginalnej grafiki lub wypełnia brakujące piksele.
  • Jeśli dane wejściowe mają postać tekstu, autokoder wygeneruje nowy tekst, który naśladuje (ale nie imituje) oryginalny tekst.

Zobacz też różne autokodery.

model autoregresywny

#language
#image
#generatywna AI

model, który ustala prognozę na podstawie własnych wcześniejszych prognoz. Na przykład modele językowe korzystające z autoregresji prognozują następny token na podstawie wcześniej prognozowanych tokenów. Wszystkie duże modele językowe oparte na Transformer korzystają z automatycznej regresji.

W przeciwieństwie do tego modele obrazu oparte na GAN zwykle nie są autoregresywne, ponieważ generują obraz w ramach pojedynczego przejścia do przodu, a nie iteracyjnie. Niektóre modele generowania obrazów podlegają automatycznej regresji, ponieważ generują obrazy krok po kroku.

B

ramka ograniczająca

#image

Na zdjęciu współrzędne (x, y) prostokąta wokół ciekawego obszaru, np. psa na poniższym obrazie.

Zdjęcie psa siedzącego na kanapie. Ciało psa jest otoczone zieloną ramką ograniczającą ze współrzędnymi w lewym górnym rogu (275, 1271) i w prawym dolnym rogu (2954, 2761).

C

splot

#image

Z dziedziny matematyki, mówiąc swobodnie, mieszanina dwóch funkcji. W systemach uczących się splot łączy filtr splotowy z matrycą danych wejściowych w celu trenowania wag.

W systemach uczących się termin „splot” odnosi się często do operacji splotowej lub warstwy splotowej.

Bez splotów algorytm systemów uczących się musiałby nauczyć się osobnej wagi każdej komórki w dużym tenisorze. Na przykład algorytm systemów uczących się trenowany na obrazach o rozdzielczości 2K × 2K byłby zmuszony do znalezienia 4 mln osobnych wag. Dzięki splotom algorytm systemów uczących się musi znaleźć wagi tylko każdej komórki w filtrze splotowym, co znacznie zmniejsza ilość pamięci potrzebnej do trenowania modelu. Po zastosowaniu filtra splotowego jest on po prostu replikowany w komórkach w taki sposób, że każda z nich jest mnożona przez filtr.

filtr splotowy

#image

Jeden z 2 uczestników operacji splotowej. (Drugi użytkownik to wycinek macierzy danych wejściowych). Filtr splotowy to macierz, która ma taką samą ranking jak macierz danych wejściowych, ale mniejszy kształt. Na przykład w przypadku macierzy 28 x 28 filtrem może być dowolna macierz 2D mniejsza niż macierz 28 x 28.

W trakcie manipulacji fotograficznej wszystkie komórki w filtrze splotowym mają zwykle stały wzór zer i jedynek. W systemach uczących się filtry splotowe są zwykle wypełniane liczbami losowymi, a następnie sieć trenuje idealne wartości.

warstwa splotowa

#image

Warstwa głębokiej sieci neuronowej, w której filtr splotowy przechodzi wzdłuż macierzy wejściowej. Rozważmy na przykład taki filtr splotowy 3 × 3:

macierz 3 x 3 o następujących wartościach: [[0,1,0], [1,0,1], [0,1,0]];

Animacja poniżej przedstawia warstwę splotową składającą się z 9 operacji splotowych obejmujących macierz wejściowe 5 x 5. Zwróć uwagę, że każda operacja splotowa działa na innym wycinku macierzy 3 x 3. Otrzymana macierz 3 x 3 (po prawej) składa się z wyników 9 operacji splotowych:

Animacja pokazująca 2 matryce. Pierwsza macierz to macierz 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179],
          Druga macierz to macierz 3 x 3: [[[181,303,618], [115,338,605], [169 351,560]].
          Druga macierz jest obliczana przez zastosowanie filtra splotowego [[0, 1, 0], [1, 0, 1], [0, 1, 0]] w różnych podzbiorach 3 x 3 w macierzy 5 x 5.

splotowa sieć neuronowa

#image

Sieć neuronowa, w której co najmniej 1 warstwa jest warstwą splotową. Typowa splotowa sieć neuronowa składa się z tych warstw:

Splotowe sieci neuronowe sprawdzały się przy rozwiązywaniu różnych problemów, takich jak rozpoznawanie obrazów.

operacja splotowa

#image

Oto dwuetapowe działanie matematyczne:

  1. Mnożenie filtra splotowego i wycinka macierzy danych wejściowych. (Wycinek macierzy danych wejściowych ma taką samą pozycję i rozmiar jak filtr splotowy).
  2. Suma wszystkich wartości w wynikowej macierzy iloczynów.

Weźmy na przykład taką macierz wejściową 5 x 5:

Macierz 5 x 5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [107,40]

A teraz wyobraź sobie taki filtr splotowy 2 x 2:

Macierz 2 x 2: [[1, 0], [0, 1]]

Każda operacja splotowa obejmuje pojedynczy wycinek macierzy wejściowej 2 x 2. Załóżmy na przykład, że używamy wycinka 2 x 2 w lewym górnym rogu macierzy danych wejściowych. Operacja splotu na tym wycinku wygląda więc tak:

Stosuję filtr splotowy [[1, 0], [0, 1]] do lewej górnej sekcji 2 x 2 macierzy wejściowej, czyli [[128,97], [35,22]].
          Filtr splotowy pozostawia wartości 128 i 22 bez zmian, ale wyzeruje liczby 97 i 35. W rezultacie operacja splotu otrzymuje wartość 150 (128+22).

Warstwa splotowa składa się z serii operacji splotowych, z których każda działa na innym wycinku macierzy wejściowej.

D

rozszerzanie danych

#image

Sztuczne zwiększanie zakresu i liczby przykładów trenowania przez przekształcanie istniejących przykładów w celu utworzenia dodatkowych przykładów. Załóżmy na przykład, że obrazy są jedną z funkcji, ale zbiór danych nie zawiera wystarczającej liczby przykładów obrazów, aby model mógł nauczyć się przydatnych powiązań. Najlepiej dodać do zbioru danych wystarczającą liczbę obrazów oznaczonych etykietami, aby umożliwić prawidłowe trenowanie modelu. Jeśli to niemożliwe, rozszerzanie danych może powodować obracanie, rozciąganie i odbijanie każdego obrazu w celu utworzenia wielu wariantów oryginalnego zdjęcia. Z tego powodu można uzyskać wystarczającą ilość danych oznaczonych etykietami, aby umożliwić doskonałe trenowanie.

separowana splotowa sieć neuronowa (sepCNN)

#image

Architektura splotowej sieci neuronowej oparta na technologii Inception, w której moduły Incepcji są zastępowane separatorami, które rozdzielają głęboko. Znana też jako Xception.

Możliwy dogłębny splot (skrócony również jako splot rozdzielający) umożliwia przekształcenie standardowego splotu 3D w 2 osobne operacje splotu, które są bardziej wydajne pod względem obliczeniowym: pierwszy splot głęboki, o głębokości 1 (n × n Obecnie 1), a następnie 1 x x bok o długości i szerokości – z długością i szerokością.

Więcej informacji znajdziesz w artykule Xception: deep learning with Depthwise Separable Convolutions.

Downsampling

#image

Przeciążone hasło, które może oznaczać:

  • Zmniejsz ilość informacji w cechach, aby efektywniej trenować model. Na przykład przed wytrenowaniem modelu rozpoznawania obrazów spróbkowanie obrazów w wysokiej rozdzielczości do formatu o niższej rozdzielczości.
  • Szkolenie na nieproporcjonalnie niewielkim odsetku reprezentowanych grup klas w celu ulepszenia trenowania modeli w klasach niedostatecznie reprezentowanych. Na przykład w przypadku zbioru danych o zrównoważonym klasie modele zazwyczaj dużo uczą się o klasie większości, a za mało na temat klasy mniejszości. Opcja Downsampling pozwala zrównoważyć intensywność trenowania klas większości i mniejszości.

F

dostrajanie

#language
#image
#generatywna AI

Drugie przejście trenowania dostosowane do konkretnego działania zostało wykonane na wytrenowanym modelu w celu doprecyzowania jego parametrów pod kątem określonego przypadku użycia. Na przykład pełna sekwencja trenowania w przypadku niektórych dużych modeli językowych wygląda tak:

  1. Ćwiczenie wstępne: wytrenuj duży model językowy przy użyciu ogromnego ogólnego zbioru danych, takiego jak wszystkie anglojęzyczne strony w Wikipedii.
  2. Dostrajanie: wytrenuj już wytrenowany model do wykonywania określonego zadania, na przykład odpowiadania na zapytania medyczne. Dostrajanie obejmuje zwykle setki lub tysiące przykładów związanych z konkretnym zadaniem.

W innym przykładzie pełna sekwencja trenowania w przypadku dużego modelu obrazu wygląda tak:

  1. Wstępne trenowanie: wytrenuj duży model obrazu z wykorzystaniem ogromnego ogólnego zbioru danych obrazów, np. wszystkich obrazów w witrynie Wikimedia Commons.
  2. Dostrajanie: wytrenuj już wytrenowany model do wykonania określonego zadania, takiego jak generowanie obrazów orek.

Wprowadzenie poprawek może obejmować dowolną kombinację następujących strategii:

  • Modyfikowanie wszystkich parametrów już wytrenowanego modelu. Czasami nazywa się to pełnym dostrajaniem.
  • Modyfikowanie tylko niektórych dotychczasowych parametrów wytrenowanego modelu (zwykle warstwy znajdujące się najbliżej warstwy wyjściowej) przy zachowaniu pozostałych parametrów bez zmian (zazwyczaj warstwy najbliższe warstwy wejściowej). Zobacz dostrajanie z wykorzystaniem parametrów.
  • Dodanie większej liczby warstw, zwykle nad istniejącymi warstwami najbliżej warstwy wyjściowej.

Dostrajanie to forma nauki transferu. W związku z tym dostrajanie może wykorzystywać inną funkcję straty lub inny typ modelu niż te używane do trenowania już wytrenowanego modelu. Możesz na przykład dostroić już wytrenowany model dużego obrazu, aby uzyskać model regresji, który zwraca liczbę ptaków na obrazie wejściowym.

Porównaj dostrajanie tych terminów:

G

generatywna AI

#language
#image
#generatywna AI

Rozwijające się pole bez formalnej definicji. Mimo to większość ekspertów zgadza się, że modele generatywnej AI mogą tworzyć („generować”) treści, które:

  • złożone
  • spójny
  • oryginał

Na przykład generatywny model AI może służyć do tworzenia wyszukanych wypracowań lub obrazów.

Niektóre wcześniejsze technologie, takie jak LSTM i RNN, również mogą generować oryginalne i spójne treści. Niektórzy eksperci uważają je za generatywną sztuczną inteligencję, a inni uważają, że prawdziwa generatywna sztuczna inteligencja wymaga bardziej złożonych wyników niż te, które oferują starsze technologie.

W przeciwieństwie do systemów uczących się prognozowanych.

I

rozpoznawanie obrazów

#image

Proces, który klasyfikuje obiekty, wzorce lub koncepcje występujące na obrazie. Rozpoznawanie obrazów jest też nazywane klasyfikacją obrazów.

Więcej informacji znajdziesz w artykule ML Practicum: klasyfikacja obrazów.

przecięcie współczynnika podobieństwa (IoU)

#image

Punkt przecięcia dwóch zbiorów podzielonych przez ich sumę. W zadaniach wykrywania obrazów w systemach uczących się wartość IoU jest używana do pomiaru dokładności prognozowanej ramki ograniczającej modelu w odniesieniu do ramki ograniczającej ground-truth. W tym przypadku wartość podobieństwa dla 2 ramek to stosunek między nakładającym się obszarem a całkowitym obszarem, a jego wartości mieszczą się w zakresie od 0 (brak nakładania się przewidywanej ramki ograniczającej i ramki danych podstawowych) do 1 (przewidywana ramka ograniczająca i ramka ograniczająca danych podstawowych (ground truth) mają dokładnie takie same współrzędne).

Przykład na poniższym obrazie:

  • Przewidywana ramka ograniczająca (współrzędne określające miejsce, w którym model ma znaleźć stolik nocny, jest zaznaczona na fioletowo).
  • Ramka ograniczająca dane podstawowe (ground truth) (współrzędne określające położenie stołu nocnego na obrazie) jest zaznaczona na zielono.

Obraz Van Gogha „Sypialnia Vincenta w Arles” obejmujący 2 różne ramki ograniczające wokół nocnego stołu przy łóżku. Ramka ograniczająca dane podstawowe (ground truth) (na zielono) idealnie otacza nocną tabelę. Przewidywana ramka ograniczająca (kolor fioletowy) jest odsunięta o 50% w dół i w prawo od ramki ograniczającej dane podstawowe (ground truth). Obejmuje prawą dolną ćwiartkę nocnej tabeli, ale pomija resztę tabeli.

W tym przypadku przecięcie ramek ograniczających na potrzeby prognozowania i danych podstawowych (ground truth) (poniżej po lewej) wynosi 1, a suma ramek ograniczających na potrzeby prognozowania i danych podstawowych (ground truth) (poniżej po prawej) wynosi 7, więc IoU wynosi \(\frac{1}{7}\).

Ten sam obraz jak powyżej, ale każda ramka ograniczająca podzielona na 4 ćwiartki. Łącznie jest 7 ćwiartek, ponieważ prawa dolna i lewa górna ćwiartka przewidywanej ramki ograniczającej nakładają się na siebie. Ten pokrywający się fragment (wyróżniony na zielono) reprezentuje skrzyżowanie i ma obszar o wartości 1. Ten sam obraz jak powyżej, ale każda ramka ograniczająca podzielona na 4 ćwiartki. Łącznie jest 7 ćwiartek, ponieważ prawa dolna i lewa górna ćwiartka przewidywanej ramki ograniczającej nakładają się na siebie.
          Całe wnętrze otoczone oboma ramkami ograniczającymi (zaznaczone na zielono) reprezentuje związek i ma powierzchnię 7.

K

kluczowe punkty

#image

Współrzędne określonych obiektów na zdjęciu. Na przykład w przypadku modelu rozpoznawania obrazów, który odróżnia gatunki kwiatów, punktami kluczowymi mogą być środek każdego płatka, łodyga, prątka itd.

L

punkty orientacyjne

#image

Synonim keypoints.

P

MNIST,

#image

Zbiór danych w domenie publicznej skompilowany przez LeCun, Cortesa i Burgesa, zawierający 60 tys. obrazów,z których każdy pokazuje, jak ręcznie napisał człowiek w miejscach 0–9. Każdy obraz jest przechowywany w postaci tablicy liczb całkowitych 28 × 28, gdzie każda liczba całkowita to wartość w skali szarości z zakresu od 0 do 255 włącznie.

MNIST to kanoniczny zbiór danych dla systemów uczących się, często używany do testowania nowych metod. Więcej informacji znajdziesz w bazie danych MNIST cyfr odręcznych.

P

pulowanie

#image

Zmniejszenie matrycy (lub macierzy) utworzonej przez wcześniejszą warstwę splotową do jej mniejszej matrycy. Łączenie zwykle obejmuje analizowanie maksymalnej lub średniej wartości ze zbioru danych. Załóżmy np., że mamy taką macierz 3 x 3:

macierz 3x3 [[5,3,1], [8,2,5], [9,4,3]]);

Operacja łączenia, podobnie jak operacja splotowa, dzieli macierz na wycinki, a następnie przesuwa operację splotową według kroków. Załóżmy na przykład, że w ramach operacji łączenia tablicę splotową jest dzielona na wycinki o wymiarach 2 x 2 z krokiem 1 x 1. Jak widać na poniższym diagramie, wykonywane są 4 operacje łączenia. Wyobraź sobie, że każda operacja łączenia wybiera maksymalną wartość z 4 wycinków w tym wycinku:

Macierz danych wejściowych ma postać 3 x 3 z wartościami: [[5,3,1], [8,2,5], [9,4,3]].
          Lewa górna macierz 2 x 2 macierzy danych wejściowych to [[5,3], [8,2]], więc operacja łączenia w lewym górnym rogu generuje wartość 8 (czyli wartość maksymalną, która wynosi 5, 3, 8 i 2). Macierz podrzędna 2 x 2 w prawym górnym rogu macierzy danych wejściowych to [[3,1], [2,5]], więc operacja łączenia w prawym górnym rogu zwraca wartość 5. Podmacierz 2x2 w lewym dolnym rogu macierzy wejściowej to [[8,2], [9,4]], więc operacja łączenia w lewym dolnym rogu zwraca wartość 9. Macierz podrzędna 2 x 2 w prawym dolnym rogu macierzy danych wejściowych to [[2,5], [4,3]], więc operacja łączenia w prawym dolnym rogu zwraca wartość 5. W skrócie, operacja łączenia generuje macierz 2 x 2 [[8,5], [9,5]].

Łączenie pomaga wyegzekwować niezmienność tłumaczeniową w macierzy danych wejściowych.

Zbieranie danych na potrzeby zastosowań związanych z rozpoznawaniem obrazów jest nazywane łączeniem przestrzennym. Aplikacje ciągów czasowych określają zwykle łączenie jako tymczasowe gromadzenie danych. W mniej formalny sposób łączenie jest często nazywane podpróbkowaniem lub próbkowaniem redukcji.

wytrenowany model

#language
#image
#generatywna AI

modele lub komponenty modeli (np. wektor osadzony), które zostały już wytrenowane; Czasami przesyłasz wytrenowane wektory osadzone do sieci neuronowej. Innym razem model nie będzie korzystać z wytrenowanych wcześniej wektorów osadzonych, tylko trenuje wektory osadzone samodzielnie.

Termin wytrenowany model językowy odnosi się do dużego modelu językowego, który został wstępnie trenowany.

przedtrenowanie

#language
#image
#generatywna AI

Wstępne trenowanie modelu na dużym zbiorze danych. Niektóre wytrenowane modele to niezdarne olśniewacze i zwykle trzeba je dopracować przez dodatkowe trenowanie. Eksperci ds. systemów uczących się mogą na przykład wstępnie wytrenować duży model językowy na obszernym zbiorze danych tekstowych, takim jak wszystkie strony w języku angielskim w Wikipedii. Po wstępnym trenowaniu model wyników można doprecyzować za pomocą dowolnej z tych metod:

R

niewariancja rotacyjna

#image

W przypadku problemu z klasyfikacją obrazów algorytm potrafi z powodzeniem klasyfikować obrazy nawet wtedy, gdy zmieni się orientacja obrazu. Algorytm może np. zidentyfikować rakietę tenisową niezależnie od tego, czy jest skierowana do góry, na bokiem czy w dół. Pamiętaj, że niezmienność w rotacji nie zawsze jest pożądana. Na przykład wartość 9 nie powinna zostać sklasyfikowana jako 9.

Zobacz też niezmienność translacji i niezmienność rozmiaru.

S

niezmienność rozmiaru

#image

W przypadku problemu z klasyfikacją obrazów algorytm musi umieć klasyfikować obrazy nawet wtedy, gdy zmieni się ich rozmiar. Algorytm może np. zidentyfikować kota niezależnie od tego, czy użyje on 2 mln pikseli czy 200 tys. pikseli. Nawet najlepsze algorytmy klasyfikacji obrazów nadal mają praktyczne ograniczenia dotyczące niezmienności rozmiaru. Na przykład algorytm (lub człowiek) raczej nie sklasyfikuje poprawnie obrazu kota zajmującego tylko 20 pikseli.

Zobacz też niezmienność translacji i niezmienność rotacyjna.

pulowanie przestrzenne

#image

Zobacz pulację.

stride

#image

W operacji splotowej lub w puli delta każdego wymiaru kolejnej serii wycinków danych wejściowych. Na przykład ta animacja pokazuje krok (1,1) podczas operacji splotowej. Dlatego następny wycinek danych wejściowych rozpoczyna się 1 pozycję na prawo od poprzedniego. Gdy operacja dotrze do prawej krawędzi, następny wycinek zostanie przesunięty dokładnie w lewo, ale o jeden w dół.

Matryca wejściowej 5 x 5 i filtr splotowy 3 x 3. Ponieważ krok wynosi (1:1), filtr splotowy zostanie zastosowany 9 razy. Pierwszy wycinek splotowy ocenia lewy górny wycinek matrycy wejściowej 3 x 3. Drugi wycinek ocenia matrycę podrzędną 3 x 3 u góry i na środku. Trzeci wycinek splotowy ocenia matrycę podrzędną 3 x 3 znajdującą się w prawym górnym rogu.  Czwarty wycinek ocenia podmacierz 3 x 3 w lewym środku.
     Piąty wycinek ocenia środkową podmacierę 3 x 3. Szósty wycinek ocenia macierz podrzędną 3 x 3 w prawym środkowym rogu. Siódmy wycinek ocenia podmacierz 3 x 3 w lewym dolnym rogu.  Ósmy wycinek ocenia podmacierz 3 x 3, dolną i środkową. Dziewiąty wycinek ocenia macierz podrzędną 3 x 3 w prawym dolnym rogu.

Powyższy przykład pokazuje dwuwymiarowy krok. Jeśli macierz wejściowa jest trójwymiarowa, krok również będzie trójwymiarowy.

podpróbkowanie

#image

Zobacz pulację.

T

temperatura

#language
#image
#generatywna AI

Hiperparametr, który kontroluje stopień losowości danych wyjściowych modelu. Wyższa temperatura oznacza więcej losowego wyjścia, a niższa – mniej losowych wyników.

Wybór najlepszej temperatury zależy od konkretnej aplikacji i pożądanych właściwości danych wyjściowych modelu. Możesz na przykład podnieść temperaturę podczas tworzenia aplikacji, która generuje dane wyjściowe kreacji. I na odwrót, najprawdopodobniej obniży temperaturę podczas tworzenia modelu, który klasyfikuje obrazy lub tekst, aby zwiększyć dokładność i spójność modelu.

Temperatura jest często używana z funkcją softmax.

niezmienność translacji

#image

W przypadku problemu z klasyfikacją obrazów algorytm potrafi z powodzeniem klasyfikować obrazy nawet wtedy, gdy zmienia się pozycja obiektów na obrazie. Na przykład algorytm nadal może zidentyfikować psa, niezależnie od tego, czy znajdzie się on w środkowej części kadru, czy na jego lewym końcu.

Zobacz też niezmienność rozmiaru i niezmienność rotacji.