Was bedeutet „generativ“ im Namen „Generatives kontradiktorisches Netzwerk“? Generativ beschreibt eine Klasse von statistischen Modellen, die im Gegensatz zu diskriminierenden Modellen stehen.
Informell:
- Generative Modelle können neue Dateninstanzen generieren.
- Diskriminierende Modelle unterscheiden zwischen verschiedenen Arten von Dateninstanzen.
Ein generatives Modell könnte neue Fotos von Tieren erzeugen, die wie echte Tiere aussehen, während ein diskriminierendes Modell einen Hund von einer Katze unterscheiden kann. GANs sind nur eine Art von generativen Modellen.
Formaleren Beispiel: Mit einer Reihe von Dateninstanzen X und einer Reihe von Labels Y:
- Generative Modelle erfassen die gemeinsame Wahrscheinlichkeit p(X, Y) oder nur p(X), wenn keine Labels vorhanden sind.
- Discriminative Modelle erfassen die bedingte Wahrscheinlichkeit p(Y | X).
Ein generatives Modell umfasst die Verteilung der Daten selbst und gibt Aufschluss darüber, wie wahrscheinlich ein bestimmtes Beispiel ist. Modelle, die das nächste Wort in einer Sequenz vorhersagen, sind normalerweise generative Modelle (normalerweise viel einfacher als GANs), da sie einer Wortfolge eine Wahrscheinlichkeit zuweisen können.
Ein diskriminierendes Modell ignoriert die Frage, ob eine bestimmte Instanz wahrscheinlich ist. Es sagt Ihnen lediglich, wie wahrscheinlich es ist, dass ein Label auf die Instanz angewendet wird.
Dies ist eine sehr allgemeine Definition. Es gibt viele Arten von generativen Modellen. GANs sind nur eine Art von generativen Modellen.
Modellierungswahrscheinlichkeiten
Keines der Modelle muss eine Zahl zurückgeben, die eine Wahrscheinlichkeit darstellt. Sie können die Verteilung der Daten modellieren, indem Sie diese Verteilung imitieren.
Beispielsweise kann ein diskriminierender Klassifikator wie ein Entscheidungsbaum eine Instanz mit einem Label versehen, ohne diesem Label eine Wahrscheinlichkeit zuzuweisen. Ein solcher Klassifikator wäre weiterhin ein Modell, da die Verteilung aller vorhergesagten Labels die tatsächliche Verteilung der Labels in den Daten modellieren würde.
Ebenso kann ein generatives Modell eine Verteilung modellieren, indem überzeugende Daten erzeugt werden, die so aussehen, als würden sie aus dieser Verteilung stammen.
Generative Modelle sind schwer
Generative Modelle sind anspruchsvoller als analoge Modelle. Generative Modelle müssen mehr modelliert werden.
Mit einem generativen Modell für Bilder lassen sich Korrelationen wie Boote erfassen, die wahrscheinlich in der Nähe von Gegenständen dargestellt werden, die wie Wasser aussehen. Dies sind sehr komplizierte Distributionen.
Im Gegensatz dazu könnte ein diskriminierendes Modell den Unterschied zwischen „Segelboot“ oder „Segelboot“ und nur nach ein paar historischen Mustern erkennen. Dabei könnten viele der Korrelationen ignoriert werden, die das generative Modell anfordern muss.
Diskriminative Modelle versuchen, Grenzen im Datenbereich zu ziehen, während generative Modelle modellieren, wie Daten im gesamten Gruppenbereich platziert werden. Das folgende Diagramm zeigt beispielsweise diskriminierende und generative Modelle handschriftlicher Ziffern:
Abbildung 1: Diskriminative und generative Modelle handschriftlicher Ziffern
Das differenzierende Modell versucht, den Unterschied zwischen handgeschriebenen 0 und 1 zu erkennen, indem eine Linie im Datenbereich gezeichnet wird. Wenn sie die Linie richtig verläuft, können sie 0 von 1 unterscheiden, ohne jemals genau modellieren zu müssen, wo sich die Instanzen im Datenraum auf beiden Seiten der Linie befinden.
Im Gegensatz dazu wird bei dem generativen Modell versucht, überzeugende 1&03 zu erzeugen, indem Ziffern generiert werden, die nahe an ihren echten Pendanten im Datenbereich liegen. Sie muss die Verteilung über den gesamten Datenbereich modellieren.
GANs bieten eine effektive Möglichkeit, solche umfangreichen Modelle so zu trainieren, dass sie einer echten Verteilung ähneln. Um ihre Funktionsweise zu verstehen, müssen wir die Grundstruktur eines GAN verstehen.
Wissenstest: Generative vs. diskriminierende Modelle
- Wirf drei sechseckige Würfel.
- Multiplizieren Sie die Rolle mit einem konstanten „w“.
- Wiederholen Sie dies 100 Mal und nehmen Sie den Durchschnitt aller Ergebnisse.