Messung der überwachten Ähnlichkeit

Anstatt manuell kombinierte Featuredaten zu vergleichen, können Sie die Funktion Daten in Darstellungen wie embeddings und vergleichen dann Einbettungen. Einbettungen werden durch Training eines überwachten neuronalen Deep-Learning-Systems generiert Netzwerk (DNN) für das Feature Daten selbst. Die Einbettungen ordnen die Featuredaten einem Vektor in einer Einbettung zu Platz, der in der Regel weniger Abmessungen als die Featuredaten hat. Einbettungen sind die im Abschnitt Einbettungen im Crashkurs „Machine Learning“. Neurale Netze werden im Modul Neuronale Netze -Modul. Einbettungsvektoren für ähnliche Beispiele, z. B. YouTube-Videos auf ähnliche Themen, die von denselben Nutzern angesehen werden, landen in der Einbettung nahe beieinander Leerzeichen. Ähnlichkeitsmaß für betreute Nutzer verwendet diese „Nähe“ um die Ähnlichkeit von Paaren Beispiele.

Denken Sie daran, dass wir über überwachtes Lernen sprechen, nur um Ähnlichkeiten messen. Die Messung der Ähnlichkeit, ob manuell oder überwacht, wird dann von einen Algorithmus für unüberwachtes Clustering.

Manuelle und überwachte Messungen im Vergleich

In dieser Tabelle wird beschrieben, wann eine manuelle oder überwachte Ähnlichkeit verwendet wird Ihren Anforderungen entsprechen.

AnforderungManuellÜberwacht
Werden redundante Informationen in korrelierten Merkmalen eliminiert? Nein, Sie müssen alle Korrelationen zwischen Funktionen untersuchen. Ja, DNN entfernt redundante Informationen.
Gibt es einen Einblick in berechnete Ähnlichkeiten? Ja Nein, Einbettungen können nicht entschlüsselt werden.
Geeignet für kleine Datasets mit wenigen Features? Ja. Nein, kleine Datasets liefern nicht genügend Trainingsdaten für ein DNN.
Geeignet für große Datasets mit vielen Funktionen? Nein, redundante Informationen aus mehreren Funktionen manuell entfernen und die Kombination ist sehr schwierig. Ja, das DNN entfernt automatisch redundante Informationen und Funktionen kombiniert.

Messung der Ähnlichkeit von überwachter Kontrolle erstellen

Hier ein Überblick über die Vorgehensweise zum Erstellen eines Ähnlichkeitsmesswerts für die Betreuung:

<ph type="x-smartling-placeholder">
</ph> Geben Sie Featuredaten ein. Wählen Sie DNN: autoencoder oder Predictor aus.
      Einbettungen extrahieren. Wählen Sie die Messung aus: Punktprodukt, Kosinus oder
      Euklidischer Abstand.
Abbildung 1: Schritte zum Erstellen einer überwachten Ähnlichkeit analysieren.

Auf dieser Seite werden DNNs behandelt, Auf den folgenden Seiten werden die verbleibenden Schritte beschrieben.

DNN anhand von Trainingslabels auswählen

Reduzieren Sie Ihre Featuredaten auf wenigerdimensionale Einbettungen, indem Sie ein DNN trainieren, das verwendet dieselben Featuredaten sowohl als Eingabe als auch als Labels. Beispiel: Im Fall von Hausdaten würde das DNN die Merkmale – wie Preis, Größe und Postleitzahl, um diese Merkmale selbst vorherzusagen.

Autoencoder

DNN, das Einbettungen von Eingabedaten durch Vorhersage der Eingabedaten selbst erlernt wird als Autoencoder bezeichnet. Weil die verborgenen Ebenen eines Autoencoders kleiner sind als die Eingabe- und Ausgabeschichten, ist der Autoencoder gezwungen, komprimierte Darstellung der Eingabefeaturedaten. Sobald das DNN trainiert ist, extrahieren Sie die Einbettungen aus der kleinsten verborgenen Schicht, um die Ähnlichkeit zu berechnen.

<ph type="x-smartling-placeholder">
</ph> Eine Abbildung, die eine große Anzahl von Knoten für einen identischen
       Eingabe- und Ausgabedaten, die auf drei Knoten in der Mitte komprimiert sind.
       von fünf verborgenen Schichten.
Abbildung 2: Architektur des Autoencoders

Predictor

Ein Autoencoder ist die einfachste Wahl, um Einbettungen zu generieren. Eine Der Autoencoder ist nicht die optimale Wahl, wenn bestimmte Funktionen bei der Bestimmung von Ähnlichkeiten wichtiger ist als andere. Bei hausinternen Daten nehmen wir an, dass der Preis wichtiger ist als die Postleitzahl. Verwenden Sie in solchen Fällen nur das wichtige Merkmal als Trainingslabel für das DNN. Da dieses DNN ein bestimmtes Eingabemerkmal statt aller Eingabemerkmale vorhersagt, wird als Predictor-DNN bezeichnet. Einbettungen sollten in der Regel aus dem der letzten Einbettungsebene.

<ph type="x-smartling-placeholder">
</ph> Abbildung, die die große Anzahl von Knoten im Eingabevektor zeigt
       von drei verborgenen Schichten auf eine Ebene mit drei Knoten reduziert,
       sollten Einbettungen extrahiert werden. Die letzte Ausgabeebene ist die vorhergesagte
       Labelwert hinzu.
Abbildung 3: Predictor-Architektur

Wenn Sie eine Funktion als Label auswählen:

  • Bevorzugung numerischer Merkmale gegenüber kategorialen Features, da Verlust einfacher zu berechnen und für numerische Merkmale zu interpretieren.

  • Entfernen Sie das Element, das Sie als Label aus der Eingabe in das DNN verwenden, oder sonst nutzt das DNN diese Funktion, um die Ausgabe perfekt vorherzusagen. (Dies ist ein extremes Beispiel für Labellecks.

Abhängig von Ihrer Auswahl der Labels ist das resultierende DNN entweder ein oder einen Predictor nutzen.