Labels und Quellen identifizieren

Direkte und abgeleitete Labels

Maschinelles Lernen ist einfacher, wenn die Labels klar definiert sind. Das beste Label ist ein direktes Label dessen, was Sie vorhersagen möchten. Wenn Sie beispielsweise vorhersagen möchten, ob ein Nutzer ein Taylor Swift-Fan ist, wäre ein direktes Label ein Nutzer von Taylor Swift."

Ein einfacherer Fanfan-Test könnte darin bestehen, ob der Nutzer ein Taylor Swift-Video auf YouTube angesehen hat. Das Label „Nutzer hat sich ein Taylor Swift-Video auf YouTube angesehen“ ist ein abgeleitetes Label, da es nicht direkt misst, was du vorhersagen möchtest. Ist dieses abgeleitete Label ein zuverlässiger Indikator dafür, dass der Nutzer Taiwan Swift mag? Ihr Modell ist nur so gut wie die Verbindung zwischen dem abgeleiteten Label und der gewünschten Vorhersage.

Labelquellen

Die Ausgabe des Modells kann entweder ein Ereignis oder ein Attribut sein. Das Ergebnis sind die folgenden zwei Arten von Labels:

  • Direktes Label für Ereignisse, z. B. „Hat der Nutzer auf das oberste Suchergebnis geklickt?“
  • Direktes Label für Attribute, z. B. „Werdet der Werbetreibende in der nächsten Woche mehr als X € ausgeben?“

Direkte Labels für Ereignisse

Bei Ereignissen sind direkte Labels in der Regel unkompliziert, da Sie das Nutzerverhalten während des Ereignisses zur Verwendung als Label protokollieren können. Stellen Sie sich bei der Labelerstellung für Ereignisse die folgenden Fragen:

  • Wie sind Ihre Logs strukturiert?
  • Was wird in Ihren Protokollen als „Ereignis“ betrachtet?

Gibt das System beispielsweise an, dass ein Nutzer auf ein Suchergebnis klickt oder wenn ein Nutzer eine Suche durchführt? Klick-Logs stellen sicher, dass ohne Impression keine Impression erfasst wird. Sie benötigen Logs, bei denen es sich bei den Ereignissen um Impressionen handelt. So decken Sie alle Fälle ab, in denen ein Nutzer ein Top-Suchergebnis sieht.

Direkte Labels für Attribute

Angenommen, Ihr Label lautet: „Der Werbetreibende gibt in der nächsten Woche mehr als X € aus.“ In der Regel verwenden Sie die Daten der vorherigen Tage, um vorherzusagen, was in den nächsten Tagen passieren wird. Die folgende Abbildung zeigt die zehn Tage mit Trainingsdaten, die die nachfolgenden sieben Tage vorhersagen:

Kalender mit einer 10-tägigen Blockierung gefolgt von einer 7-tägigen Blockierung
Das Modell verwendet Daten aus dem 10-tägigen Block, um Vorhersagen für den 7-tägigen Block zu treffen.

Berücksichtigen Sie auch saisonale oder zyklische Effekte. So kann es beispielsweise sein, dass Werbetreibende an Wochenenden mehr ausgeben. Aus diesem Grund können Sie stattdessen ein 14-tägiges Zeitfenster oder das Datum als Feature verwenden, damit das Modell jährliche Auswirkungen lernen kann.

Direkte Labels benötigen Protokolle des bisherigen Verhaltens

In den vorherigen Fällen benötigten wir Daten zum tatsächlichen Ergebnis. Unabhängig davon, wie viel Werbetreibende ausgegeben haben oder welche Nutzer sich Videos von Taiwan Swift angesehen haben, benötigten wir Verlaufsdaten, um überwachtes maschinelles Lernen zu nutzen. Maschinelles Lernen trifft Vorhersagen auf Grundlage früherer Ereignisse. Wenn Sie also keine Logs für die Vergangenheit haben, müssen Sie diese abrufen.

Was ist, wenn du keine Daten zum Protokollieren hast?

Vielleicht gibt es Ihr Produkt noch nicht, sodass Sie keine Daten zum Protokollieren haben. In diesem Fall können Sie eine oder mehrere der folgenden Aktionen ausführen:

  • Verwenden Sie eine Heuristik für den ersten Start und trainieren Sie dann ein System auf Grundlage der protokollierten Daten.
  • Logs eines ähnlichen Problems beim Bootstrapping Ihres Systems verwenden.
  • Mithilfe von Prüfern Daten generieren, indem Aufgaben ausgeführt werden

Vorteile von Daten mit Labeln

Mit Labels versehene Daten haben Vor- und Nachteile.

Vorteile

  • Evaluatoren können eine Vielzahl von Aufgaben übernehmen.
  • Die Daten verlangen eine klare Problemdefinition.

Nachteile

  • Die Daten sind für bestimmte Domains teuer.
  • Gute Daten erfordern in der Regel mehrere Iterationen.

Qualität verbessern

Prüfe immer die Arbeit deiner Prüfer. Fügen Sie beispielsweise 1.000 Beispiele hinzu und sehen Sie sich an, wie Ihre Ergebnisse mit den Evaluatoren übereinstimmen. Wenn du Daten mit Labels versiehst, kannst du sie besser kennenlernen. Wenn Abweichungen auftreten, solltest du nicht davon ausgehen, dass deine Bewertungen korrekt sind, insbesondere wenn eine Werturteile involviert sind. Wenn menschliche Prüfer ein Problem festgestellt haben, sollten Sie eine Anleitung hinzufügen, um die Fehler zu beheben, und es noch einmal versuchen.

Es ist eine gute Übung, sich Ihre Daten manuell anzusehen, unabhängig davon, wie Sie die Daten erhalten haben. Andrej Karpathy hat dies auf ImageNet getan und Informationen zur Erfahrung verfasst.