Datenlogs zusammenführen

Bei der Zusammenstellung eines Trainings-Datasets müssen Sie manchmal mehrere Datenquellen zusammenführen.

Logtypen

Sie können die folgenden Arten von Eingabedaten verwenden:

  • Transaktionslogs
  • Attributdaten
  • zusammengefasste Statistiken

In Transaktionslogs wird ein bestimmtes Ereignis aufgezeichnet. Ein Transaktionslog kann beispielsweise eine IP-Adresse, die eine Abfrage ausführt, sowie das Datum und die Uhrzeit, zu der die Abfrage erstellt wurde, aufzeichnen. Transaktionsereignisse entsprechen einem bestimmten Ereignis.

Attributdaten enthalten Snapshots von Informationen. Beispiel:

  • Demografische Merkmale der Nutzer
  • Suchverlauf zum Zeitpunkt der Suchanfrage

Attributdaten beziehen sich nicht auf ein bestimmtes Ereignis oder einen bestimmten Zeitpunkt, können jedoch nützlich für Vorhersagen sein. Bei Vorhersageaufgaben, die nicht an ein bestimmtes Ereignis gebunden sind, z. B. die Vorhersage der Nutzerabwanderung, die einen zeitlichen Bereich und nicht einen einzelnen Moment umfasst, sind Attributdaten möglicherweise der einzige Datentyp.

Attributdaten und Transaktionslogs sind miteinander verknüpft. Sie können beispielsweise einen Typ von Attributdaten erstellen, indem Sie mehrere Transaktionslogs zusammenfassen und aggregierte Statistiken erstellen. In diesem Fall können Sie sich viele Transaktionslogs ansehen, um ein einzelnes Attribut für einen Nutzer zu erstellen.

Zusammengefasste Statistiken erstellen ein Attribut aus mehreren Transaktionslogs. Beispiel:

  • Häufigkeit von Nutzeranfragen
  • durchschnittliche Klickrate für eine bestimmte Anzeige

Logquellen zusammenführen

Jeder Logtyp befindet sich in der Regel an einem anderen Standort. Wenn Sie Daten für Ihr Modell für maschinelles Lernen erfassen, müssen Sie verschiedene Quellen zusammenführen, um Ihr Dataset zu erstellen. Beispiele:

  • Verwenden Sie die ID und den Zeitstempel des Nutzers in Transaktionslogs, um die Nutzerattribute zum Zeitpunkt des Ereignisses zu ermitteln.
  • Mit dem Zeitstempel der Transaktion können Sie den Suchverlauf zum Zeitpunkt der Abfrage auswählen.

Prognosedatenquellen – Online vs. offline

Im Machine Learning Crash Course haben Sie mehr über die Onlinebereitstellung und die Offlinebereitstellung erfahren. Die Auswahl beeinflusst, wie Ihr System Daten erfasst:

  • Online: Latenz ist wichtig, deshalb muss Ihr System schnell Eingaben generieren.
  • Offline – Sie haben wahrscheinlich keine Recheneinschränkungen. Daher können Sie ähnlich komplexe Vorgänge ausführen wie die Erstellung von Trainingsdaten.

Beispielsweise müssen Attributdaten häufig von einem anderen System abgerufen werden, was Latenzprobleme verursachen kann. Ebenso können zusammengefasste Statistiken im laufenden Betrieb kostspielig sein. Wenn die Latenz ein Blocker ist, besteht die Möglichkeit, diese Statistiken vorab zu berechnen.