Datenfallen

Lernziele

In diesem Modul lernen Sie:

  • Potenzielle Probleme bei Rohdaten oder verarbeiteten Datasets untersuchen, einschließlich Probleme mit der Erhebung und Qualität.
  • Voreingenommenheiten, ungültige Inferenzen und Rationalisierungen identifizieren.
  • Häufige Probleme in der Datenanalyse, einschließlich Korrelation, Verbundenheit und Irrelevanz.
  • ein Diagramm auf häufige Probleme, Missverständnisse oder irreführende Darstellungs- und Designentscheidungen.

Motivation für maschinelles Lernen

Zwar nicht so glamourös wie Modellarchitekturen und andere nachgelagerte Modelle, Datenerkundung, Dokumentation und Vorverarbeitung sind entscheidend, mit maschinellem Lernen. ML-Anwender können in das fallen, was Nithya Sambasivan et al. angerufen Datenkaskaden in ihrem ACM-Publikation 2021 wenn sie nicht genau verstehen:

  • die Bedingungen, unter denen ihre Daten erhoben werden
  • der Qualität, Eigenschaften und Einschränkungen der Daten
  • was die Daten zeigen und was nicht

Es ist sehr teuer, Modelle mit schlechten Daten zu trainieren nur bei qualitativ minderwertigen Ausgaben feststellen, mit den Daten. Ebenso verhält es sich, wenn man die Grenzen von Daten nicht wahrnimmt, Verzerrungen bei der Datenerfassung oder die Verwechslung von Korrelationen zu vielversprechenden und unzureichenden Ergebnissen führen, Vertrauensverlust.

In diesem Kurs geht es um gängige, aber subtile Datenfallen, die ML und Daten bei der Arbeit begegnen können.