Zusammenfassung

In diesem Kurs wurden viele gängige Datenfallen besprochen, von der Qualität des Datasets über Visualisierung und statistische Analyse.

ML-Anwender sollten sich die folgenden Fragen stellen:

  • Wie gut kann ich die Eigenschaften meiner Datasets unter welchen Bedingungen diese Daten erhoben wurden?
  • Welche Qualitäts- oder Verzerrungsprobleme bestehen in meinen Daten? Störfaktoren vorhanden?
  • Welche potenziellen nachgelagerten Probleme könnten sich aus der Verwendung dieser speziellen Datasets?
  • Wenn Sie ein Modell trainieren, das Vorhersagen oder Klassifizierungen trifft: das Dataset, mit dem das Modell trainiert wird, alle relevanten Variablen enthält?

Unabhängig von ihren Erkenntnissen sollten ML-Anwender sich selbst auf Bestätigungsverzerrung und vergleichen sie Intuition und gesunden Menschenverstand einsetzen und Datenkonflikte untersuchen mit diesen Tools.

Weitere Informationen

Kairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. New York: W.W. Norton, 2019.

Huff, Darrell. So lügen Sie mit Statistiken. NY: W.W. Norton, 1954.

Monmonier, Mark How to Lie with Maps (in englischer Sprache), 3. Ed. Chicago: U of Chicago P, 2018.

Jonas, Ben: Datenfallen vermeiden. Hoboken, NJ: Wiley, 2020

Wheelan, Charles. Naked Statistics: Aus den Daten die Schreckliche rauskriegen. New York: W.W. Norton, 2013