In diesem Kurs wurden viele gängige Datenfallen besprochen, von der Qualität des Datasets über Visualisierung und statistische Analyse.
ML-Anwender sollten sich die folgenden Fragen stellen:
- Wie gut kann ich die Eigenschaften meiner Datasets unter welchen Bedingungen diese Daten erhoben wurden?
- Welche Qualitäts- oder Verzerrungsprobleme bestehen in meinen Daten? Störfaktoren vorhanden?
- Welche potenziellen nachgelagerten Probleme könnten sich aus der Verwendung dieser speziellen Datasets?
- Wenn Sie ein Modell trainieren, das Vorhersagen oder Klassifizierungen trifft: das Dataset, mit dem das Modell trainiert wird, alle relevanten Variablen enthält?
Unabhängig von ihren Erkenntnissen sollten ML-Anwender sich selbst auf Bestätigungsverzerrung und vergleichen sie Intuition und gesunden Menschenverstand einsetzen und Datenkonflikte untersuchen mit diesen Tools.
Weitere Informationen
Kairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. New York: W.W. Norton, 2019.
Huff, Darrell. So lügen Sie mit Statistiken. NY: W.W. Norton, 1954.
Monmonier, Mark How to Lie with Maps (in englischer Sprache), 3. Ed. Chicago: U of Chicago P, 2018.
Jonas, Ben: Datenfallen vermeiden. Hoboken, NJ: Wiley, 2020
Wheelan, Charles. Naked Statistics: Aus den Daten die Schreckliche rauskriegen. New York: W.W. Norton, 2013