In diesem Kurs haben wir uns viele häufige Datenfallen angesehen, von der Dataset-Qualität über das Denken bis hin zur Visualisierung und statistischen Analyse.
ML-Experten sollten sich Folgendes fragen:
- Wie gut kenne ich die Eigenschaften meiner Datasets und die Bedingungen, unter denen die Daten erhoben wurden?
- Welche Probleme mit der Qualität oder Verzerrungen gibt es in meinen Daten? Gibt es Störfaktoren?
- Welche potenziellen Probleme könnten durch die Verwendung dieser Datasets entstehen?
- Enthält das Dataset, mit dem das Modell trainiert wird, alle relevanten Variablen, wenn ein Modell trainiert wird, das Vorhersagen oder Klassifizierungen vornimmt?
Unabhängig von den Ergebnissen sollten ML-Experten immer auf Bestätigungsbias achten, die Ergebnisse mit ihrer Intuition und ihrem gesunden Menschenverstand vergleichen und untersuchen, wo die Daten damit in Konflikt stehen.
Weitere Informationen
Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.
Huff, Darrell. How to Lie with Statistics NY: W.W. Norton, 1954.
Monmonier, Mark. How to Lie with Maps,3. Auflage. Chicago: U of Chicago P, 2018.
Jones, Ben. Häufige Fehler bei Daten vermeiden Hoboken, NJ: Wiley, 2020.
Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013