Datenqualität und -interpretation

„Garbage In, Garbage Out.“
– Sprichwort der frühen Programmierung

Unter jedem ML-Modell, jeder Korrelation und jedem datenbasierten Richtlinienempfehlung besteht aus einem oder mehreren Rohdatensätzen. Ganz gleich, wie schön oder die Endprodukte überzeugend oder überzeugend sind, wenn die zugrunde liegenden Daten fehlerhaft, schlecht erfasst oder von geringer Qualität ist, Vorhersage, Visualisierung oder Schlussfolgerung sind ebenfalls gering. die Qualität zu verbessern. Alle, die Modelle auf der Grundlage von Datasets sollten harte Fragen zur Quelle ihrer Daten stellen.

Bei Datensammelinstrumenten kann es zu Fehlfunktionen kommen oder sie sind falsch kalibriert. Personen, die Daten erheben, können müde, schelmisch, inkonsistent oder schlecht sein geschult werden. Menschen machen Fehler und verschiedene Personen können auch einigermaßen anderer Meinung sein. über die Klassifizierung zweideutiger Signale. Folglich sind die Qualität und kann die Gültigkeit von Daten leiden und die Daten entsprechen möglicherweise nicht der Realität. Ben Jones, Autor von Vermeiden von Daten Fallstricke, nennt dies Data-Reality-Lücke, Erinnerung: „Es ist kein Verbrechen, sondern ein gemeldetes Verbrechen. Es ist nicht die Anzahl der Meteoritenschläge, entspricht dies der Anzahl der aufgezeichneten Meteoritenschläge.

Beispiele für Data-Reality-Lücke:

  • Jones zeichnet Spitzen bei Zeitmessungen in 5-Minuten-Intervallen auf und Gewichtsmessungen in Intervallen von 2,3 kg durchführen, nicht, weil solche Spitzen in der Daten sammeln, aber da menschliche Datensammler im Gegensatz zu Instrumenten die Tendenz , um ihre Zahlen auf die nächsten 0 oder 5 zu runden.1

  • 1985 arbeiteten Joe Farman, Brian Gardiner und Jonathan Shanklin für das British Antarctic Survey (BAS) stellte fest, dass ihre Messungen auf eine saisonal bedingtes Loch in der Ozonschicht auf der Südhalbkugel. Dieses widersprüchlichen Daten der NASA, die kein solches Loch aufzeichneten. NASA-Physiker Richard Stolarski untersuchte und fand, dass die Datenverarbeitungssoftware der NASA wurde angenommen, dass die Ozonwerte nie unter einen bestimmten Wert bestimmte Menge und die sehr, sehr niedrigen Ozonwerte, die erkannt wurden, wurden automatisch als unsinnige Ausreißer verworfen.2

  • Instrumente erleben eine Vielzahl von Fehlermodi, manchmal, Daten sammeln. Adam Ringler et al. eine Galerie mit Seismographie zur Verfügung stellen Messwerte, die aus Instrumentenausfällen (und den entsprechenden Fehlern) resultieren im Artikel „Why Do My Squiggles Look Funny“ von 20213 Die Aktivität in den Beispielanzeige entspricht nicht der tatsächlichen seismischen Aktivität.

Für ML-Anwender ist es wichtig, Folgendes zu verstehen:

  • Wer hat die Daten erhoben?
  • Wie und Wann wurden die Daten erhoben und unter welchen Bedingungen
  • Die Empfindlichkeit und den Zustand von Messgeräten
  • Wie Instrumentenausfälle und menschliche Fehler bei einer bestimmten Kontext
  • Menschliche Tendenzen, Zahlen zu runden und gewünschte Antworten zu liefern

Fast immer gibt es zumindest einen kleinen Unterschied zwischen Daten und auch als Ground Truth bezeichnet. Diesen Unterschied zu berücksichtigen, ist der Schlüssel zu guten Schlussfolgerungen und fundierte Entscheidungen treffen. Dazu gehört Folgendes:

  • welche Probleme mit ML gelöst werden können und sollten.
  • welche Probleme sich mit ML nicht am besten lösen lassen.
  • für welche Probleme noch nicht ausreichend hochwertige Daten vorliegen.

Fragen Sie: Was werden im engsten und wörtlichen Sinne durch die Daten kommuniziert? Was nicht vermitteln die Daten dabei?

Verschmutzte Daten

Das Dataset untersucht nicht nur die Bedingungen der Datenerhebung, Fehler und NULL- oder ungültige Werte (z. B. negative Konzentrationsmessungen) Crowdsourcing-Daten können besonders chaotisch sind. Die Arbeit mit einem Dataset von unbekannter Qualität kann zu ungenauen Ergebnissen führen.

Häufige Probleme:

  • Falsch geschriebene Zeichenfolgenwerte wie Orte, Arten oder Markennamen
  • Falsche Einheitenumrechnungen, Einheiten oder Objekttypen
  • Fehlende Werte
  • Regelmäßige falsche Klassifizierungen oder falsche Labels
  • Signifikante Ziffern von mathematischen Operationen, die die tatsächliche Empfindlichkeit eines Instruments

Die Bereinigung eines Datasets umfasst häufig Entscheidungen bezüglich NULL-Werten und fehlenden Werten (ob um sie als Null beizubehalten, sie zu entfernen oder Nullen zu ersetzen, und korrigieren Sie die eine einzige Version zu erstellen, wodurch Einheiten und Conversions korrigiert wurden. Ein fortschrittlicherer Methode besteht darin, fehlende Werte einzuschreiben. Dies wird in Dateneigenschaften im Crashkurs „Machine Learning“.

Stichproben, Survivorship-Verzerrungen und das Problem des Ersatzendpunkts

Die Statistik ermöglicht die gültige und genaue Fortschreibung der Ergebnisse eines eine reine Zufallsstichprobe an die größere Population. Die unerforschte Brüchige der Diese Annahme hat zusammen mit unausgewogenen und unvollständigen Trainingseingaben auf schwerwiegende Ausfälle vieler ML-Anwendungen, einschließlich Modellen für die Überprüfungen und die Polizeiarbeit fortsetzen. Es hat auch zu Polling-Fehlern und anderen falsche Schlussfolgerungen über demografische Gruppen. In den meisten Kontexten außerhalb KI-generierte Daten, reine Zufallsstichproben. teuer und zu schwer zu beschaffen. Verschiedene Problemumgehungen und erschwinglich Stattdessen werden Proxys verwendet, die verschiedene Quellen von bias.

Um beispielsweise die Methode der geschichteten Stichprobennahme zu verwenden, müssen Sie wissen, Prävalenz der einzelnen Stichprobenschichten in der Gesamtbevölkerung. Wenn Sie davon ausgehen, eine falsche Verbreitung finden, sind die Ergebnisse ungenau. Ebenso sind Onlineumfragen selten eine Zufallsstichprobe einer nationalen Bevölkerung, nur eine Stichprobe der Internetnutzer (oft aus mehreren Ländern), die die Umfrage sehen und bereit sind, an der Umfrage teilzunehmen. Diese Gruppe unterscheidet sich wahrscheinlich von einer echten Zufallsstichprobe. Die Fragen in den Umfragen sind eine Stichprobe möglicher Fragen. Die Antworten auf diese Fragen lauten: keine Zufallsstichprobe der Befragten tatsächliche Meinungen, sondern nur Meinungen, die die Befragten wohlhaben und die von ihren Meinungen zu erhalten.

Forscher im klinischen Gesundheitswesen stoßen auf ein ähnliches Problem, das sogenannte Surrogat Endpunktproblem. Da es viel zu lange dauert, die Wirkung eines Medikaments zu überprüfen, der Lebensdauer von Patienten, verwenden Forschende Proxy-Biomarker, von denen angenommen wird, dass sie mit der Lebensdauer zu tun haben, aber vielleicht nicht. Der Cholesterinspiegel wird als Ersatzwert verwendet Endpunkt für Herzinfarkte und durch Herz-Kreislauf-Erkrankungen verursachte Todesfälle, wenn ein Medikament senkt den Cholesterinspiegel und verringert vermutlich auch das Risiko von Herzproblemen. Diese Korrelationskette kann jedoch ungültig sein oder die Reihenfolge Kausalität kann von der Annahme abweichen, die die Forschenden annehmen. Siehe Weintraub et al.: „Die Gefahren von Ersatzendpunkten“, finden Sie weitere Beispiele und Details. Das Gleiche bei ML ist die Proxylabels

Der Mathematiker Abraham Wald hat ein bekanntes Problem bei der Stichprobenerhebung identifiziert. Überlebensverzerrung. Kriegsflugzeuge kehrten mit Einschusslöchern zurück an bestimmten Standorten und nicht an anderen. Das US-Militär wollte weitere Rüstungen zu den Flugzeugen in die Gebiete mit den meisten Einschusslöchern, aber Walds Forschungsgruppe wird empfohlen, den Panzer in Bereichen ohne Einschusslöcher anzubringen. Es schlussfolgerte, dass seine Datenstichprobe verzerrt war, weil Flugzeuge in Diese Bereiche waren so stark beschädigt, dass sie nicht mehr in die Basis zurückkehren konnten.

Umriss einer Ebene mit roten Punkten, die Einschusslöcher symbolisieren
Hypothetisches Diagramm des Schadens durch Kugeln bei einem im 2. Weltkrieg überlebenden Bomber

Hatte ein Panzer-Empfehlungsmodell nur mit Diagrammen der Rückkehr Kriegsflugzeuge, ohne Einblick in die Verzerrung der Überlebenden in den Daten, dieses Modell empfohlen hätte, die Bereiche mit mehr Einschusslöchern zu verstärken.

Selbstauswahlverzerrungen können entstehen, wenn menschliche Testpersonen freiwillig an einer Studie teilnehmen. Insassen, die motiviert sind, sich für eine Rücknahmeverhinderung anzumelden könnte beispielsweise eine Bevölkerungsgruppe darstellen, bei der die Wahrscheinlichkeit als die allgemeine Insassenpopulation. Dies würde die Ergebnisse verfälschen.4

Ein subtileres Problem bei der Stichprobenerhebung ist die Recall-Verzerrung, bei der die Formbarkeit von menschlichen Forschungsobjekten Erinnerungen. 1993 fragte Edward Giovannucci eine Altersgruppe der Frauen, von denen einige an Krebs diagnostiziert wurden, berichten von ihrer bisherigen Ernährung Gewohnheiten. Dieselben Frauen hatten vor ihrer Veröffentlichung an einer Umfrage zu Essgewohnheiten Krebsdiagnosen. Giovannucci fand heraus, dass Frauen ohne Krebs Diagnosen an ihre Ernährung erinnern, aber Frauen mit Brustkrebs berichteten von mehr Fett konsumiert als zuvor gemeldet – unbewusst eine mögliche (wenn auch falsche) Erklärung für ihren Krebs zu liefern.5

Frag Folgendes:

  • Wobei handelt es sich bei einem Dataset eigentlich um eine Stichprobenerhebung?
  • Wie viele Ebenen der Stichprobenerhebung gibt es?
  • Welche Verzerrung kann auf jeder Ebene der Stichprobenerhebung auftreten?
  • Wird die Proxy-Messung verwendet (ob Biomarker, Onlineumfrage oder Aufzählungspunkt) Loch)), die eine tatsächliche Korrelation oder Kausalität zeigt?
  • Was könnte bei der Stichprobe und Stichprobenmethode fehlen?

Modul „Fairness“ Crashkurs „Machine Learning“ behandelt Möglichkeiten, zusätzliche Quellen von Verzerrungen in demografischen Datasets.

Definitionen und Rankings

Definieren Sie Begriffe klar und präzise oder fragen Sie nach klaren und präzisen Definitionen. Dies ist erforderlich, um zu verstehen, welche Datenfunktionen in Betracht gezogen werden und was genau vorhergesagt oder beansprucht wird. Charles Wheelan zeigt in Naked Statistics „the health of US Fertigung“ als Beispiel für einen mehrdeutigen Begriff. Ob die US-amerikanische Fertigung "gesund" hängt ganz davon ab, wie der Begriff definiert ist. Greg IPS Artikel vom März 2011 in The Economist verdeutlicht diese Ambiguität. Wenn der Messwert für „Gesundheit“ ist „Fertigung Ausgabe“ 2011 wurde die Fertigungsindustrie in den USA zunehmend gesunder. Wenn die „Gesundheit“ Metrik ist definiert als „Stellenangebote in der Fertigung“, Die Fertigungsindustrie in den USA war im Rückgang.6

Rankings bestehen häufig unter ähnlichen Problemen, z. B. unklar oder unsinnig. Gewichtungen verschiedener Ranking-Komponenten, Inkonsistenz und ungültige Optionen. Malcolm Gladwell schrieb in The New Yorker: Thomas Brennan, der oberste Gericht des Obersten Gerichtshofs von Michigan, der einst eine Umfrage an hundert Anwälte baten sie, zehn juristische Fakultäten nach Qualität, einige berühmte, andere nicht. Diese Anwälte belegten die juristische Fakultät der Penn State University auf dem fünften Platz Zum Zeitpunkt der Umfrage gab es in der Penn State University jedoch kein Gesetz Schule.7 Viele bekannte Rankings enthalten eine ähnlich subjektive und Reputationswert. Fragen Sie, welche Komponenten in ein Ranking einfließen und warum diese Komponenten eine spezielle Gewichtung zugewiesen.

Kleine Zahlen und große Effekte

Wenn du eine Münze wirfst, ist es nicht überraschend, dass du 100% Kopf oder 100% Zahl bekommst, wenn du eine Münze wirfst zweimal. Es ist auch nicht verwunderlich, 25% der Kopf zu bekommen, nachdem man eine Münze viermal geworfen hat, 75% geht auf die nächsten vier Flips ein. Dies zeigt jedoch, dass enorme Zunahme (kann fälschlicherweise auf ein Sandwich zurückzuführen sein, zwischen den Sätzen von Münzwürfen oder einem anderen Störfaktor). Aber als die Zahl auf 1.000 oder 2.000 ansteigen, große prozentuale Abweichung werden die erwarteten 50% verschwindend unwahrscheinlich.

Oft wird auf die Anzahl der Messungen oder Testpersonen in einer Studie verwiesen. in als N. Bei großen proportionalen Änderungen ist die Wahrscheinlichkeit, treten in Datasets und Stichproben mit einem niedrigen N auf.

Wenn Sie eine Analyse durchführen oder ein Dataset auf einer Datenkarte dokumentieren, geben Sie N, damit andere den Einfluss von Rauschen und Zufälligkeit berücksichtigen können.

Da die Modellqualität tendenziell mit der Anzahl von Beispielen skaliert, ist ein Dataset mit Ein niedriges N führt tendenziell zu Modellen von geringer Qualität.

Regression auf den Mittelwert

Ebenso unterliegt jede Messung, die Zufall beeinflusst, einem Effekt genannt: Regression auf den Mittelwert vornehmen. Dies beschreibt, wie die Messung nach einer besonders extremen Messung durchschnittlich weniger extrem oder näher am Mittelwert ist, aufgrund der es unwahrscheinlich ist, dass die extremen Messungen überhaupt stattgefunden haben. Die Der Effekt ist deutlicher, wenn eine besonders über- oder unterdurchschnittliche Gruppe ob diese Gruppe die größten Personen in einem Bevölkerung, die schlechtesten Athleten im Team oder diejenigen mit dem höchsten Schlaganfallrisiko. Die Kinder der größten Menschen sind im Schnitt wahrscheinlich kürzer als ihre Eltern, werden die schlechtesten Athleten nach einer außergewöhnlichen Schlechte Saison. Diejenigen mit dem höchsten Schlaganfallrisiko haben wahrscheinlich ein geringeres Risiko. jeder Intervention oder Behandlung erfolgen, nicht aufgrund von kausativen Faktoren, aufgrund der Eigenschaften und Wahrscheinlichkeiten der Zufälligkeit.

Eine Abmilderung der Auswirkungen der Regression auf den Mittelwert bei der Untersuchung Maßnahmen oder Behandlungen für eine über- oder unterdurchschnittliche Gruppe die Testpersonen in eine Studien- und eine Kontrollgruppe aufteilen, kausalen Auswirkungen. Im Zusammenhang mit ML deutet dieses Phänomen darauf hin, dass zusätzliche Kosten Aufmerksamkeit auf jedes Modell richten, das außergewöhnliche Werte oder Ausreißerwerte vorhersagt, zum Beispiel:

  • extremen Wetter oder Temperaturen
  • die besten Geschäfte oder Sportler
  • beliebtesten Videos auf einer Website

Wenn die laufenden Vorhersagen eines Modells außergewöhnliche Werte im Laufe der Zeit nicht mit der Realität übereinstimmen, wie etwa die Vorhersage, Shop oder Video bleiben auch weiterhin erfolgreich, nicht, fragen Sie:

  • Könnte die Regression zum Mittelwert das Problem sein?
  • Sind die Merkmale mit der höchsten Gewichtung in der Tat eher prädiktiver? als Elemente mit geringerer Gewichtung?
  • Ist das Erheben von Daten mit dem Grundwert für diese Funktionen, oft null (also eine Kontrollgruppe) die Vorhersagen des Modells ändern?

Verweise

Huff, Darrell. So lügen Sie mit Statistiken. NY: W.W. Norton, 1954.

Jonas, Ben: Datenfallen vermeiden. Hoboken, NJ: Wiley, 2020

O'Connor, Cailin und James Owen Weatherall. Das Zeitalter der Fehlinformationen. New Haven: Yale UP, 2019.

Ringler, Adam, David Mason, Gabi Laske und Mary Templeton. „Warum sehen meine Schnörkel lustig aus? A Gallery of Compromised Seismic Signals.“ Seismological Research Letters 92 Nr. 6 (Juli 2021): DOI: 10.1785/0220210094

Weintraub, William S., Thomas F. Lüscher und Stuart Pocock. „Die Gefahren von Ersatzendpunkten.“ European Heart Journal 36 Nr. 33 (September 2015): 2212–2218. DOI: 10.1093/eurheartj/ehv164

Wheelan, Charles. Naked Statistics: Aus den Daten die Schreckliche rauskriegen. New York: W.W. Norton, 2013

Bildreferenz

„Überlebensverzerrung“. Martin Grandjean, McGeddon und Cameron Moll 2021. CC BY-SA 4.0. Quelle


  1. Jones 25–29. 

  2. O'Connor und Weatherall 22-3. 

  3. Ringling et al.

  4. Wheelan 120 

  5. Siddhartha Mukherjee, „Verursachen Smartphones Gehirnkrebs?“ in der New York Times am 13. April 2011. Zitiert in Wheelan 122. 

  6. Wheelan 39–40. 

  7. Malcolm Gladwell, Die Reihenfolge der Dinge in The New Yorker am 14. Februar 2011. Zitiert in Wheelan 56.