Gute Datenanalyse

Autor: Patrick Riley

Besonderer Dank gilt: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook und Barry Rosenberg.

Verlauf

Überblick

Aus einem Haufen von Daten Wahrheit und Erkenntnisse abzuleiten, ist ein leistungsstarker, aber fehleranfälliger Job. Die besten Datenanalysten und datenorientierten Entwickler entwickeln sich einen Ruf dafür, glaubwürdige Aussagen aus Daten zu treffen. Aber was schafft sie, das ihnen Glaubwürdigkeit verleiht? Ich höre oft Adjektive wie sorgfältig und methodisch, aber was tun die sorgfältigsten und methodischsten Analysten tatsächlich?

Dies ist keine einfache Frage, insbesondere angesichts der Art von Daten, die wir bei Google regelmäßig erheben. Wir arbeiten nicht nur mit sehr großen Datasets, sondern auch sehr umfangreich. Das heißt, jede Datenzeile hat in der Regel sehr viele Attribute. Wenn Sie dies mit den zeitlichen Abfolgen von Ereignissen für einen bestimmten Nutzer kombinieren, ergeben sich sehr viele Möglichkeiten, die Daten zu betrachten. Im Gegensatz dazu ist es für die Forschenden einfach, jeden einzelnen Datenpunkt zu betrachten. Die Probleme, die wir bei unseren großen, hochdimensionalen Datasets haben, unterscheiden sich stark von denen, die wir in der Geschichte der wissenschaftlichen Arbeit bisher meist gesehen haben.

In diesem Dokument werden die Ideen und Techniken zusammengefasst, die sorgfältige, methodische Analysten bei großen, hochdimensionalen Datasets anwenden. Obwohl sich dieses Dokument auf Daten aus Logs und experimentellen Analysen konzentriert, sind viele dieser Techniken allgemein anwendbar.

Der Rest des Dokuments besteht aus drei Abschnitten, die verschiedene Aspekte der Datenanalyse behandeln:

  • Technisch: Ideen und Techniken zum Bearbeiten und Untersuchen Ihrer Daten.
  • Prozess: Empfehlungen dazu, wie Sie mit Ihren Daten umgehen, welche Fragen gestellt werden und welche Punkte geprüft werden sollten.
  • Denkweise: Mit anderen zusammenarbeiten und Erkenntnisse kommunizieren

Technologie

Schauen wir uns einige Techniken zur Untersuchung Ihrer Daten an.

Ihre Verteilungen ansehen

Die meisten Fachkräfte verwenden zusammenfassende Messwerte (z. B. Mittelwert, Medianwert, Standardabweichung usw.), um über Verteilungen zu kommunizieren. Sie sollten jedoch in der Regel viel umfangreichere Verteilungsdarstellungen untersuchen, indem Sie Histogramme, kumulative Verteilungsfunktionen (CDFs), Quantil-Quantil-Diagramme (Q-Q) usw. generieren. Mit diesen umfangreicheren Darstellungen können Sie wichtige Merkmale der Daten erkennen, z. B. multimodales Verhalten oder eine erhebliche Klasse von Ausreißern.

Ausreißer berücksichtigen

Untersuchen Sie Ausreißer sorgfältig, da sie Kanarienarten im Kohlebergwerk sein können, die auf grundlegende Probleme Ihrer Analyse hinweisen. Sie können Ausreißer aus Ihren Daten ausschließen oder in einer "ungewöhnlichen" Kategorie zusammenfassen. Sie sollten jedoch wissen, warum Daten in diese Kategorie gelangen.

Wenn Sie sich beispielsweise die Suchanfragen mit der geringsten Anzahl von Klicks ansehen, könnten Sie Klicks auf Elemente zeigen, die Sie nicht zählen. Wenn Sie sich die Suchanfragen mit der höchsten Anzahl von Klicks ansehen, finden Sie möglicherweise Klicks, die nicht gezählt werden sollten. Andererseits kann es Ausreißer geben, die Sie nie erklären können. Daher müssen Sie genau überlegen, wie viel Zeit Sie dieser Aufgabe aufwenden.

Rauschen berücksichtigen

Zufälligkeit existiert und wird uns täuschen. Manche denken: „Google hat so viele Daten, es verschwindet der Lärm.“ Das stimmt einfach nicht. Mit jeder Anzahl oder Zusammenfassung von Daten, die Sie erstellen, sollte ein entsprechender Eindruck davon enthalten, wie sicher Sie diese Schätzung sind (durch Messwerte wie Konfidenzintervalle und p-values).

Beispiele ansehen

Jedes Mal, wenn Sie neuen Analysecode erstellen, müssen Sie sich Beispiele aus den zugrunde liegenden Daten ansehen und darauf achten, wie Ihr Code diese Beispiele interpretiert. Es ist fast unmöglich, ohne diesen Schritt funktionsfähigen Code beliebiger Komplexität zu erstellen. In Ihrer Analyse werden viele Details von den zugrunde liegenden Daten abstrahiert, um nützliche Zusammenfassungen zu erstellen. Wenn Sie sich die gesamte Komplexität einzelner Beispiele ansehen, können Sie sicher sein, dass Ihre Zusammenfassung angemessen ist.

Es ist wichtig, wie Sie diese Beispiele verwenden:

  • Wenn Sie die zugrunde liegenden Daten klassifizieren möchten, sehen Sie sich Beispiele für jede Klasse an.
  • Wenn es sich um eine größere Klasse handelt, schauen Sie sich weitere Beispiele an.
  • Wenn Sie eine Zahl berechnen (z. B. die Seitenladezeit), achten Sie darauf, dass Sie sich sowohl die extremen Beispiele (z. B. die schnellsten und die langsamsten 5 %) als auch die Punkte im gesamten Messbereich ansehen.

Daten segmentieren

Beim Segmentieren werden Ihre Daten in Untergruppen aufgeteilt und die Messwerte für jede Untergruppe separat betrachtet. In der Regel schlüsseln wir Dimensionen wie Browser, Sprache, Domain, Gerätetyp usw. auf. Wenn das zugrunde liegende Phänomen wahrscheinlich in den Untergruppen unterschiedlich auftritt, müssen Sie die Daten segmentieren, um zu überprüfen, ob dies tatsächlich der Fall ist. Selbst wenn Sie nicht erwarten, dass Sie bei der Aufteilung unterschiedliche Ergebnisse erzielen, können Sie sich ein paar Slices ansehen, um interne Konsistenz zu gewährleisten. So können Sie sicher sein, dass Sie das richtige Ergebnis messen. In einigen Fällen enthält ein bestimmtes Segment fehlerhafte Daten, eine fehlerhafte Nutzerinteraktion oder ist in irgendeiner Weise grundlegend anders.

Jedes Mal, wenn Sie Daten segmentieren, um zwei Gruppen zu vergleichen (z. B. Test/Kontrollgruppe oder auch „Zeit A“ im Vergleich zu „Zeit B“), müssen Sie auf Mischungsänderungen achten. Bei einem Mix Shift ist die Datenmenge in den Segmenten für jede Gruppe unterschiedlich. Das Simpson-Pardox und andere Unklarheiten können dazu führen. Wenn die relative Datenmenge in einem Slice in Ihren beiden Gruppen gleich ist, können Sie bedenkenlos einen Vergleich anstellen.

Von praktischer Bedeutung bedenken

Bei einem großen Datenvolumen kann es verlockend sein, sich ausschließlich auf die statistische Signifikanz oder auf die Details einzelner Daten zu konzentrieren. Sie müssen sich jedoch fragen: "Ist es wichtig, auch wenn es wahr ist, dass der Wert X 0,1% höher ist als der Wert Y?" Das ist besonders wichtig, wenn Sie einen Teil der Daten nicht verstehen/kategorisieren können. Wenn Sie bestimmte User-Agent-Strings in Ihren Logs nicht verstehen können, spielt es eine große Rolle, ob sie 0,1% oder 10% der Daten darstellen.

Alternativ haben Sie mitunter nur ein geringes Datenvolumen. Viele Änderungen werden statistisch nicht signifikant erscheinen, aber das unterscheidet sich von der Behauptung, dass diese Änderungen „neutral“ sind. Sie müssen sich fragen: „Wie wahrscheinlich ist es, dass es noch eine praktisch signifikante Änderung gibt?“

Im Laufe der Zeit auf Konsistenz prüfen

Sie sollten fast immer versuchen, die Daten nach Zeiteinheiten zu gliedern, da viele Störungen in den zugrunde liegenden Daten auftreten, während sich unsere Systeme im Laufe der Zeit weiterentwickeln. Häufig verwenden wir Tage, aber auch andere Zeiteinheiten können nützlich sein. Bei der erstmaligen Einführung einer Funktion oder einer neuen Datenerfassung überprüfen Experten häufig sorgfältig, ob alles wie erwartet funktioniert. Im Laufe der Zeit können jedoch viele Ausfälle oder unerwartetes Verhalten auftreten.

Nur weil ein bestimmter Tag oder eine Reihe von Tagen ein Ausreißer ist, bedeutet dies nicht, dass Sie die entsprechenden Daten verwerfen sollten. Verwenden Sie die Daten als Hook, um einen kausalen Grund dafür zu ermitteln, warum dieser Tag oder diese Tage anders sind, bevor Sie sie verwerfen.

Wenn Sie sich die Daten im Tagesverlauf ansehen, erhalten Sie auch ein Gefühl für die Schwankungen der Daten, die schließlich zu Konfidenzintervallen oder Behauptungen von statistischer Signifikanz führen würden. Dies sollte in der Regel die strenge Berechnung des Konfidenzintervalls nicht ersetzen, aber häufig können Sie bei größeren Änderungen sehen, dass sie schon anhand der Tagesdiagramme statistisch signifikant sind.

Filter bestätigen und zählen

Nahezu jede große Datenanalyse beginnt mit dem Filtern von Daten in verschiedenen Phasen. Vielleicht möchten Sie nur Nutzer in den USA, Websuchen oder Suchanfragen mit Anzeigen berücksichtigen. In jedem Fall müssen Sie Folgendes tun:

  • Bestätigen Sie und geben Sie klar an, welche Filterung Sie durchführen.
  • Zählt die Datenmenge, die bei jedem Schritt gefiltert wird.

Häufig lässt sich Letzteres am besten ausführen, indem Sie alle Messwerte berechnen, auch für die ausgeschlossene Population. Sie können sich diese Daten ansehen, um Fragen wie „Welcher Anteil der Suchanfragen wurden durch die Spamfilterung entfernt?“ Je nachdem, warum Sie filtern, ist diese Art von Analyse möglicherweise nicht immer möglich.

Verhältnisse sollten einen eindeutigen Zähler und Nenner haben

Am interessantesten sind die Verhältnisse der zugrunde liegenden Kennzahlen. Oft sind interessante Filter oder andere Datenoptionen in den genauen Definitionen des Zählers und Nenners versteckt. Was bedeutet beispielsweise „Abfragen / Nutzer“ eigentlich?

  • Abfragen ÷ Nutzer mit einer Abfrage
  • Suchanfragen pro Nutzer, die heute Google besucht haben
  • Abfragen / Nutzer mit einem aktiven Konto (ja, ich müsste active definieren)

Wenn Sie hier sehr klar formulieren, können Sie Verwirrung für Sie und andere vermeiden.

Ein weiterer Sonderfall sind Metriken, die nur für einige Ihrer Daten berechnet werden können. "Time-to-Click" bedeutet beispielsweise in der Regel "Time-to-Click, wenn ein Klick erfolgte". Jedes Mal, wenn Sie sich einen solchen Messwert ansehen, müssen Sie die Filterung anerkennen und auf Veränderungen bei den Filtern zwischen den zu vergleichenden Gruppen achten.

Prozesse

Dieser Abschnitt enthält Empfehlungen, wie Sie mit Ihren Daten umgehen sollten, welche Fragen Sie zu Ihren Daten stellen sollten und was Sie prüfen sollten.

Separate Validierung, Beschreibung und Bewertung

Ich denke, die Datenanalyse umfasst drei zusammengehörige Phasen:

  1. Validierung1: Glaube ich, dass die Daten selbstkonsistent sind, richtig erfasst wurden und dem entsprechen, was sie meiner Meinung nach tun?
  2. Beschreibung:Wie werden diese Daten objektiv interpretiert? Beispiele: „Nutzer stellen weniger Suchanfragen mit der Klassifizierung X“, „In der Testgruppe ist die Zeit zwischen X und Y um 1% größer“ oder „Weniger Nutzer wechseln zur nächsten Ergebnisseite“.
  3. Bewertung:Sagen uns die Daten angesichts der Beschreibung, dass etwas Gutes für den Nutzer, für Google oder für die ganze Welt geschieht?

Wenn Sie diese Phasen trennen, können Sie sich leichter mit anderen einigen. Die Beschreibung sollte Aspekte enthalten, auf die sich alle in Bezug auf die Daten einigen können. Die Bewertung wird höchstwahrscheinlich viel mehr Debatten anregen. Wenn Sie die Beschreibung und die Bewertung nicht trennen, ist es viel wahrscheinlicher, dass Sie nur die Interpretation der Daten sehen, die Sie sich erhoffen. Darüber hinaus ist die Bewertung tendenziell schwieriger, denn die Festlegung des normativen Werts eines Messwerts – in der Regel durch strenge Vergleiche mit anderen Features und Messwerten – erfordert erhebliche Investitionen.

Diese Phasen verlaufen nicht linear. Wenn Sie die Daten untersuchen, können Sie zwischen den Phasen hin- und herspringen. Sie sollten jedoch jederzeit wissen, in welcher Phase Sie sich befinden.

Einrichtung des Tests und der Datenerhebung bestätigen

Bevor Sie sich die Daten ansehen, sollten Sie sich vergewissern, dass Sie den Kontext verstanden haben, in dem die Daten erhoben wurden. Wenn die Daten aus einem Test stammen, sehen Sie sich die Konfiguration des Tests an. Wenn sie von einer neuen Clientinstrumentierung stammen, sollten Sie zumindest ein grobes Verständnis davon haben, wie die Daten erfasst werden. Unter Umständen stoßen Sie auf ungewöhnliche bzw. fehlerhafte Konfigurationen oder Einschränkungen im Hinblick auf die Bevölkerungszahl (z. B. nur gültige Daten für Chrome). Alles Wichtige hier kann Ihnen helfen, Theorien später zu erstellen und zu überprüfen. Beachten Sie Folgendes:

  • Wenn der Test läuft, probieren Sie es selbst aus. Falls nicht, sehen Sie sich am besten Screenshots/Beschreibungen des Verhaltens an.
  • Überprüfen Sie, ob für den Zeitraum, in dem der Test ausgeführt wurde, etwas Ungewöhnliches vorgefallen ist (Feiertage, große Markteinführungen usw.).
  • Ermitteln, welche Nutzergruppen für den Test verwendet wurden

Was sich nicht ändern sollte

Bevor Sie in der Phase „Validierung“ die für Sie interessante Frage beantworten (z. B. „Hat das Hinzufügen eines Bildes zu einem Gesicht mehr oder weniger Klicks?“), sollten Sie andere Schwankungen bei den Daten ausschließen, die sich auf den Test auswirken könnten. Beispiel:

  • Hat sich die Anzahl der Nutzenden geändert?
  • Wurde in allen meinen Untergruppen die richtige Anzahl betroffener Abfragen angezeigt?
  • Haben sich die Fehlerquoten verändert?

Diese Fragen sind sowohl für Experimente-/Kontrollvergleiche als auch für die Untersuchung von Trends im Zeitverlauf sinnvoll.

Erst „Standard“, dann „Benutzerdefiniert“

Wenn Sie sich neue Funktionen und neue Daten ansehen, ist es besonders verlockend, direkt mit den Messwerten zu beginnen, die für dieses neue Feature neu oder speziell sind. Sie sollten sich jedoch immer zuerst die Standardmesswerte ansehen, auch wenn Sie davon ausgehen, dass sie sich ändern. Wenn Sie der Seite beispielsweise einen neuen universellen Block hinzufügen, sollten Sie die Auswirkungen auf Standardmesswerte wie „Klicks auf Webergebnisse“ verstehen, bevor Sie sich die benutzerdefinierten Messwerte für dieses neue Ergebnis ansehen.

Standardmesswerte sind viel besser validiert und Fehlerwahrscheinlicher als benutzerdefinierte Messwerte. Wenn Ihre benutzerdefinierten Messwerte mit den Standardmesswerten nicht sinnvoll sind, sind sie wahrscheinlich falsch.

Zweimal oder öfter messen

Besonders wenn Sie versuchen, ein neues Phänomen festzuhalten, sollten Sie versuchen, dasselbe zugrunde liegende Ding auf mehrere Arten zu messen. Bestimmen Sie dann, ob diese Messungen konsistent sind. Durch die Verwendung mehrerer Messungen können Sie Fehler im Mess- oder Logging-Code, unerwartete Funktionen der zugrunde liegenden Daten oder wichtige Filterschritte identifizieren. Noch besser ist es, wenn Sie verschiedene Datenquellen für die Messungen nutzen können.

Auf Reproduzierbarkeit prüfen

Sowohl die Segmentierung als auch die Konsistenz im Zeitverlauf sind Beispiele für die Prüfung auf Reproduzierbarkeit. Wenn ein Phänomen wichtig und aussagekräftig ist, sollten Sie es über verschiedene Nutzergruppen und Zeiträume hinweg sehen. Die Verifizierung der Reproduzierbarkeit bedeutet jedoch mehr als das Durchführen dieser beiden Prüfungen. Wenn Sie Modelle für die Daten erstellen, sollten diese auch bei kleinen Störungen in den zugrunde liegenden Daten stabil sein. Die Verwendung verschiedener Zeiträume oder zufälliger Teilproben Ihrer Daten zeigt Ihnen auch, wie zuverlässig/reproduzierbar dieses Modell ist.

Wenn ein Modell nicht reproduzierbar ist, erfassen Sie wahrscheinlich nichts grundlegendes über den zugrunde liegenden Prozess, der die Daten erzeugt hat.

Auf Konsistenz mit früheren Messungen prüfen

Sie berechnen oft einen Messwert, der in der Vergangenheit gezählten ähnelt. Sie sollten Ihre Messwerte mit in der Vergangenheit erfassten Messwerten vergleichen, auch wenn diese Messungen für unterschiedliche Nutzergruppen gelten.

Wenn Sie beispielsweise den Abfragetraffic für eine bestimmte Gruppe untersuchen und feststellen, dass die durchschnittliche Seitenladezeit 5 Sekunden beträgt, bisherige Analysen bei allen Nutzern aber eine durchschnittliche Seitenladezeit von 2 Sekunden ergeben haben, müssen Sie dies untersuchen. Vielleicht ist Ihre Zahl für diese Population angemessen, aber jetzt müssen Sie noch mehr tun, um das zu überprüfen.

Sie müssen keine genaue Vereinbarung einholen, aber Sie sollten auf demselben Stand sein. Wenn nicht, gehen Sie davon aus, dass Sie im Unrecht sind, bis Sie sich vollständig überzeugen können. Die meisten überraschenden Daten werden sich als Fehler und nicht als fabelhafte neue Erkenntnis erweisen.

Neue Messwerte sollten zuerst auf alte Daten/Features angewendet werden

Wenn Sie neue Messwerte erstellen (z. B. durch Erfassung einer neuen Datenquelle) und versuchen, etwas Neues zu lernen, wissen Sie nicht, ob der neue Messwert richtig ist. Neue Messwerte sollten Sie zuerst auf eine bekannte Funktion oder Daten anwenden. Wenn Sie beispielsweise eine neue Metrik für die Nutzerzufriedenheit haben, sollten Sie darauf achten, dass Sie die besten Funktionen zur Zufriedenheit ermitteln können. Wenn Sie einen neuen Messwert dafür haben, wo Nutzer ihre Aufmerksamkeit auf die Seite lenken, achten Sie darauf, dass er mit dem übereinstimmt, was wir aus unseren Eye-Tracking- oder Evaluierungsstudien zur Auswirkung von Bildern auf die Aufmerksamkeit der Seite wissen. So können Sie sich validieren lassen, wenn Sie etwas Neues lernen.

Hypothesen aufstellen und Belege finden

In der Regel ist die Datenanalyse für ein komplexes Problem iterativ.2 Sie werden Anomalien, Trends oder andere Merkmale der Daten entdecken. Natürlich werden Sie Theorien entwickeln, um diese Daten zu erklären. Stellen Sie nicht nur eine Theorie auf und behaupten Sie sie als wahr. Suchen Sie nach Beweisen (innerhalb oder außerhalb der Daten), um diese Theorie zu bestätigen/ablehnen. Beispiel:

  • Wenn Sie etwas sehen, das wie ein Lerntrend aussieht, prüfen Sie, ob es sich am stärksten bei Nutzern mit hoher Häufigkeit widerspiegelt.
  • Wenn Sie der Meinung sind, dass eine Anomalie auf die Einführung einiger Funktionen zurückzuführen ist, achten Sie darauf, dass nur die Population, in der die Funktion eingeführt wurde, von der Anomalie betroffen ist. Alternativ können Sie auch prüfen, ob das Ausmaß der Änderung den Erwartungen der Einführung entspricht.
  • Wenn sich die Wachstumsraten von Nutzern in einer Sprache ändern, versuchen Sie, eine externe Quelle zu finden, die die Änderungsrate der Nutzerbevölkerung bestätigt.

Eine gute Datenanalyse hat eine Geschichte zu erzählen. Um sicherzustellen, dass es die richtige Geschichte ist, müssen Sie sich selbst die Geschichte erzählen und dann nach Belegen suchen, dass sie falsch ist. Stellen Sie sich dabei die Frage: „Mit welchen Tests würde ich die Geschichte, die ich erzähle, validieren/nicht entkräften?“ Selbst wenn Sie diese Experimente nicht durchführen können oder können, erhalten Sie möglicherweise Ideen, wie Sie mit den vorhandenen Daten validieren können.

Die gute Nachricht ist, dass diese Theorien und möglichen Experimente zu neuen Forschungsansätzen führen können, die über den Versuch hinausgehen, etwas über bestimmte Funktionen oder Daten zu erfahren. Anschließend werden Sie nicht nur diese Daten verstehen, sondern auch neue Messwerte und Techniken für alle Arten zukünftiger Analysen gewinnen.

Vorteile der explorativen Analyse von der End-to-End-Iteration

Führen Sie bei einer explorativen Analyse so viele Iterationen der gesamten Analyse wie möglich durch. Normalerweise müssen Sie mehrere Schritte zur Signalerfassung, -verarbeitung, -modellierung usw. ausführen. Wenn Sie zu lange damit verbringen, die erste Phase Ihrer ersten Signale perfektionieren zu müssen, verpassen Sie Gelegenheiten, weitere Iterationen in der gleichen Zeit durchzuführen. Wenn Sie sich schließlich Ihre Daten am Ende ansehen, werden Sie möglicherweise Entdeckungen machen, die Ihre Richtung ändern. Daher sollten Sie sich anfangs nicht auf Perfektion konzentrieren, sondern darauf, von Anfang an etwas Vernünftiges zu erreichen. Hinterlassen Sie Notizen für sich und bestätigen Sie Dinge wie Filterschritte und nicht geparste oder ungewöhnliche Anfragen. Verschwenden Sie jedoch keine Zeit damit, diese zu Beginn der explorativen Analyse zu beseitigen.

Achte auf Feedback

In der Regel definieren wir verschiedene Kennzahlen für den Nutzererfolg. Haben Nutzende z. B. auf ein Ergebnis geklickt? Wenn Sie diese Daten dann wieder in das System einspeisen, was wir sogar an verschiedenen Stellen tun, entstehen viele Möglichkeiten für Verwirrung bei der Auswertung.

Sie können den in Ihr System zurückgegebenen Messwert nicht als Grundlage für die Bewertung Ihrer Änderung verwenden. Wenn Sie mehr Anzeigen ausliefern, die mehr Klicks erhalten, können Sie nicht anhand von „mehr Klicks“ entscheiden, ob Nutzer zufriedener sind. „Mehr Klicks“ bedeutet oft auch „zufriedener“. Sie sollten außerdem nicht einmal die ignorierten und veränderten Variablen hervorheben, da dies zu schwer oder unverständlichen gemischten Veränderungen führt.

Denkweise

In diesem Abschnitt wird beschrieben, wie Sie mit anderen zusammenarbeiten und Erkenntnisse kommunizieren können.

Die Datenanalyse beginnt mit Fragen, nicht mit Daten oder einer Technik.

Es gibt immer einen Anreiz, Daten zu analysieren. Die Formulierung Ihrer Bedürfnisse als Fragen oder Hypothesen trägt dazu bei, dass Sie die Daten sammeln, die Sie sammeln sollten, und über mögliche Lücken in den Daten nachdenken. Natürlich sollten sich Ihre Fragen im Laufe der Daten weiterentwickeln. Eine Analyse ohne Frage ist jedoch ziellos.

Vermeiden Sie den Fehler, eine Lieblingsmethode zu finden und dann nur die Teile der Probleme zu finden, mit denen diese Technik funktioniert. Auch hier hilft Ihnen das Formulieren klarer Fragen, diese Fallstricke zu vermeiden.

Skeptisch und Champion sein

Wenn Sie mit Daten arbeiten, müssen Sie sowohl der Verfechter der gewonnenen Erkenntnisse als auch Skeptiker dieser Erkenntnisse werden. Sie werden hoffentlich interessante Phänomene in den Daten finden, die Sie betrachten. Wenn Sie ein interessantes Phänomen entdecken, stellen Sie sich die folgenden Fragen:

  • Welche anderen Daten könnte ich sammeln, um zu zeigen, wie toll das ist?
  • Was könnte ich finden, das dies ungültig macht?“

Besonders in Fällen, in denen Sie Analysen für jemanden durchführen, der wirklich eine bestimmte Antwort möchte (z. B. "Meine Funktion ist fantastisch!"), müssen Sie skeptisch sein, um Fehler zu vermeiden.

Korrelation != Kausalität

Wenn wir Theorien über Daten aufstellen, wollen wir häufig behaupten, dass „X verursacht Y“, z. B. „die Seite wird langsamer, hat dazu geführt, dass Nutzer weniger klicken“. Sogar xkcd weiß, dass sich aufgrund von Korrelationen nicht einfach eine Kausalität herstellen lässt. Wenn Sie überlegen, wie Sie eine Kausaltheorie validieren würden, entwickeln Sie in der Regel ein Gespür dafür, wie glaubwürdig eine Kausaltheorie ist.

Manchmal versuchen Menschen, an einer Korrelation so aussagekräftig festzuhalten, dass sie behaupten, dass selbst wenn es keinen kausalen Zusammenhang zwischen A und B gibt, der Zufälligkeit etwas zugrunde liegen muss, damit ein Signal ein guter Indikator für das andere sein kann. Dieser Bereich ist gefährlich für verschiedene Probleme von Hypothesentests. Wie xkcd wissen, werden einige Signale bei genügend Tests und ausreichenden Dimensionen für einen bestimmten Test übereinstimmen. Dies bedeutet nicht, dass dieselben Signale in Zukunft übereinstimmen werden. Sie haben also die gleiche Verpflichtung, eine kausale Theorie wie „Es gibt einen versteckten Effekt C, der sowohl A als auch B verursacht“ zu berücksichtigen, damit Sie prüfen können, wie plausibel dies ist.

Eine Fachkraft für Datenanalyse muss diese kausalen Fragen an die Personen stellen, die die Daten nutzen möchten. Sie sollten diesen Nutzenden klar vermitteln, was Sie über Kausalität sagen können und was nicht.

Teilen Sie Inhalte zuerst mit Gleichgesinnten, dann mit externen.

Die vorherigen Punkte schlugen Ihnen einige Möglichkeiten vor, wie Sie die richtigen Arten der Integritätsprüfung und -validierung selbst durchführen können. Aber das Teilen mit Gleichgesinnten ist eine der besten Möglichkeiten, um sich dazu zu zwingen, all diese Dinge zu tun. Ein qualifizierter Peer kann qualitativ anderes Feedback geben als die Nutzer Ihrer Daten, insbesondere da Verbraucher in der Regel eine Agenda haben. Mitbewerber sind an mehreren Punkten der Analyse nützlich. Zu Beginn können Sie sich über Dinge, über die Ihre Mitlernenden Bescheid wissen, sowie über Vorschläge für zu messende Dinge und frühere Forschungen in diesem Bereich informieren. Gegen Ende sind Peers sehr gut darin, auf Merkwürdigkeiten, Inkonsistenzen oder andere Unklarheiten hinzuweisen.

Idealerweise sollten Sie Feedback von einer anderen Person einholen, die etwas über die von Ihnen betrachteten Daten weiß, aber selbst eine Person, die nur allgemeine Erfahrung in der Datenanalyse hat, ist äußerst wertvoll.

Ignoranz und Fehler erwarten und akzeptieren

Es gibt viele Grenzen dafür, was wir aus Daten lernen können. Nate Silver ist ein überzeugendes Argument für The Signal and the Noise: Nur wenn wir die Grenzen unserer Sicherheit eingestehen, können wir Fortschritte in der besseren Vorhersage erzielen. Das Eingestehen von Ignoranz ist eine Stärke, die sich in der Regel nicht sofort entfaltet. Es fühlt sich zu der Zeit schlecht an, aber auf lange Sicht ist es für Sie und Ihr Team von großem Nutzen. Noch schlimmer ist es, wenn Sie einen Fehler später (oder sogar zu spät!) entdecken, aber wenn Sie sich Ihren Fehlern proaktiv bewusst machen, verdienen Sie Respekt. Dieser Respekt drückt sich in Glaubwürdigkeit und Wirkung aus.

Abschließende Gedanken

Ein Großteil der Arbeit für eine gute Datenanalyse ist für die Nutzer Ihrer Analyse nicht sofort ersichtlich. Die Tatsache, dass Sie die Populationsgrößen sorgfältig überprüft und validiert haben, dass der Effekt in allen Browsern konsistent ist, wird den Personen, die versuchen, anhand dieser Daten Entscheidungen zu treffen, wahrscheinlich noch nicht bekannt werden. Dies erklärt auch, warum eine gute Datenanalyse länger dauert, als es die meisten Menschen vermuten lassen (insbesondere, wenn sie nur das Endergebnis sehen). Ein Teil unserer Aufgabe als Analysten besteht darin, die Nutzer von datenbasierten Erkenntnissen nach und nach darüber aufzuklären, was diese Schritte sind und warum sie wichtig sind.

Die Notwendigkeit all dieser Manipulationen und Erkundungen Ihrer Daten legt auch die Anforderungen für eine gute Datenanalysesprache und -umgebung fest. Uns stehen viele Tools zur Verfügung, um Daten zu untersuchen. Verschiedene Tools und Sprachen eignen sich besser für die verschiedenen oben beschriebenen Techniken. Die Auswahl des richtigen Tools ist eine wichtige Fähigkeit eines Analysten. Sie sollten nicht durch die Fähigkeiten des Tools eingeschränkt sein, mit dem Sie am besten vertraut sind. Ihre Aufgabe ist es, wahre Erkenntnisse zu liefern und nicht ein bestimmtes Tool anzuwenden.

 


  1. Dies wird manchmal als „erste Datenanalyse“ bezeichnet. Weitere Informationen finden Sie im Wikipedia-Artikel zur Datenanalyse 

  2. Technisch gesehen sollte dies nur iterativ sein, wenn Sie eine explorative Analyse durchführen, keine bestätigende Analysen.