Dobra analiza danych

Autor: Patrick Riley

Specjalne podziękowania: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook i Barry Rosenberg.

Historia

Przegląd

Wydobycie prawdy i wniosków z sterty danych to potężne, ale narażone na błędy zadania. Najlepsi analitycy danych i inżynierowie nastawieni na dane mają reputację osoby, która potrafi wymawiać wiarygodne informacje na podstawie danych. Ale co sprawia, że są wiarygodne? Często słyszę przymiotniki takie jak uważny i metodyczny, ale co robią najbardziej ostrożni i metodyczni analitycy?

To nie jest proste pytanie, zwłaszcza ze względu na rodzaj danych, jakie zwykle gromadzimy w Google. Zwykle nie tylko pracujemy nad bardzo dużymi zbiorami danych, ale także z bardzo bogatymi zbiorami danych. Oznacza to, że każdy wiersz danych ma zwykle wiele atrybutów. Połączenie tego z tymczasowymi sekwencjami zdarzeń dla danego użytkownika daje ogromne możliwości analizowania danych. Jest to przeciwieństwo typowego eksperymentu psychologicznego akademickiego, w którym badacz nie musi analizować każdego punktu danych. Problemy stwarzane przez nasze duże, wysokowymiarowe zbiory danych bardzo różnią się od tych, które napotykamy przez większość badań naukowych.

Ten dokument zawiera podsumowanie pomysłów i technik stosowanych przez skłonnych, metodologicznych analityków do pracy z dużymi, wysokowymiarowymi zbiorami danych. Chociaż w tym dokumencie skupimy się na danych z dzienników i analizy eksperymentalnej, wiele z tych metod ma szersze zastosowanie.

Pozostała część dokumentu składa się z 3 sekcji poświęconych różnym aspektom analizy danych:

  • Techniczne: pomysły i techniki manipulowania i analizowania danych.
  • Proces: rekomendacje dotyczące podejścia do danych oraz tego, jakie pytania warto zadać i co należy sprawdzić.
  • Sposób myślenia: jak współpracować z innymi i przekazywać wiedzę.

Technik

Przyjrzyjmy się kilku technikom analizowania danych.

Sprawdzanie dystrybucji

Do informacji o rozkładach większość specjalistów korzysta z danych podsumowujących (np. średniej, mediany, odchylenia standardowego itd.). Jednak zazwyczaj znacznie bogatsze reprezentacje dystrybucji warto przeprowadzać, generując histogramy, skumulowane funkcje rozkładu (CDF), wykresy kwantyle (Q–Q) itd. Taka bogatsza reprezentacja umożliwia wykrywanie ważnych cech danych, takich jak zachowanie multimodalne lub duża klasa wartości odstających.

Uwzględniaj odchylenia od normy

Dokładnie badaj wyniki odstające, ponieważ w kopalni węgla mogą to być wczesnych testów, co wskazuje na poważne problemy w analizie. Możesz wykluczać z danych dane odstające lub umieszczać je w kategorii „nietypowe”, ale upewnij się, że wiesz, dlaczego dane trafiły do tej kategorii.

Na przykład spojrzenie na zapytania z najmniejszą liczbą kliknięć może ujawnić kliknięcia elementów, których nie zliczysz. Analiza zapytań z największą liczbą kliknięć może ujawnić kliknięcia, których nie należy liczyć. Z drugiej strony mogą występować wyjątki, których nie da się wyjaśnić, więc musisz uważać, ile czasu poświęcasz na to zadanie.

Uwzględnij szum

Losowość jest zjawiskiem i może nas oszukać. Niektórzy myślą: „Google ma tyle danych, szum znika”. To nieprawda. Każdej liczbie lub podsumowania danych, które generujesz, powinna towarzyszyć Ci koncepcja wiarygodności tego oszacowania (za pomocą takich wskaźników jak przedziały ufności i p-values).

Zobacz przykłady

Za każdym razem, gdy tworzysz nowy kod analizy, musisz przyjrzeć się przykładom na podstawie danych bazowych i tym, jak Twój kod je interpretuje. Bez wykonania tego kroku stworzenie działającego kodu o jakimkolwiek złożoności jest prawie niemożliwe. Analiza wyodrębnia wiele szczegółów z danych bazowych, aby stworzyć przydatne podsumowania. Patrząc na pełną złożoność poszczególnych przykładów, możesz zyskać pewność, że podsumowanie jest uzasadnione.

Sposób próbkowania tych przykładów ma znaczenie:

  • Jeśli klasyfikujesz dane bazowe, zapoznaj się z przykładami należącymi do poszczególnych klas.
  • Jeśli klasa jest większa, przejrzyj więcej przykładów.
  • Jeśli obliczasz liczbę (np. czas wczytywania strony), skorzystaj z przykładów skrajnych (np. 5% najwolniejszego i największego; wiesz, jak wygląda rozkład, prawda?) oraz punktów w przestrzeni pomiarowej.

Dzielenie danych

Wycinanie polega na podzieleniu danych na podgrupy i analizowaniu wartości danych w każdej podgrupie z osobna. Najczęściej dzielimy je na wymiary takie jak przeglądarka, język, domena, typ urządzenia itd. Jeśli zaobserwowane zjawisko może funkcjonować inaczej w poszczególnych podgrupach, musisz wyciąć dane, aby potwierdzić, że tak właśnie jest. Nawet jeśli spodziewasz się, że fragmentowanie nie będzie dawało odmiennych wyników, spójrz na kilka wycinków pod kątem wewnętrznej spójności, aby zyskać większą pewność, że mierzysz właściwe wyniki. W niektórych przypadkach konkretny wycinek może zawierać złe dane, uszkodzoną interakcję użytkownika lub z innych względów.

Za każdym razem, gdy segmentujesz dane, aby porównać 2 grupy (np. eksperyment z grupą kontrolną czy nawet „czas A” i „czas B”), musisz pamiętać o zmianach mieszanych. Przesunięcie mieszane ma miejsce, gdy ilość danych we wycinkach dla każdej grupy jest różna. Mogą wystąpić paradoks Simpsona i inne nieporozumienia. Ogólnie, jeśli względna ilość danych w wycinku jest taka sama we wszystkich 2 grupach, możesz bezpiecznie dokonać porównania.

Weź pod uwagę znaczenie praktyczne

Przy dużej ilości danych może być kuszące, aby skupić się wyłącznie na istotności statystycznej lub dopracować szczegóły każdego z nich. Musisz jednak zadać sobie pytanie: „Nawet jeśli wartość X jest o 0,1% większa niż wartość Y, czy to ma znaczenie?”. Jest to szczególnie ważne, jeśli nie jesteś w stanie zrozumieć lub skategoryzować części swoich danych. Jeśli nie jesteś w stanie zrozumieć, jakie ciągi znaków klienta użytkownika znajdują się w dziennikach, to niezależnie od tego, czy odpowiadają one 0,1% czy 10% danych, duże znaczenie ma ich zakres.

Czasem możesz też mieć niewielką ilość danych. Wiele zmian nie będzie statystycznie istotnych, ale różni się to od twierdzenia, że zmiany są „neutralne”. Musisz zadać sobie pytanie: „Jakie jest prawdopodobieństwo, że w dalszym ciągu występuje zmiana praktyczna?”.

Sprawdzanie spójności w czasie

Prawie zawsze warto podzielić dane według jednostek czasu, ponieważ w miarę ewoluowania naszych systemów na przestrzeni czasu dochodzi do wielu zakłóceń w danych bazowych. (często używamy dni, ale przydatne mogą być też inne jednostki czasu). Przy wprowadzaniu na rynek nowej funkcji lub nowego zbierania danych specjaliści często dokładnie sprawdzają, czy wszystko działa zgodnie z oczekiwaniami. Jednak z czasem może dojść do wielu usterek lub niespodziewanych działań.

To, że dany dzień lub zestaw dni stanowi wyjątki, nie oznacza, że musisz odrzucić te dane. Wykorzystaj te dane, aby dowiedzieć się, dlaczego dany dzień lub dzień się różni, zanim je odrzucisz.

Analizując dane z dnia na dzień, możesz też rozpoznać różnice w danych, które ostatecznie doprowadziły do powstania przedziałów ufności lub twierdzeń o znaczeniu statystycznym. Nie powinno to zastępować rygorystycznych obliczeń przedziału ufności, ale często w przypadku dużych zmian widać, że będą one istotne statystycznie – wyłącznie na wykresach dziennych.

Potwierdź i policz filtry

Prawie każda duża analiza danych zaczyna się od filtrowania danych na różnych etapach. Możesz brać pod uwagę tylko użytkowników z USA, wyszukiwania w internecie lub wyszukiwania z reklamami. W każdym przypadku musisz:

  • Potwierdź i jasno określ zakres filtrowania.
  • Zlicza ilość danych filtrowanych w każdym kroku.

Często najlepszym sposobem na obliczenie wszystkich danych, nawet dla populacji, którą wykluczasz, jest obliczenie wszystkich danych. Dane te pozwolą Ci odpowiedzieć na pytania w rodzaju „Jaką część zapytań usunięto w ramach filtrowania spamu?”. (W zależności od przyczyny filtrowania tego typu analiza nie zawsze jest możliwa).

Współczynniki powinny mieć jasny licznik i mianowniki

Najciekawszymi danymi są współczynniki wskaźników bazowych. Dokładne definicje licznika i mianownika są często ukryte w dokładnych definicjach licznika i mianownika. Co faktycznie oznacza pojęcie „Zapytania na użytkownika”?

  • Zapytania / użytkownicy z zapytaniem
  • Zapytania / użytkownicy, którzy korzystali dzisiaj z Google
  • Zapytania / użytkownicy z aktywnym kontem (tak, trzeba określić aktywne)

Jeśli podasz tu jasne informacje, możesz uniknąć nieporozumień Ty i innych.

Innym przypadkiem są dane, które można obliczyć tylko na podstawie niektórych informacji. Na przykład „Czas do kliknięcia” zwykle oznacza „Czas do kliknięcia w przypadku kliknięcia”. Za każdym razem, gdy przeglądasz dane tego typu, pamiętaj, że filtrowanie się wyświetla, i zwracaj uwagę na zmianę w filtrowaniu porównywanych grup.

Przetwarzanie

Ta sekcja zawiera rekomendacje dotyczące podejścia do danych, jakie pytania należy zadać i sprawdzać.

Oddzielna weryfikacja, opis i ocena

Moim zdaniem analizę danych składa się z 3 powiązanych ze sobą etapów:

  1. Weryfikacja1: Czy uważam, że dane są spójne z danymi, że zostały zebrane prawidłowo i że odzwierciedlają, co mi się podobało?
  2. Opis: Jaka jest obiektywna interpretacja tych danych? np. „Użytkownicy wykonują mniej zapytań sklasyfikowanych jako X”, „w grupie eksperymentalnej czas między X a Y jest o 1% dłuższy” i „Mniej użytkowników przechodzi do następnej strony z wynikami”.
  3. Ocena: czy dane z opisu informują, że dzieje się coś dobrego dla użytkownika, Google lub świata?

Rozdzielając te etapy, łatwiej jest osiągnąć porozumienie z innymi uczestnikami. Opis powinien być tymi, które wszyscy będą mogli zgodzić się w odniesieniu do danych. Ocena ta prawdopodobnie wywoła znacznie więcej dyskusji. Jeśli nie odróżnisz wartości Opis i Ocena, z dużym prawdopodobieństwem zobaczysz tylko interpretację danych, których oczekujesz. Co więcej, ocena bywa znacznie trudniejsza, ponieważ ustalenie normatywnej wartości wskaźnika, zwykle przez rygorystyczne porównania z innymi cechami i danymi, wymaga znacznych inwestycji.

Etapy te nie przebiegają liniowo. Przeglądając dane, możesz przeskakiwać między etapami, ale w każdej chwili musisz wiedzieć, na jakim etapie jesteś.

Potwierdź konfigurację eksperymentu i zbierania danych

Zanim przeanalizujesz dane, sprawdź, w jakim kontekście zostały one zebrane. Jeśli dane pochodzą z eksperymentu, sprawdź jego konfigurację. Jeśli chodzi o narzędzia do obsługi nowych klientów, upewnij się, że wiesz przynajmniej nieco o tym, w jaki sposób są zbierane dane. Możesz zauważyć nietypową lub złą konfigurację lub ograniczenia dotyczące populacji (na przykład dane dostępne tylko dla Chrome). Jeśli to zrobisz, łatwiej Ci będzie wypracować i zweryfikować teorie. Kwestie do rozważenia:

  • Jeśli eksperyment jest aktywny, wypróbuj go samodzielnie. Jeśli nie możesz tego zrobić, przejrzyj przynajmniej zrzuty ekranu lub opisy zachowań.
  • Sprawdź, czy w okresie trwania eksperymentu było coś nietypowego (święta, ważne premiery itp.).
  • Określ, jakie populacje użytkowników zostały objęte eksperymentem.

Sprawdź, co nie powinno się zmienić

Na etapie „walidacji” zanim odpowiesz na pytanie, które Cię interesuje (np. „Czy dodanie zdjęcia twarzy zwiększyło lub zmniejszyło liczbę kliknięć?”), wyklucz wszelkie inne zmienności danych, które mogą mieć wpływ na eksperyment. Na przykład:

  • Czy zmieniła się liczba użytkowników?
  • Czy we wszystkich podgrupach pojawiła się odpowiednia liczba zapytań, których dotyczy problem?
  • Czy zmieniła się liczba błędów?

Pytania te mają sens zarówno w przypadku porównywania eksperymentów i kontroli, jak i badania trendów na przestrzeni czasu.

Najpierw standardowe, a następnie niestandardowe

Patrząc na nowe funkcje i dane, warto od razu przejść do danych, które są nowe lub specjalne w przypadku tej nowej funkcji. Jednak zawsze najpierw sprawdzaj dane standardowe, nawet jeśli spodziewasz się, że mogą się zmienić. Na przykład, jeśli dodajesz do strony nowy uniwersalny blok, zanim zaczniesz analizować dane niestandardowe o tym nowym wyniku, upewnij się, że znasz jego wpływ na standardowe dane, takie jak „kliknięcia w wynikach wyszukiwania w internecie”.

Dane standardowe są znacznie lepiej weryfikowane i z większym prawdopodobieństwem będą poprawne niż dane niestandardowe. Jeśli dane niestandardowe nie mają sensu z danymi standardowymi, prawdopodobnie są one błędne.

Mierz dwa lub więcej razy

Szczególnie jeśli próbujecie uchwycić nowe zjawisko, spróbuj zmierzyć to samo źródło na wiele sposobów. Następnie sprawdź, czy te różne pomiary są spójne. Korzystając z wielu pomiarów, możesz wykryć błędy w kodzie pomiarowym lub logowania, nieoczekiwane funkcje danych bazowych oraz ważne kroki filtrowania. Jeszcze lepiej będzie, jeśli do pomiarów można używać różnych źródeł danych.

Sprawdź powtarzalność

Fragmenty i spójność w czasie to szczególne przykłady sprawdzania powtarzalności. Jeśli zjawisko jest ważne i istotne, należy je zaobserwować w różnych grupach użytkowników i w różnym okresie. Weryfikacja odtwarzalności oznacza jednak coś więcej niż przeprowadzanie tych 2 kontroli. Jeśli tworzysz modele danych, chcesz, aby były one stabilne niezależnie od niewielkich perturbacji danych bazowych. Wykorzystanie różnych zakresów czasu lub losowych podpróbek danych również pozwoli określić, jak wiarygodny jest ten model.

Jeśli model nie da się odtworzyć, prawdopodobnie nie uchwycisz jakiegoś podstawowego procesu, który wygenerował dane.

Sprawdź spójność z wcześniejszymi pomiarami

Często będziesz obliczać dane podobne do tych, które były liczone w przeszłości. Swoje dane należy porównywać z danymi raportowanymi w przeszłości, nawet jeśli pomiary obejmują różne grupy użytkowników.

Jeśli np. analizujesz ruch związany z zapytaniami na określonej populacji i mierzysz, że średni czas wczytywania strony wynosi 5 sekund, a przeprowadzone analizy dotyczące wszystkich użytkowników wskazują, że średni czas wczytywania strony wynosi 2 sekundy, musisz to zbadać. Twój wynik może być odpowiedni dla tej populacji, ale teraz musisz poświęcić więcej czasu, aby to zweryfikować.

Nie musicie uzyskać dokładnej zgody, ale musicie być w tym samym czasie. Jeśli tak nie jest, zakładaj, że się mylisz, dopóki nie będziesz w pełni przekonana. Okazało się, że większość zaskakujących danych okazała się błędem, a nie fantastycznym nowym wnioskiem.

Nowe dane należy najpierw zastosować do starych danych/funkcji

Jeśli utworzysz nowe wskaźniki (np. zbierając nowe źródło danych) i spróbujesz czegoś nowego, nie dowiesz się, czy nowe dane są prawidłowe. W przypadku nowych danych należy je najpierw stosować do znanych funkcji lub danych. Jeśli np. masz nowy wskaźnik zadowolenia użytkowników, upewnij się, że pokazuje on najlepsze funkcje, które zwiększają jego zadowolenie. Jeśli masz nowy wskaźnik informujący o tym, na jaką stronę użytkownicy zwracają uwagę na stronę, upewnij się, że jest on zgodny z danymi uzyskanymi dzięki monitorowaniu ruchów gałek ocznych lub badaniach weryfikatorów dotyczących wpływu obrazów na widoczność strony. Takie podejście daje błędną weryfikację, gdy chcesz nauczyć się czegoś nowego.

Przedstawiaj hipotezy i szukaj dowodów

Zazwyczaj analiza danych w przypadku złożonego problemu ma charakter iteracyjny2.Możesz w nich wykrywać anomalie, trendy i inne cechy danych. Oczywiście będziecie opracować teorie, które objaśnią te dane. Nie tylko wygłaszajcie teorie i potwierdzajcie, że są one prawdziwe. Szukaj dowodów (wewnątrz i poza danymi), aby potwierdzić lub odrzucić tę teorię. Na przykład:

  • Jeśli zauważysz coś, co może oznaczać trend nauki, sprawdź, czy najbardziej występuje on w przypadku użytkowników o wysokiej częstotliwości.
  • Jeśli uważasz, że anomalia wynika z wprowadzenia pewnych funkcji, sprawdź, czy jest ona dostępna tylko w populacji, u której została udostępniona. Warto też sprawdzić, czy zakres zmiany jest zgodny z oczekiwaniami dotyczącymi wprowadzenia na rynek.
  • Jeśli zauważysz, że tempo wzrostu liczby użytkowników zmienia się w danym regionie, znajdź źródło zewnętrzne, które potwierdzi takie zmiany.

Dobra analiza danych ma coś do powiedzenia. Aby mieć pewność, że to właściwa historia, musisz opowiedzieć ją sobie, a potem poszukaj dowodów na to, że tak nie jest. Jednym ze sposobów realizacji tego zadania jest zadawanie sobie pytań: „Jakie eksperymenty udałoby mi się zweryfikować lub unieważnić przekaz, który opowiadam?”. Nawet jeśli nie przeprowadzasz takich eksperymentów lub nie możesz tego zrobić, być może podsuniesz Ci pomysły na potwierdzenie poprawności danych, które już masz.

Dobra wiadomość jest taka, że te teorie i możliwe eksperymenty mogą prowadzić do powstawania nowych tematów badań, które wykraczają poza próby ustalenia konkretnych cech lub danych. W ten sposób wchodzisz w sferę rozumienia nie tylko tych danych, lecz także nowych danych i technik na potrzeby wszelkiego rodzaju przyszłych analiz.

Korzyści z analizy eksploracyjnej wynikającej z kompleksowej iteracji

W przypadku analizy eksploracyjnej wykonuj jak najwięcej iteracji całej analizy. Zwykle składa się z kilku etapów zbierania sygnałów, przetwarzania, modelowania itp. Jeśli zbyt długo będziesz poświęcać czas na dopracowanie pierwszego etapu wstępnych sygnałów, tracisz możliwość wykonywania większej liczby iteracji w tym samym czasie. Poza tym, gdy w końcu spojrzysz na dane, możesz dokonać odkrycia, które zmieni kierunek rozwoju. Dlatego najpierw nie należy skupiać się na perfekcji, ale na znalezieniu rozsądnego wyboru. Zostaw notatki dla siebie i dostrzeż m.in. czynności związane z filtrowaniem, niemożliwe do przeanalizowania lub nietypowe prośby, ale nie trać czasu na pozbycie się ich na początku analizy eksploracyjnej.

Czekam na opinie

Zwykle definiujemy różne miary sukcesu użytkownika. Na przykład: czy użytkownicy kliknęli wynik wyszukiwania? Jeśli następnie prześlesz te dane z powrotem do systemu (co robimy w wielu miejscach), stwarza to wiele możliwości pomyłek podczas oceny.

Nie możesz użyć danych przekazywanych z Twojego systemu jako podstawy do oceny zmian. Jeśli wyświetlasz więcej reklam z większą liczbą kliknięć, nie możesz na podstawie „większej liczby kliknięć” stwierdzić, że jesteś szczęśliwszy, chociaż „więcej kliknięć” często oznacza „szczęśliwszą”. Poza tym nie wydzielaj nawet wyodrębnionych i zmodyfikowanych zmiennych, ponieważ spowoduje to pojawienie się zmian w miksie, które będą trudne lub niemożliwe do zrozumienia.

Nastawienie

Z tej sekcji dowiesz się, jak współpracować z innymi i przekazywać swoje spostrzeżenia.

Analiza danych zaczyna się od pytań, a nie danych czy techniki

Analiza danych zawsze jest częścią motywacji. Dzięki sformułowaniu potrzeb w postaci pytań lub hipotez pomaga upewnić się, że zbierasz dane, które należy zbierać, i rozważasz potencjalne luki w danych. Oczywiście pytania, które zadajesz, zmieniają się w miarę analizy danych. Jednak analiza bez pytania wyniesie jednak bez celu.

Unikaj pułapki na szukanie ulubionej techniki i znajdowanie tylko tych elementów, nad którymi ta technika się sprawdza. Stworzenie jednoznacznych pytań pomoże uniknąć tej pułapki.

Bądź sceptykiem i bohaterem

Podczas pracy z danymi musisz zarówno podchodzić do zbierania informacji, jak i sceptycznie wobec nich. Mamy nadzieję, że w analizowanych danych zobaczysz jakieś interesujące zjawiska. Jeśli wykryjesz interesujące zjawisko, zadaj sobie następujące pytania:

  • Jakie inne dane mogę zebrać, żeby pokazać, że to świetnie?
  • Czego mogę się dowiedzieć, co może unieważnić tę informację?”.

Szczególnie w przypadkach, gdy przeprowadzasz analizę dla kogoś, kto naprawdę potrzebuje konkretnej odpowiedzi (np. „Moja funkcja jest świetna!”), musisz wykazać się sceptykiem, aby uniknąć błędów.

Korelacja != przyczyna

Podczas opracowywania teorii dotyczących danych często dążymy do stwierdzenie, że „X powoduje Y”, np. „wolniejsze działanie strony sprawia, że użytkownicy rzadziej klikają”. Nawet xkcd wie, że nie można po prostu ustalić związków przyczynowo-skutkowych z powodu korelacji. Rozważając sposoby walidacji teorii przyczynowo-skutkowych, możesz zwykle zdobyć dobre pojęcie o wiarygodności tej teorii.

Czasami ludzie próbują utrzymać jak najistotniejszą korelację, twierdząc, że nawet jeśli nie ma związku między zdarzeniami A i B, musi istnieć coś, co leży u podstaw zbiegu okoliczności, aby jeden sygnał mógł być dobrym wskaźnikiem lub pośrednikiem drugiego. Ten obszar jest niebezpieczny w przypadku problemów z testowaniem wielu hipotez. Wiem też, że przy wystarczającej liczbie eksperymentów i dostatecznych wymiarach niektóre sygnały będą pasować do konkretnego eksperymentu. Nie oznacza to, że w przyszłości będą się zgadzać te same sygnały, więc musisz rozważyć teorię przyczynowo-skutkową, np. „istnieje ukryty skutek C, który powoduje zarówno A i B”, jak i to, aby można było spróbować zweryfikować wiarygodność takiej teorii.

Analityk danych musi często radzić sobie z pytaniami osób, które chcą korzystać z tych informacji. Musisz dokładnie wyjaśnić takim konsumentom, co możesz, a czego nie możesz powiedzieć o działalności przyczynowo-skutkowej.

Udostępniaj treści w pierwszej kolejności, a potem konsumenci zewnętrzni

W poprzednich punktach zaproponowaliśmy kilka sposobów na odpowiednie sprawdzenie i weryfikację dźwięku. Jednym z najlepszych sposobów na zmuszanie się do wykonywania tych wszystkich czynności jest dzielenie się z kolegami. Kompetentny współpracownik może podzielić się opinią o jakości innej jakości niż konsumenci Twoich danych, zwłaszcza że konsumenci mają zwykle planowany plan. Grupy porównawcze są przydatne w wielu punktach w analizie. Na wczesnym etapie możesz sprawdzić, o czym kolega już wie, co można mierzyć, a także uzyskać informacje o wcześniejszych badaniach w tym zakresie. Pod koniec doradcy bardzo dobrze radzą sobie z wykrywaniem osobliwości, niespójności i innych nieporozumień.

Najlepiej, gdyby prosił o opinię współpracownika, który ma wiedzę na temat oglądanych przez Ciebie danych. Nawet osoba, która ma doświadczenie w ogólnej analizie danych, może okazać się niezwykle cenna.

Oczekuj i akceptuj niewiedzę i pomyłki

Jest wiele ograniczeń dotyczących tego, czego można się nauczyć na podstawie danych. Nate Silver wygłosił mocne argumenty w zakresie The Signal and the Noise (Sygnał i hałas), że tylko dopuszczając się granic naszej pewności, możemy dokonywać postępów w ulepszaniu przewidywania. Uznanie niewiedzy to siła, której zwykle nie nagradzamy od razu. To trochę smutne, ale w dłuższej perspektywie jest to bardzo korzystne dla Ciebie i Twojego zespołu. Jest jeszcze gorsza, kiedy popełniasz błąd i odkrywasz go później (albo nawet za późno!), ale jeśli aktywnie popełniasz błędy, szanujesz swoje zdanie. Ten szacunek przekłada się na wiarygodność i wpływ.

Uwagi końcowe

Większość pracy związanej z dobrą analizą danych nie jest od razu widoczna dla użytkowników tej analizy. Fakt dokładnego sprawdzenia wielkości populacji i sprawdzenia, że efekt jest spójny w różnych przeglądarkach, prawdopodobnie nie dotrze do świadomości osób podejmujących decyzje na podstawie tych danych. To również wyjaśnia, dlaczego dobra analiza danych trwa dłużej, niż wydaje się większości ludzi (zwłaszcza wtedy, gdy widzi tylko wynik końcowy). Częścią naszego zadania analityków jest stopniowe edukowanie klientów w zakresie statystyk opartych na danych na temat tych działań i ich znaczenia.

Konieczność tych wszystkich modyfikacji i eksploracji danych wyznacza też wymagania dotyczące dobrego języka i odpowiedniego środowiska analizy danych. Udostępniamy wiele narzędzi do badania danych. Różne narzędzia i języki lepiej nadają się do omówionych powyżej technik. Dobór odpowiedniego narzędzia jest ważną umiejętnością dla analityka. Możliwości narzędzia, z którego najbardziej sobie nie radzisz, nie powinny być dla Ciebie ograniczone. Twoim zadaniem jest dostarczanie prawdziwych wniosków, a nie używanie konkretnego narzędzia.

 


  1. Czasami określa się to jako „wstępną analizę danych”. Przeczytaj artykuł na temat analizy danych w Wikipedii 

  2. Technicznie rzecz biorąc, należy to robić tylko w przypadku analizy eksploracyjnej, a nie potwierdzającej.