Dobra analiza danych

Autor: Patrick Riley

Specjalne podziękowania: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook i Barry Rosenberg.

Historia

Opis

Wyciąganie prawdziwości i obserwacji z małych danych to potężne, lecz podatne zadanie. Najlepsi analitycy danych i inżynierowie skoncentrowani na danych budują reputację wiarygodności informacji na podstawie danych. Ale co z tego wynika, żeby czuć się wiarygodnie? Często słyszę przymiotniki takie jak uważny i metodowy, ale co tak naprawdę robią najbardziej ostrożni i metodyczni analitycy?

To nie jest proste pytanie, zwłaszcza ze względu na rodzaj danych, jakie zwykle zbieramy w Google. Pracujemy nie tylko z bardzo dużymi zbiorami danych, ale także z bogatymi zbiorami danych. To oznacza, że każdy wiersz danych ma zwykle wiele atrybutów. Gdy połączysz to z tymczasowymi sekwencjami zdarzeń dla danego użytkownika, masz wiele możliwości analizowania danych. Przebiega to z typowym eksperymentem psychologicznym akademickim, w którym nie ma znaczenia dla badacza, że przyjrzenie się każdemu punktowi danych. Duże, wysokowymiarowe zbiory danych stwarzają problemy znacznie różniące się od tych napotykanych przez większość historii badań naukowych.

Ten dokument zawiera podsumowanie pomysłów i technik stosowanych przez uważnych, metodycznych analityków na dużych, wysokowymiarowych zbiorach danych. Chociaż w tym dokumencie przedstawiają dane z dzienników i analizy eksperymentalne, wiele z tych metod ma zastosowanie w szerszym zakresie.

Pozostała część dokumentu składa się z 3 części poświęconych różnym aspektom analizy danych:

  • Techniczne: pomysły i techniki manipulowania i analizowania danych.
  • Proces: rekomendacje dotyczące sposobu podejścia do danych, pytań, które należy zadać i co sprawdzić.
  • Mindset: jak współpracować z innymi i przekazywać wiedzę.

Technik

Przyjrzyjmy się kilku technikom analizy danych.

Sprawdź rozkłady

Większość praktyków używa danych podsumowujących (np. średniej, mediany, odchylenia standardowego itd.) do przekazywania informacji o rozkładach. Jednak zwykle znacznie bogatsze wyniki dystrybucji warto zbadać, generując histogramy, wykresy skumulowanego rozkładu (CDF), kwantyle kwantyle (Q-Q) itd. Takie bogatsze reprezentacje umożliwiają wykrywanie ważnych cech danych, takich jak zachowanie wielomodalne lub znaczne różnice w danych.

Uwzględniaj odchylenia od normy

Uważnie sprawdzaj wyniki odstające, ponieważ mogą to być kanary w kopalni węgla, które wskazują na większe problemy z analizą. Możesz wykluczać z danych nietypowe dane lub umieszczać je w kategorii „nietypowe”, ale upewnij się, że wiesz, dlaczego dane trafiły do tej kategorii.

Na przykład analiza zapytań o najniższej liczbie kliknięć może ujawnić kliknięcia elementów, których nie zliczasz. Analiza zapytań o największej liczbie kliknięć może ujawnić kliknięcia, których nie należy liczyć. Z drugiej strony mogą występować odchylenia od normy, których nigdy nie da się wyjaśnić, więc należy ostrożnie poświęcać czas na to zadanie.

Weź pod uwagę szum

Losowość istnieje i może nas oszukać. Niektórzy sądzą, że „Google ma tak dużo danych. Szkody znikają”. To po prostu nieprawda. Każdej liczbie lub podsumowaniu danych, które generujesz, wraz z poczuciem pewności co do tego oszacowania (za pomocą takich wskaźników jak przedziały ufności i p-values)

Zobacz przykłady

Za każdym razem, gdy tworzysz nowy kod analizy, musisz przyjrzeć się przykładom na podstawie danych bazowych i tym, jak Twój kod je interpretuje. Bez wykonania tego kroku wytworzenie działającego kodu o jakimkolwiek złożoności jest niemal niemożliwe. Twoja analiza wyodrębnia wiele szczegółów z danych podstawowych, aby stworzyć przydatne podsumowania. Gdy przyjrzymy się pełnej złożoności poszczególnych przykładów, zyskasz pewność, że podsumowanie jest rozsądne.

Sposób wykorzystania tych przykładów jest ważny:

  • Jeśli klasyfikujesz dane bazowe, przyjrzyj się przykładom należącym do poszczególnych klas.
  • Jeśli klasa jest większa, przejrzyj więcej przykładów.
  • Jeśli obliczasz wartość liczbową (np. czas wczytywania strony), przyjrzyj się ekstremalnym przykładom (na przykład najszybsze i najwolniejsze 5%; wiesz, jak wygląda rozkład, prawda?), jak również punkty pomiarowe.

Podział danych

Dzielenie danych polega na dzieleniu danych na podgrupy i sprawdzaniu wartości danych w każdej podgrupie z osobna. Najczęściej dzielimy według takich wymiarów jak przeglądarka, język, domena, typ urządzenia. Jeśli zaobserwowane zjawisko prawdopodobnie będzie funkcjonować inaczej w poszczególnych podgrupach, musisz wyodrębnić dane, aby sprawdzić, czy rzeczywiście tak jest. Nawet jeśli nie spodziewasz się, że fragmentacja da różne wyniki, porównanie kilku wycinków pod kątem wewnętrznej spójności daje większą pewność, że mierzysz właściwe działania. W niektórych przypadkach konkretny wycinek może zawierać nieprawidłowe dane, uszkodzoną interakcję z użytkownikiem lub w inny sposób całkowicie się od siebie różnić.

Za każdym razem, gdy podzielisz dane, aby porównać 2 grupy (np. w ramach eksperymentu i grupy kontrolnej, a nawet „czas A” i „czas B”), pamiętaj o zmianach mieszanych. Przesunięcie mieszane ma miejsce, gdy ilość danych w wycinkach dla każdej grupy jest różna. Mogą być skutkiem paradoksu Simpsona i innych nieporozumień. Jeśli względna ilość danych w wycinku jest taka sama w 2 grupach, możesz bezpiecznie dokonać porównania.

Weź pod uwagę znaczenie praktyczne

W przypadku dużej ilości danych kuszące może być skupienie się wyłącznie na istotności statystycznej lub koncentrowaniu się na szczegółach każdego zjawiska. Musisz jednak zadać sobie pytanie: „Nawet jeśli wartość X jest o 0,1% większa od wartości Y, czy ma to znaczenie?” Jest to szczególnie ważne, jeśli nie możesz zrozumieć ani skategoryzować części swoich danych. Jeśli nie jesteś w stanie zrozumieć w dziennikach jakichś ciągów znaków klienta użytkownika, niezależnie od tego, czy zawierają one 0,1% czy 10% danych, mają duże znaczenie przy badaniu takich przypadków.

Czasami możesz też mieć niewielką ilość danych. Wiele zmian nie będzie istotnych statystycznie, ale różni się od twierdzenia, że są one „neutralne”. Zastanów się: „Jakie jest prawdopodobieństwo, że zaistnieje praktyczna zmiana?”.

Sprawdzanie spójności w czasie

Posegmentuj dane według jednostek czasu, ponieważ w miarę ewoluowania naszych systemów dochodzi do wielu zakłóceń w dostępie do danych źródłowych. (Często używamy dni, ale przydatne mogą być również inne jednostki czasu). Gdy wprowadzasz na rynek nową funkcję lub nowe narzędzie do zbierania danych, specjaliści często dokładnie sprawdzają, czy wszystko działa zgodnie z oczekiwaniami. Z upływem czasu może jednak wystąpić wiele awarii lub nieoczekiwanych zachowań.

To, że dany dzień lub zestaw dni stanowią odchylenia, nie oznacza, że należy odrzucać odpowiednie dane. Wykorzystaj te dane jako punkt wyjścia do ustalenia przyczyn różnic w wybranym dniu lub dniach, zanim je odrzucisz.

Przyglądając się danym z dziennego dnia, możesz też odkryć różnice w danych, które ostatecznie doprowadziły do przedziałów ufności lub deklaracji istotności statystycznej. Ogólnie nie powinno to zastępować rygorystycznych obliczeń przedziału ufności, ale często w przypadku dużych zmian widać, że będą one istotne statystycznie – wystarczy skorzystać z wykresów dziennych.

Potwierdź i zlicz swoje filtry

Niemal każda duża analiza danych zaczyna się od filtrowania danych na różnych etapach. Możesz brać pod uwagę tylko użytkowników z USA, wyszukiwania w internecie lub wyszukiwania z reklamami. Niezależnie od sytuacji musisz:

  • Musisz wiedzieć, czego używasz, i jasno je określić.
  • Zliczaj ilość danych filtrowanych w każdym kroku.

Często najlepszym sposobem na wykonanie tej drugiej czynności jest obliczenie wszystkich danych, nawet dla populacji, którą wykluczasz. Dzięki temu możesz na przykład sprawdzić, jaki odsetek zapytań został usunięty po filtrowaniu spamu. (W zależności od powodu filtrowania tego typu analiza nie zawsze jest możliwa).

Współczynniki powinny mieć wyraźny licznik i mianowniki

Najbardziej interesującymi danymi są współczynniki wskaźników stanowiących podstawę. Często interesujące filtry lub inne wybory danych są ukryte w dokładnych definicjach licznika i mianownika. Co faktycznie oznacza pojęcie „Zapytania / użytkownika”?

  • Zapytania / Użytkownicy z zapytaniem
  • Zapytania / Użytkownicy, którzy odwiedzili Google dzisiaj
  • Zapytania / Użytkownicy z aktywnym kontem (tak, trzeba określić aktywne)

Pozwoli to uniknąć nieporozumień zarówno dla Ciebie, jak i innych osób.

Innym szczególnym przypadkiem są dane, które można obliczyć tylko na podstawie niektórych danych. Na przykład „Czas do kliknięcia” zwykle oznacza „Czas do kliknięcia z uwzględnieniem kliknięcia”. Za każdym razem, gdy widzisz taki wskaźnik, musisz pamiętać, że używa się filtra, i pomyśleć o zmianie filtrowania porównywanych grup.

Przetwarzanie

Ta sekcja zawiera rekomendacje związane z postępowaniem z danymi, jakie pytania dotyczące danych należy zadać i co należy sprawdzić.

Oddzielna weryfikacja, opis i ocena

Moim zdaniem analiza danych składa się z 3 powiązanych ze sobą etapów:

  1. Weryfikacja1: Czy uważam, że dane są spójne, zostały zebrane prawidłowo i odzwierciedlają to, co moim zdaniem są w rzeczywistości?
  2. Opis: jaka jest obiektywna interpretacja tych danych? np. „Użytkownicy wykonują mniej zapytań klasyfikowanych jako X”, „W grupie eksperymentalnej czas między wartościami X i Y jest dłuższy o 1%” oraz „Mniej użytkowników przechodzi na następną stronę z wynikami”.
  3. Ocena: czy dane z opisu wskazują, że dzieje się coś dobrego dla użytkownika, Google czy dla świata?

Rozdzielając te etapy, łatwiej jest osiągnąć porozumienie z innymi. Opis powinien być czymś, co każdy może ustalić w przypadku danych. Ocena ta prawdopodobnie wywoła znacznie więcej dyskusji. Jeśli nie rozróżnisz opisów i oceny, istnieje większe prawdopodobieństwo, że zobaczysz tylko pożądaną interpretację danych. Ponadto ocena bywa znacznie trudniejsza, ponieważ ustalenie normatywnej wartości danych, zwykle przez rygorystyczne porównania z innymi cechami i danymi, wymaga znacznych inwestycji.

Te etapy nie przebiegają liniowo. Przeglądając dane, możesz przechodzić między etapami, ale w każdej chwili musisz wiedzieć, na jakim jesteś etapie.

Potwierdzanie konfiguracji eksperymentu i zbierania danych

Zanim zapoznasz się z jakimikolwiek danymi, upewnij się, że znasz kontekst, w którym zostały one zebrane. Jeśli dane pochodzą z eksperymentu, sprawdź jego konfigurację. W przypadku działań związanych z narzędziami związanymi z nowymi klientami upewnij się, że wiesz przynajmniej, w jaki sposób zbierasz dane. Możesz zauważyć nietypowe lub nieprawidłowe konfiguracje albo ograniczenia dotyczące populacji (np. prawidłowe dane tylko dla Chrome). Wszystkie informacje godne uwagi mogą Ci pomóc później wypracować i zweryfikować teorie. Oto kilka rzeczy, które warto wziąć pod uwagę:

  • Jeśli eksperyment jest aktywny, wypróbuj go samodzielnie. Jeśli nie możesz, przejrzyj zrzuty ekranu i opisy zachowań.
  • Sprawdź, czy w okresie trwania eksperymentu jest coś nietypowego (święta, wielkie premiery itp.).
  • Określ, które populacje użytkowników zostały objęte eksperymentem.

Sprawdź, co nie powinno się zmienić

W ramach etapu „Walidacja” zanim odpowiesz na pytanie, które Cię interesuje (np. „Czy dodanie zdjęcia twarzy oznaczało wzrost lub spadek liczby kliknięć?”), wyklucz wszelkie inne zmienności danych, które mogą mieć wpływ na eksperyment. Na przykład:

  • Czy zmieniła się liczba użytkowników?
  • Czy we wszystkich podgrupach była odpowiednia liczba zapytań, których dotyczył problem?
  • Czy zmieniła się liczba błędów?

Pytania te mają sens zarówno w przypadku porównań eksperymentów i kontroli, jak i przy badaniu trendów na przestrzeni czasu.

Najpierw standardowe, niestandardowe, drugie

Patrząc na nowe funkcje i dane, warto od razu przejść do danych, które są nowe lub wyjątkowe w przypadku tej nowej funkcji. Pamiętaj jednak, aby w pierwszej kolejności sprawdzać dane standardowe, nawet jeśli spodziewasz się, że się zmienią. Jeśli np. dodajesz do strony nowy blok uniwersalny, najpierw dowiedz się, jaki wpływ na dane standardowe, takie jak „kliknięcia w wynikach wyszukiwania”, zanim zapoznasz się z danymi niestandardowymi związanymi z tym nowym wynikiem.

Dane standardowe są znacznie lepiej weryfikowane i z większym prawdopodobieństwem będą poprawne niż dane niestandardowe. Jeśli dane niestandardowe nie mają sensu w przypadku danych standardowych, mogą być one błędne.

Mierz dwukrotnie lub więcej

Szczególnie jeśli próbujesz wychwycić nowy fenomen, spróbuj zmierzyć to samo źródło na wiele sposobów. Następnie sprawdź, czy te różne pomiary są spójne. Korzystając z wielu pomiarów, możesz wykryć błędy w kodzie pomiaru lub logowania, nieoczekiwane funkcje bazowych danych oraz istotne czynności filtrowania. Najlepiej jest używać do pomiarów różnych źródeł danych.

Sprawdzaj, czy można odtworzyć

Szczególnym przykładom sprawdzania powtarzalności są zarówno fragmentowanie, jak i spójność w czasie. Jeśli zjawisko jest ważne i istotne, należy zaobserwować je w przypadku różnych grup użytkowników i czasu. Jednak zweryfikowanie powtarzalności oznacza znacznie więcej niż przeprowadzanie tych 2 mechanizmów kontroli. Jeśli budujesz modele danych, chcesz, aby te modele były stabilne, jeśli występują niewielkie zakłócenia w danych. Użycie różnych przedziałów czasowych lub losowych podpróbek pozwoli Ci też określić niezawodność i odtwarzanie tego modelu.

Jeśli modelu nie da się odtworzyć, prawdopodobnie nie uda Ci się uchwycić czegoś podstawowego o procesie, który posłużył do wygenerowania danych.

sprawdzanie zgodności z wcześniejszymi pomiarami;

Często obliczasz dane podobne do tych, które były liczone w przeszłości. Swoje dane należy porównywać z danymi raportowanymi w przeszłości, nawet jeśli pomiary obejmują różne grupy użytkowników.

Jeśli np. sprawdzasz ruch związany z zapytaniami pochodzącymi ze specjalnej populacji i mierzysz, że średni czas wczytywania strony wynosi 5 sekund, a wcześniejsze analizy dotyczące wszystkich użytkowników wskazują, że średni czas wczytywania strony to 2 sekundy, musisz to sprawdzić. Twój wynik może być odpowiedni dla tej populacji, ale teraz musisz zrobić jeszcze więcej, aby to sprawdzić.

Nie musicie się wiernie porozumieć, ale wszyscy muszą się znaleźć w tej samej sprawie. Jeśli tak nie jest, załóżmy, że mylisz się, dopóki nie będziesz w pełni przekonać siebie. Większość zaskakujących danych okazała się błędem, a nie nowymi, fantastycznymi danymi.

Nowe dane należy najpierw zastosować do starych danych/funkcji

Jeśli utworzysz nowe wskaźniki (np. zbierając nowe źródło danych) i spróbujesz dowiedzieć się czegoś nowego, nie dowiesz się, czy są one prawidłowe. W przypadku nowych danych należy je najpierw zastosować do znanych funkcji lub danych. Jeśli np. masz nowy wskaźnik zadowolenia użytkowników, upewnij się, że pokazuje on Twoje najlepsze cechy, które zwiększają zadowolenie użytkowników. Jeśli masz nowy wskaźnik dotyczący tego, na jaką stronę użytkownicy zwracają uwagę na stronę, upewnij się, że są one zgodne z informacjami uzyskanymi z badań śledczych i o wpływie obrazów na uwagę strony. W ten sposób dowiadujesz się czegoś nowego.

Postaw hipotezy i szukaj dowodów

Zwykle analiza danych złożonego problemu ma charakter iteracyjny2.Możesz na przykład odkrywać anomalie, trendy i inne cechy danych. Oczywiście będziesz opracowywać teorie, które wyjaśniają te dane. Nie wysuwajcie po prostu teorii i twierdzijcie, że jest ona prawdziwa. Szukaj dowodów (wewnątrz danych lub poza nimi) do potwierdzenia/zaprzeczenia tej teorii. Na przykład:

  • Jeśli zauważysz coś, co wygląda na trend informacyjny, sprawdź, czy najbardziej występuje w przypadku użytkowników o dużej częstotliwości.
  • Jeśli uważasz, że anomalia jest spowodowana uruchomieniem przez nią jakichś funkcji, dopilnuj, aby była ona jedyną osobą, u której ta funkcja została udostępniona. Możesz też zadbać o to, aby zakres zmiany był zgodny z oczekiwaniami, jakie pojawią się po wprowadzeniu na rynek.
  • Jeśli zaobserwujesz zmiany w tempie wzrostu liczby użytkowników w danym języku, znajdź źródło zewnętrzne, które potwierdzi ten współczynnik zmian liczby użytkowników.

Dobra analiza danych ma swoją historię. Aby upewnić się, że jest to właściwa historia, musisz opowiedzieć ją sobie, a potem szukać dowodów, że jest ona błędna. Jednym ze sposobów na to jest zadawanie sobie pytań: „Jakie eksperymenty pozwoliłyby zweryfikować lub unieważnić przekazywaną przeze mnie historię?”. Nawet jeśli nie lub nie możesz przeprowadzić tych eksperymentów, może to dać Ci pomysły na potwierdzenie poprawności danych, które masz.

Dobra wiadomość jest taka, że te teorie i możliwe eksperymenty mogą prowadzić do powstawania nowych tematów, które wykraczają poza próby pogłębienia jakichkolwiek konkretnych cech lub danych. Następnie wchodzicie w obszar rozumienia nie tylko tych danych, ale również nowych danych i technik na potrzeby przyszłych analiz.

Korzyści z pełnej iteracji dzięki analizie eksploracyjnej

W trakcie analizy eksploracyjnej należy przeprowadzać jak najwięcej iteracji całej analizy. Zwykle składa się z wielu etapów zbierania sygnałów, przetwarzania, modelowania itd. Jeśli zbyt długo będziesz poświęcać czas na dopracowanie pierwszego etapu wstępnych sygnałów, tracisz możliwości wykonywania większej liczby iteracji w tym samym czasie. Dopiero gdy spojrzysz na dane pod koniec, możesz odkryć, co zmieni się w Twoim kierunku. Dlatego na początku nie skupiaj się na perfekcji, lecz na tym, by przejść przez cały proces w rozsądnym zakresie. Zostaw dla siebie notatki i uwzględnij czynności związane z filtrowaniem, niemożliwe do przeanalizowania lub nietypowe żądania, ale nie trać czasu na pozbycie się ich na początku analizy eksploracyjnej.

Czekamy na opinie

Zwykle definiujemy różne dane związane z osiągnięciem sukcesu przez użytkownika. Na przykład: czy użytkownicy kliknęli jakiś wynik? Jeśli następnie prześlesz te dane z powrotem do systemu (co wykonujemy w wielu miejscach), stwarzasz wiele możliwości do pomyłki podczas oceny.

Danych przesłanych z powrotem do systemu nie możesz użyć jako podstawy do oceny zmian. Jeśli wyświetlasz więcej reklam, które uzyskują więcej kliknięć, nie możesz wybierać „więcej kliknięć” jako podstawy do podejmowania decyzji o większym zadowoleniem użytkowników, chociaż „więcej kliknięć” często oznacza „szczęśliwszy”. Nie eliminuj nawet uwzględnianych i manipulacyjnych zmiennych, ponieważ może to prowadzić do mieszania zmian, które będą trudne lub niemożliwe do zrozumienia.

Sposób myślenia

Z tej sekcji dowiesz się, jak współpracować z innymi osobami i przekazywać swoje uwagi.

Analiza danych zaczyna się od pytań, a nie danych czy techniki

Do analizowania danych zawsze mamy motywację. Sformułowanie Twoich potrzeb w postaci pytań lub hipotez pomaga zapewnić, że zbierasz odpowiednie dane i zastanawiasz się nad ewentualnymi lukami w tych danych. Oczywiście pytania powinny zmieniać się w miarę analizowania danych. Jednak analiza bez pytania staje się bezcelowa.

Unikaj pułapki na znalezienie ulubionej techniki i znajdź tylko te elementy problemów, na których Ci zależy. Stworzenie jasnych pytań pomoże uniknąć tej pułapki.

Bądź sceptyczny i mistrzowski

Pracując z danymi, musisz być zarówno mistrzem w pozyskanych danych, jak i sceptycznym wobec nich. Mamy nadzieję, że w analizowanych danych wykryją ciekawe zjawiska. Gdy wykryjesz interesujące zjawisko, zadaj sobie następujące pytania:

  • Jakie inne dane mogę zebrać, aby pokazać, jak bardzo świetnie Ci to idzie?
  • Co to może unieważnić?”.

Zwłaszcza w przypadkach, gdy analizujesz kogoś, kto naprawdę potrzebuje konkretnej odpowiedzi (np. „Moja funkcja jest świetna!”), musisz działać sceptycznie, aby uniknąć błędów.

Korelacja != Przyczyna

Podczas opracowywania teorii na temat danych często dążymy do twierdzenia, że „X powoduje Y”, np. „wolniejsze działanie strony sprawia, że użytkownicy rzadziej klikają”. Nawet xkcd wie, że nie można po prostu ustalić związków przyczynowych ze względu na korelację. Rozważając sposoby walidacji teorii przyczynowych, zwykle łatwiej jest ustalić wiarygodność tej teorii.

Czasami ludzie próbują utrzymać korelację jako istotną, twierdząc, że nawet jeśli nie ma związku przyczynowo-skutkowego między A i B, musi istnieć jakiś związek, dzięki któremu jeden sygnał może być dobrym wskaźnikiem lub pośrednikiem drugiego. Ten obszar jest niebezpieczny w przypadku problemów z testowaniem wielu hipotez. Jak wiemy również xkcd, przy wystarczającej liczbie eksperymentów i odpowiednich wymiarach niektóre sygnały będą dopasowane do konkretnego eksperymentu. Nie oznacza to, że w przyszłości te same sygnały będą się zgadzać, więc masz ten sam obowiązek rozważenia teorii przyczynowej, np. „istnieje ukryty efekt C, który powoduje zarówno działanie A i B”, jak i to, aby ułatwić Ci weryfikację tego, czy taka sytuacja jest prawdopodobna.

Analityk danych musi często odpowiadać na te pytania, które trafiają do osób, które chcą konsumować dane. Musisz dokładnie wyjaśnić tym klientom, co możesz, a czego nie możesz powiedzieć o związku przyczynowym.

Udostępniaj treści w pierwszej kolejności, a potem klienci zewnętrzni

W poprzednich punktach zaproponowaliśmy kilka sposobów na wprowadzenie odpowiednich testów i walidacji dźwięku. Jednak udostępnianie materiałów znajomym to jeden z najlepszych sposobów, by zmusić się do wykonywania tych wszystkich czynności. Wykwalifikowany użytkownik może przekazywać różne opinie w ujęciu jakościowym niż konsumenci danych Twoich danych, zwłaszcza że mają one zwykle określony plan. Testy porównawcze przydają się na wielu etapach w ramach analizy. Na wczesnym etapie możesz dowiedzieć się, o czym współpracownik się wie, i poznać sugestie dotyczące pomiarów oraz wcześniejsze badania w tym obszarze. Pod koniec osoby z Twojej grupy zawodowej bardzo dobrze radzą sobie z wykrywaniem osobliwości, niespójności i innych nieporozumień.

Najlepiej prosić kogoś o opinię, która wie o jakich danych, które analizujesz. Nawet osoba z doświadczeniem w dziedzinie ogólnej analizy danych jest niezwykle cenna.

Spodziewaj się i akceptuj niewiedzę i pomyłki

Istnieje wiele ograniczeń dotyczących tego, czego możemy się nauczyć na podstawie danych. Nate Silver pokazuje, że The Signal and the Noise (Sygnał i szum) potwierdza, że tylko dając swoje granice naszej pewności, możemy dokonywać postępów w lepszym prognozowaniu. Przyznanie się do niewiedzy jest siłą, która nie jest zazwyczaj nagradzana od razu. To niepokojące, ale w dłuższej perspektywie jest to bardzo korzystne dla Ciebie i Twojego zespołu. Czujesz się jeszcze gorzej, gdy popełnisz błąd i wykryjesz go później (a nawet za późno!), ale bierne uczestniczenie w pomyłkach daje Ci szacunek. Ten szacunek przekłada się na wiarygodność i siłę oddziaływania.

Uwagi końcowe

Duża część pracy związanej z dobrą analizą danych nie jest od razu widoczna dla konsumentów. Fakt, że dokładnie sprawdziłeś wielkość populacji i udowodniłeś, że efekt jest spójny w różnych przeglądarkach, prawdopodobnie nie dotrzesz do świadomości osób próbujących podejmować decyzje na podstawie tych danych. Wyjaśnia to również, dlaczego dobra analiza danych trwa dłużej, niż wydaje się większości osób (zwłaszcza wtedy, gdy widzą tylko ostateczne wyniki). Jednym z naszych zadań jako analityków jest stopniowe informowanie konsumentów o obserwacjach opartych na danych na temat tych działań i ich znaczenia.

Konieczność tych wszystkich manipulacji i eksploracji danych wyznacza również wymagania dotyczące dobrego języka i odpowiedniego środowiska analizy danych. Mamy wiele narzędzi do badania danych. Różne narzędzia i języki lepiej nadają się do omówionych powyżej technik. Wybór odpowiedniego narzędzia jest bardzo ważną umiejętnością dla analityka. Możliwości narzędzia, które najbardziej Ci odpowiadają, nie powinny Cię ograniczać. Twoim zadaniem jest dostarczanie prawdziwych informacji, a nie używanie konkretnego narzędzia.

 


  1. Takie działanie jest czasami nazywane „wstępną analizą danych”. Przeczytaj artykuł o analizie danych w Wikipedii 

  2. Z technicznego punktu widzenia powinna to być analiza iteracyjna tylko w przypadku analizy eksploracyjnej, a nie potwierdzającej.