Pułapki analityczne

„Wszystkie modele są błędne, ale niektóre są przydatne”. – George Box, 1978

Techniki statystyczne są bardzo skuteczne, ale mają swoje ograniczenia. Zrozumienie Dzięki tym ograniczeniom badacze mogą uniknąć gaf i niedokładnych twierdzeń, Twierdzenie BF Skinnera, że Szekspir nie używał aliteracji częściej niż jaka byłaby losowość. W badaniach Skinnera słabe możliwości1).

Paski niepewności i błędów

Ważne jest, aby określić poziom niepewności w analizie. Równie ważne jest, aby mierzyć niepewność w analizach innych osób. Wyświetlane punkty danych nie zarysuje trendu na wykresie, ale nakładają się na siebie słupki błędów, mogą nie wskazywać do żadnego wzorca. Niepewność może być też zbyt duża, aby przedstawić użyteczne dane wnioski z konkretnego badania lub testu statystycznego. Jeśli badanie wymaga dokładności na poziomie partii, zbioru danych geoprzestrzennych z niepewnością wynoszącą +/- 500 m jest zbyt niepewna, aby nadawała się do użycia.

Poziomy niepewności mogą też być przydatne przy podejmowaniu decyzji. Dane potwierdzające konkretne uzdatnianie wody z niepewnością wynoszącą 20% może dojść do rekomendacji dotyczących implementacji wody przez stałe monitorowanie programu, aby rozwiązać te niepewne kwestie.

Bayesowskie sieci neuronowe pozwala mierzyć niepewność przez przewidywanie rozkładu wartości zamiast pojedynczych wartości .

Nietrafność

Jak wspomnieliśmy na wstępie, zawsze istnieje przynajmniej mała luka między z zastosowaniem danych i ground truth. Specjalista ds. ML powinien ustalić, czy jest właściwy do zadane pytanie.

Huff opisuje wczesne badanie opinii publicznej, które wykazało, że biały Amerykanie odpowiedzi na pytanie, jak łatwo było czarnym Amerykanom zrobić dobre były bezpośrednio i odwrotnie powiązane z poziomem życia i sympatii do czarnych Amerykanów. Wraz ze wzrostem zainteresowania rasowego odpowiedzi na temat oczekiwanych możliwości ekonomicznych stawały się coraz częstsze optymistyczne. Mogło to zostać niewłaściwie zinterpretowane jako oznaka postępu. Badanie nie wykaże jednak, możliwości ekonomicznych dostępnych dla czarnych Amerykanów w tamtych czasach. które umożliwiają wyciąganie wniosków na temat rzeczywistości rynku pracy. opiniami uczestników ankiety. Zebrane dane było w rzeczywistości niezwiązane z sytuacją na rynku pracy2.

Możesz wytrenować model na danych ankietowych w opisany powyżej sposób, przy czym model dane wyjściowe wskazują w rzeczywistości na optymizm, a nie na możliwości. Ale ponieważ prognozowane możliwości nie mają związku z rzeczywistymi możliwościami, jeśli że model przewiduje rzeczywiste możliwości, fałszywe przedstawianie prognoz modelu.

Wątpliwości

Zmienna myląca, konfundacja lub kofactor jest zmienną. nie jest w trakcie badania, wpływa na zmienne objęte badaniem i może zniekształcać wyniki. Rozważmy na przykład model ML, który prognozuje współczynniki śmiertelności dla danych wejściowych. zgodnie z funkcjami polityki zdrowia publicznego. Przyjmijmy, że mediana wiek nie jest funkcją. Załóżmy też, że w niektórych krajach i jakieś liczebność populacji. Ignorując niezmienną zmienną mediany wieku, ten model może przewidywać błędne współczynniki śmiertelności.

W Stanach Zjednoczonych rasa jest często silnie powiązana z kwestiami społeczno-ekonomicznymi , ale tylko rasę, a nie klasę, są rejestrowane wraz z danymi o śmiertelności. Wątpliwości związane z klasą, takie jak dostęp do opieki zdrowotnej, odżywiania, niebezpiecznej pracy, i bezpieczne zakwaterowanie, może mieć większy wpływ na wskaźniki śmiertelności niż rasa, ale są pomijane, ponieważ nie są uwzględnione w zbiorach danych3. i kontrolowanie ich jest kluczowe dla tworzenia użytecznych modeli wyciągania znaczących i dokładnych wniosków.

Jeśli model jest trenowany na istniejących danych o śmiertelności, które obejmują rasę, ale nie może przewidzieć śmiertelność na podstawie rasy, nawet jeśli klasa jest silniejsza prognozujący śmiertelność. Może to prowadzić do błędnych założeń przyczynowo-skutkowych i niedokładnych prognoz dotyczących śmiertelności pacjentów. Specjaliści ML powinien zapytać, czy w danych są niejasności, a także jakie znaczenie w zbiorze danych może brakować zmiennych.

W 1985 roku grupa pielęgniarska Health Study, obserwacyjne badanie kohortowe z Harvardu Wydział Medyczny i Harvard School of Public Health wykazał, że członkowie przyjmując estrogenową terapię zastępczą, wystąpiła mniejsza liczba zawałów serca. w porównaniu z członkami kohorty, którzy nigdy estrogen. Dlatego lekarze przepisali estrogen pacjentów z menopauzą i po menopauzie przez dziesiątki lat, aż do rozpoczęcia badania klinicznego W 2002 r. zidentyfikowaliśmy zagrożenia dla zdrowia wynikające z długoterminowej terapii estrogenowej. Praktyka przepisywanie estrogenu kobietom po menopauzie zaprzestało, ale nie około dziesiątek tysięcy przedwczesnych zgonów.

Przyczyną powiązania mógł być wiele nieporozumień. Znalezione epidemiolodzy że kobiety przyjmujące terapię hormonozastępczą, w porównaniu z kobietami, które tego nie robią, są szczupsi, wykształceni, bogatsi, bardziej świadomi swojego zdrowia i więcej ćwiczeń. W różnych badaniach edukacja i bogactwo były które zmniejszają ryzyko chorób serca. Wspomniane skutki spowodowałyby dezorientację, widoczny związek między terapią estrogenową a zawałami serca4.

Wartości procentowe z liczbami ujemnymi

Unikaj używania procentów, gdy występują liczby ujemne5, jako wszelkiego rodzaju istotne korzyści i straty mogą być ukryte. Załóżmy, że dla zachowania prostego że w branży restauracyjnej zatrudniają 2 miliony miejsc pracy. Jeśli branża straci 1 milionów stanowisk pod koniec marca 2020 r., a w przypadku 10 użytkowników nie zmieniła się miesięcy i zyskuje 900 tys. miejsc pracy z powrotem na początku lutego 2021 r., rok do roku. dane z początku marca 2021 r. wskazują na spadek liczby miejsc pracy w restauracjach tylko o 5%. Zakładając brak innych zmian, porównanie rok do roku na koniec lutego W 2022 r. szacowaliby oni 90-procentowy wzrost liczby zatrudnionych w restauracjach, co jest zupełnie innym wynikiem. obrazu rzeczywistości.

Preferuj liczby rzeczywiste, znormalizowane odpowiednio do potrzeb. Patrz sekcja Praca z danymi liczbowymi Cata aby dowiedzieć się więcej.

Błąd post-hoc i bezużyteczne korelacje

Błąd post-hoc to założenie, że ponieważ po zdarzeniu A poprzedzało zdarzenie B, zdarzenie A wywołało zdarzenie B. Mówiąc prościej, przy założeniu, związek przyczynowo-skutkowy, w którym taka relacja nie istnieje. Jeszcze prościej: to nie dowodzą, że to przyczyna.

Oprócz jasnej relacji przyczyna-efekt, korelacje mogą również powstaną z:

  • Czysty przypadek (zobacz film Tylera Vigena Oszukańcze korelacje ilustracji, w tym silny związek między współczynnikiem rozwodów. w Maine i margarynie).
  • Prawdziwa zależność między dwiema zmiennymi, chociaż nie jest jasne, która jest przyczynowa i zależy od tego,
  • Trzecia, osobna przyczyna, która wpływa na obie zmienne. skorelowane zmienne nie są ze sobą powiązane. Globalna inflacja może na przykład podnieść ceny jachtów i selera6.

Ryzyko jest też ekstrapolowanie korelacji na podstawie dotychczasowych danych. Zauważ, że trochę deszczu poprawi plony, ale zbyt dużo deszczu, żeby uszkodzić plony ich; zależność między opadami deszczu i uprawami jest nieliniowa7. (Zobacz kolejnych dwóch sekcji, aby dowiedzieć się więcej o relacjach nieliniowych). Jonesem zauważa, że świat jest pełen nieprzewidywalnych wydarzeń, takich jak wojna i głód, sprawią, że prognozy danych ciągów czasowych w przyszłości ogromnej niepewności8.

Co więcej, nawet autentyczna korelacja wynikająca z przyczyn i skutków może pomaga w podejmowaniu decyzji. Huff uwzględnia na przykład korelację między możliwość małżeństwa i edukacji w uczelniach wyższych w latach 50. Kobiety, które odwiedziły studentów byłaby mniej skłonne do ślubu, ale nie mogło tak być. że kobiety, które chodziły na studia, były mniej skłonne do małżeństw na początku. W takiej sytuacji prawdopodobieństwo wyższego poziomu nie wpłynęło na wykształcenie uniwersyteckie ślubu9.

Jeśli analiza wykryje korelację między 2 zmiennymi w zbiorze danych, zadaj pytanie:

  • Jakiego rodzaju jest zależność: przyczynowo-skuteczna, nieuczciwa, nieznana? czy wynika z trzeciej zmiennej?
  • Jak ryzykowna jest ekstrapolacja danych? Każda prognoza modelu dotycząca danych nie znajduje się w zbiorze danych treningowych, jest więc interpolacją lub ekstrapolacji danych.
  • Czy korelację można wykorzystać do podejmowania użytecznych decyzji? Przykład: optymizm może być silnie skorelowany ze wzrostem płac, ale analiza nastawienia w przypadku niektórych dużych zbiorów danych tekstowych, takich jak media społecznościowe postów użytkowników w konkretnym kraju, nie byłoby przydatne do prognozowania podwyżek płac w danym kraju.

Podczas trenowania modelu osoby zajmujące się ML zwykle szukają cech, które są są ściśle powiązane z etykietą. Jeśli relacja między cechami a etykieta nie jest dobrze znana, może to prowadzić do problemów opisanych w tej sekcji, w tym modele oparte na fałszywych korelacjach i modelach które zakładają, że trendy historyczne będą się utrzymywać w przyszłości, podczas gdy w rzeczywistości których nie wolno robić.

Wpływ liniowy

W „Myślenie linearne w świecie nieliniowym”, Bart de Langhe, Stefano Puntoni i Richard Larrick opisują tendencyjność liniową jako to tendencja ludzkiego mózgu do oczekiwania i wyszukiwania zależności liniowych, chociaż wiele zjawisk jest nieliniowych. Związek między ludzkimi postawami jest np. krzywą wypukłą, a nie linię. W 2007 r. Journal of artykuł dotyczący polityki konsumenckiej, przytoczony przez de Langhe i in., Jenny van Doorn i in. modelowanie zależności między respondentami ankiety obawy o a następnie na zakupy produktów organicznych. Jeśli najbardziej ekstremalne obawy o środowisko kupowały więcej produktów ekologicznych, ale bardzo niewiele różni się od wszystkich pozostałych respondentów.

zakupy produktów organicznych a ocena wpływu na środowisko,
  przedstawia głównie płaską linię z ostrym wypukłym krzywą u góry po prawej stronie
Wykres w porównaniu z oceną problemów ekologicznych został uproszczony i zaadaptowany na podstawie badań van Doorn i in. dokument

Projektując modele lub badania, weź pod uwagę możliwość wystąpienia relacji. Ponieważ testy A/B może przegapić relacje nieliniowe, warto również przetestować trzeci, pośredni, warunek, C. Zastanów się też, czy początkowe działanie, które pojawia się będzie nadal liniowy, czy też przyszłe dane które są bardziej logarytmiczne lub nieliniowe.

Dopasowanie liniowe dla danych logarytmicznych, dobrze dopasowane do pierwszej wartości
  danych, a potem coraz gorzej.
Przykład słabego dopasowania liniowego do danych logarytmicznych

Ten hipotetyczny przykład pokazuje błędne dopasowanie liniowe dla danych logarytmicznych. Gdyby dostępnych było tylko kilka pierwszych punktów danych, oba rozwiązania byłyby kuszące i nie jest prawidłowy, aby zakładać stałą liniową zależność między zmiennymi.

Interpolacja liniowa

Zbadaj interpolację między punktami danych, ponieważ interpolacja wprowadza fikcyjne punkty, a odstępy między prawdziwymi pomiarami mogą mogą mieć znaczące wahania. Weźmy jako przykład te informacje: wizualizacja czterech punktów danych połączonych z interpolacjami liniowymi:

Amplituda w czasie pokazująca 4 punkty połączone linią prostą.
Przykład interpolacji liniowej.

Przeanalizujmy ten przykład wahań między punktami danych, które są usunięte przez interpolację liniową:

Tak samo jak wcześniej, ale między drugim a trzecim punktem występują ogromne wahania.
Przykład znaczących wahań (trzęsienia ziemi) między punktami danych.

Ten przykład ma zastosowanie, ponieważ sejsmografy zbierają dane w sposób ciągły, tego trzęsienia ziemi nie byłoby przypadkiem. Pomaga on jednak zilustrować założenia oparte na interpolacjach oraz rzeczywiste zjawiska, które mogą przegapić.

Fenomenalna runge

Fenge'a, znane jako „ruch wielomianowy”. stanowi problem po drugiej stronie z interpolacji liniowej i odchylenia liniowego. Podczas dopasowywania wielomianu interpolacja do danych, można użyć wielomianu o zbyt dużym stopniu (stopień lub rząd, będący najwyższym wykładnikiem w równaniu wielomianowym). Ten generuje nieparzyste oscylacje na krawędziach. Na przykład zastosowanie interpolacja wielomianowa stopnia 11, co oznacza, że hasło najwyższego rzędu równanie wielomianowe ma \(x^{11}\)(w przybliżeniu danych liniowych), daje wynik ale bardzo błędne prognozy na początku i końcu zakres danych:

Mniej więcej liniowy
  z interpolacją wielomianową 11 stopnia, wykazującą wyraźną
  gwałtowny wzrost między dwoma pierwszymi punktami danych i gwałtowny wzrost
  między dwoma ostatnimi punktami danych
Przykład poruszenia wielomianu

W kontekście systemów uczących się analogiczny zjawisko to zbyt dużych rozmiarów.

Niepowodzenia statystyczne do wykrycia

Czasami test statystyczny może być zbyt za mały, by wykryć ma niewielki wpływ. Mała moc w analizie statystycznej oznacza małe szanse na prawidłową identyfikowanie prawdziwych zdarzeń, co zwiększa prawdopodobieństwo wyniku fałszywie negatywnego. Katherine Button i in. w Przyrodzie: „Jeśli badania w danej dziedzinie zaprojektowane z potęgą 20%, oznacza to, że jeśli jest 100 autentycznych wartości innych niż null efekty będą widoczne w tej dziedzinie, a badania te powinny ujawnić tylko 20 z nich”. Zwiększenie wielkości próbki może pomóc, ale może się zdarzyć, projektowanie badań.

Analogiczną sytuacją w systemach uczących się jest problem klasyfikacji oraz wybór progu klasyfikacji. Wybór wyższego progu skutkuje mniej wyników fałszywie pozytywnych i więcej wyników fałszywie negatywnych, podczas gdy niższy próg daje wyniki pod względem większej liczby wyników fałszywie pozytywnych i mniejszej liczby wyników fałszywie negatywnych.

Oprócz problemów z mocą statystyczną, ponieważ korelacja jest przeznaczone do wykrywania zależności liniowych, nieliniowych zmiennych. Zmienne mogą być też powiązane z poszczególnymi wartościami które nie są skorelowane statystycznie. Zmienne mogą być też są skorelowane negatywnie, ale zupełnie niepowiązane w zakresie Paradoks Berksona lub błąd Berksona. Klasyczny przykład kodu Berksona błąd to celowa negatywna korelacja między i poważną chorobę w kontekście populacji szpitali (np. w porównaniu z ogólną populacją), co wynika z procesu selekcji ( na tyle ciężkie, by wymagać przyjęcia do szpitala).

Zastanów się, czy ma miejsce któraś z tych sytuacji.

Nieaktualne modele i nieprawidłowe założenia

Nawet dobre modele mogą z czasem ulec pogorszeniu, ponieważ ich działanie (oraz świat, mają znaczenie). Wczesne modele prognozujące Netflixa musiały zostać wycofane, w bazie klientów zmienili się ze młodych użytkowników obeznanych technologicznie z użytkowników ogólnych populacja.10

Modele mogą też zawierać ciche lub niedokładne założenia, które mogą pozostać ukryte do katastrofalnej awarii modelu, takiej jak katastrofa na rynku w 2008 roku. używane w branży finansowej modele wartości ryzyka (VaR), które pozwalają dokładnie szacować maksymalnej straty w portfelu inwestora, np. maksymalnej $100 000 oczekuje się w 99% przypadków. Ale w nietypowych warunkach katastrofy, portfel z oczekiwaną maksymalną stratą $100 000 czasem zrzucono 1 000 000 USD i więcej.

Modele VaR opierały się na błędnych założeniach, w tym:

  • Wcześniejsze zmiany na rynku pozwalają przewidzieć przyszłe zmiany na rynku.
  • Rozkład normalny (skrócony, a tym samym przewidywalny) był które są podstawą prognozowanych zwrotów.
Rozkład von Misesa z wartością k=5, który przypomina rozkład Gaussa, oraz bardziej płaski rozkład k=1 i k=0.2.
Wykres rozkładu von Misesa z cienkim ogonem przy wysokim K i cienkim ogonem przy niższym K.

W rzeczywistości bazowy rozkład był oparty na dużych ogonach, czyli fraktal, co oznacza, że istnieje znacznie większe ryzyko długiego ogona, ekstremalnego i rzekomo rzadkie zdarzenia, niż można przewidzieć przy normalnym rozkładzie. Tętno-ogoniastą natura rzeczywisty rozkład był dobrze znany, ale nie podejmowano żadnych działań. Co było gorsze jak złożone i ściśle powiązane są różne zjawiska, oparte na komputerach z automatycznymi sprzedażą11.

Problemy z agregacją

Dane zbiorcze obejmujące większość danych demograficznych i epidemiologicznych są objęte określonym zestawem pułapek. paradoks Simpsona, paradoks grupowania występuje w danych zbiorczych, w których widoczne trendy znikać lub odwracać, gdy dane są agregowane na innym poziomie ze względu na: mylących czynników i niewłaściwie zrozumiałych związków przyczynowo-skutkowych.

Błąd ekologiczny polega na błędnej ekstrapolacji informacji na temat populacji na jednym poziomie agregacji na innym poziomie agregacji, gdzie wartość roszczenie może być bezpodstawne. Choroba, która dotyka 40% pracowników rolniczych jedna prowincja może nie występować z taką samą częstością występowania w większej populacji. Bardzo prawdopodobne jest również, że będą istnieć odizolowane gospodarstwa rolne miasteczek rolniczych w danej prowincji, w których nie ma podobnie wysokich wskaźników, częstość występowania tej choroby. Przyjmijmy, że 40-procentowa częstotliwość występowania w grupach byłoby błędne.

Problem z modyfikowalną jednostką organizacyjną (MAUP) jest dobrze znanym problemem w danych geoprzestrzennych, które opisał Stan Openshaw w 1984 r.: CATMOG 38. W zależności od kształtów i rozmiarów używanych obszarów danych zbiorczych, specjalista ds. danych geoprzestrzennych może określić niemal każdy, korelacji między zmiennymi w danych. Głosowanie tzw. okręgi wyborcze, które faworyzują jedną lub drugą partię.

Wszystkie te sytuacje wiążą się z nieodpowiednią ekstrapolacją do innego poziomu agregacji. Różne poziomy analizy mogą wymagać różnych agregacje, a nawet całkowicie różne zbiory danych12.

Pamiętaj, że statystyki demograficzne, dane demograficzne i epidemiologiczne agregowane według stref ze względu na ochronę prywatności oraz że strefy te są często tzn. nie są oparte na istotnych granicach świata rzeczywistego. Kiedy pracujący z tymi typami danych, specjaliści ds. systemów uczących się powinni sprawdzić, czy model wydajność i prognozy zmieniają się w zależności od rozmiaru i kształtu stref wybrany lub poziom agregacji, a jeśli tak, to czy prognozy modelu których dotyczy jeden z tych problemów z agregacją.

Pliki referencyjne

Button, Katharine i in. „Awaria zasilania: dlaczego mała próbka ma negatywny wpływ na i wiarygodności neuronauki”. Przyroda Recenzje Neuroscience, tom 14 (2013), 365–376. Identyfikator DOI: https://doi.org/10.1038/nrn3475

Kair, Alberto. Jak wykresy kłamią: jak lepiej prezentować informacje wizualne Nowy Jork: Z.W. Norton, 2019 r.

Davenport, Thomas H. „A Predictive Analytics Primer”. W przewodniku HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018 r.) 81–86.

De Langhe, Bart, Stefano Puntoni i Richard Larrick. „Myślenie linearne w świecie nieliniowym”. Artykuł HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018 r.) 131–154.

Ellenberg, Jordania. Jak nie być błędnym: moc myślenia matematycznego. Nowy Jork: Penguin, 2014 r.

Uff, Darrell. Jak leżeć na statystykach. Nowy Jork: Norton, 1954 r.

Jones, Ben. Unikanie błędów związanych z danymi. Hoboken, NJ: Wiley, 2020 r.

Openshaw, Stan. „The Modifiable Areal Unit Problem”, CATMOG 38 (Norwich, Anglia: Geo Books 1984) 37.

The Risks of Financial Modeling: VaR and the Economic Meltdown, X11 Kongres (2009) (zeznania Nassima N. Taleb i Richard Bookstaber).

Ritter, Dawid. „Kiedy podejmować działania na korelację, a kiedy nie”. W przewodniku HBR po Podstawy analizy danych dla menedżerów (Boston: HBR Press, 2018 r.) 103–109.

Tulczinsky, Theodore H. i Elena A. Varavikova. „Rozdział 3. Pomiary, monitorowanie i ocena zdrowia populacji” The New Public Health, wersja 3 San Diego: Academic Press, 2014, s. 91-147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

Van Doorn, Justyna, Piotr C. Verhoef, Tammo H. A. Bijmolt. „Znaczenie nieliniowe zależności między nastawieniem a zachowaniem w zasadach badania”. Journal of Consumer Policy 30 (2007) 75–90. DOI: https://doi.org/10.1007/s10603-007-9028-3

Odniesienie do obrazu

Na podstawie „Von Mises Distribution”. Rainald62, 2018. Źródło


  1. Ellenberg 125. 

  2. Huff 77-79. Huff cytuje Biuro ds. badań opinii publicznej Princeton, ale myślał o tym, Raport z kwietnia 1944 r. przez National Opinion Research Center na Uniwersytecie w Denver. 

  3. Tulczyński i Warawikowa. 

  4. Gary Taubes Czy naprawdę wiemy, co sprawia, że jesteśmy zdrowi?” w The New York Times Magazine, 16 września 2007 r.

  5. Ellenberg 78. 

  6. Yyy 91–92. 

  7. Hmm, 93. 

  8. Jones 157-167. 

  9. Hmm, 95. 

  10. Davenport 84. 

  11. Zobacz zeznanie Kongresu Nassima N. Taleb i Richard Bookstaber, artykuł The Risks of Financial Modeling: VaR and the Economic Meltdown, 111th Congress (2009) 11–67.

  12. Cairo 155, 162.