Myślenie o pułapkach

Ludzie podlegają uprzedzeńom poznawczym ze względu na bycie człowiekiem. Są to na przykład: racjonalizacji i potwierdzenia. „Racjonalizacja” pisze Alberto Cairo jest domyślnym trybem pracy ludzkiego mózgu”.1 Bardzo często ludzie oczekują konkretnego wyniku, a potem poszukaj danych lub dowodów na jego poparcie.

Podczas pracy z danymi i modelami oraz ich ocenami, które mogą pochodzić z wielu źródeł spytaj o potencjalne źródła uprzedzeń. Na przykład:

  • Kto finansuje ten model lub badanie? Co to jest rynek lub komercyjna aplikacji?
  • Jakiego rodzaju zachęty są objęte osoby biorące udział w zbieraniu danych?
  • Jakiego rodzaju zachęty są dostępne dla badaczy trenujących model? lub prowadzenia badania, w tym publikacji i czasu trwania?
  • Kto licencjonuje model lub publikuje badanie zachęty?

Opisowe statystyki

Średnia (suma wartości podzielona przez liczbę), mediana (wartość środkowa, gdy wartości są uporządkowane), a mode (najczęściej występująca wartość) jest często przydatny, i określenie kształtu zbioru danych. Jeśli mediana i średnia są daleko na przykład, mogą występować dość ekstremalne i asymetryczne wartości ustawiony.

zakres, czyli różnicę między najwyższą a najniższą wartością – i wariancję, która jest różnicą średniokwadratową. między każdą wartością a średnią zbioru, dostarczają także przydatnych informacji rozmieszczenie i kształt zbioru danych.

Zanim wytrenujesz model na swoich danych, zapytaj, czy zbiór danych niezrównoważony a jeśli tak – czy ten brak równowagi należy rozwiązać.

Prawdopodobieństwo nieprawdopodobieństw i wartości p

Jeśli dostatecznie dużo czasu i szansy pojawi się nieprawdopodobne zdarzenie staje się bardzo prawdopodobne. Zobacz teoretyczne Oszustwo związane z makaronem giełdowym Baltimore dla jednego możliwego przykładu.

Zgodnie z konsensusem naukowym wynik jest uznawany za statystycznie istotny (oraz w związku z czym jest możliwa do publikacji), gdy wartość p jest mniejsza niż 0,05. Oznacza to, że istnieje wynosi mniej niż 5% prawdopodobieństwa wystąpienia takich samych lub jeszcze większych skrajności wyników w hipoteza zerowa, czyli wynik przypadku. Bardziej potocznie: badacze mogą publikować treści tylko wtedy, gdy istnieje 1/20 szansy na to, że Ich wyniki są wynikiem losowości. Z kolei, co bardziej niepokoją, mniej więcej raz na dwadzieścia eksperymentów, wówczas wynikiem będzie fałszywy wynik. jest istotne, choć nie. Pozostałe dziewiętnaście wyników opublikowano. W pracy z 2005 r. „Dlaczego większość wyników badawczych jest fałszywa”, John Ioannidis uwzględnił wiele czynników – od statystyk po finansowe, przyczyniając się do opublikowania fałszywych wyników.

Na przykład ze względu na silną motywację do publikacji badacze mogą czasem p-wartości około 0,05, aby spadły poniżej tego progu. Opublikowane badanie które mają na celu uzyskanie nieoczekiwanych i nietypowych wyników, nie da się powielić (a tym samym prawdopodobnie skutkiem przypadku), co sprawiło, do kryzysu zaufania, w wielu polach. Doprowadziło to również do powstania zajmujące się testowaniem odtwarzalności.

W dziedzinie ML modele są uznawane za nowoczesne tylko wtedy, gdy spełniają niż w przypadku większości innych modeli konkurencyjnych. Jest w związku z wynikami oceny modelu mogą wystąpić podobne naciski, może zostać sztucznie wzmocniona przez wyciek danych porównawczych2.

Wartości P mogą być przydatne przy wyborze cech dla modeli regresji. ANOVA (Analiza wariancji) to metoda statystyczna, która porównuje wariancję w grupach, aby uzyskać wariancję między grupami, zwracając wartość statystyczne F i wartości p dla każdej cechy. Wybór najważniejszych cech przy najniższych wartościach p może zmniejszyć liczby cech, które model musi wziąć pod uwagę, bez utraty wielu funkcji prognozowania . Pozwala to zaoszczędzić moc obliczeniową i wyeliminować problem zbyt wielu funkcji, omawiamy w dalszej sekcji. Zobacz listę scikit Więcej informacji znajdziesz w przewodniku po wyborze funkcji.

Problem z wieloma porównaniami

Problem ten jest szczególnie poważny w sytuacjach, wiele porównań z hipotezą zerową jest przeprowadzanych jednocześnie obecnie się znajdujesz. Jest to szczególnie istotne w badaniach fMRI.

W ramach rezonansu magnetycznego każdy woksel (jednostkę objętości) mózgu sprawdzamy niezależnie pod kątem istotności statystycznej aktywność, jeśli tak jest. Prowadzi to do wartości w kolejności 100 000 niezależnych testów istotności przeprowadzonych jednocześnie. Na p=0,05 próg istotności, teoria statystyczna zakłada około 5000 fałszywych pozytywny wynik w pojedynczym badaniu fMRI3.

Problem najlepiej zilustrował prawdopodobnie dokument Bennett i inni z 2009 r. plakat, „Neuronowe korelacje z perspektywy międzygatunkowej analizując pośmiertne łososia atlantyckie”. który wygrał Ig Nagrody Nobla. Naukowcy przedstawili 15 zdjęć ludzi znajdujących się w bardzo emocjonalnych sytuacjach dotyczących martwego łososia w urządzeniu do badania rezonansu magnetycznego (fMRI). prosząc martwego łososia o określenie emocji, które przedstawia przedstawiany człowiek różnych istot. Znalazli istotny statystycznie klaster aktywnych wokseli w jamie mózgowej łososia, z wystawionym językiem. że martwy łosoś rzeczywiście zajmował się ekscytacją wiarygodnością. Mówiąc poważnie, badacze zwracali uwagę na problem wielokrotnych porównań obrazowanie za pomocą rezonansu magnetycznego i podobnych sytuacji związanych z obrazowaniem oraz konieczność stosowania środków zaradczych.

Jedno oczywiste, bardzo ziarniste rozwiązanie jest obniżenie progu p, który wskazuje istotność. Nieodłączne kompromis między czułością (rejestrowanie wszystkich wyników prawdziwie pozytywnych) a specyficznością (identyfikowanie wszystkich wyników prawdziwie negatywnych). Dyskusja na temat wrażliwości, nazywanej też współczynnik prawdziwie dodatni, znajdziesz w module klasyfikacji w ramach szybkiego szkolenia z zakresu uczenia maszynowego.

Innym środkiem zaradczym jest kontrolowanie odsetka błędów rodzinnych (FWER), które to prawdopodobieństwo przynajmniej jednego wyniku fałszywie dodatniego. Inna funkcja kontroluje współczynnik fałszywych wykrywania (FDR) lub oczekiwany odsetek wyników fałszywie pozytywnych. do wszystkich plusów. Zobacz dane na temat zarządzania i polityki rozwiązywanie problemu z wieloma porównaniami, oraz Lindquist i Mejia's „Zen i sztuka wielokrotnych porównań”, , gdzie znajdziesz wyjaśnienia tych metod i kilka przewodników. W tej sytuacji z martwym łososiem, kontrola nad FDR i FWER pokazała, że nie było żadnych wokseli. jest jednak istotna statystycznie.

Trenowanie modeli ML na skanach za pomocą rezonansu magnetycznego i innych metod obrazowania popularne zarówno w diagnostyce medycznej4, jak i przy rekonstruowaniu obrazów na podstawie aktywności mózgu5.Jeśli te modele są trenowane na odpowiednio dużych zbioru danych, może zmniejszyć prawdopodobieństwo wystąpienia problemów równa się problemowi. Jednak, zwłaszcza w dziedzinie diagnozy, model może generować niedokładne wnioskowanie na temat nowych pojedynczych skanów, jeśli 20% aktywności jest „aktywne” woksele są rzeczywiście fałszywie pozytywne. Pamiętaj, że klasyfikacja fMRI do diagnostyki modele opisane w Li i Zhao mają dokładność ok. 70–85%.

Zbyt wiele zmiennych w analizie regresji

Problem z wieloma porównaniami obejmuje też analizę wielu regresji. analizę regresji; regresja liniowa, jest podstawą wielu numerycznych modeli prognozujących. Analiza regresji wykorzystuje jedną z kilku metod, np. tzw. najmniejsze kwadraty, aby znaleźć współczynnik regresji, który najlepiej opisuje, jak jedna zmienna wpływa innego użytkownika. Naukowcy mogą zapytać, jak wiek i palenie tytoniu wpływają na współczynnik raka płuc, przedstawiają każdy czynnik jako zmienną w analizie regresji nowotworu wśród osób palących i niepalących w różnym wieku. Model regresji liniowej działa podobnie i w związku z tym możliwy do zinterpretowania w porównaniu z innymi typami modeli ML. Znajdowanie regresji współczynniki tych zmiennych będą opisywać zależności liniowe między tych zmiennych i częstości raka płuc.

Uwzględnienie wszystkich możliwych zmiennych w analizie regresji może być kuszące, nie tylko dlatego, że nieuwzględnienie czynnika o znaczeniu krytycznym może sprawić, jest pomijana. Jednak dodanie zbyt wielu zmiennych do analizy regresji zwiększa prawdopodobieństwo pojawienia się nietrafnej zmiennej istotne. Jeśli dodamy do naszej analizy 18 kolejnych nieistotnych zmiennych, takich jak „obejrzane filmy” i „Posiadanie psów” prawdopodobnie jedna z tych osób nietrafne zmienne przez przypadek, mogą wydawać się powiązane z częściej występuje rak płuc6.

W kontekście systemów uczących się analogiczna sytuacja dotyczy nadania zbyt wielu funkcji model, co może spowodować nadmierne dopasowanie, czy radzą sobie z innymi problemami.

Wnioski i podejmowanie decyzji

Jednym ze sposobów na uniknięcie niektórych z tych pułapek myślowych jest przeanalizowanie statystyk i systemów uczących się modele oparte na statystykach, używane jako narzędzia do podejmowania decyzji, niż odpowiadać na pytania. To było pozycji zajętego przez Jerzego Neymana i Egona Sharpe'a Pearsona7.

W ramach tej struktury dane i statystyki dotyczące danych oraz pochodne, w tym modele ML, nadają się do tworzenia prawdopodobnych prognoz, odrzucenie uniwersalnych stwierdzeń, ulepszanie i skupianie się badawczych i pomagających w podejmowaniu decyzji. Nie są odpowiednie za składanie twierdzeń na temat prawdy.

Według Davida Rittera decyzje oparte na korelacjach nawet ogromnych ilość danych powinna być uzależniona od 2 czynników:

  • „Pewność, że w przyszłości korelacja niezawodnie się powtórzy” który powinna zależeć od częstotliwości występowania tej korelacji przeszłość i dokładne zrozumienie tego, co powoduje daną korelację.
  • Ryzyko i korzyści wynikające z działania8.

I podobnie, nie wszystkie pytania badawcze nadają się do zastosowania w AI. Anastazja Filip wyróżnia 2 kryteria dotyczące problemu odpowiedniego z AI:

  • Zadanie wymaga prognozowania, a nie zrozumienia zależności przyczynowych.
  • Dane przesyłane do AI zawierają wszystkie, co trzeba wiedzieć o problem; oznacza, że problem jest autonomiczny9.

Pliki referencyjne

Bennett, Craig M., Abigail A. Baird, Michael B. Miller, George L. z Wolford. „Neuronowe korelacje z perspektywy międzygatunkowej w okresie pośmiertnych Łosoś atlantycki: argument dotyczący korekty wielu porównań”. Neuroimage (2009).

Kair, Alberto. Jak wykresy kłamią: jak lepiej prezentować informacje wizualne Nowy Jork: Z.W. Norton, 2019 r.

Davenport, Thomas H. „A Predictive Analytics Primer”. W przewodniku HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018 r.) 81–86.

Ellenberg, Jordania. Jak nie być błędnym: moc myślenia matematycznego. Nowy Jork: Penguin, 2014 r.

Fedyk, Anastassia. „Czy uczenie maszynowe może rozwiązać problem biznesowy?” W HBR Guide to Data Analytics Basics for Managers for Managers (Boston: HBR Press, 2018 r.) 111–119.

Gallo, Amy. „A Odświeżing on Statistical Isificance” (Odświeżanie istotności statystycznej) W przewodniku HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018 r.) 121–129.

Uff, Darrell. Jak leżeć na statystykach. Nowy Jork: Norton, 1954 r.

Ioannidis, John P.A. „Dlaczego większość opublikowanych wyników badań to fałsz”. W PLoS Med 2 nr 8: e124.

Jones, Ben. Unikanie błędów związanych z danymi. Hoboken, NJ: Wiley, 2020 r.

Li, Jiangxue i Peize Zhao. „Zastosowania deep learning na potrzeby rezonansu magnetycznego – analiza pracy” ICBBB 2023 (Tokio, Japonia, 13–16 stycznia 2023 r.): 75–80. https://doi.org/10.1145/3586139.3586150

Lindquist, Martin A. i Amanda Mejia. „Zen i sztuka wielokrotnych porównań”. Medycyna psychosomatyczna 77 n. 2 (luty–marzec 2015 r.): 114–125. doi: 10.1097/PSY.0000000000000148.

Ritter, Dawid. „Kiedy podejmować działania na korelację, a kiedy nie”. W przewodniku HBR po Podstawy analizy danych dla menedżerów (Boston: HBR Press, 2018 r.) 103–109.

Tagaki, Yu i Shinji Nishimoto. „Rekonstrukcja obrazu w wysokiej rozdzielczości z użyciem modeli dyfuzji utajonej pochodzących z aktywności ludzkiego mózgu”. Konferencja IEEE/CVF 2023 w dniu Computer Vision and Pattern Recognition (Vancouver, BC, Kanada, 2023 r.): 14453-14463. doi: 10.1109/CVPR52729.2023.01389.

Wheelan, Charles. Nagłe statystyki: jak wyeliminować strach z danych. Nowy Jork: Z.W. Norton, 2013

Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen, Yankai Lin, Ji-Rong Wen i Jiawei Han. „Nie zachęcaj LLM do testowania porównawczego”. arXiv:2311.01964 cs.CL.


  1. Kair 182. 

  2. Zhou i in.

  3. Lindquist i Mejia. 

  4. Li i Zhao 77-78. 

  5. Tagaki i Nishimoto. 

  6. Wheelan 221. 

  7. Ellenberg 159. 

  8. Poradnik Ritter 104. 

  9. Fedyk 113.