Os seres humanos estão sujeitos a vieses cognitivos em virtude de serem humanos, incluindo de racionalização e confirmação. Alberto Cairo escreve: "Racionalização é o modo padrão do cérebro humano."1 Muitas vezes, as pessoas esperam ou querem resultado específico, então procure dados ou evidências que apoiem esse resultado.
Ao trabalhar ou avaliar dados e modelos, que podem vir de muitas diferentes fontes, pergunte sobre possíveis fontes de viés. Exemplo:
- Quem está financiando este modelo ou estudo? Qual é o mercado ou a posição do aplicativo?
- Que tipos de incentivos existem para as pessoas envolvidas na coleta de dados?
- Que tipos de incentivos existem para os pesquisadores que treinam o modelo ou na realização do estudo, incluindo publicação e permanência?
- Quem está licenciando o modelo ou publicando o estudo e quais são incentivos?
Estatísticas descritivas
Média (soma dos valores divididos pela contagem), mediana (valor médio, quando valores são ordenados) e mode (valor mais frequente) são muitas vezes úteis em ter uma noção da forma do conjunto de dados de alguém. Se a mediana e a média forem muito além, por exemplo, pode haver valores bastante extremos e assimétricos definido.
O intervalo, que é a diferença entre os valores mais alto e mais baixo, e a variância, que é a diferença ao quadrado médio entre cada valor e a média do conjunto, também fornecem informações úteis sobre o a propagação e a forma do conjunto de dados.
Antes de treinar um modelo com seus dados, pergunte também se o conjunto de dados desequilibrado e, em caso afirmativo, se esse desequilíbrio deve ser tratado.
Improbabilidades prováveis e valores-p
Com tempo e chances suficientes, a ocorrência de um improvável se torna muito provável. Consulte a parte teórica Golpe da corretora de valores de Baltimore um exemplo possível.
Por consenso científico, um resultado é considerado estatisticamente significativo (e portanto, publicável) quando o valor-p for menor que 0,05. Isso significa que há um Menos de 5% de chance de o mesmo resultado, ou mais um extremo, ocorrer no hipótese nula, ou seja, como resultado do acaso. Em outras palavras, os pesquisadores só poderão publicar se houver uma chance de 1 em 20 ou menos que os resultados são o resultado da aleatoriedade. Como alternativa, e mais alarmante, cerca de uma vez a cada vinte experimentos, um resultado falso será significativa, embora não seja, e os outros 19 resultados não serão publicadas. Em um artigo de 2005, "Why Most Research Findings Are False", John Ioannidis explicou vários fatores, de estatísticas a financeira, contribuindo para a publicação de resultados espúrios.
Por exemplo, devido aos fortes incentivos para publicar, os pesquisadores às vezes zombam valores-p em torno de 0,05 fiquem abaixo desse limite. Outras vezes, um estudo publicado resultados, que naturalmente selecionam resultados inesperados e incomuns, acabam não ser replicável (e, portanto, possivelmente um resultado do acaso), o que levou a uma crise de confiança em vários campos. Isso também levou à criação de organizações dedicadas a testar a reprodutibilidade.
No campo do ML, os modelos só são considerados de última geração se atendem ou superam os comparativos de mercado de avaliação da maioria dos outros modelos competitivos. Está possíveis pressões semelhantes em torno das pontuações de avaliação do modelo, podem ser aumentadas artificialmente por vazamentos de comparativos de mercado.2
Os valores-p podem ser úteis na seleção de atributos de modelos de regressão. ANOVA (Análise de variância) é um método estatístico que compara variância dentro de grupos à variância entre os grupos, retornando uma F-estatística e valor-p para cada atributo. Escolher os atributos mais significativos, com os valores p mais baixos, pode reduzir o número de atributos que um modelo precisa considerar, sem perder recursos de poder Isso economiza computação e evita o problema de muitos atributos, discutidos em uma seção posterior. Consulte as Guia de seleção de recursos para mais detalhes.
O problema de várias comparações
O problema do limite de significância é particularmente grave em situações em que várias comparações com a hipótese nula estão sendo realizadas no mesmo tempo de resposta. Essa é uma questão específica dos estudos de fMRI.
Em uma fMRI, cada vóxel (unidade de volume) do cérebro é testada de forma independente para atividade e destacados se sim. Isso leva a algo na ordem de 100.000 testes de significância independentes sendo realizados ao mesmo tempo. Com um p=0,05 e a teoria estatística espera aproximadamente 5.000 valores falsos positivos que aparecem em uma única FMRI.3
Provavelmente, o problema é melhor ilustrado com o estudo de 2009 Bennett et al., pôster, "Neural Correls of Interspecies Perspeciestake in the post-mortem Atlantic Salm (Correlações neurais da perspectiva de interespécies com o salmão do Atlântico post-mortem), que ganhou o Ig Prêmio Nobel. Os pesquisadores mostraram 15 fotografias humanos em situações muito emocionais a um salmão morto em uma fMRI, perguntando ao salmão morto para determinar quais emoções o humano retratado que os seres humanos estavam vivenciando. Eles encontraram um grupo com significância estatística de voxels ativos na cavidade cerebral do salmão e, concluído, língua na bochecha, que o salmão morto estava realmente tendo uma perspectiva. Para ser mais sério, os pesquisadores estavam chamando a atenção para o problema de múltiplas comparações FMRI e situações de imagens semelhantes, além da necessidade de mitigações.
Uma solução óbvia de baixa granularidade é diminuir o valor-p limite que indica significância. O inerente a compensação é entre sensibilidade (capturar todos os verdadeiros positivos) e especificidade (identificação de todos os verdadeiros negativos). Uma discussão sobre sensibilidade, também chamada de taxa de verdadeiro positivo, podem ser encontrados no módulo Classificação do curso intensivo de machine learning.
Outra mitigação é controlar a taxa de erro familiar (FWER), que é a probabilidade de pelo menos um falso positivo. Outro é controlar taxa de descoberta falsa (FDR, na sigla em inglês) ou a proporção esperada de falsos positivos. a todos os positivos. Veja evidências em governança e política" guia para o problema de várias comparações, assim como as de Lindquist e Mejia "Zen e a arte de várias comparações", para explicações sobre esses métodos e alguns tutoriais. Na situação com o salmão morto, o controle para FDR e FWER mostrou que nenhum vóxel havia, de fato, estatisticamente significativos.
O treinamento de modelos de ML em exames de ressonância magnética e outros métodos de geração de imagens é cada vez mais frequente. muito usada na área do diagnóstico médico4 e na reconstrução de imagens com base na atividade cerebral.5 Se esses modelos forem treinados em uma conjunto de dados, isso pode reduzir a probabilidade de problemas dos vários problema de comparações. No entanto, principalmente na área dos diagnósticos, o modelo poderá fazer inferências imprecisas em novas verificações individuais se 20% dos estados "ativos" voxels são, na verdade, falsos positivos. A classificação diagnóstica da FMRI os modelos descritos em Li e Zhao têm precisão de aproximadamente 70% a 85%.
Muitas variáveis na análise de regressão
O problema de múltiplas comparações se estende à análise de regressão múltipla. Análise de regressão, ou regressão linear, e são a espinha dorsal de muitos modelos preditivos numéricos. A análise de regressão usa um dos vários métodos, como mínimos quadrados comuns, para encontrar o coeficiente de regressão que melhor descreve como uma variável afeta outra. Os pesquisadores podem perguntar como a idade e o tabagismo afetam as taxas de câncer de pulmão que representam cada fator como uma variável em uma análise de regressão do câncer de fumantes e não fumantes de várias idades. Um modelo de regressão linear funciona da mesma forma e, portanto, é altamente interpretável em comparação com outros tipos de modelos de ML. Como encontrar a regressão coeficientes dessas variáveis descreverão as relações lineares entre essas variáveis e as taxas de câncer de pulmão.
Pode ser tentador incluir todas as variáveis possíveis em uma análise de regressão, não apenas porque não incluir um fator crítico pode levar à contribuição dele sendo negligenciadas. No entanto, adicionar muitas variáveis a uma análise de regressão aumenta as chances de uma variável irrelevante aparecer estatisticamente significativos. Se adicionarmos mais 18 variáveis irrelevantes à nossa análise, como "filmes assistidos" e "donos de cães", é provável que uma dessas variáveis irrelevantes, puramente acaso, parecerão estar associadas a de aumento das taxas de câncer de pulmão.6
No contexto de ML, uma situação análoga é atribuir muitos atributos à o que pode resultar em overfitting, entre outros problemas.
Inferências e tomada de decisões
Uma forma de contornar algumas dessas armadilhas de pensamento é tratar a estatística e o ML derivados das estatísticas, como ferramentas para a tomada de decisões, em vez de responder a perguntas. Esta foi a posição tomada por Jerzy Neyman e Egon Sharpe Pearson.7
Nesse framework, dados, estatísticas de dados e derivados, incluindo modelos de ML, são mais adequados para fazer previsões probabilísticas, refutar declarações universais, melhorar e focar questões de pesquisa e ajudar na tomada de decisão. Elas não são adequadas por fazer afirmações afirmativas sobre a verdade.
De acordo com David Ritter, decisões baseadas em correlações até mesmo quantidades de dados deve se basear em dois fatores:
- "A confiança de que a correlação se repetirá de maneira confiável no futuro", quais deve se basear tanto na frequência com que essa correlação ocorreu no passado e uma compreensão precisa do que está causando essa correlação.
- Os riscos e as recompensas de agir.8
Da mesma forma, nem todas as perguntas de pesquisa podem ser adequadas para a IA. Anastassia O Fedyk oferece dois critérios para problemas adequados à IA:
- O problema requer previsão, não a compreensão de relações causais.
- Os dados que estão sendo alimentados à IA contêm tudo o que você precisa saber sobre a problema; ou seja, o problema é autossuficiente.9
Referências
Bennett, Craig M. Abigail A. Baird, Michael B. Miller e George L. Wolford. "Correlações neurais da perspectiva entre espécies na análise post-mortem Atlantic Salmon: um argumento para a correção de várias comparações." Neuroimage (2009).
Cairo, Alberto. Como os gráficos mentem: como usar informações visuais de maneira mais inteligente. Nova York: W.W. Norton, 2019.
Davenport, Thomas H. “A Predictive Analytics Primer”. No Guia de dados da HBR Princípios básicos do Google Analytics para gerentes (Boston: HBR Press, 2018) 81-86.
Ellenberg, Jordânia. Como não estar errado: o poder do pensamento matemático. NY: Penguin, 2014.
Fedyk, Anastassia. "O machine learning pode resolver seus problemas de negócios?" Em HBR Guia de noções básicas de análise de dados para gerentes (Boston: HBR Press, 2018) 111-119.
Gallo, Amy. "A Refresher on Statistical Significance" (Uma revisão sobre a importância estatística). No Guia de dados da HBR Noções básicas do Analytics para gerentes (Boston: HBR Press, 2018) 121-129.
Huff, Darrell. Como mentir com estatísticas. NY: W.W. Norton, 1954.
Ioannidis, John P.A. "Por que as descobertas de pesquisas mais publicadas são falsas" (em inglês). Em PLoS Med 2 no. 8: e124.
Jonas, Ben. Como evitar armadilhas de dados. Hoboken, Nova Jersey: Wiley, 2020.
Li, Jiangxue e Peize Zhao. "Aplicações de aprendizado profundo na fMRI: um trabalho de revisão" ICBBB 2023 (Tóquio, Japão, 13 a 16 de janeiro de 2023): 75 a 80. https://doi.org/10.1145/3586139.3586150
Lindquist, Martin A. e Amanda Mejia. "Zen e a arte de várias comparações." Psychosomatic Medicine 77 no. 2 (fevereiro a março de 2015): 114–125. doi: 10.1097/PSY.0000000000000148
Ritter, David. “Quando agir com base em uma correlação e quando não” (em inglês). No HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 103-109.
Tagaki, Yu e Shinji Nishimoto. "Reconstrução de imagens em alta resolução com modelos de difusão latente da atividade do cérebro humano." Conferência IEEE/CVF 2023 ativada Visão computacional e reconhecimento de padrões (Vancouver, Colúmbia Britânica, Canadá, 2023): 14453-14463. doi: 10.1109/CVPR52729.2023.01389.
Wheelan, Charles. Naked Statistics: removendo o Dread dos dados. Nova York: W.W. Norton, 2013
Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen Yankai Lin, Ji-Rong Wen e Jiawei Han. "Não transforme seu LLM em um comparativo de mercado de avaliação." arXiv:2311.01964 cs.CL.