Armadilhas de análise

"Todos os modelos estão errados, mas alguns são úteis." — George Box, 1978

As técnicas estatísticas são poderosas, mas têm suas limitações. Compreensão essas limitações podem ajudar um pesquisador a evitar gafes e alegações imprecisas, como A declaração de BF Skinner de que Shakespeare não usou a aliteração mais do que a aleatoriedade poderia prever. (O estudo de Skinner foi ineficiente.1)

Barras de incerteza e erro

É importante especificar a incerteza em sua análise. É igualmente importante de quantificar a incerteza nas análises de outras pessoas. Pontos de dados que aparecem de plotar uma tendência em um gráfico, mas com barras de erro sobrepostas, pode não indicar em nenhum padrão. A incerteza também pode ser muito alta para atrair informações úteis conclusões de um estudo específico ou teste estatístico. Se um estudo de pesquisa requer precisão de nível de lote, um conjunto de dados geoespaciais com aproximadamente 500 metros de incerteza tem muita incerteza para ser utilizável.

Como alternativa, os níveis de incerteza podem ser úteis durante a tomada de decisão processos de negócios seguros. Dados que apoiam um tratamento específico de água com 20% de incerteza em os resultados podem levar a uma recomendação para a implementação dessa com um monitoramento contínuo do programa para lidar com essa incerteza.

Redes neurais bayesianas pode quantificar a incerteza prevendo distribuições de valores em vez de valores.

Irrelevância

Como discutido na introdução, sempre há pelo menos uma pequena lacuna entre dados e informações empíricas. O profissional perspicaz de ML deve estabelecer se o conjunto de dados é relevante para a pergunta que está sendo feita.

Huff descreve um dos primeiros estudos de opinião pública que descobriu que os americanos respostas à pergunta sobre como foi fácil para os negros fazerem uma boa vida estavam relacionadas direta e inversamente ao nível de e simpatia com os negros norte-americanos. Com o aumento da animação racial, respostas sobre as oportunidades econômicas esperadas têm se tornado cada vez mais otimista. Isso poderia ter sido interpretado incorretamente como um sinal de progresso. No entanto, o estudo pode não mostrar nada sobre a oportunidades econômicas disponíveis para negros na época, e não estava adequado para tirar conclusões sobre a realidade do mercado de trabalho, apenas as opiniões dos entrevistados da pesquisa. Os dados coletados era irrelevante para a situação do mercado de trabalho.2

É possível treinar um modelo com dados de pesquisa como os descritos acima, em que os a saída mede o otimismo em vez da oportunidade. Mas, devido ao oportunidades previstas são irrelevantes para as oportunidades reais, se você afirmar que o modelo prevê oportunidades reais, deturpar o que o modelo prevê.

Confunde

Uma variável de confusão, confundir ou cofator é uma variável que não estão sendo estudados influencia as variáveis que estão sendo estudadas e pode distorcer os resultados. Por exemplo, considere um modelo de ML que prevê taxas de mortalidade para uma entrada com base nos recursos das políticas de saúde pública. Suponha que a mediana a idade não é um atributo. Além disso, suponha que alguns países tenham um do que outras. Ao ignorar a variável de confusão da idade média, esse modelo pode prever taxas de mortalidade com falha.

Nos Estados Unidos, a raça é frequentemente fortemente relacionada com a socioeconomia embora apenas raça, e não classe, são registradas com dados de mortalidade. Confundimentos relacionados à classe, como acesso a saúde, nutrição, trabalho perigoso, moradia segura e têm mais influência nas taxas de mortalidade do que a raça, mas podem ser desprezados porque não estão incluídos nos conjuntos de dados.3 Identificar e controlar essas distrações é essencial para a criação de modelos e para chegar a conclusões significativas e precisas.

Se um modelo for treinado com dados de mortalidade atuais, que incluem raça, mas não ela pode prever a mortalidade com base na raça, mesmo que a classe seja um preditor de mortalidade. Isso pode levar a suposições imprecisas sobre causalidade e previsões imprecisas sobre a mortalidade de pacientes. Profissionais que trabalham com machine learning deve perguntar se há confusão nos dados, bem como o significado variáveis podem estar faltando no conjunto de dados.

Em 1985, a equipe de enfermagem Health Study, um estudo de coorte observacional de Harvard a Faculdade de Medicina e a Faculdade de Saúde Pública de Harvard, descobriram que os membros da coorte fazendo terapia de reposição de estrogênio teve uma incidência menor de ataques cardíacos em comparação com os membros da coorte que nunca fizeram estrogênio. Como resultado, os médicos prescreviam estrogênio em seus em pacientes na menopausa e na pós-menopausa por décadas, até que um estudo clínico em 2002 identificou riscos à saúde criados pela terapia de estrogênio de longo prazo. Prática de prescrever estrogênio para mulheres na pós-menopausa parou, mas não antes de causar cerca de dezenas de milhares de mortes prematuras.

Várias confusão poderiam ter causado a associação. Epidemiologistas encontrados que as mulheres que fazem terapia de reposição hormonal, em comparação com as que não fazem, tendem a ser mais magras, mais ricas, mais ricas, mais conscientes da própria saúde, e mais propensas a se exercitar. Em diferentes estudos, educação e riqueza eram reduz o risco de doenças cardíacas. Esses efeitos teriam confundido a aparente correlação entre a terapia de estrogênio e os ataques cardíacos.4

Porcentagens com números negativos

Evite usar porcentagens quando houver números negativos,5 como todos os tipos de ganhos e perdas significativos podem ser obscurecidos. Considere que, para simplificar, matemática, que o setor de restaurantes tem 2 milhões de empregos. Se o setor perder 1 milhões desses empregos no final de março de 2020, não sofrerá nenhuma mudança líquida para 10 e recebeu 900.000 empregos no início de fevereiro de 2021, um ano no início de março de 2021 sugeriria uma perda de apenas 5% de empregos nos restaurantes. Supondo que não haja outras alterações, uma comparação ano a ano no final de fevereiro 2022 sugeriria um aumento de 90% nas vagas em restaurantes, o que é muito diferente imagem da realidade.

Prefira números reais, normalizados conforme apropriado. Consulte Como trabalhar com dados Cata para saber mais.

Falácia post-hoc e correlações inutilizáveis

A falácia post-hoc é a suposição de que, como o evento A foi seguido evento B, evento A causado evento B. Em outras palavras, presume-se relação de causa e efeito sem que ela exista. Ainda mais simples: correlações não provam a causalidade.

Além de uma clara relação de causa e efeito, as correlações também podem surgem de:

  • Pura chance (veja o livro de Tyler Vigen) Correlações espúrias para ilustrações, incluindo uma forte correlação entre a taxa de divórcio no Maine e no consumo de margarina).
  • Uma relação real entre duas variáveis, embora não esteja claro qual é causativa e qual é afetada.
  • Uma terceira causa separada que influencia ambas as variáveis, embora o as variáveis correlacionadas não estão relacionadas entre si. A inflação global, por exemplo, pode aumentar os preços de iates e aipo.6

Também é arriscado extrapolar uma correlação além dos dados existentes. Huff ressalta que um pouco de chuva vai melhorar as colheitas, mas muita chuva vai prejudicar deles; a relação entre resultados de chuva e colheitas não é linear.7 Consulte as próximas duas seções para saber mais sobre relações não lineares.) Jonas observa que o mundo é cheio de eventos imprevisíveis, como guerra e fome, que sujeitam previsões futuras de dados de série temporal a enormes quantidades de incerteza.8

Além disso, mesmo uma correlação genuína baseada em causa e efeito pode não ser úteis para tomar decisões. Huff explica, por exemplo, a correlação entre o casamento e a formação acadêmica na década de 1950. Mulheres que foram ao a faculdade eram menos propensas a se casar, mas poderia ter sido assim que as mulheres que iam para a faculdade eram menos propensas ao casamento no início. Se esse fosse o caso, ter uma formação acadêmica não altera a probabilidade de casar.9

Se uma análise detectar correlação entre duas variáveis em um conjunto de dados, pergunte:

  • Que tipo de correlação é essa: causa e efeito, espúria, desconhecida ou causada por uma terceira variável?
  • Qual é o risco da extrapolação dos dados? Cada previsão de modelo com base em dados que não estão no conjunto de dados de treinamento é, de fato, interpolação ou extrapolação dos dados.
  • A correlação pode ser usada para tomar decisões úteis? Por exemplo: o otimismo pode estar fortemente correlacionado com o aumento dos salários, mas análise de sentimento de um grande corpus de dados de texto, como mídias sociais publicações de usuários em um determinado país, não seria útil para prever de aumento salarial naquele país.

Ao treinar um modelo, profissionais de ML geralmente procuram atributos que sejam fortemente correlacionado com o rótulo. Se a relação entre os atributos e o rótulo não for bem compreendido, isso poderá levar aos problemas descritos nesta seção, incluindo modelos baseados em correlações e modelos espúrios que pressupõem que as tendências históricas continuarão no futuro, quando, na verdade, que não têm.

A polarização linear

Em "Linear Thinking in a Nonlinear World" (Pensamento linear em um mundo não linear) Bart de Langhe, Stefano Puntoni e Richard Larrick descrevem o viés linear como a tendência do cérebro humano de esperar e procurar relações lineares, embora muitos fenômenos não são lineares. A relação entre atitudes humanas e comportamento, por exemplo, é uma curva convexa, não uma linha. Em um Journal of 2007 Artigo sobre política do consumidor citado por de Langhe et al., Jenny van Doorn et al., modelou a relação entre as respostas dos entrevistados a preocupação com a ambiente e das respostas dos entrevistados compras de produtos orgânicos. Aqueles com das preocupações mais extremas sobre o meio ambiente compraram mais produtos orgânicos, mas havia pouca diferença entre todos os outros participantes.

Comparação entre a pontuação de compras de produtos orgânicos e questões ambientais,
  mostrando principalmente uma linha plana com uma curva convexa acentuada para cima na extrema direita
Gráfico de compras orgânicas versus pontuação de preocupação ambiental simplificado e adaptado de van Doorn et al. artigo

Ao projetar modelos ou estudos, considere a possibilidade de usar modelos relacionamentos. Como os testes A/B pode perder relações não lineares, considere testar uma terceira condição, C. Considere também se o comportamento inicial que aparece linear continuará sendo linear, ou se os dados futuros podem mostram um comportamento mais logarítmico ou não linear.

Uma adequação linear para dados logarítmicos mostrando uma boa opção para o primeiro
  metade dos dados e uma combinação
cada vez mais ruim depois disso.
Exemplo de um ajuste linear ruim a dados logarítmicos

Este exemplo hipotético mostra uma adequação linear errônea de dados logarítmicos. Se apenas os primeiros pontos de dados estivessem disponíveis, seria tentador e incorreto para assumir uma relação linear contínua entre variáveis.

Interpolação linear

Examinar qualquer interpolação entre pontos de dados, porque a interpolação introduz pontos fictícios, e os intervalos entre medições reais podem e podem conter flutuações significativas. Por exemplo, considere o seguinte visualização de quatro pontos de dados conectados com interpolações lineares:

Amplitude com o tempo mostrando quatro pontos conectados por uma linha reta.
Exemplo de interpolação linear.

Depois, considere este exemplo de flutuações entre pontos de dados que estão apagada por uma interpolação linear:

Os mesmos pontos de antes, mas com grandes flutuações entre o segundo e o terceiro pontos.
Exemplo de flutuação significativa (um terremoto) entre pontos de dados.

O exemplo é arriscado porque os sismógrafos coletam dados contínuos. Portanto, esse terremoto não passaria. Mas ele é útil para ilustrar suposições feitas por interpolações e os fenômenos reais de que os dados que os profissionais de marketing podem não perceber.

O fenômeno de Runge

O fenômeno de Runge, também conhecida como "agitação do polinômio", é um problema na extremidade oposta do espectro de interpolação linear e viés linear. Ao ajustar um polinômio interpolação em dados, é possível usar um polinômio com um grau muito alto (grau ou ordem, sendo o expoente mais alto na equação polinomial). Isso produz oscilações estranhas nas bordas. Por exemplo, aplicar uma interpolação polinomial de grau 11, significando que o termo de ordem mais alta em a equação polinomial tem \(x^{11}\), para dados aproximadamente lineares, resulta em previsões muito ruins no início e no fim da de dados:

Aproximadamente linear
  equipados com uma interpolação polinomial de grau 11, mostrando uma
  pico ascendente entre os dois primeiros pontos de dados e um pico decrescente acentuado
  entre os dois últimos pontos de dados
Exemplo de oscilação do polinômio

No contexto de ML, um fenômeno análogo é overfitting (link em inglês).

Falhas estatísticas para detectar

Às vezes, um teste estatístico pode ser muito ineficiente para detectar uma efeito pequeno. O baixo poder na análise estatística significa uma baixa chance de corretamente a identificação de eventos verdadeiros e, portanto, uma alta chance de falsos negativos. Katherine button et al. escreveu em Nature: "Quando os estudos em um determinado campo são projetada com uma potência de 20%, isso significa que, se houver 100 valores genuínos não nulos descobertos nesse campo, espera-se que esses estudos descubram apenas 20". Aumentar o tamanho da amostra às vezes pode ajudar, pois pode ter cuidado no design do estudo.

Uma situação análoga no ML é o problema classificação e as escolha de um limiar de classificação. A escolha de um limite maior resulta menos falsos positivos e mais falsos negativos, enquanto um limite mais baixo resulta mais falsos positivos e menos falsos negativos.

Além dos problemas com poder estatístico, uma vez que a correlação é projetada para detectar relações lineares, correlações não lineares entre variáveis podem ser ignoradas. Da mesma forma, as variáveis podem estar relacionadas a cada outras, mas não correlacionadas estatisticamente. As variáveis também podem ser negativamente correlacionados, mas completamente não relacionados, no que é conhecido como Paradoxo de Berkson ou Falácia de Berkson. O exemplo clássico de Berkson falácia é a correlação negativa espúria entre qualquer risco e doenças graves ao olhar para uma população de pacientes internados (como em comparação com a população geral), que é resultado do processo de seleção (uma condição grave o suficiente para exigir internação).

Considere se alguma destas situações se aplica.

Modelos desatualizados e suposições inválidas

Até bons modelos podem se degradar com o tempo, porque o comportamento (e o mundo, por relevantes) podem mudar. Os primeiros modelos preditivos da Netflix tiveram que ser descontinuados sua base de clientes mudou de usuários jovens com experiência em tecnologia para população.10

Os modelos também podem conter suposições silenciosas e imprecisas que podem permanecer ocultas até a falha catastrófica do modelo, como na quebra de mercado de 2008. A os modelos de valor em risco (VaR) do setor financeiro afirmam estimar com precisão a perda máxima na carteira de qualquer comerciante, digamos, uma perda máxima de É esperado que $100.000 seja usado 99% das vezes. Mas, em condições anormais da falha, uma carteira com uma perda máxima esperada de US$ 100.000 às vezes perdido US$ 1.000.000 ou mais

Os modelos de VaR foram baseados em suposições incorretas, incluindo as seguintes:

  • Mudanças anteriores do mercado são uma previsão de mudanças futuras.
  • Uma distribuição normal (de cauda fina e, portanto, previsível) era nos retornos previstos.
.
A distribuição de von Mises com k=5, semelhante a uma distribuição gaussiana, e a distribuição mais plana k=1 e k=0,2.
Gráfico da distribuição de von Mises, que tem cauda fina em K alto e cauda gordura em K baixo.

Na verdade, a distribuição subjacente era de cauda irregular, "selvagem", ou fractais, o que significa que havia um risco muito maior de erros de cauda longa, extremos e eventos raros do que uma distribuição normal poderia prever. A natureza de cauda gordurosa a distribuição real era bem conhecida, mas não havia ações a serem tomadas. O que não ficou tão bom era conhecido como vários fenômenos complexos e com acoplamento rígido, incluindo negociação baseada em computador com vendas automáticas.11

Problemas de agregação

Dados agregados, que incluem a maioria dos dados demográficos e epidemiológicos está sujeita a um conjunto específico de armadilhas. Paradoxo de Simpson ou paradoxo da fusão, ocorre em dados agregados em que tendências aparentes desaparecer ou inverter quando os dados forem agregados em um nível diferente, devido fatores de confusão e relações causais mal compreendidas.

A falácia ecológica envolve extrapolar informações incorretamente sobre de uma população de um nível de agregação para outro, em que o reivindicação pode não ser válida. Uma doença que afeta 40% dos trabalhadores agrícolas das uma província pode não estar presente na mesma prevalência nos e população. Também é muito provável que haja fazendas isoladas ou cidades agrícolas nessa província que não apresentam uma alta e a prevalência da doença. Para assumir uma prevalência de 40% nas pessoas menos afetadas lugares também seria falacioso.

O problema de unidade de área modificável (MAUP, na sigla em inglês) é um problema bem conhecido em dados geoespaciais, descritos por Stan Openshaw em 1984 em CATMOG 38 (link em inglês). Dependendo das formas e dos tamanhos das áreas usadas para dados geoespaciais, um profissional de dados geoespaciais pode estabelecer praticamente qualquer correlação entre variáveis nos dados. Votação do sorteio distritos que favorecem uma parte ou outra é um exemplo de MAUP.

Todas essas situações envolvem extrapolação inadequada de um de agregação a outro. Diferentes níveis de análise podem exigir diferentes agregações ou até mesmo conjuntos de dados totalmente diferentes.12

Dados censitários, demográficos e epidemiológicos costumam ser agregados por zonas, por motivos de privacidade, e que essas zonas são frequentemente arbitrário, ou seja, não baseado em limites significativos do mundo real. Quando com esses tipos de dados, os profissionais de ML devem verificar se o modelo o desempenho e as previsões mudam dependendo do tamanho e formato das zonas selecionado ou o nível de agregação e, em caso afirmativo, se as previsões do modelo são afetadas por um desses problemas de agregação.

Referências

Botão, Katharine e outros "Falha de energia: por que o tamanho pequeno da amostra prejudica a da neurociência". Natureza Avaliações Neuroscience vol 14 (2013), 365–376. DOI: https://doi.org/10.1038/nrn3475

Cairo, Alberto. Como os gráficos mentem: como usar informações visuais de maneira mais inteligente. Nova York: W.W. Norton, 2019.

Davenport, Thomas H. “A Predictive Analytics Primer”. No Guia de dados da HBR Princípios básicos do Google Analytics para gerentes (Boston: HBR Press, 2018) 81-86.

De Langhe, Bart, Stefano Puntoni e Richard Larrick. "Linear Thinking in a Nonlinear World" (Pensamento linear em um mundo não linear). No HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 131 a 154.

Ellenberg, Jordânia. Como não estar errado: o poder do pensamento matemático. NY: Penguin, 2014.

Huff, Darrell. Como mentir com estatísticas. NY: W.W. Norton, 1954.

Jonas, Ben. Como evitar armadilhas de dados. Hoboken, Nova Jersey: Wiley, 2020.

Openshaw, Stan. “The Modifiable Areal Unit Problem”, CATMOG 38 (Norwich, Inglaterra: Geo Books 1984) 37.

Os riscos da modelagem financeira: VaR e o colapso econômico, 111o Congresso (2009) (depoimentos de Nassim N. Taleb e Richard Bookstaber).

Ritter, David. “Quando agir com base em uma correlação e quando não” (em inglês). No HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 103-109.

Tulchinsky, Theodore H. e Elena A. Varavikova. "Capítulo 3: Medição, monitoramento e avaliação da saúde de uma população" em The New Public Health, 3a edição. San Diego: Academic Press, 2014, pp 91-147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

Van Doorn, Jenny e Peter C. Verhoef e Tammo H. A. Bijmolt. "A importância de relações não lineares entre atitude e comportamento na política pesquisa". Journal of Consumer Policy 30 (2007) 75–90. DOI: https://doi.org/10.1007/s10603-007-9028-3

Referência de imagem

Com base em "Distribuição de Von Mises". Rainald62, 2018. Origem


  1. Ellenberg 125. 

  2. Hum 77 a 79. Huff cita o Escritório de Pesquisa de Opinião Pública de Princeton, mas ele pode ter pensado Relatório de abril de 1944 pelo Centro Nacional de Pesquisa de Opinião da Universidade de Denver. 

  3. Tulchinsky e Varavikova. 

  4. Gary Taubes, Sabemos realmente o que nos torna saudáveis?" na The New York Times Magazine, 16 de setembro de 2007. 

  5. Ellenberg 78. 

  6. Huff 91 a 92. 

  7. Huff 93. 

  8. João, 157-167. 

  9. Huff 95. 

  10. Davenport 84. 

  11. Veja o testemunho congressional de Nassim N. Taleb e Richard Bookstaber em The Risks of Financial Modeling: VaR and the Economic Meltdown (em inglês), 111o Congresso (2009), 11 a 67. 

  12. Cairo 155, 162.