Trampas de análisis

"Todos los modelos son incorrectos, pero algunos son útiles". — George Box, 1978

Si bien las técnicas estadísticas potentes tienen sus limitaciones. Comprensión estas limitaciones pueden ayudar al investigador a evitar caos y afirmaciones imprecisas, como la afirmación de BF Skinner de que Shakespeare no usó aliteración más que que predeciría la aleatoriedad. (El estudio de Skinner se no cuentan con tecnología.1)

Incertidumbre y barras de error

Es importante especificar la incertidumbre en tu análisis. Es igual de importante para cuantificar la incertidumbre en los análisis de otras personas. Datos que aparecen para trazar una tendencia en un gráfico, pero tienen barras de error superpuestas, pueden no indicar ningún patrón. La incertidumbre también puede ser demasiado alta como para generar información conclusiones de un estudio o prueba estadística en particular. Si un estudio de investigación requiere precisión a nivel del lote, un conjunto de datos geoespaciales con +/- 500 m de incertidumbre tiene demasiada incertidumbre para ser utilizable.

Por otro lado, los niveles de incertidumbre pueden ser útiles durante la toma de decisiones procesos. Datos que respaldan un tratamiento de agua específico con un 20% de incertidumbre en los resultados pueden llevar a una recomendación para la implementación de esa agua con una supervisión continua del programa para abordar esa incertidumbre.

Redes neuronales bayesianas puede cuantificar la incertidumbre prediciendo distribuciones de valores en lugar de de salida.

Irrelevancia

Como vimos en la introducción, siempre hay, al menos, una pequeña brecha entre de los datos y la verdad fundamental. El profesional del AA astuto debe establecer si el conjunto de datos es relevante para la pregunta que se está haciendo.

Huff describe un primer estudio de opinión pública que descubrió que los estadounidenses blancos respuestas a la pregunta de lo fácil que fue para los afroestadounidenses hacer un buen estaban relacionadas directa e inversamente con su nivel de hacia los afroestadounidenses. A medida que aumentaba el animus racial, las respuestas sobre las oportunidades económicas esperadas se vuelven cada vez más optimista. Esto podría haberse malinterpretado como una señal de progreso. Sin embargo, el estudio no mostró nada oportunidades económicas disponibles para los afroestadounidenses en ese momento, y no se adecuadas para sacar conclusiones sobre la realidad del mercado laboral, las opiniones de los encuestados. Los datos recopilados en realidad era irrelevante para el estado del mercado laboral.2

Podrías entrenar un modelo con datos de encuestas como los descritos anteriormente, en los que la de salida mide el optimismo en lugar de la oportunidad. Sin embargo, como las oportunidades previstas son irrelevantes para las oportunidades reales, si que el modelo predijo oportunidades reales, para tergiversar lo que predice el modelo.

Confunde

Una variable de confusión, confundido o cofactor es una variable no bajo estudio que influye en las variables que se estudian y pueden distorsionar los resultados. Por ejemplo, considera un modelo de AA que prediga las tasas de mortalidad de una entrada su país según las funciones de la política de salud pública. Supongamos que la mediana La edad no es un atributo. Supongamos también que algunos países tienen un población que los demás. Al ignorar la variable de confusión de la edad media, este modelo podría predecir tasas de mortalidad erróneas.

En Estados Unidos, el origen étnico suele estar muy relacionado con clase, aunque solo la raza, y no la clase, se registra con los datos de mortalidad. Confundidos relacionados con la clase, como acceso a atención médica, nutrición, trabajo peligroso, y vivienda segura, pueden tener una mayor influencia en las tasas de mortalidad que el origen étnico, pero se descuidan porque no se incluyen en los conjuntos de datos.3 Cómo identificar y controlar estos desconciertos es fundamental para crear modelos útiles y sacar conclusiones significativas y precisas.

Si un modelo se entrena con datos existentes de mortalidad, que incluyen el origen étnico, pero no clase, puede predecir la mortalidad en función del origen étnico, incluso si la clase es una clase más fuerte un predictor de la mortalidad. Esto podría dar lugar a suposiciones imprecisas sobre causalidad y predicciones inexactas sobre la mortalidad de los pacientes. Profesionales del AA deben preguntar si hay confusión en los datos, así como variables que falten en su conjunto de datos.

En 1985, la Health Study, un estudio de cohorte observacional de Harvard de la Escuela de Medicina y la Escuela de Salud Pública de Harvard, descubrieron que los miembros de la cohorte tomar terapia de reemplazo de estrógeno tuvo una menor incidencia de ataques al corazón en comparación con los miembros de la cohorte que nunca realizaron estrógeno. Como resultado, los médicos recetaron estrógeno a su pacientes con menopausia y posmenopáusica durante décadas, hasta que se realizó un estudio clínico En 2002, se identificaron riesgos para la salud generados por la terapia de estrógeno a largo plazo. La práctica de recetar estrógeno a mujeres posmenopáusicas se detuvo, pero no antes de se estima que fueron decenas de miles de muertes prematuras.

Es posible que la asociación haya sido causada por varios desconcertantes. Epidemiólogos descubrieron que las mujeres que toman terapia de reemplazo hormonal, en comparación con las que no tienden a ser más delgados, más educados, más ricos y más conscientes de su salud y es más probable que hagan ejercicio. En diferentes estudios, la educación y la riqueza eran reduce el riesgo de padecer enfermedades cardíacas. Esos efectos habrían confundido la aparente correlación entre la terapia de estrógenos y los ataques al corazón.4

Porcentajes con números negativos

Evita usar porcentajes cuando haya números negativos,5 como todo tipo de las ganancias y las pérdidas significativas pueden ocultarse. Supón que, para ser más simples, en matemáticas, que el sector de restaurantes tiene 2 millones de trabajos. Si la industria pierde 1 millones de puestos de trabajo a fines de marzo de 2020, no experimenta cambios netos meses y obtuvo 900,000 puestos de trabajo a principios de febrero de 2021, un año tras año una comparación a principios de marzo de 2021 sugeriría solo una pérdida del 5% de puestos de trabajo en restaurantes. Suponiendo que no hay otros cambios, una comparación interanual a fines de febrero 2022 sugeriría un aumento del 90% en los puestos de trabajo en restaurantes, lo cual es un una imagen de la realidad.

Prefiere números reales, normalizados según corresponda. Consulta Cómo trabajar con valores numéricos Cata para obtener más información.

Falacia post-hoc y correlaciones inutilizables

La falacia post-hoc es la suposición de que, debido a que el evento A fue seguido de evento B, evento A causado por el evento B. En pocas palabras, es asumir que un relación de causa-efecto en la que no existe una. De forma más simple: las correlaciones no demuestran causalidad.

Además de una relación clara de causa-efecto, las correlaciones también provienen de:

  • Pureza casual (ver el álbum de Tyler Vigen) Correlaciones espurias para ilustraciones, incluida una fuerte correlación entre la tasa de divorcios en Maine y el consumo de margarina).
  • Una relación real entre dos variables, aunque no está claro cuál variable es causativa y cuál se ve afectada.
  • Una tercera causa independiente que influye en ambas variables, aunque la las variables correlacionadas no están relacionadas entre sí. Inflación global, para puede aumentar los precios de yates y apio.6

También es arriesgado extrapolar una correlación más allá de los datos existentes. Huff señala que algo de lluvia mejorará los cultivos, pero demasiada lluvia dañará ellos; la relación entre la lluvia y el resultado de los cultivos es no lineal.7 (Consulta las siguientes dos secciones para obtener más información sobre las relaciones no lineales). Jiménez señala que el mundo está lleno de eventos impredecibles, como la guerra y la hambruna, que someten las previsiones futuras de datos de series temporales enormes cantidades de incertidumbre.8

Además, incluso una correlación genuina basada en causa-efecto puede no ser útil para tomar decisiones. Huff da, por ejemplo, la correlación entre el matrimonio y la educación universitaria en la década de 1950. Mujeres que asistieron a la universidad tenían menos probabilidades de casarse, pero podría haber sido el caso que las mujeres que asistieron a la universidad eran menos propensas al matrimonio. Si ese fuera el caso, la educación universitaria no cambió sus probabilidades. de casarse.9

Si un análisis detecta una correlación entre dos variables en un conjunto de datos, pregunta:

  • ¿Qué tipo de correlación es: causa-efecto, espuria, desconocida? relación o una tercera variable?
  • ¿Qué tan arriesgada es la extrapolación de los datos? Cada modelo de predicción con datos que no están en el conjunto de datos de entrenamiento es, en efecto, interpolación extrapolación de los datos.
  • ¿Se puede usar la correlación para tomar decisiones útiles? Por ejemplo: el optimismo podría estar fuertemente correlacionado con el aumento de los salarios, pero Análisis de opiniones de grandes corpus de datos de texto, como redes sociales publicaciones realizadas por usuarios en un país determinado, no sería útil predecir aumentos en los salarios en ese país.

Cuando entrenan un modelo, los profesionales del AA buscan atributos están fuertemente correlacionados con la etiqueta. Si la relación entre los atributos y la etiqueta no se entiende bien, esto podría conducir a los problemas descritos en esta sección, incluidos modelos basados en correlaciones espurias y modelos que suponen que las tendencias históricas seguirán en el futuro, cuando no.

El sesgo lineal

En "Linear Thinking in a Nonlinear World" ("El pensamiento lineal en un mundo no lineal"), Bart de Langhe, Stefano Puntoni y Richard Larrick describen el sesgo lineal como la tendencia del cerebro humano a esperar y buscar relaciones lineales, aunque muchos fenómenos no son lineales. La relación entre las actitudes humanas y el comportamiento es una curva convexa, no una línea. En una revista Journal of 2007 Informe sobre la política del consumidor citado por de Langhe et al., Jenny van Doorn et al. modelaste la relación entre las aptitudes de los encuestados preocupación acerca de la y la experiencia de los encuestados compras de productos orgánicos. Los que tienen las preocupaciones más extremas sobre el medioambiente, compraban más productos orgánicos pero había poca diferencia entre todos los demás encuestados.

Comparación entre las compras de productos orgánicos y la puntuación de preocupación ambiental
  mostrando una línea mayormente plana con una curva convexa pronunciada hacia arriba en el extremo derecho
Gráfico de comparación entre las compras orgánicas y la calificación de problemas medioambientales simplificados y adaptados de van Doorn et al. papel

Cuando diseñes modelos o estudios, considera la posibilidad de que no sea lineal relaciones. Dado que las pruebas A/B pueden pasar por alto relaciones no lineales, considere también probar condición, C. También considera si el comportamiento inicial que aparece lineales seguirán siendo lineales, o si los datos futuros podrían muestran un comportamiento más logarítmico o no lineal.

Un ajuste lineal para datos logarítmicos que muestra un buen ajuste para los primeros
  la mitad de los datos
y un ajuste cada vez más inadecuado.
Ejemplo de un ajuste lineal deficiente a los datos logarítmicos

En este ejemplo hipotético, se muestra un ajuste lineal erróneo para los datos logarítmicos. Si solo estuvieran disponibles los primeros datos, sería tentador e incorrecto para asumir una relación lineal continua entre variables.

Interpolación lineal

Examina cualquier interpolación entre puntos de datos, ya que esta introduce puntos ficticios, y los intervalos entre mediciones reales pueden contienen fluctuaciones significativas. A modo de ejemplo, considera lo siguiente: Visualización de cuatro puntos de datos conectados con interpolaciones lineales:

La amplitud en el tiempo muestra cuatro puntos conectados por una línea recta.
Ejemplo de interpolación lineal.

Luego, considera este ejemplo de fluctuaciones entre datos que son borrar mediante una interpolación lineal:

Los mismos puntos que antes, pero con fluctuaciones gigantes entre el segundo y el tercer punto.
Ejemplo de una fluctuación significativa (un terremoto) entre datos.

El ejemplo es elaborado porque los sismografías recopilan datos continuos, por lo que este terremoto no se perdería. Pero es útil para ilustrar en las suposiciones realizadas por interpolación y los fenómenos reales por los que profesionales podrían pasar por alto.

El fenómeno de Runge

el fenómeno de Runge, también conocida como "movimiento polinomial", es un problema en el extremo opuesto del de la interpolación y el sesgo lineales. Cuando se ajusta un polinomio interpolación de datos, es posible usar un polinomio con un grado demasiado alto (orden u grado, que es el exponente más alto de la ecuación polinómica). Esta produce oscilaciones extrañas en los bordes. Por ejemplo, aplicar un interpolación polinómica de grado 11, lo que significa que el término de orden más alto en la ecuación polinómica tiene \(x^{11}\)hasta datos casi lineales, da como resultado predicciones notablemente malas al principio y al final del rango de datos:

Aparentemente lineal
  datos ajustados con una interpolación polinómica de grado 11, que muestra una alta
  un aumento repentino entre los dos primeros datos y un pico abrupto hacia abajo
  entre los dos últimos puntos de datos
Ejemplo del movimiento del polinomio

En el contexto del AA, un fenómeno análogo es sobreajuste.

Fallas estadísticas para detectar

A veces, una prueba estadística tiene la potencia insuficiente para detectar una pequeño efecto. Un bajo poder en el análisis estadístico significa una baja probabilidad de identificar eventos verdaderos y, por lo tanto, tener una alta probabilidad de falsos negativos. Katherine Button et al. escribió en Nature: "Cuando los estudios de un campo determinado se diseñada con una potencia del 20%, significa que si hay 100 valores efectos que se descubrirán en ese campo, se espera que estos estudios descubran solo 20". Aumentar el tamaño de la muestra puede ayudar, al igual que el diseño del estudio.

Una situación análoga en el AA es el problema clasificación y los la elección de un umbral de clasificación. La elección de un umbral más alto da como resultado hay menos falsos positivos y más falsos negativos, mientras que un umbral más bajo más falsos positivos y menos falsos negativos.

Además de los problemas con el poder estadístico, dado que la correlación es diseñados para detectar relaciones lineales, correlaciones no lineales variables no se pueden omitir. De manera similar, las variables pueden estar relacionadas entre sí entre sí, pero no estadísticamente correlacionadas. Las variables también pueden ser tiene una correlación negativa, pero no tiene relación alguna, en lo que se conoce como La paradoja de Berkson o la falacia de Berkson. El ejemplo clásico del prototipo de Berkson falacia es la correlación negativa espuria entre cualquier riesgo y una enfermedad grave cuando se observa a la población de pacientes internados (como en comparación con la población general), que surge del proceso de selección (un una enfermedad lo suficientemente grave como para requerir hospitalización).

Considera si se aplica alguna de estas situaciones.

Modelos desactualizados y suposiciones no válidas

Incluso los buenos modelos pueden degradarse con el tiempo porque el comportamiento (y el mundo, por que importan) pueden cambiar. Los primeros modelos predictivos de Netflix tuvieron que retirarse como Su base de clientes pasó de usuarios jóvenes y conocedores de tecnología a usuarios en general población.10

Los modelos también pueden contener suposiciones inexactas y silenciosas que pueden permanecer ocultas. hasta el fracaso catastrófico del modelo, como en la caída del mercado de 2008. El modelos de valor en riesgo (VaR) de la industria financiera que afirman estimar con precisión la pérdida máxima en la cartera de cualquier comerciante, digamos una pérdida máxima de USD100,000 se esperan el 99% del tiempo. Pero en las condiciones anormales de la falla, una cartera con una pérdida máxima esperada de $100,000 a veces perdido USD1,000,000 o más.

Los modelos del VaR se basaron en suposiciones incorrectas, entre ellas:

  • Los cambios anteriores en el mercado predicen cambios futuros en el mercado.
  • Una distribución normal (de cola delgada y, por lo tanto, predecible) se subyacentes de los retornos previstos.
La distribución de von Mises con k=5, que se parece a una distribución gaussiana, y la distribución más plana de k=1 y k=0.2.
Gráfico de la distribución de von Mises, que tiene cola delgada en el k alto y cola grasa en el k bajo.

De hecho, la distribución subyacente era de cola grasa, "salvaje", o fractal, lo que significaba que había un riesgo mucho mayor de cola larga, extremo y, supuestamente, eventos poco frecuentes de lo que predeciría una distribución normal. La naturaleza de cola gorda de la distribución real era bien conocida, pero no se tomaron medidas al respecto. Lo que estuvo menos bien conocido fue la complejidad y la acoplamiento de los diversos fenómenos, incluidos el comercio electrónico basado en computadoras con ventas automatizadas.11

Problemas de agregación

Son datos agregados, que incluyen la mayoría de los datos demográficos y epidemiológicos están sujetos a un conjunto particular de trampas. La paradoja de Simpson o La paradoja de la combinación ocurre en datos agregados en los que las tendencias desaparecen o se revierten cuando los datos se agregan en un nivel diferente, debido a factores de confusión y relaciones causales malinterpretadas.

La falacia ecológica implica extrapolar erróneamente información sobre una población de un nivel de agregación a otro, en el que reclamo podría no ser válido. Enfermedad que afecta al 40% de los trabajadores agrícolas en una provincia puede no estar presente en la misma prevalencia en el y la población. También es muy probable que haya granjas aisladas o ciudades agrícolas de esa provincia que no experimentan un aumento similar la prevalencia de la enfermedad. Suponer una prevalencia del 40% en aquellos menos afectados lugares también sería falaz.

El problema de unidad de área modificable (MAUP) es un problema conocido en datos geoespaciales, descritos por Stan Openshaw en 1984 en CATMOG 38. Según las formas y los tamaños de las áreas utilizadas para datos agregados, un profesional de datos geoespaciales puede establecer casi cualquier la correlación entre variables en los datos. Votación de sorteo distritos que favorecen a una parte o a otra son un ejemplo de MAUP.

Todas estas situaciones implican una extrapolación inapropiada de un de agregación a otro. Los diferentes niveles de análisis pueden requerir diferentes agregaciones o, incluso, conjuntos de datos completamente diferentes.12

Ten en cuenta que los datos de censos, demográficos y epidemiológicos suelen ser agregadas por zonas por motivos de privacidad, y que estas zonas suelen arbitrarios, es decir, que no se basan en límites significativos del mundo real. Cuándo cuando trabajan con estos tipos de datos, los profesionales de AA El rendimiento y las predicciones cambian según el tamaño y la forma de las zonas seleccionados o el nivel de agregación y, de ser así, si las predicciones se ven afectadas por uno de estos problemas de agregación.

Referencias

Button, Katharine et al. "Fallo de energía: por qué un tamaño pequeño de la muestra socava el y la confiabilidad de la neurociencia". Naturaleza Reviews Neuroscience vol 14 (2013), 365–376. DOI: https://doi.org/10.1038/nrn3475

El Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. Nueva York: W.W. Norton, 2019.

Davenport, Thomas H. “A Predictive Analytics Primer”. En la Guía de HBR sobre los datos Analytics Basics for Managers (Boston: HBR Press, 2018), 81-86.

De Langhe, Bart, Stefano Puntoni y Richard Larrick. "Linear Thinking in a Nonlinear World" (Pensamiento lineal en un mundo no lineal). En la guía de HBR Guide to Data Analytics Basics for Manager (Guía de HBR sobre los aspectos básicos del análisis computacional de datos para gerentes) (Boston: HBR Press, 2018) 131 a 154.

Ellenberg, Jordania. Cómo no estar equivocado: El poder del pensamiento matemático. NY: Pingüino, 2014.

Huff, Darrell. Cómo lidiar con las estadísticas. NY: W.W. Norton, 1954.

Jones, Ben. Evita errores de datos. Hoboken, Nueva Jersey: Wiley, 2020.

Openshaw, Stan. "El problema de la unidad Areal modificable", CATMOG 38 (Norwich, Inglaterra: Geo Books, 1984). 37.

The Risks of Financial Modeling: VaR and the Economic Meltdown, 111.o Congreso (2009) (testimonios de Nassim N. Taleb y Richard Bookstaber).

Ritter, David. "Cuándo actuar según una correlación y cuándo no". En la guía de HBR para Data Analytics Basics for Managers (Boston: HBR Press, 2018), 103-109.

Tulchinsky, Theodore H. y Elena A. Varavikova "Capítulo 3: Medición, supervisión y evaluación de la salud de una población" en The New Public Health, 3a ed. San Diego: Prensa Académica, 2014, págs. 91-147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

Van Doorn, Jenny y Peter C. Verhoef y Tammo H. A. Bijmolt. "La importancia de relaciones no lineales entre actitud y comportamiento en la política en la investigación". Revista Journal of Consumer Policy 30 (2007) 75–90. DOI: https://doi.org/10.1007/s10603-007-9028-3

Referencia de imagen

Basado en "Von Mises Distribution". Rainald62, 2018. Origen


  1. Ellenberg, 125 

  2. Huff 77-79. Huff cita a la Oficina de Investigación Pública de la Opinión de Princeton, pero quizás haya estado pensando en Informe de abril de 1944 por el Centro Nacional de Investigación de la Opinión de la Universidad de Denver. 

  3. Tulchinsky y Varavikova. 

  4. Gary Taubes ¿Sabemos realmente qué nos hace saludables?" en The New York Times Magazine, 16 de septiembre de 2007. 

  5. Ellenberg 78. 

  6. Huff 91-92. 

  7. Huff 93. 

  8. Jones 157-167. 

  9. Huff 95. 

  10. Davenport 84. 

  11. Ver el testimonio del Congreso de Nassim N. Taleb y Richard Bookstaber en The Risks of Financial Modeling: VaR and the Economic Meltdown, 111o Congreso (2009), 11-67. 

  12. El Cairo, 155 y 162.