Trampas para pensar

Los seres humanos están sujetos a sesgos cognitivos por ser humanos, lo que incluye racionalización y sesgo de confirmación. Alberto Cairo escribe: "Racionalización es el modo predeterminado del cerebro humano".1 A menudo, las personas esperan o quieren un determinado resultado, y luego buscar datos o evidencia que respalden ese resultado.

Cuando se trabaja con datos y modelos, o se evalúa, que pueden provenir de muchos fuentes diferentes, pregunta sobre las posibles fuentes de sesgo. Por ejemplo:

  • ¿Quién financia este modelo o estudio? ¿Cuál es el mercado o comercial en una aplicación de prueba?
  • ¿Qué tipos de incentivos existen para las personas involucradas en la recopilación de datos?
  • ¿Qué tipos de incentivos existen para los investigadores que entrenan el modelo? o la realización del estudio, incluidas su publicación y permanencia?
  • Quién otorga las licencias al modelo o publica el estudio y cuáles son sus incentivos?

Estadísticas descriptivas

La media (suma de valores dividida por el recuento), la mediana (valor medio, cuando los valores están ordenados) y el modo (valor más frecuente) suelen ser útiles para hacerse una idea de la forma de un conjunto de datos. Si la mediana y la media están muy separadas, por ejemplo, puede haber valores bastante extremos y asimétricos en la automático.

El rango, que es la diferencia entre los valores más altos y más bajos, y la varianza, que es la diferencia media al cuadrado entre cada valor y la media del conjunto, también proporcionan información útil sobre la dispersión y la forma del conjunto de datos.

Antes de entrenar un modelo con tus datos, pregunta si el conjunto de datos desequilibrio y, de ser así, si se debe abordar ese desequilibrio.

Improbabilidades probables y valores p

Si se proporciona tiempo y oportunidades suficientes, la ocurrencia de un evento improbable se vuelve muy probable. Consulta la teoría Estafa de corredor de bolsa de Baltimore para ver un posible ejemplo.

Según el consenso científico, un resultado se considera estadísticamente significativo (y, por lo tanto, publicable) cuando el valor p es inferior a 0.05. Eso significa que hay una probabilidad inferior al 5% de que se produzca el mismo resultado, o uno más extremo, en la hipótesis nula, es decir, como resultado de la casualidad. De manera más coloquial, Los investigadores solo pueden publicar contenido si existe una probabilidad de 1 en 20 o menos de que sus resultados son el resultado de la aleatoriedad. De manera alternativa, y aún más preocupante, una vez de cada veinte experimentos, un resultado falso parece ser significativo, aunque no lo es, y los otros diecinueve resultados no serán publicados. En un artículo de 2005, "Por qué los hallazgos de la mayoría de las investigaciones son falsos", John Ioannidis estableció varios factores, desde los estadísticos hasta con fines financieros y contribuirá a la publicación de resultados falsos.

Por ejemplo, debido a los fuertes incentivos para publicar, los investigadores a veces manipulan los valores p alrededor de 0.05 para que estén por debajo de ese umbral. Otras veces, se publicó el estudio que, naturalmente, seleccionan resultados inesperados e inusuales, resultan no pueden replicarse (y, por lo tanto, posiblemente el resultado del azar), lo que ha llevado a una crisis de confianza en varios campos. También llevó a la creación de organizaciones dedicadas a probar la reproducibilidad.

En el campo del AA, los modelos solo se consideran de vanguardia si cumplen superar las comparativas de evaluación de la mayoría de los demás modelos competitivos. Es posible que surjan presiones similares en torno a las puntuaciones de evaluación del modelo, pueden impulsarse de forma artificial mediante la filtración de las comparativas.2

Los valores p pueden ser útiles en la selección de atributos para modelos de regresión. ANOVA (Análisis de la varianza) es un método estadístico que compara varianza dentro de los grupos a la varianza entre los grupos, de modo que se muestre un Estadística F y valor p para cada atributo. Elegir los atributos más significativos, con los valores p más bajos, puede reducir la cantidad de atributos que un modelo debe considerar, sin perder mucha capacidad predictiva. Esto ahorra procesamiento y evita el problema de tener demasiados atributos, que analizaremos en una sección posterior. Ver scikits Guía de selección de atributos para obtener más información.

El problema de las comparaciones múltiples

El problema del umbral de importancia es especialmente grave en situaciones se están realizando múltiples comparaciones con la hipótesis nula en el mismo tiempo. Este es un tema específico para los estudios de resonancia magnética.

En una resonancia magnética, cada vóxel (unidad de volumen) del cerebro se prueba de forma independiente para determinar la y se destaca si es así. Esto nos lleva a algo así como Se están realizando 100,000 pruebas de importancia independientes a la vez. A un p=0.05 de importancia, la teoría estadística espera alrededor de 5,000 falsos positivos que aparecían en una sola resonancia fásica.3

El problema probablemente se ilustre mejor en el estudio de Bennett et al. póster, "Neural cores of interspecies perspectivaating in the post-mortem Atlantic Salmón" que ganó el Premio Nobel de la Industria de Nombre de universidad. Los investigadores mostraron 15 fotografías de en situaciones muy emocionales a un salmón muerto en una resonancia pidiéndole al salmón muerto que determinara qué emociones estaban experimentando. Encontraron un clúster estadísticamente significativo de vóxeles activos en la cavidad cerebral del salmón y concluyeron, con ironía, que el salmón muerto en realidad estaba tomando perspectiva. Más en serio, los investigadores llamaban la atención sobre el problema de las comparaciones múltiples en resonancia magnética y situaciones de imágenes similares, y la necesidad de mitigaciones.

Una solución obvia y poco sofisticada es reducir el valor p del umbral que indica importancia. La característica El equilibrio es entre sensibilidad (captura de todos los verdaderos positivos) y especificidad (identificando todos los verdaderos negativos). Un debate sobre sensibilidad, también llamado tasa de verdaderos positivos, en el módulo Clasificación. del Curso intensivo de aprendizaje automático.

Otra mitigación es controlar la tasa de errores familiares (FWER). que es la probabilidad de al menos un falso positivo. Otro es controlar para la tasa de descubrimiento de falsos (FDR) o la proporción esperada de falsos positivos a todos los positivos. Consulta la guía sobre el problema de las múltiples comparaciones de Evidence in Governance and Politics, así como “Zen and the art of multiple comparisons” de Lindquist y Mejia para obtener explicaciones de estos métodos y algunas explicaciones. En la situación con el salmón muerto, el control de FDR y FWER mostró que ningún vóxel estaba, de hecho, estadísticamente significativos.

El entrenamiento de modelos de AA en exploraciones de IRMf y otros métodos de imagen es cada vez más popular tanto en el área del diagnóstico médico4 como en la reconstrucción de imágenes de la actividad cerebral.5 Si estos modelos se entrenan en un conjunto de datos lo suficientemente grande, es posible que se reduzca la probabilidad de problemas debido al problema de las múltiples comparaciones. Sin embargo, particularmente en el ámbito del diagnóstico, el modelo puede hacer inferencias imprecisas sobre nuevos análisis individuales si el 20% de la palabra “activo” vóxeles son en realidad falsos positivos. Ten en cuenta que los modelos de clasificación de fMRI diagnósticos descritos en Li y Zhao tienen una precisión de alrededor del 70% al 85%.

Hay demasiadas variables en el análisis de regresión.

El problema de las comparaciones múltiples se extiende al análisis de regresión múltiple. El análisis de regresión, o regresión lineal, es la base de muchos modelos predictivos numéricos. El análisis de regresión usa uno de varios métodos, como los mínimos cuadrados ordinarios, para encontrar el coeficiente de regresión que mejor describe cómo una variable afecta a otra. Los investigadores pueden preguntar cómo la edad y el tabaquismo afectan las tasas de cáncer de pulmón representando cada factor como una variable en un análisis de regresión de la incidencia de cáncer en fumadores y no fumadores de diferentes edades. Un modelo de regresión lineal funciona de la misma manera y, por lo tanto, es muy interpretable en comparación con otros tipos de modelos de AA. Encuentra la regresión de esas variables describirán las relaciones lineales entre estas variables y las tasas de cáncer de pulmón.

Puede ser tentador incluir todas las variables posibles en un análisis de regresión, no solo porque no incluir un factor crítico puede llevar a su contribución que se pasen por alto. Sin embargo, agregar demasiadas variables a un análisis de regresión aumenta las probabilidades de que una variable irrelevante parezca estadísticamente significativa. Si agregamos dieciocho variables irrelevantes más a nuestro análisis, como "películas vistas" y "perros que se tienen", es probable que una de esas variables irrelevantes, por pura casualidad, parezca estar asociada con tasas más altas de cáncer de pulmón.6

En el contexto del AA, la situación análoga es proporcionarle demasiadas características al modelo, lo que puede generar ajuste excesivo, entre otros problemas.

Inferencias y toma de decisiones

Una forma de eludir algunas de estas trampas del pensamiento es tratar la estadística y el AA de datos, que se derivan de estadísticas, como herramientas para tomar decisiones, en lugar de responder preguntas. Esta fue la opinión de Jerzy Neyman y Egon Sharpe Pearson.7

En este framework, los datos, las estadísticas de datos y las derivadas, incluidos los modelos de AA, son los más adecuados para hacer predicciones probabilísticas, refutar afirmaciones universales, mejorar y centrar preguntas de investigación y ayudar a tomar decisiones. No son adecuados para hacer afirmaciones sobre la verdad.

Según David Ritter, las decisiones basadas en correlaciones incluso en correlaciones gigantes cantidades de datos se deben basar en dos factores:

  • "La confianza en que la correlación se repetirá de forma confiable en el futuro", que debe basarse en la frecuencia con la que esa correlación se produjo en el pasado y en una comprensión precisa de lo que la causa.
  • Los riesgos y las recompensas de actuar.8

Del mismo modo, no todas las preguntas de investigación son adecuadas para la IA. Anastassia Fedyk ofrece dos criterios para un problema adecuado para la IA:

  • El problema requiere predicción, no comprender relaciones causales.
  • Los datos que se alimentan a la IA contienen todo lo que se necesita saber sobre el problema, es decir, el problema es autónomo.9

Referencias

Bennett, Craig M. Abigail A. Baird, Michael B. Miller, y George L. Wolford. "Correlaciones neuronales de la perspectiva de las interespecies en el análisis post-mortem Salmones Atlántico: Un argumento para la corrección de varias comparaciones". Neuroimage (2009).

El Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.

Davenport, Thomas H. “A Predictive Analytics Primer”. En la Guía de HBR sobre los datos Analytics Basics for Managers (Boston: HBR Press, 2018), 81-86.

Ellenberg, Jordania. How Not to Be Wrong: The Power of Mathematical Thinking. NY: Penguin, 2014.

Fedyk, Anastassia. “¿Puede el aprendizaje automático resolver tu problema empresarial?” En HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018), 111-119.

Gallo, Amy. “A Refresher on Statistical Significance”. En la Guía de HBR sobre los datos Analytics Basics for Managers (Boston: HBR Press, 2018), 121-129.

Huff, Darrell. Cómo mentir con estadísticas. NY: W.W. Norton, 1954.

Ioannidis, John P.A. "Why Most Published Research Findings Are False.". En PLoS Med 2, n.° 8: e124.

Jones, Ben. Evita errores de datos. Hoboken, Nueva Jersey: Wiley, 2020.

Li, Jiangxue y Peize Zhao. “Deep Learning Applications in fMRI: a Review Work” ICBBB 2023 (Tokio, Japón, del 13 al 16 de enero de 2023): 75-80. https://doi.org/10.1145/3586139.3586150

Lindquist, Martin A. y Amanda Mejia. "El arte de las comparaciones múltiples". Psychosomatic Medicine 77 n.o 2 (febrero a marzo de 2015): 114–125. Doi: 10.1097/PSY.0000000000000148.

Ritter, David. "Cuándo actuar según una correlación y cuándo no". En la guía de HBR para Data Analytics Basics for Managers (Boston: HBR Press, 2018), 103-109.

Tagaki, Yu y Shinji Nishimoto. “Reconstrucción de imágenes en alta resolución con modelos de difusión latente a partir de la actividad del cerebro humano”. Conferencia IEEE/CVF 2023 sobre Computer Vision and Pattern Recognition (Vancouver, BC, Canadá, 2023): 14453-14463. doi: 10.1109/CVPR52729.2023.01389

Wheelan, Charles. Estadísticas sin datos: Quita el temor de los datos. Nueva York: W.W. Norton, 2013

Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen, Yankai Lin, Ji-Rong Wen y Jiawei Han. “Don't Make Your LLM an Evaluation Benchmark Cheater”. arXiv:2311.01964 cs.CL


  1. El Cairo, 182. 

  2. Zhou et al.

  3. Lindquist y Mejía. 

  4. Li y Zhao 77-78. 

  5. Tagaki y Nishimoto. 

  6. Wheelan 221 

  7. Ellenberg, 159 

  8. Ritter 104. 

  9. Fedyk 113.