Trampas para pensar

Los seres humanos están sujetos a sesgos cognitivos por ser humanos, lo que incluye racionalización y sesgo de confirmación. Alberto Cairo escribe: "Racionalización es el modo predeterminado del cerebro humano".1 A menudo, las personas esperan o quieren un determinado resultado, y luego buscar datos o evidencia que respalden ese resultado.

Cuando se trabaja con datos y modelos, o se evalúa, que pueden provenir de muchos fuentes diferentes, pregunta sobre las posibles fuentes de sesgo. Por ejemplo:

  • ¿Quién financia este modelo o estudio? ¿Cuál es el mercado o comercial en una aplicación de prueba?
  • ¿Qué tipos de incentivos existen para las personas involucradas en la recopilación de datos?
  • ¿Qué tipos de incentivos existen para los investigadores que entrenan el modelo? o la realización del estudio, incluidas su publicación y permanencia?
  • Quién otorga las licencias al modelo o publica el estudio y cuáles son sus incentivos?

Estadísticas descriptivas

Media (suma de los valores dividida por la cantidad), mediana (valor medio, cuando valores están ordenados), y mode (valor más frecuente) suelen ser útiles en obtener una idea de la forma del conjunto de datos propio. Si la mediana y la media están muy separadas, por ejemplo, puede haber valores bastante extremos y asimétricos en la automático.

El rango, que es la diferencia entre los valores más altos y más bajos, y la varianza, que es la media de la diferencia al cuadrado entre cada valor y la media del conjunto, también proporcionan información útil sobre el la distribución y la forma del conjunto de datos.

Antes de entrenar un modelo con tus datos, pregunta si el conjunto de datos desequilibrio y, de ser así, si se debe abordar ese desequilibrio.

Inprobabilidades y valores p probables

Si se proporciona tiempo y oportunidades suficientes, la ocurrencia de un evento improbable se vuelve muy probable. Consulta la teoría Estafa de corredor de bolsa de Baltimore para ver un posible ejemplo.

Por consenso científico, un resultado se considera estadísticamente significativo (y por lo tanto, publicable) cuando el valor p es menor que 0 .05. Eso significa que hay un Menos del 5% de probabilidades de que el mismo resultado, o un extremo más, se produzca en el hipótesis nula, es decir, como resultado del azar. De manera más coloquial, Los investigadores solo pueden publicar contenido si hay una probabilidad de 1 en 20 o menos de que sus resultados son el resultado de la aleatoriedad. De manera alternativa, y aún más preocupante, una vez de cada veinte experimentos, un resultado falso parece ser significativo, aunque no lo es, y los otros diecinueve resultados no serán publicados. En un artículo de 2005, "Por qué los hallazgos de la mayoría de las investigaciones son falsos", John Ioannidis estableció varios factores, desde los estadísticos hasta con fines financieros y contribuirá a la publicación de resultados falsos.

Por ejemplo, dados los fuertes incentivos para publicar, los investigadores a veces p-valores alrededor de 0 .05 para caer por debajo de ese umbral. Otras veces, se publicó el estudio que, naturalmente, seleccionan resultados inesperados e inusuales, resultan no pueden replicarse (y, por lo tanto, posiblemente el resultado del azar), lo que ha llevado a una crisis de confianza en varios campos. También dio lugar a la creación de y organizaciones dedicadas a probar la reproducibilidad.

En el campo del AA, los modelos solo se consideran de vanguardia si cumplen superar las comparativas de evaluación de la mayoría de los demás modelos competitivos. Es posible que surjan presiones similares en torno a las puntuaciones de evaluación del modelo, que pueden impulsarse de forma artificial mediante la filtración de las comparativas.2

Los valores p pueden ser útiles en la selección de atributos para modelos de regresión. ANOVA (Análisis de la varianza) es un método estadístico que compara varianza dentro de los grupos a la varianza entre los grupos, de modo que se muestre un Estadística F y valor p para cada atributo. Elegir los atributos más significativos, con los valores p más bajos, puede reducir la cantidad de atributos que un modelo debe considerar, sin perder energía. Esto ahorra procesamiento y evita el problema de tener demasiados atributos, que analizaremos en una sección posterior. Ver scikits Guía de selección de atributos para obtener más información.

El problema de las comparaciones múltiples

El problema del umbral de importancia es particularmente grave en situaciones se están realizando múltiples comparaciones con la hipótesis nula en el mismo tiempo. Este es un tema específico para los estudios de resonancia magnética.

En una resonancia magnética, cada vóxel (unidad de volumen) del cerebro se prueba de forma independiente para determinar la y se destaca si es así. Esto nos lleva a algo así como Se están realizando 100,000 pruebas de importancia independientes a la vez. A un p=0.05 de importancia, la teoría estadística espera alrededor de 5,000 falsos positivos que aparecían en una sola resonancia fásica.3

El problema probablemente se ilustre mejor en el estudio de Bennett et al. póster, "Neural cores of interspecies perspectivaating in the post-mortem Atlantic Salmón" que ganó el Premio Nobel Ig. Los investigadores mostraron 15 fotografías de en situaciones muy emocionales a un salmón muerto en una resonancia pidiéndole al salmón muerto que determinara qué emociones estaban experimentando. Encontraron un clúster con importancia estadística de vóxeles activos en la cavidad cerebral del salmón y concluyó, la lengua en la mejilla, que el salmón muerto realmente estaba tomando perspectiva. Más en serio, los investigadores llamaban la atención sobre el problema de las comparaciones múltiples en resonancia magnética y situaciones de imágenes similares, y la necesidad de mitigaciones.

Una solución obvia y poco sofisticada es reducir el valor p del umbral que indica importancia. La característica El equilibrio es entre sensibilidad (captura de todos los verdaderos positivos) y especificidad (identificando todos los verdaderos negativos). Un debate sobre sensibilidad, también llamado tasa de verdaderos positivos, en el módulo Clasificación. del Curso intensivo de aprendizaje automático.

Otra mitigación es controlar la tasa de errores familiares (FWER), que es la probabilidad de al menos un falso positivo. Otro es controlar las la tasa de descubrimiento de falsos (FDR), o la proporción esperada de falsos positivos a todos los aspectos positivos. Consulta la evidencia en la gestión corporativa y la política guía sobre el problema de las comparaciones múltiples y de Lindquist y Mejia's "El arte de las comparaciones múltiples", para obtener explicaciones sobre estos métodos y algunos pasos. En la situación con el salmón muerto, el control de FDR y FWER mostró que ningún vóxel estaba, de hecho, estadísticamente significativos.

Entrenar modelos de AA con escaneos de resonancia magnética y otros métodos de diagnóstico por imágenes es cada vez más es popular tanto en el área de diagnóstico médico4 como en la reconstrucción de imágenes de la actividad cerebral.5 Si estos modelos se entrenan con un modelo conjunto de datos, esto podría reducir la probabilidad de problemas de los múltiples un problema de comparación. Sin embargo, particularmente en el ámbito del diagnóstico, el modelo puede hacer inferencias imprecisas sobre nuevos análisis individuales si el 20% de la palabra “activo” vóxeles son en realidad falsos positivos. Ten en cuenta que la clasificación de la MRI del diagnóstico Los modelos descritos en Li y Zhao tienen una exactitud de entre un 70% y un 85%.

Hay demasiadas variables en el análisis de regresión

El problema de las comparaciones múltiples se extiende al análisis de regresión múltiple. Análisis de regresión o regresión lineal, es la columna vertebral de muchos modelos predictivos numéricos. El análisis de regresión usa uno de varios métodos, como los mínimos cuadrados comunes, para encontrar el coeficiente de regresión que mejor describe cómo afecta una variable con el otro. Los investigadores pueden preguntarse cómo la edad y el tabaquismo afectan las tasas de cáncer de pulmón al que representa cada factor como una variable en un análisis de regresión del cáncer entre fumadores y no fumadores de diversas edades. Un modelo de regresión lineal funciona de la misma manera y, por lo tanto, es muy interpretable en comparación con otros tipos de modelos de AA. Encuentra la regresión de esas variables describirán las relaciones lineales entre estas variables y las tasas de cáncer de pulmón.

Puede ser tentador incluir todas las variables posibles en un análisis de regresión, no solo porque no incluir un factor crítico puede llevar a su contribución que se pasen por alto. Sin embargo, agregar demasiadas variables a un análisis de regresión aumenta las probabilidades de que una variable irrelevante aparezca estadísticamente significativo. Si agregamos dieciocho variables más irrelevantes a nuestro análisis, como "películas vistas" y "perros", es probable que una de esas variables irrelevantes, por pura casualidad, parecerán estar asociadas con tasas de cáncer de pulmón más altas.6

En el contexto del AA, la situación análoga es dar demasiados atributos al automático, lo que puede generar sobreajuste, entre otros problemas.

Inferencias y toma de decisiones

Una forma de eludir algunas de estas trampas del pensamiento es tratar la estadística y el AA de datos, que se derivan de estadísticas, como herramientas para tomar decisiones, en lugar de responder preguntas. Este fue el del puesto de trabajo de Jerzy Neyman y Egon Sharpe Pearson7

En este framework, los datos, las estadísticas de datos y las derivadas, incluidos los modelos de AA, son los más adecuados para hacer predicciones probabilísticas, refutar afirmaciones universales, mejorar y centrar preguntas de investigación y ayudar a tomar decisiones. No son adecuados para hacer afirmaciones afirmativas sobre la verdad.

Según David Ritter, las decisiones basadas en correlaciones incluso en correlaciones gigantes cantidades de datos se deben basar en dos factores:

  • "La confianza en que la correlación se repetirá de manera confiable en el futuro", cuál se deben basar tanto en la frecuencia con la que se produce esa correlación pasado y una comprensión precisa de qué causa esa correlación.
  • Los riesgos y las recompensas de actuar8

Del mismo modo, no todas las preguntas de investigación pueden ser adecuadas para la IA. Anastassia Fedyk ofrece dos criterios para un problema adecuado para la IA:

  • El problema requiere predicción, no comprender relaciones causales.
  • Los datos que se envían a la IA contienen todo lo que se necesita saber problema; es decir, el problema es autónomo.9

Referencias

Bennett, Craig M. Abigail A. Baird, Michael B. Miller, y George L. Wolford. "Correlaciones neuronales de la perspectiva de las interespecies en el análisis post-mortem Salmones Atlántico: Un argumento para la corrección de varias comparaciones". Neuroimage (2009).

El Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. Nueva York: W.W. Norton, 2019.

Davenport, Thomas H. “A Predictive Analytics Primer”. En la Guía de HBR sobre los datos Analytics Basics for Managers (Boston: HBR Press, 2018), 81-86.

Ellenberg, Jordania. Cómo no estar equivocado: El poder del pensamiento matemático. NY: Pingüino, 2014.

Fedyk, Anastassia. “¿Puede el aprendizaje automático resolver tu problema empresarial?” En HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018), 111-119.

Galó, Amy. "A Refresher on Statistical Significance". En la Guía de HBR sobre los datos Analytics Basics for Managers (Boston: HBR Press, 2018), 121-129.

Huff, Darrell. Cómo lidiar con las estadísticas. NY: W.W. Norton, 1954.

Ioannidis, John P.A. "Why Most Published Research Findings Are False". (Por qué los hallazgos de investigaciones más publicadas son falsos). En PLoS Med 2 núm. 8: e124.

Jones, Ben. Evita errores de datos. Hoboken, Nueva Jersey: Wiley, 2020.

Li, Jiangxue y Peize Zhao. “Deep Learning Applications in fMRI: a Review Work” ICBBB 2023 (Tokio, Japón, del 13 al 16 de enero de 2023): 75-80. https://doi.org/10.1145/3586139.3586150

Lindquist, Martin A. y Amanda Mejia. "El arte de las comparaciones múltiples". Psychosomatic Medicine 77 n.o 2 (febrero a marzo de 2015): 114–125. Doi: 10.1097/PSY.0000000000000148.

Ritter, David. "Cuándo actuar según una correlación y cuándo no". En la guía de HBR para Data Analytics Basics for Managers (Boston: HBR Press, 2018), 103-109.

Tagaki, Yu y Shinji Nishimoto. “Reconstrucción de imágenes en alta resolución con modelos de difusión latente a partir de la actividad del cerebro humano”. Conferencia IEEE/CVF 2023 sobre Computer Vision and Pattern Recognition (Vancouver, BC, Canadá, 2023): 14453-14463. doi: 10.1109/CVPR52729.2023.01389

Wheelan, Charles. Estadísticas sin datos: Quita el temor de los datos. Nueva York: W.W. Norton, 2013

Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen, Yankai Lin, Ji-Rong Wen y Jiawei Han. “Don't Make Your LLM an Evaluation Benchmark Cheater”. arXiv:2311.01964 cs.CL


  1. El Cairo, 182. 

  2. Zhou et al.

  3. Lindquist y Mejía. 

  4. Li y Zhao 77-78. 

  5. Tagaki y Nishimoto. 

  6. Wheelan 221 

  7. Ellenberg, 159 

  8. Ritter 104. 

  9. Fedyk 113.