Los modelos de aprendizaje automático (AA) no son objetivos de manera inherente. Los profesionales del AA entrenan modelos al proporcionarles un conjunto de datos con ejemplos de entrenamiento. La participación humana en el aprovisionamiento y la selección de estos datos puede hacer que las predicciones del modelo sean susceptibles al sesgo.
Cuando compilas modelos, es importante tener en cuenta los sesgos humanos comunes que pueden manifestarse en tus datos, para que puedas tomar medidas proactivas y mitigar sus efectos.
Sesgo de reporte
-
Definición
El sesgo de reporte se produce cuando la frecuencia de los eventos, las propiedades o los resultados contenidos en un conjunto de datos no refleja con exactitud su frecuencia en el mundo real. Una posible causa es que las personas tienden a enfocarse en el registro de circunstancias inusuales o especialmente memorables, ya que se supone que lo común no se necesita registrar.
-
Ejemplo
Se entrena un modelo de análisis de opiniones para predecir si las opiniones sobre libros son positivas o negativas en función de un corpus de envíos de usuarios a un sitio web popular. La mayoría de las opiniones del conjunto de datos de entrenamiento reflejan opiniones extremas (revisores que amaron o odiaron un libro), ya que era menos probable que las personas enviaran una opinión sobre un libro si no les había gustado mucho. Como resultado, el modelo es menos capaz de predecir correctamente el sentimiento de las opiniones que usan un lenguaje más sutil para describir un libro.
Haz clic en chevron_left para ver la definición.
Sesgo histórico
-
Definición
El sesgo histórico se produce cuando los datos históricos reflejan desigualdades que existían en el mundo en ese momento.
-
Ejemplo
Un conjunto de datos de viviendas de una ciudad de la década de 1960 contiene datos sobre precios de viviendas que reflejan prácticas de préstamos discriminatorias vigentes durante esa década.
Haz clic en chevron_left para ver la definición.
Sesgo de automatización
-
Definición
El sesgo de automatización es la tendencia a favorecer los resultados que se generan mediante sistemas automatizados sobre los que se generan a través de aquellos que no lo son, sin importar la tasa de error de cada uno.
-
Ejemplo
Los profesionales del AA que trabajaban para un fabricante de ruedas dentadas estaban ansiosos por implementar el nuevo modelo “innovador” que entrenaron para identificar defectos dentales, hasta que el supervisor de la fábrica señaló que las tasas de precisión y recuperación del modelo eran un 15% más bajas que las de los inspectores humanos.
Haz clic en spark_left para ver la definición.
Sesgo de selección
El sesgo de selección tiene lugar cuando los ejemplos de un conjunto de datos se eligen de un modo que no refleja su distribución en el mundo real. El sesgo de selección puede adoptar muchas formas diferentes, como el sesgo de cobertura, el sesgo de no respuesta y el sesgo de muestreo.
Sesgo de cobertura
-
Definición
El sesgo de cobertura se produce si los datos no se seleccionan de forma representativa.
-
Ejemplo
Se entrena un modelo para predecir las ventas futuras de un producto nuevo en función de encuestas telefónicas realizadas con una muestra de consumidores que compraron el producto. En cambio, no se encuestaron a los consumidores que decidieron comprar un producto de la competencia, por lo que este grupo no estuvo representado en los datos de entrenamiento.
Haz clic en chevron_left para ver la definición.
Sesgo de no respuesta
-
Definición
El sesgo de no respuesta (también conocido como sesgo de participación) ocurre si los datos no resultan representativos debido a interrupciones en la participación en el proceso de recopilación de datos.
-
Ejemplo
Se entrena un modelo para predecir las ventas futuras de un producto nuevo en función de encuestas telefónicas realizadas con una muestra de consumidores que compraron el producto y con una muestra de consumidores que compraron un producto de la competencia. Los consumidores que compraron el producto de la competencia tenían un 80% más de probabilidades de rechazar completar la encuesta, y sus datos estaban subrepresentados en la muestra.
Haz clic en chevron_left para ver la definición.
Sesgo muestral
-
Definición
El sesgo muestral ocurre si no se usa una aleatorización adecuada durante la recopilación de datos.
-
Ejemplo
Se entrena un modelo para predecir las ventas futuras de un producto nuevo a partir de encuestas telefónicas realizadas con una muestra de consumidores que compraron el producto y con una muestra de consumidores que compraron un producto de la competencia. En lugar de seleccionar a los consumidores de manera aleatoria, el encuestador eligió a los primeros 200 consumidores que respondieron un correo electrónico, quienes posiblemente estaban más entusiasmados acerca del producto que los compradores promedio.
Haz clic en chevron_left para ver la definición.
Sesgo de correspondencia
El sesgo de correspondencia es la tendencia a generalizar la realidad de los individuos para todo el grupo al que pertenecen. El sesgo de atribución grupal a menudo se manifiesta de las siguientes formas.
Sesgo endogrupal
-
Definición
El sesgo endogrupal es una preferencia por los miembros de tu propio grupo al que también perteneces o por características que también compartes.
-
Ejemplo
Dos profesionales del AA que entrenan un modelo para filtrar currículums de desarrolladores de software están predispuestos a creer que los postulantes que asistieron a la misma academia de informática que ellos están más calificados para el puesto.
Haz clic en chevron_left para ver la definición.
Sesgo de homogeneidad de los demás
-
Definición
El sesgo de homogeneidad de los demás es una tendencia a estereotipar a los miembros individuales de un grupo al que no perteneces o a ver sus características como más uniformes.
-
Ejemplo
Dos profesionales del AA que entrenan un modelo de selección de currículums para desarrolladores de software están predispuestos a creer que todos los postulantes que no asistieron a una academia de informática no tienen la experiencia suficiente para el puesto.
Haz clic en spark_left para ver la definición.
Sesgo implícito
-
Definición
El sesgo implícito tiene lugar cuando se realizan suposiciones en función de modelos mentales propios y experiencias personales que no aplican necesariamente a un nivel más general.
-
Ejemplo
Un profesional del AA que entrena un modelo de reconocimiento de gestos usa un movimiento de cabeza como un atributo para indicar que una persona está comunicando la palabra "no". Sin embargo, en algunas regiones del mundo, un movimiento de cabeza significa en realidad "sí".
Haz clic en chevron_left para ver la definición.
Sesgo de confirmación
-
Definición
El sesgo de confirmación se produce cuando los creadores de modelos procesan inconscientemente los datos de maneras que afirman sus hipótesis y creencias preexistentes.
-
Ejemplo
Un profesional del AA está creando un modelo que predice la agresividad de los perros en función de una variedad de características (altura, peso, raza y entorno). El practicante tuvo un encuentro desagradable con un caniche toy cuando era niño y, desde entonces, ha asociado a la raza con agresión. Cuando se seleccionaron los datos de entrenamiento del modelo, el profesional descartó de forma inconsciente las características que proporcionaban evidencia de docilidad en perros más pequeños.
Haz clic en spark_left para ver la definición.
Sesgo del investigador
-
Definición
El sesgo del experimentador ocurre cuando quien crea el modelo sigue entrenándolo hasta que produce un resultado que se alinea con su hipótesis original.
-
Ejemplo
Un profesional de la AA está creando un modelo que predice la agresividad de los perros en función de distintas características (altura, peso, raza, entorno). El practicante tuvo un encuentro desagradable con un caniche toy cuando era niño y, desde entonces, ha asociado a la raza con agresión. Cuando el modelo entrenado predijo que la mayoría de los caniches toy eran relativamente dóciles, el profesional volvió a entrenar el modelo varias veces hasta que produjo un resultado que muestra que los caniches más pequeños son más violentos.
Haz clic en chevron_left para ver la definición.