Glosario de aprendizaje automático: Equidad

Esta página contiene los términos del Glosario de equidad. Para ver todos los términos del glosario, haz clic aquí.

A

atributo

#fairness

Sinónimo de función.

En la equidad del aprendizaje automático, los atributos suelen hacer referencia a las características de las personas.

sesgo de automatización

#fairness

Cuando una persona que toma decisiones favorece las recomendaciones hechas por un sistema automático de decisión por sobre la información obtenida sin automatización, incluso cuando el sistema de decisión automatizado comete un error.

Consulta Equidad: Tipos de sesgos en el Curso intensivo de aprendizaje automático para obtener más información.

B

sesgo (ética/equidad) (bias, ethics/fairness)

#fairness
#fundamentals

1. Estereotipo, prejuicio o preferencia de cosas, personas o grupos por sobre otros. Estos sesgos pueden afectar la recolección y la interpretación de datos, el diseño de un sistema y cómo los usuarios interactúan con él. Entre las formas de este tipo de sesgo, se incluyen las siguientes:

2. Error sistemático debido a un procedimiento de muestreo o de elaboración de informes. Entre las formas de este tipo de sesgo, se incluyen las siguientes:

No se debe confundir con el término de sesgo en modelos de aprendizaje automático o sesgo de predicción.

Consulta Equidad: Tipos de sesgos en el Curso intensivo de aprendizaje automático para obtener más información.

C

sesgo de confirmación

#fairness

Tendencia de buscar, interpretar, favorecer y recuperar información de una manera que confirme las creencias o hipótesis preexistentes propias. Los desarrolladores de aprendizaje automático pueden recopilar o etiquetar inadvertidamente los datos de formas que influyan en un resultado que respalde sus creencias. El sesgo de confirmación es una forma de sesgo implícito.

El sesgo del experimentador es una forma de sesgo de confirmación en el cual un investigador continúa entrenando modelos hasta confirmar una hipótesis preexistente.

equidad contrafáctica

#fairness

Una métrica de equidad que verifica si un clasificador produce el mismo resultado para una persona que para otra que es idéntica a la primera, excepto en relación con uno o más atributos sensibles. Evaluar un clasificador para la equidad contrafactual es un método para mostrar posibles fuentes de sesgo en un modelo.

Consulta cualquiera de los siguientes vínculos para obtener más información:

sesgo de cobertura

#fairness

Consulta sesgo de selección.

D

paridad demográfica

#fairness

Una métrica de equidad que se satisface si los resultados de la clasificación de un modelo no dependen de un atributo sensible determinado.

Por ejemplo, si los liliputienses y los brobdingnagianos se postulan a la Universidad de Glubbdubdrib, se logra la paridad demográfica si el porcentaje de liliputienses admitidos es el mismo que el porcentaje de brobdingnagianos admitidos, independientemente de si un grupo es, en promedio, más calificado que el otro.

Contrasta con las probabilidades iguales y la igualdad de oportunidades, que permiten que los resultados de la clasificación en conjunto dependan de atributos sensibles, pero no permiten que los resultados de la clasificación de ciertas etiquetas de verdad fundamental especificadas dependan de atributos sensibles. Consulta "Cómo combatir la discriminación con un aprendizaje automático más inteligente" para ver una visualización que explora las compensaciones cuando se realiza la optimización para la paridad demográfica.

Consulta Equidad: paridad demográfica en el Curso intensivo de aprendizaje automático para obtener más información.

impacto dispar

#fairness

Tomar decisiones sobre las personas que afectan de manera desproporcionada a diferentes subgrupos de la población Por lo general, se refiere a situaciones en las que un proceso de toma de decisiones algorítmico perjudica o beneficia a algunos subgrupos más que a otros.

Por ejemplo, supongamos que un algoritmo que determina la elegibilidad de una persona de Lilliput para un préstamo de casa en miniatura es más probable que la clasifique como "no apta" si su dirección de correo contiene un código postal determinado. Si es más probable que los liliputienses de Big-Endian tengan direcciones de correo con este código postal que los liliputienses de Little-Endian, este algoritmo puede generar un impacto dispar.

Compara esto con el tratamiento dispar, que se enfoca en las disparidades que se producen cuando las características de los subgrupos son entradas explícitas en un proceso de toma de decisiones algorítmico.

trato dispar

#fairness

Tener en cuenta los atributos sensibles de los sujetos en un proceso de toma de decisiones algorítmico de modo que se trate de manera diferente a los diferentes subgrupos de personas

Por ejemplo, considera un algoritmo que determina la elegibilidad de los liliputienses para un préstamo de casa en miniatura según los datos que proporcionan en su solicitud de préstamo. Si el algoritmo usa la afiliación de un liliputiense como Big-Endian o Little-Endian como entrada, aplica un tratamiento dispar en esa dimensión.

Contrasta con el impacto dispar, que se enfoca en las disparidades en los impactos sociales de las decisiones algorítmicas en los subgrupos, independientemente de si esos subgrupos son entradas del modelo.

E

igualdad de oportunidades

#fairness

Una métrica de equidad para evaluar si un modelo predice el resultado deseado de la misma manera para todos los valores de un atributo sensible. En otras palabras, si el resultado deseable para un modelo es la clase positiva, el objetivo sería que la tasa de verdaderos positivos sea la misma para todos los grupos.

La igualdad de oportunidades se relaciona con las probabilidades igualadas, lo que requiere que ambas tasas, las de verdaderos positivos y las de falsos positivos, sean iguales para todos los grupos.

Supongamos que la Universidad de Glubbdubdrib admite a liliputienses y brobdingnagianos a un programa riguroso de matemáticas. Las instituciones educativas secundarias de Lilliput ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Las instituciones educativas secundarias de Brobdingnag no ofrecen clases de matemáticas y, como resultado, muchos menos estudiantes están calificados. Se satisface la igualdad de oportunidades para la etiqueta preferida de “admitido” con respecto a la nacionalidad (liliputiense o brobdingnagiense) si los estudiantes calificados tienen la misma probabilidad de ser admitidos, independientemente de si son liliputienses o brobdingnagienses.

Por ejemplo, supongamos que 100 liliputienses y 100 brobdingnagianos se postulan a la Universidad de Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:

Tabla 1: Solicitantes liliputienses (el 90% son aptos)

  Calificado No cumple con los requisitos
Admitido 45 3
Rechazado 45 7
Total 90 10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50%
Porcentaje de estudiantes no calificados rechazados: 7/10 = 70%
Porcentaje total de estudiantes liliputienses admitidos: (45+3)/100 = 48%

 

Tabla 2: Solicitantes de Brobdingnag (el 10% está calificado):

  Calificado No cumple con los requisitos
Admitido 5 9
Rechazado 5 81
Total 10 90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50%
Porcentaje de estudiantes no calificados rechazados: 81/90 = 90%
Porcentaje total de estudiantes de Brobdingnagian admitidos: (5+9)/100 = 14%

Los ejemplos anteriores satisfacen la igualdad de oportunidades para la aceptación de estudiantes calificados, ya que los liliputienses y los brobdingnagianos calificados tienen un 50% de posibilidades de ser admitidos.

Si bien se cumple la igualdad de oportunidades, no se cumplen las siguientes dos métricas de equidad:

  • Paridad demográfica: Los liliputienses y los brobdingnagianos ingresan a la universidad a diferentes tasas; se admite el 48% de los estudiantes liliputienses, pero solo el 14% de los brobdingnagianos.
  • probabilidades iguales: Si bien los estudiantes liliputienses y brobdingnagianos calificados tienen la misma probabilidad de ser admitidos, no se satisface la restricción adicional de que los liliputienses y brobdingnagianos no calificados tienen la misma probabilidad de ser rechazados. Los liliputienses no calificados tienen un 70% de rechazo, mientras que los brobdingnagianos no calificados tienen un 90% de rechazo.

Consulta Equidad: igualdad de oportunidades en el Curso intensivo de aprendizaje automático para obtener más información.

probabilidades iguales

#fairness

Es una métrica de equidad para evaluar si un modelo predice resultados de la misma manera para todos los valores de un atributo sensible en relación con la clase positiva y la clase negativa, no solo una clase o la otra de forma exclusiva. En otras palabras, tanto la tasa de verdaderos positivos como la tasa de falsos negativos deben ser las mismas para todos los grupos.

Las probabilidades igualadas se relacionan con la igualdad de oportunidades, que solo se enfoca en las tasas de error de una sola clase (positiva o negativa).

Por ejemplo, supongamos que la Universidad de Glubbdubdrib admite a liliputienses y a brobdingnagianos en un programa de matemáticas riguroso. Las instituciones educativas secundarias de Lilliput ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Las escuelas secundarias de Brobdingnag no ofrecen clases de matemáticas y, como resultado, muchos menos de sus estudiantes están calificados. Se satisfacen las probabilidades iguales, siempre que, sin importar si un solicitante es un liliputiense o un brobdingnagiense, si es calificado, tenga las mismas probabilidades de ser admitido en el programa y, si no es calificado, tenga las mismas probabilidades de ser rechazado.

Supongamos que 100 liliputienses y 100 brobdingnagianos se postulan a la Universidad de Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:

Tabla 3: Solicitantes liliputienses (el 90% son aptos)

  Calificado No cumple con los requisitos
Admitido 45 2
Rechazado 45 8
Total 90 10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50%
Porcentaje de estudiantes no calificados rechazados: 8/10 = 80%
Porcentaje total de estudiantes liliputienses admitidos: (45+2)/100 = 47%

 

Tabla 4. Solicitantes de Brobdingnag (el 10% está calificado):

  Calificado No cumple con los requisitos
Admitido 5 18
Rechazado 5 72
Total 10 90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50%
Porcentaje de estudiantes no calificados rechazados: 72/90 = 80%
Porcentaje total de estudiantes de Brobdingnagian admitidos: (5+18)/100 = 23%

Se satisfacen las probabilidades iguales porque los estudiantes Lilliputianos y Brobdingnagianos calificados tienen un 50% de probabilidades de ser admitidos, y los Lilliputianos y Brobdingnagianos no calificados tienen un 80% de probabilidades de ser rechazados.

Las probabilidades iguales se definen formalmente en "Igualdad de oportunidades en el aprendizaje supervisado" de la siguiente manera: "El predictor Ŷ satisface las probabilidades iguales con respecto al atributo protegido A y al resultado Y si Ŷ y A son independientes, condicionados a Y".

sesgo del investigador

#fairness

Consulta sesgo de confirmación.

F

restricción de equidad

#fairness
Aplicar una restricción a un algoritmo para garantizar que se satisfagan una o más definiciones de equidad Estos son algunos ejemplos de restricciones de equidad:

métrica de equidad

#fairness

Una definición matemática de "equidad" que sea medible. Estas son algunas de las métricas de equidad de uso general:

Muchas métricas de equidad son mutuamente excluyentes. Consulta la sección sobre incompatibilidad de métricas de equidad.

G

sesgo de correspondencia

#fairness

La tendencia a creer que lo que es verdadero para un individuo, lo es también para todos los miembros de ese grupo Los efectos del sesgo de correspondencia pueden agravarse si se utiliza un muestreo de conveniencia para la recopilación de datos. En una muestra no representativa, puede que se creen atributos que no reflejen la realidad.

Consulta también el sesgo de homogeneidad de los demás y el sesgo endogrupal. Además, consulta Equidad: Tipos de sesgo en el Curso intensivo de aprendizaje automático para obtener más información.

H

sesgo histórico

#fairness

Un tipo de sesgo que ya existe en el mundo y se abrió camino en un conjunto de datos. Estos sesgos tienden a reflejar los estereotipos culturales, las desigualdades demográficas y los prejuicios existentes contra ciertos grupos sociales.

Por ejemplo, considera un modelo de clasificación que predijo si un solicitante de un préstamo incumplirá o no su préstamo, que se entrenó con datos históricos de incumplimientos de préstamos de la década de 1980 de bancos locales en dos comunidades diferentes. Si los solicitantes anteriores de la comunidad A tenían seis veces más probabilidades de incumplir sus préstamos que los solicitantes de la comunidad B, el modelo podría aprender un sesgo histórico, lo que reduciría las probabilidades de que apruebe préstamos en la comunidad A, incluso si las condiciones históricas que generaron las tasas de incumplimiento más altas de esa comunidad ya no fueran relevantes.

Consulta Equidad: Tipos de sesgos en el Curso intensivo de aprendizaje automático para obtener más información.

I

sesgo implícito

#fairness

Hacer una asociación o una suposición, de forma automática, con base en los modelos mentales o los recuerdos de cada uno. El sesgo implícito puede afectar los siguientes aspectos:

  • Cómo se recopilan y clasifican los datos
  • Cómo se diseñan y desarrollan los sistemas de aprendizaje automático

Por ejemplo, cuando se crea un clasificador para identificar fotos de bodas, un ingeniero puede utilizar como atributo la presencia de un vestido blanco en la foto. Sin embargo, los vestidos blancos han sido habituales durante ciertas épocas y en ciertas culturas.

Consulta también el sesgo de confirmación.

Incompatibilidad de métricas de equidad

#fairness

La idea de que algunas nociones de equidad son mutuamente incompatibles y no se pueden satisfacer de manera simultánea. Como resultado, no existe una sola métrica universal para cuantificar la equidad que se pueda aplicar a todos los problemas de AA.

Si bien esto puede parecer desalentador, la incompatibilidad de las métricas de equidad no implica que los esfuerzos por lograr la equidad sean infructuosos. En cambio, sugiere que la equidad debe definirse de forma contextual para un problema de AA determinado, con el objetivo de evitar daños específicos de sus casos de uso.

Consulta “Sobre la (im)posibilidad de la equidad” para obtener un análisis más detallado de este tema.

equidad individual

#fairness

Es una métrica de equidad que verifica si las personas similares se clasifican de manera similar. Por ejemplo, la Academia Brobdingnagian podría querer satisfacer la equidad individual asegurándose de que dos estudiantes con calificaciones idénticas y puntuaciones de pruebas estandarizadas tengan la misma probabilidad de ingresar.

Ten en cuenta que la equidad individual depende por completo de cómo definas la "similitud" (en este caso, las calificaciones y las puntuaciones de las pruebas) y que puedes correr el riesgo de introducir nuevos problemas de equidad si tu métrica de similitud omite información importante (como el rigor del plan de estudios de un estudiante).

Consulta "Equidad a través de la sensibilización" para obtener un análisis más detallado de la equidad individual.

sesgo endogrupal

#fairness

Mostrar parcialidad por el propio grupo o las propias características Si quienes prueban o evalúan el modelo son amigos, familiares o colegas del desarrollador de aprendizaje automático, el sesgo endogrupal puede invalidar las pruebas del producto o el conjunto de datos.

El sesgo endogrupal es una forma de sesgo de correspondencia. Consulta también el sesgo de homogeneidad de los demás.

Consulta Equidad: Tipos de sesgos en el Curso intensivo de aprendizaje automático para obtener más información.

N

sesgo de no respuesta

#fairness

Consulta sesgo de selección.

O

sesgo de homogeneidad de los demás

#fairness

La tendencia a ver a los miembros externos a un grupo como más parecidos que los miembros del grupo cuando se comparan actitudes, valores, rasgos de personalidad y otras características. Endogrupal refiere a las personas con las que interactúas regularmente; los demás refiere a las personas con las que no interactúas regularmente. Si se crea un conjunto de datos pidiéndoles atributos a las personas sobre los demás, esos atributos tendrán menos matices y serán más estereotípicos que los atributos que las personas pueden indicar sobre quienes pertenecen a su mismo grupo.

Por ejemplo, los liliputienses podrían describir las casas de otros liliputienses con gran detalle, citando pequeñas diferencias de estilos arquitectónicos, ventanas, puertas y tamaños. Sin embargo, la misma persona de Buenos Aires podría simplemente decir que los ciudadanos de Berlín viven todos en casas idénticas.

El sesgo de homogeneidad de los demás es una forma de sesgo de correspondencia.

Consulta también el sesgo endogrupal.

P

sesgo de participación

#fairness

Sinónimo de sesgo de no respuesta. Consulta sesgo de selección.

posprocesamiento

#fairness
#fundamentals

Ajustar el resultado de un modelo después de que se ejecute El procesamiento posterior se puede usar para aplicar restricciones de equidad sin modificar los modelos.

Por ejemplo, se puede aplicar el procesamiento posterior a un clasificador binario si se establece un umbral de clasificación de modo que se mantenga la igualdad de oportunidades para algún atributo. Para ello, se debe verificar que la tasa de verdaderos positivos sea la misma para todos los valores de ese atributo.

paridad predictiva

#fairness

Una métrica de equidad que verifica si, para un clasificador determinado, las tasas de precisión son equivalentes para los subgrupos en consideración.

Por ejemplo, un modelo que predice la aceptación en la universidad satisfaría la paridad predictiva para la nacionalidad si su tasa de precisión fuera la misma para los liliputienses y los brobdingnagianos.

A veces, la paridad predictiva también se denomina paridad de tarifas predictiva.

Consulta "Explicación de las definiciones de equidad" (sección 3.2.1) para obtener una explicación más detallada de la paridad predictiva.

paridad de tarifas predictiva

#fairness

Es otro nombre para la paridad predictiva.

procesamiento previo

#fairness
Procesar los datos antes de usarlos para entrenar un modelo El procesamiento previo puede ser tan simple como quitar palabras de un corpus de texto en inglés que no aparecen en el diccionario en inglés, o puede ser tan complejo como volver a expresar los datos de una manera que elimine tantos atributos como sea posible que estén correlacionados con atributos sensibles. El procesamiento previo puede ayudar a satisfacer las restricciones de equidad.

proxy (atributos sensibles)

#fairness
Es un atributo que se usa como sustituto de un atributo sensible. Por ejemplo, el código postal de una persona puede usarse como proxy de su ingreso, origen étnico o raza.

R

sesgo de reporte

#fairness

El hecho de que la frecuencia con la que las personas escriben sobre acciones, resultados o propiedades no es un reflejo fiel de las frecuencias reales o del grado en que una propiedad es típica de una clase de individuos. El sesgo de reporte puede influenciar la composición de los datos sobre los que el sistema de aprendizaje automático aprende.

Por ejemplo, en los libros, la palabra reír es más frecuente que la que se respirar. Un modelo de aprendizaje automático que estime la frecuencia relativa de reír y respirar a partir de un corpus de libros probablemente determine que reír es más frecuente que respirar.

S

sesgo muestral

#fairness

Consulta sesgo de selección.

sesgo de selección

#fairness

Errores en las conclusiones que se extraen de los datos muestreados debido a un proceso de selección que genera diferencias sistemáticas entre las muestras observadas en los datos y las no observadas. Existen las siguientes formas de sesgo de selección:

  • sesgo de cobertura: La población representada en el conjunto de datos no coincide con la población sobre la cual el modelo de aprendizaje automático predice.
  • sesgo muestral: Los datos no se recolectan en forma aleatoria del grupo objetivo.
  • sesgo de no respuesta (también llamado sesgo de participación): Los usuarios de ciertos grupos rechazan realizar encuestas con frecuencias diferentes que los usuarios de otros grupos.

Por ejemplo, supongamos que creas un modelo de aprendizaje automático que predice cuánto disfrutan las personas una película. Para recopilar datos de entrenamiento, dejas una encuesta a todos en frente del lugar donde se proyecta la película. A primera vista, esto puede parecer una forma razonable para recopilar un conjunto de datos; sin embargo, esta forma de recopilación de datos puede introducir las siguientes formas de sesgo de selección:

  • sesgo de cobertura: Tomar una muestra de una población que eligió ver la película posibilita que las predicciones de tu modelo no generalicen a las personas que aún no expresaron ese nivel de interés en la película.
  • sesgo muestral: En lugar de muestrear aleatoriamente desde la población prevista (todas las personas en la película), solo se muestrearon las personas en la primera fila. Es posible que las personas sentadas en la primera fila estén más interesadas en la película que aquellas en otras filas.
  • sesgo de no respuesta: En general, las personas con opiniones fuertes tienden a responder a las encuestas opcionales con mayor frecuencia que las personas con opiniones moderadas. Como la encuesta de la película es opcional, es más probable que las respuestas formen una distribución bimodal en lugar de una distribución normal (con forma de campana).

atributo sensible

#fairness
Un atributo humano que puede ser objeto de consideración especial por motivos legales, éticos, sociales o personales.

U

desconocimiento (de un atributo sensible)

#fairness

Es una situación en la que hay atributos sensibles, pero no se incluyen en los datos de entrenamiento. Debido a que los atributos sensibles a menudo se correlacionan con otros atributos de los datos, un modelo entrenado sin conocimiento de un atributo sensible podría tener un impacto dispar con respecto a ese atributo o infringir otras restricciones de equidad.