Hasta ahora, en nuestras discusiones sobre métricas de equidad, asumimos que nuestro entrenamiento y los ejemplos de prueba contienen datos demográficos integrales subgrupos que se están evaluando. Pero a menudo este no es el caso.
Supongamos que nuestro conjunto de datos de admisiones no contiene datos demográficos completos. En cambio, la pertenencia a un grupo demográfico se registra solo para un pequeño porcentaje de ejemplos, como los estudiantes que optaron por identificar qué grupo a los que pertenecían. En este caso, el desglose de nuestro grupo de candidatos y los estudiantes rechazados ahora tiene la siguiente apariencia:
En este caso, no es factible evaluar las predicciones del modelo para ningún segmento demográfico paridad o igualdad de oportunidades, porque no tenemos datos demográficos para el 94% de nuestros ejemplos. Sin embargo, el 6% de los ejemplos que sí contienen de características demográficas, de todos modos podemos comparar pares de predicciones individuales (un candidato mayoritario o minoritario) y ver si han sido tratadas equitativamente por el modelo.
Por ejemplo, supongamos que revisamos minuciosamente los datos de los atributos disponible para dos candidatos (uno en el grupo mayoritario y otro en la minoría grupo, anotado con una estrella en la imagen de abajo) y han determinado que están idénticamente calificados para la admisión en todos los aspectos. Si el modelo hace la misma predicción para ambos candidatos (es decir, cualquiera rechaza ambos) o no acepta a ambos candidatos), se dice que satisface la política contrafáctica equidad para estos ejemplos. La equidad contrafáctica estipula que dos ejemplos idénticos en todo sentido, excepto por un atributo sensible determinado (en este caso, pertenencia a un grupo demográfico), debería generar el mismo modelo. para la predicción.
Ventajas y desventajas
Como mencionamos antes, un beneficio clave de la equidad contrafáctica es que puede usarse para evaluar las predicciones de equidad en muchos casos en los que otras métricas no serían factibles. Si un conjunto de datos no contiene un conjunto completo para los atributos de grupo relevantes que se están considerando, no se ser posible evaluar la equidad con la paridad demográfica o la igualdad de oportunidades. Sin embargo, si estos atributos de grupo están disponibles para un subconjunto ejemplos y es posible identificar pares comparables de equivalentes ejemplos en diferentes grupos, los profesionales pueden usar la equidad contrafáctica como una métrica para sondear el modelo en busca de posibles sesgos en las predicciones.
Además, debido a que métricas como la paridad demográfica y la igualdad a evaluar a los grupos de oportunidades en conjunto, pueden ocultar problemas de sesgo que afectan el modelo a nivel de las predicciones individuales, que pueden ser basada en la equidad contrafáctica. Por ejemplo, imagina que nuestras admisiones acepta candidatos calificados del grupo mayoritario y de la minoría. grupo en la misma proporción, pero el candidato más calificado de la minoría rechazada, mientras que el candidato más calificado que tiene exactamente el mismo y se aceptan las credenciales. Un análisis de equidad contrafáctico puede ayudar a identificar este tipo de discrepancias para poder abordarlas.
La desventaja principal de la equidad contrafáctica es que no proporcionan una visión holística del sesgo en las predicciones del modelo. Identificar y corregir unas cuantas desigualdades en pares de ejemplos puede no ser suficiente para abordar los problemas de sesgo sistémico que afectan a subgrupos completos de ejemplos.
En los casos en que sea posible, los profesionales pueden considerar hacer una combinación un análisis de equidad (mediante una métrica como la paridad demográfica o la igualdad de oportunidad), así como un análisis de equidad contrafáctica para obtener la mayor variedad de perspectivas sobre posibles problemas de sesgo que necesitan corrección.
Ejercicio: Comprueba tus conocimientos
En el conjunto de predicciones de la Figura 7, ¿cuál de las siguientes opciones los siguientes pares de idénticos (excepto la pertenencia a un grupo) ejemplos recibieron predicciones que infringen la equidad contrafáctica?
Resumen
Paridad demográfica, igualdad de oportunidades, y la equidad contrafáctica proporcionan diferentes definiciones matemáticas de equidad para las predicciones de modelos. Y esas son solo tres posibles y formas de cuantificar la equidad. Algunas definiciones de equidad son incluso mutuamente incompatibles, lo que significa que puede ser imposible satisfacerlos simultáneamente por un las predicciones del modelo dado.
Entonces, ¿cómo elegir la solución "correcta" de equidad para tu modelo? Debes considera el contexto en el que se usa y los objetivos generales que quieres lograr. Por ejemplo, el objetivo es lograr una representación equitativa (en este caso, la paridad demográfica puede ser la métrica óptima) o lograr la igualdad de oportunidades (aquí, la igualdad de oportunidades puede ser métricas)?
Para obtener más información sobre la equidad del AA y explorar estos problemas en más detalle, consulta Equidad y aprendizaje automático: limitaciones y oportunidades de Solon Barocas, Moritz Hardt y Arvind Narayanan.