Glosario de aprendizaje automático: Métricas

Esta página contiene los términos del glosario de métricas. Para ver todos los términos del glosario, haz clic aquí.

#fundamentals
#Metric

Es la cantidad de predicciones de clasificación correctas dividida por la cantidad total de predicciones. Es decir:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

Por ejemplo, un modelo que realizó 40 predicciones correctas y 10 incorrectas tendría una precisión de:

Accuracy=4040 + 10=80%

La clasificación binaria proporciona nombres específicos para las diferentes categorías de predicciones correctas y predicciones incorrectas. Por lo tanto, la fórmula de precisión para la clasificación binaria es la siguiente:

Accuracy=TP+TNTP+TN+FP+FN

Donde:

Compara y contrasta la exactitud con la precisión y la recuperación.

Si bien es una métrica valiosa para algunas situaciones, la precisión es muy engañosa para otras. En particular, la exactitud suele ser una métrica deficiente para evaluar modelos de clasificación que procesan conjuntos de datos desequilibrados por clase.

Por ejemplo, supongamos que nieva solo 25 días por siglo en una ciudad subtropical determinada. Dado que los días sin nieve (la clase negativa) superan con creces a los días con nieve (la clase positiva), el conjunto de datos de nieve de esta ciudad tiene un desequilibrio de clases. Imagina un modelo de clasificación binaria que se supone que debe predecir si nieva o no todos los días, pero que simplemente predice “no nieva” todos los días. Este modelo es muy preciso, pero no tiene poder predictivo. En la siguiente tabla, se resumen los resultados de un siglo de predicciones:

Categoría Número
VP 0
TN 36499
FP 0
FN 25

Por lo tanto, la precisión de este modelo es la siguiente:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Aunque una exactitud del 99.93% parece un porcentaje muy impresionante, el modelo en realidad no tiene poder predictivo.

La precisión y la recuperación suelen ser métricas más útiles que la exactitud para evaluar modelos entrenados en conjuntos de datos con desequilibrio de clases.


Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas en el Curso intensivo de aprendizaje automático para obtener más información.

área bajo la curva de PR

#Metric

Consulta AUC PR (área bajo la curva PR).

área bajo la curva ROC

#Metric

Consulta AUC (área bajo la curva ROC).

AUC (área bajo la curva ROC)

#fundamentals
#Metric

Es un número entre 0.0 y 1.0 que representa la capacidad de un modelo de clasificación binaria para separar las clases positivas de las clases negativas. Cuanto más cerca esté la AUC de 1.0, mejor será la capacidad del modelo para separar las clases entre sí.

Por ejemplo, en la siguiente ilustración, se muestra un modelo de clasificador que separa perfectamente las clases positivas (óvalos verdes) de las clases negativas (rectángulos morados). Este modelo perfecto poco realista tiene una AUC de 1.0:

Una línea numérica con 8 ejemplos positivos en un lado y 9 ejemplos negativos en el otro.

Por el contrario, en la siguiente ilustración, se muestran los resultados de un modelo de clasificador que generó resultados aleatorios. Este modelo tiene un AUC de 0.5:

Una línea numérica con 6 ejemplos positivos y 6 ejemplos negativos.
          La secuencia de ejemplos es positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa.

Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.

La mayoría de los modelos se encuentran en algún punto intermedio entre los dos extremos. Por ejemplo, el siguiente modelo separa los valores positivos de los negativos y, por lo tanto, tiene un AUC entre 0.5 y 1.0:

Una línea numérica con 6 ejemplos positivos y 6 ejemplos negativos.
          La secuencia de ejemplos es negativa, negativa, negativa, negativa,
          positiva, negativa, positiva, positiva, negativa, positiva, positiva,
          positiva.

El AUC ignora cualquier valor que establezcas para el umbral de clasificación. En cambio, la AUC considera todos los umbrales de clasificación posibles.

El AUC representa el área bajo una curva ROC. Por ejemplo, la curva ROC de un modelo que separa perfectamente los positivos de los negativos se ve de la siguiente manera:

Gráfico cartesiano. El eje X es la tasa de falsos positivos y el eje Y es la tasa de verdaderos positivos. El gráfico comienza en 0,0 y sube directamente a 0,1 y, luego, hacia la derecha y termina en 1,1.

El AUC es el área de la región gris en la ilustración anterior. En este caso inusual, el área es simplemente la longitud de la región gris (1.0) multiplicada por el ancho de la región gris (1.0). Por lo tanto, el producto de 1.0 y 1.0 genera una AUC de exactamente 1.0, que es la puntuación de AUC más alta posible.

Por el contrario, la curva de ROC de un clasificador que no puede separar las clases es la siguiente. El área de esta región gris es 0.5.

Gráfico cartesiano. El eje X es la tasa de falsos positivos y el eje Y es la tasa de verdaderos positivos. El gráfico comienza en 0,0 y va diagonalmente a 1,1.

Una curva ROC más típica se ve aproximadamente de la siguiente manera:

Gráfico cartesiano. El eje X es la tasa de falsos positivos y el eje Y es la tasa de verdaderos positivos. El gráfico comienza en 0,0 y toma un arco irregular hasta 1,0.

Sería laborioso calcular el área debajo de esta curva de forma manual, por lo que un programa suele calcular la mayoría de los valores de AUC.


La AUC es la probabilidad de que un clasificador tenga más certeza de que un ejemplo positivo elegido al azar sea realmente positivo en comparación con que un ejemplo negativo elegido al azar sea positivo.


Consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático para obtener más información.

precisión promedio en k

#language
#Metric

Es una métrica para resumir el rendimiento de un modelo en una sola instrucción que genera resultados clasificados, como una lista numerada de recomendaciones de libros. La precisión promedio en k es el promedio de los valores de precisión en k para cada resultado relevante. Por lo tanto, la fórmula de la precisión promedio en k es la siguiente:

average precision at k=1nni=1precision at k for each relevant item

Donde:

  • n es la cantidad de elementos relevantes de la lista.

Compara esto con la recuperación en k.

Supongamos que a un modelo de lenguaje extenso se le da la siguiente consulta:

List the 6 funniest movies of all time in order.

Y el modelo de lenguaje extenso muestra la siguiente lista:

  1. El general
  2. Chicas malas
  3. Pelotón
  4. Damas en guerra
  5. Citizen Kane
  6. This is Spinal Tap
Cuatro de las películas de la lista que se muestra son muy divertidas (es decir, son relevantes), pero dos son dramas (no relevantes). En la siguiente tabla, se detallan los resultados:
Posición Película ¿Es relevante? Precisión en k
1 El general 1.0
2 Chicas malas 1.0
3 Pelotón No no es relevante
4 Damas en guerra 0.75
5 Citizen Kane No no es relevante
6 This is Spinal Tap 0.67

La cantidad de resultados relevantes es 4. Por lo tanto, puedes calcular la precisión promedio en 6 de la siguiente manera:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67) average precision at 6=~0.85

B

modelo de referencia

#Metric

Un modelo que se usa como punto de referencia para comparar el rendimiento de otro modelo (por lo general, uno más complejo). Por ejemplo, un modelo de regresión logística podría servir como una buena referencia para un modelo profundo.

Para un problema en particular, el modelo de referencia ayuda a los desarrolladores de modelos a cuantificar el rendimiento mínimo esperado que un modelo nuevo debe alcanzar para que sea útil.

C

costo

#Metric

Sinónimo de pérdida.

equidad contrafáctica

#fairness
#Metric

Una métrica de equidad que verifica si un clasificador produce el mismo resultado para una persona que para otra que es idéntica a la primera, excepto en relación con uno o más atributos sensibles. Evaluar un clasificador para la equidad contrafactual es un método para mostrar posibles fuentes de sesgo en un modelo.

Consulta cualquiera de los siguientes vínculos para obtener más información:

entropía cruzada

#Metric

Una generalización de la pérdida de registro a los problemas de clasificación de clases múltiples. La entropía cruzada cuantifica la diferencia entre dos distribuciones de probabilidad. Consulta también perplejidad.

función de distribución acumulada (CDF)

#Metric

Es una función que define la frecuencia de muestras menores o iguales a un valor objetivo. Por ejemplo, considera una distribución normal de valores continuos. Una CDF te indica que aproximadamente el 50% de las muestras debe ser menor o igual que la media, y que aproximadamente el 84% de las muestras debe ser menor o igual que una desviación estándar por encima de la media.

D

paridad demográfica

#fairness
#Metric

Una métrica de equidad que se satisface si los resultados de la clasificación de un modelo no dependen de un atributo sensible determinado.

Por ejemplo, si los liliputienses y los brobdingnagianos se postulan a la Universidad de Glubbdubdrib, se logra la paridad demográfica si el porcentaje de liliputienses admitidos es el mismo que el porcentaje de brobdingnagianos admitidos, independientemente de si un grupo es, en promedio, más calificado que el otro.

Contrasta con las probabilidades iguales y la igualdad de oportunidades, que permiten que los resultados de la clasificación en conjunto dependan de atributos sensibles, pero no permiten que los resultados de la clasificación de ciertas etiquetas de verdad fundamental especificadas dependan de atributos sensibles. Consulta "Cómo combatir la discriminación con un aprendizaje automático más inteligente" para ver una visualización que explora las compensaciones cuando se realiza la optimización para la paridad demográfica.

Consulta Equidad: paridad demográfica en el Curso intensivo de aprendizaje automático para obtener más información.

E

distancia del movimiento de tierras (EMD)

#Metric

Es una medida de la similitud relativa de dos distribuciones. Cuanto menor sea la distancia del operador de transferencia, más similares serán las distribuciones.

editar distancia

#language
#Metric

Es una medición de la similitud entre dos cadenas de texto. En el aprendizaje automático, la distancia de edición es útil por los siguientes motivos:

  • La distancia de edición es fácil de calcular.
  • La distancia de edición puede comparar dos cadenas que se sabe que son similares entre sí.
  • La distancia de edición puede determinar el grado en que diferentes cadenas son similares a una cadena determinada.

Existen varias definiciones de distancia de edición, cada una de las cuales usa diferentes operaciones de cadenas. Consulta Distancia de Levenshtein para ver un ejemplo.

función de distribución acumulativa empírica (eCDF o EDF)

#Metric

Una función de distribución acumulada basada en mediciones empíricas de un conjunto de datos real. El valor de la función en cualquier punto del eje x es la fracción de observaciones del conjunto de datos que son menores o iguales al valor especificado.

entropía

#df
#Metric

En la teoría de la información, es una descripción de lo impredecible que es una distribución de probabilidad. Como alternativa, la entropía también se define como la cantidad de información que contiene cada ejemplo. Una distribución tiene la entropía más alta posible cuando todos los valores de una variable aleatoria tienen la misma probabilidad.

La entropía de un conjunto con dos valores posibles "0" y "1" (por ejemplo, las etiquetas en un problema de clasificación binaria) tiene la siguiente fórmula:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Donde:

  • H es la entropía.
  • p es la fracción de ejemplos de "1".
  • q es la fracción de ejemplos de “0”. Ten en cuenta que q = (1 - p).
  • Por lo general, log es log2. En este caso, la unidad de entropía es un bit.

Por ejemplo, supongamos lo siguiente:

  • 100 ejemplos contienen el valor "1"
  • 300 ejemplos contienen el valor "0".

Por lo tanto, el valor de entropía es:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 bits por ejemplo

Un conjunto que esté perfectamente equilibrado (por ejemplo, 200 "0" y 200 "1") tendría una entropía de 1.0 bit por ejemplo. A medida que un conjunto se vuelve más desequilibrado, su entropía se mueve hacia 0.0.

En los árboles de decisión, la entropía ayuda a formular la ganancia de información para ayudar al divisor a seleccionar las condiciones durante el crecimiento de un árbol de decisión de clasificación.

Compara la entropía con lo siguiente:

A menudo, la entropía se denomina entropía de Shannon.

Consulta Divisor exacto para la clasificación binaria con atributos numéricos en el curso Bosques de decisión para obtener más información.

igualdad de oportunidades

#fairness
#Metric

Una métrica de equidad para evaluar si un modelo predice el resultado deseado de la misma manera para todos los valores de un atributo sensible. En otras palabras, si el resultado deseable para un modelo es la clase positiva, el objetivo sería que la tasa de verdaderos positivos sea la misma para todos los grupos.

La igualdad de oportunidades se relaciona con las probabilidades igualadas, que requieren que ambas tasas, la de verdaderos positivos y la de falsos positivos, sean iguales para todos los grupos.

Supongamos que la Universidad de Glubbdubdrib admite a liliputienses y brobdingnagianos a un programa riguroso de matemáticas. Las escuelas secundarias de Lilliput ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Las instituciones educativas secundarias de Brobdingnag no ofrecen clases de matemáticas y, como resultado, muchos menos estudiantes están calificados. Se satisface la igualdad de oportunidades para la etiqueta preferida de “admitido” con respecto a la nacionalidad (liliputiense o brobdingnagiense) si los estudiantes calificados tienen la misma probabilidad de ser admitidos, independientemente de si son liliputienses o brobdingnagienses.

Por ejemplo, supongamos que 100 liliputienses y 100 brobdingnagianos se postulan a la Universidad de Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:

Tabla 1: Solicitantes liliputienses (el 90% son aptos)

  Calificado No cumple con los requisitos
Admitida 45 3
Rechazado 45 7
Total 90 10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50%
Porcentaje de estudiantes no calificados rechazados: 7/10 = 70%
Porcentaje total de estudiantes liliputienses admitidos: (45+3)/100 = 48%

 

Tabla 2: Solicitantes de Brobdingnag (el 10% está calificado):

  Calificado No cumple con los requisitos
Admitida 5 9
Rechazado 5 81
Total 10 90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50%
Porcentaje de estudiantes no calificados rechazados: 81/90 = 90%
Porcentaje total de estudiantes de Brobdingnagian admitidos: (5+9)/100 = 14%

Los ejemplos anteriores satisfacen la igualdad de oportunidades para la aceptación de estudiantes calificados, ya que los liliputienses y los brobdingnagianos calificados tienen un 50% de posibilidades de ser admitidos.

Si bien se cumple la igualdad de oportunidades, no se cumplen las siguientes dos métricas de equidad:

  • Paridad demográfica: Los liliputienses y los brobdingnagianos ingresan a la universidad a diferentes tasas; se admite el 48% de los estudiantes liliputienses, pero solo el 14% de los brobdingnagianos.
  • probabilidades iguales: Si bien los estudiantes liliputienses y brobdingnagianos calificados tienen la misma probabilidad de ser admitidos, no se satisface la restricción adicional de que los liliputienses y brobdingnagianos no calificados tienen la misma probabilidad de ser rechazados. Los liliputienses no calificados tienen un porcentaje de rechazo del 70%, mientras que los brobdingnagianos no calificados tienen un porcentaje de rechazo del 90%.

Consulta Equidad: igualdad de oportunidades en el Curso intensivo de aprendizaje automático para obtener más información.

probabilidades iguales

#fairness
#Metric

Es una métrica de equidad para evaluar si un modelo predice resultados de la misma manera para todos los valores de un atributo sensible en relación con la clase positiva y la clase negativa, no solo una clase o la otra de forma exclusiva. En otras palabras, tanto la tasa de verdaderos positivos como la tasa de falsos negativos deben ser las mismas para todos los grupos.

Las probabilidades igualadas se relacionan con la igualdad de oportunidades, que solo se enfoca en las tasas de error de una sola clase (positiva o negativa).

Por ejemplo, supongamos que la Universidad de Glubbdubdrib admite a liliputienses y a brobdingnagianos en un programa de matemáticas riguroso. Las instituciones educativas secundarias de Lilliput ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Las escuelas secundarias de Brobdingnag no ofrecen clases de matemáticas y, como resultado, muchos menos de sus estudiantes están calificados. Se satisfacen las probabilidades iguales, siempre que, sin importar si un solicitante es un liliputiense o un brobdingnagiense, si es calificado, tenga las mismas probabilidades de ser admitido en el programa y, si no es calificado, tenga las mismas probabilidades de ser rechazado.

Supongamos que 100 liliputienses y 100 brobdingnagianos se postulan a la Universidad de Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:

Tabla 3: Solicitantes liliputienses (el 90% son aptos)

  Calificado No cumple con los requisitos
Admitida 45 2
Rechazado 45 8
Total 90 10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50%
Porcentaje de estudiantes no calificados rechazados: 8/10 = 80%
Porcentaje total de estudiantes liliputienses admitidos: (45+2)/100 = 47%

 

Tabla 4. Solicitantes de Brobdingnag (el 10% está calificado):

  Calificado No cumple con los requisitos
Admitida 5 18
Rechazado 5 72
Total 10 90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50%
Porcentaje de estudiantes no calificados rechazados: 72/90 = 80%
Porcentaje total de estudiantes de Brobdingnagian admitidos: (5+18)/100 = 23%

Se satisfacen las probabilidades iguales porque los estudiantes Lilliputianos y Brobdingnagianos calificados tienen un 50% de probabilidades de ser admitidos, y los Lilliputianos y Brobdingnagianos no calificados tienen un 80% de probabilidades de ser rechazados.

Las probabilidades iguales se definen formalmente en "Igualdad de oportunidades en el aprendizaje supervisado" de la siguiente manera: "El predictor Ŷ satisface las probabilidades iguales con respecto al atributo protegido A y al resultado Y si Ŷ y A son independientes, condicionados a Y".

evals

#language
#generativeAI
#Metric

Se usa principalmente como abreviatura de evaluaciones de LLM. En términos más generales, evals es una abreviatura de cualquier forma de evaluación.

sin conexión

#language
#generativeAI
#Metric

Es el proceso de medir la calidad de un modelo o comparar diferentes modelos entre sí.

Para evaluar un modelo de aprendizaje automático supervisado, por lo general, se lo compara con un conjunto de validación y un conjunto de prueba. Evaluar un LLM suele implicar evaluaciones de calidad y seguridad más amplias.

F

F1

#Metric

Una métrica de clasificación binaria "resumida" que se basa en la precisión y la recuperación. Esta es la fórmula:

F1=2 * precision * recallprecision + recall

Supongamos que la precisión y la recuperación tienen los siguientes valores:

  • precision = 0.6
  • recall = 0.4

Calcula F1 de la siguiente manera:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

Cuando la precisión y la recuperación son bastante similares (como en el ejemplo anterior), F1 está cerca de su media. Cuando la precisión y la recuperación difieren significativamente, F1 está más cerca del valor más bajo. Por ejemplo:

  • precision = 0.9
  • recall = 0.1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

métrica de equidad

#fairness
#Metric

Una definición matemática de "equidad" que sea medible. Estas son algunas de las métricas de equidad de uso general:

Muchas métricas de equidad son mutuamente excluyentes. Consulta la sección sobre incompatibilidad de métricas de equidad.

falso negativo (FN)

#fundamentals
#Metric

Ejemplo en el que el modelo predice de manera incorrecta la clase negativa. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular no es spam (la clase negativa), pero ese mensaje de correo electrónico en realidad es spam.

tasa de falsos negativos

#Metric

Es la proporción de ejemplos positivos reales para los que el modelo predijo de forma incorrecta la clase negativa. La siguiente fórmula calcula la tasa negativa falsa:

false negative rate=false negativesfalse negatives+true positives

Consulta Umbral y matriz de confusión en el Curso intensivo de aprendizaje automático para obtener más información.

falso positivo (FP)

#fundamentals
#Metric

Ejemplo en el que el modelo predice de manera incorrecta la clase positiva. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular es spam (la clase positiva), pero ese mensaje de correo electrónico en realidad no es spam.

Consulta Umbral y matriz de confusión en el Curso intensivo de aprendizaje automático para obtener más información.

tasa de falsos positivos (FPR)

#fundamentals
#Metric

Es la proporción de ejemplos negativos reales para los que el modelo predijo de forma incorrecta la clase positiva. La siguiente fórmula calcula el porcentaje de falsos positivos:

false positive rate=false positivesfalse positives+true negatives

La tasa de falsos positivos es el eje x en una curva ROC.

Consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático para obtener más información.

importancias de los atributos

#df
#Metric

Sinónimo de importancia de las variables.

fracción de éxitos

#generativeAI
#Metric

Es una métrica para evaluar el texto generado de un modelo de AA. La fracción de éxitos es la cantidad de resultados de texto generados "correctos" dividida por la cantidad total de resultados de texto generados. Por ejemplo, si un modelo de lenguaje grande generó 10 bloques de código, cinco de los cuales se ejecutaron correctamente, la fracción de éxitos sería del 50%.

Aunque la fracción de éxitos es ampliamente útil en todas las estadísticas, en el AA, esta métrica es útil principalmente para medir tareas verificables, como la generación de código o los problemas matemáticos.

G

impureza de Gini

#df
#Metric

Es una métrica similar a la entropía. Los divisores usan valores derivados de la impureza de Gini o la entropía para componer condiciones para la clasificación de árboles de decisión. La ganancia de información se deriva de la entropía. No existe un término equivalente aceptado universalmente para la métrica derivada de la impureza de Gini. Sin embargo, esta métrica sin nombre es tan importante como la ganancia de información.

La impureza de Gini también se denomina índice de Gini o simplemente Gini.

La impureza de Gini es la probabilidad de clasificar erróneamente un dato nuevo tomado de la misma distribución. La impureza de Gini de un conjunto con dos valores posibles “0” y “1” (por ejemplo, las etiquetas en un problema de clasificación binaria) se calcula a partir de la siguiente fórmula:

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

Donde:

  • I es la impureza de Gini.
  • p es la fracción de ejemplos de "1".
  • q es la fracción de ejemplos de “0”. Ten en cuenta que q = 1-p.

Por ejemplo, considera el siguiente conjunto de datos:

  • 100 etiquetas (0.25 del conjunto de datos) contienen el valor "1".
  • 300 etiquetas (0.75 del conjunto de datos) contienen el valor "0".

Por lo tanto, la impureza de Gini es la siguiente:

  • p = 0.25
  • q = 0.75
  • I = 1 - (0.252 + 0.752) = 0.375

En consecuencia, una etiqueta aleatoria del mismo conjunto de datos tendría un 37.5% de probabilidad de clasificarse de forma incorrecta y un 62.5% de probabilidad de clasificarse correctamente.

Una etiqueta perfectamente equilibrada (por ejemplo, 200 "0" y 200 "1") tendría una impureza de Gini de 0.5. Una etiqueta muy desbalanceada tendría una impureza de Gini cercana a 0.0.


H

pérdida de bisagra

#Metric

Es una familia de funciones de pérdida para la clasificación diseñada para encontrar el límite de decisión lo más distante posible de cada ejemplo de entrenamiento, lo que maximiza el margen entre los ejemplos y el límite. Las KSVM usan la pérdida de bisagra (o una función relacionada, como la pérdida de bisagra al cuadrado). Para la clasificación binaria, la función de pérdida de bisagra se define de la siguiente manera:

loss=max(0,1(yy))

donde y es la etiqueta verdadera, ya sea -1 o +1, y y' es el resultado sin procesar del modelo de clasificador:

y=b+w1x1+w2x2+wnxn

En consecuencia, un gráfico de la pérdida de bisagra en comparación con (y * y') se ve de la siguiente manera:

Una representación cartesiana que consta de dos segmentos de línea unidos. El primer segmento de línea comienza en (-3, 4) y termina en (1, 0). El segundo segmento de línea comienza en (1, 0) y continúa indefinidamente con una pendiente de 0.

I

Incompatibilidad de métricas de equidad

#fairness
#Metric

La idea de que algunas nociones de equidad son mutuamente incompatibles y no se pueden satisfacer de manera simultánea. Como resultado, no existe una sola métrica universal para cuantificar la equidad que se pueda aplicar a todos los problemas de AA.

Si bien esto puede parecer desalentador, la incompatibilidad de las métricas de equidad no implica que los esfuerzos por lograr la equidad sean infructuosos. En cambio, sugiere que la equidad debe definirse de forma contextual para un problema de AA determinado, con el objetivo de evitar daños específicos de sus casos de uso.

Consulta "On the (im)possibility of fairness" para obtener un análisis más detallado de la incompatibilidad de las métricas de equidad.

equidad individual

#fairness
#Metric

Es una métrica de equidad que verifica si las personas similares se clasifican de manera similar. Por ejemplo, la Academia Brobdingnagian podría querer satisfacer la equidad individual asegurándose de que dos estudiantes con calificaciones idénticas y puntuaciones estandarizadas en las pruebas tengan la misma probabilidad de ingresar.

Ten en cuenta que la equidad individual depende por completo de cómo definas la "similitud" (en este caso, las calificaciones y las puntuaciones de las pruebas) y que puedes correr el riesgo de introducir nuevos problemas de equidad si tu métrica de similitud omite información importante (como el rigor del plan de estudios de un estudiante).

Consulta "Equidad a través de la sensibilización" para obtener un análisis más detallado de la equidad individual.

ganancia de información

#df
#Metric

En los bosques de decisión, la diferencia entre la entropía de un nodo y la suma ponderada (por cantidad de ejemplos) de la entropía de sus nodos secundarios. La entropía de un nodo es la entropía de los ejemplos en ese nodo.

Por ejemplo, considera los siguientes valores de entropía:

  • Entropía del nodo superior = 0.6
  • entropía de un nodo secundario con 16 ejemplos relevantes = 0.2
  • entropía de otro nodo secundario con 24 ejemplos relevantes = 0.1

Por lo tanto, el 40% de los ejemplos se encuentra en un nodo secundario y el 60% en el otro nodo secundario. Por lo tanto:

  • suma de entropía ponderada de nodos secundarios = (0.4 × 0.2) + (0.6 × 0.1) = 0.14

Por lo tanto, la ganancia de información es la siguiente:

  • ganancia de información = entropía del nodo superior - suma ponderada de la entropía de los nodos secundarios
  • ganancia de información = 0.6 - 0.14 = 0.46

La mayoría de los divisores buscan crear condiciones que maximicen la ganancia de información.

acuerdo entre evaluadores

#Metric

Es una medición de la frecuencia con la que los evaluadores humanos coinciden cuando realizan una tarea. Si los evaluadores no están de acuerdo, es posible que debas mejorar las instrucciones de la tarea. En algunas ocasiones, también se denomina acuerdo entre anotadores o fiabilidad entre evaluadores. Consulta también el coeficiente kappa de Cohen, que es una de las mediciones de acuerdo entre evaluadores más populares.

Consulta Datos categóricos: Problemas comunes en el Curso intensivo de aprendizaje automático para obtener más información.

L

Pérdida L1

#fundamentals
#Metric

Una función de pérdida que calcula el valor absoluto de la diferencia entre los valores reales de la etiqueta y los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida de L1 para un lote de cinco ejemplos:

Valor real del ejemplo Valor predicho del modelo Valor absoluto de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Pérdida de L1

La pérdida L1 es menos sensible a los valores atípicos que la pérdida L2.

El error absoluto medio es la pérdida promedio de L1 por ejemplo.

L1loss=ni=0|yiˆyi|

En el ejemplo anterior, se ilustra lo siguiente:
  • n es la cantidad de ejemplos.
  • y es el valor real de la etiqueta.
  • ˆy es el valor que el modelo predice para y.

Consulta Regresión lineal: Pérdida en el Curso intensivo de aprendizaje automático para obtener más información.

Pérdida L2

#fundamentals
#Metric

Una función de pérdida que calcula el cuadrado de la diferencia entre los valores reales de la etiqueta y los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida L2 para un lote de cinco ejemplos:

Valor real del ejemplo Valor predicho del modelo Cuadrado de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = Pérdida de L2

Debido al componente cuadrático, la pérdida L2 amplifica la influencia de los valores atípicos. Es decir, la pérdida de L2 reacciona de manera más severa a las predicciones incorrectas que la pérdida de L1. Por ejemplo, la pérdida de L1 para el lote anterior sería de 8 en lugar de 16. Ten en cuenta que un solo valor extremo representa 9 de los 16.

Los modelos de regresión suelen usar la pérdida L2 como función de pérdida.

El error cuadrático medio es la pérdida promedio de L2 por ejemplo. La pérdida al cuadrado es otro nombre para la pérdida de L2.

L2loss=ni=0(yiˆyi)2

En el ejemplo anterior, se ilustra lo siguiente:
  • n es la cantidad de ejemplos.
  • y es el valor real de la etiqueta.
  • ˆy es el valor que el modelo predice para y.

Consulta Regresión logística: Pérdida y regularización en el Curso intensivo de aprendizaje automático para obtener más información.

Evaluaciones de LLM (evals)

#language
#generativeAI
#Metric

Un conjunto de métricas y comparativas para evaluar el rendimiento de los modelos de lenguaje extenso (LLM). A grandes rasgos, las evaluaciones de LLM hacen lo siguiente:

  • Ayuda a los investigadores a identificar áreas en las que los LLM necesitan mejorar.
  • Son útiles para comparar diferentes LLM y, así, identificar el mejor para una tarea en particular.
  • Ayudar a garantizar que los LLM sean seguros y éticos de usar

Consulta Modelos de lenguaje extenso (LLM) en el Curso intensivo de aprendizaje automático para obtener más información.

pérdida

#fundamentals
#Metric

Durante el entrenamiento de un modelo supervisado, es una medida de qué tan lejos está la predicción de un modelo de su etiqueta.

Una función de pérdida calcula la pérdida.

Consulta Regresión lineal: Pérdida en el Curso intensivo de aprendizaje automático para obtener más información.

función de pérdida

#fundamentals
#Metric

Durante el entrenamiento o las pruebas, es una función matemática que calcula la pérdida en un lote de ejemplos. Una función de pérdida muestra una pérdida más baja para los modelos que hacen buenas predicciones que para los modelos que hacen predicciones erróneas.

Por lo general, el objetivo del entrenamiento es minimizar la pérdida que muestra una función de pérdida.

Existen muchos tipos diferentes de funciones de pérdida. Elige la función de pérdida adecuada para el tipo de modelo que estás compilando. Por ejemplo:

M

Error absoluto medio (MAE)

#Metric

Es la pérdida promedio por ejemplo cuando se usa la pérdida de L1. Calcula el error absoluto medio de la siguiente manera:

  1. Calcula la pérdida L1 de un lote.
  2. Divide la pérdida de L1 por la cantidad de ejemplos del lote.

Mean Absolute Error=1nni=0|yiˆyi|

Donde:

  • n es la cantidad de ejemplos.
  • y es el valor real de la etiqueta.
  • ˆy es el valor que el modelo predice para y.

Por ejemplo, considera el cálculo de la pérdida de L1 en el siguiente lote de cinco ejemplos:

Valor real del ejemplo Valor predicho del modelo Pérdida (diferencia entre el valor real y el previsto)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Pérdida de L1

Por lo tanto, la pérdida de L1 es 8 y la cantidad de ejemplos es 5. Por lo tanto, el error absoluto medio es:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Contrasta el error absoluto medio con el error cuadrático medio y la raíz cuadrada del error cuadrático medio.

precisión promedio en k (mAP@k)

#language
#generativeAI
#Metric

Es la media estadística de todas las puntuaciones de precisión promedio en k en un conjunto de datos de validación. Un uso de la precisión promedio ponderada en k es juzgar la calidad de las recomendaciones que genera un sistema de recomendación.

Aunque la frase “promedio medio” suena redundante, el nombre de la métrica es apropiado. Después de todo, esta métrica encuentra el promedio de varios valores de precisión promedio en k.

Supongamos que creas un sistema de recomendación que genera una lista personalizada de novelas recomendadas para cada usuario. En función de los comentarios de los usuarios seleccionados, calculas las siguientes cinco precisiones promedio en las puntuaciones de K (una puntuación por usuario):

  • 0.73
  • 0.77
  • 0.67
  • 0.82
  • 0.76

Por lo tanto, la precisión promedio promedio en K es la siguiente:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

Error cuadrático medio (ECM)

#Metric

Es la pérdida promedio por ejemplo cuando se usa la pérdida L2. Calcula el error cuadrático medio de la siguiente manera:

  1. Calcula la pérdida L2 de un lote.
  2. Divide la pérdida de L2 por la cantidad de ejemplos del lote.
Mean Squared Error=1nni=0(yiˆyi)2 en el que:
  • n es la cantidad de ejemplos.
  • y es el valor real de la etiqueta.
  • ˆy es la predicción del modelo para y.

Por ejemplo, considera la pérdida en el siguiente lote de cinco ejemplos:

Valor real Predicción del modelo Pérdida Pérdida al cuadrado
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = Pérdida de L2

Por lo tanto, el error cuadrático medio es:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

El error cuadrático medio es un optimizador de entrenamiento popular, en particular para la regresión lineal.

Contrasta el error cuadrático medio con el error absoluto medio y la raíz cuadrada del error cuadrático medio.

TensorFlow Playground usa el error cuadrático medio para calcular los valores de pérdida.

Los valores atípicos influyen en gran medida en el error cuadrático medio. Por ejemplo, una pérdida de 1 es una pérdida al cuadrado de 1, pero una pérdida de 3 es una pérdida al cuadrado de 9. En la tabla anterior, el ejemplo con una pérdida de 3 representa aproximadamente el 56% del error medio cuadrático, mientras que cada uno de los ejemplos con una pérdida de 1 representa solo el 6% del error medio cuadrático.

Los valores atípicos no influyen en el error absoluto medio tanto como en el error cuadrático medio. Por ejemplo, una pérdida de 3 cuentas representa solo alrededor del 38% del error absoluto medio.

El recorte es una forma de evitar que los valores atípicos extremos dañen la capacidad predictiva de tu modelo.


métrica

#TensorFlow
#Metric

Una estadística importante para ti.

Un objetivo es una métrica que un sistema de aprendizaje automático intenta optimizar.

API de Metrics (tf.metrics)

#Metric

Una API de TensorFlow para evaluar modelos. Por ejemplo, tf.metrics.accuracy determina la frecuencia con la que las predicciones de un modelo coinciden con las etiquetas.

pérdida minimax

#Metric

Una función de pérdida para las redes generativas adversas, basada en la entropía cruzada entre la distribución de datos generados y los datos reales.

La pérdida minimax se usa en el primer artículo para describir las redes generativas adversas.

Consulta Funciones de pérdida en el curso Redes generativas antagónicas para obtener más información.

capacidad del modelo

#Metric

La complejidad de los problemas que un modelo puede aprender. Mientras más complejos sean los problemas que un modelo puede aprender, mayor será la capacidad del modelo. La capacidad de un modelo generalmente aumenta con la cantidad de parámetros del modelo. Para una definición formal de capacidad del clasificador, consulta Dimensión VC.

N

clase negativa

#fundamentals
#Metric

En la clasificación binaria, una clase se expresa como positiva y la otra como negativa. La clase positiva es el objeto o evento que el modelo está probando, y la clase negativa es la otra posibilidad. Por ejemplo:

  • La clase negativa en una prueba médica puede ser "no es un tumor".
  • La clase negativa en un clasificador de correo electrónico puede ser "no es spam".

Compara esto con la clase positiva.

O

objetivo

#Metric

Una métrica que tu algoritmo intenta optimizar.

función objetivo

#Metric

Es la fórmula matemática o métrica que un modelo intenta optimizar. Por ejemplo, la función objetivo para la regresión lineal suele ser la pérdida cuadrática media. Por lo tanto, cuando se entrena un modelo de regresión lineal, el objetivo es minimizar la pérdida cuadrática media.

En algunos casos, el objetivo es maximizar la función objetivo. Por ejemplo, si la función objetivo es la precisión, el objetivo es maximizarla.

Consulta también pérdida.

P

pasar en k (pass@k)

#Metric

Es una métrica para determinar la calidad del código (por ejemplo, Python) que genera un modelo de lenguaje grande. Más específicamente, el pase en k te indica la probabilidad de que al menos un bloque de código generado de k bloques de código generados pase todas sus pruebas de unidades.

Los modelos de lenguaje grandes suelen tener dificultades para generar un buen código para problemas de programación complejos. Los ingenieros de software se adaptan a este problema pidiéndole al modelo de lenguaje grande que genere varias (k) soluciones para el mismo problema. Luego, los ingenieros de software prueban cada una de las soluciones con pruebas de unidades. El cálculo de la aprobación en k depende del resultado de las pruebas de unidades:

  • Si una o más de esas soluciones superan la prueba de unidad, el LLM supera ese desafío de generación de código.
  • Si ninguna de las soluciones supera la prueba de unidad, el LLM falla en ese desafío de generación de código.

La fórmula para pasar en k es la siguiente:

pass at k=total number of passestotal number of challenges

En general, los valores más altos de k producen puntuaciones más altas en las pruebas de k. Sin embargo, los valores más altos de k requieren más recursos de modelos grandes de lenguaje y pruebas de unidades.

Supongamos que un ingeniero de software le pide a un modelo de lenguaje extenso que genere k=10 soluciones para n=50 problemas de programación desafiantes. Estos son los resultados:

  • 30 pases
  • 20 errores

Por lo tanto, la puntuación de aprobación con 10 es la siguiente:

pass at 10=3050=0.6

rendimiento

#Metric

Término sobrecargado con los siguientes significados:

  • El significado estándar dentro de la ingeniería de software. Es decir, ¿qué tan rápidamente (o eficazmente) se ejecuta este software?
  • El significado dentro del aprendizaje automático. Aquí, el rendimiento responde a la siguiente pregunta: ¿qué tan correcto es este modelo? Esto significa, ¿qué tan buenas son las predicciones del modelo?

importancias de las variables de permutación

#df
#Metric

Es un tipo de importancia de las variables que evalúa el aumento en el error de predicción de un modelo después de permutar los valores del atributo. La importancia de las variables de permutación es una métrica independiente del modelo.

perplejidad

#Metric

Es una medida de qué tan bien está logrando su tarea un modelo. Por ejemplo, supongamos que tu tarea es leer las primeras letras de una palabra que un usuario está escribiendo en el teclado de un teléfono y ofrecer una lista de posibles palabras de finalización. La perplejidad, P, para esta tarea es aproximadamente la cantidad de conjeturas que debes ofrecer para que tu lista contenga la palabra real que el usuario intenta escribir.

La perplejidad está relacionada con la entropía cruzada de la siguiente manera:

P=2cross entropy

clase positiva

#fundamentals
#Metric

Es la clase para la que realizas la prueba.

Por ejemplo, la clase positiva en un modelo de cáncer podría ser "tumor". La clase positiva en un clasificador de correo electrónico puede ser "es spam".

Compara esto con la clase negativa.

El término clase positiva puede ser confuso porque el resultado "positivo" de muchas pruebas suele ser un resultado no deseado. Por ejemplo, la clase positiva en muchas pruebas médicas corresponde a tumores o enfermedades. En general, quieres que un médico te diga: “Felicidades. Los resultados de la prueba fueron negativos". Independientemente, la clase positiva es el evento que la prueba intenta encontrar.

Es cierto que estás realizando pruebas de forma simultánea para las clases positivas y negativas.


AUC de PR (área bajo la curva de PR)

#Metric

Es el área bajo la curva de precisión-recuperación interpolada, que se obtiene trazando puntos (recuperación, precisión) para diferentes valores del umbral de clasificación.

precision

#Metric

Métrica para los modelos de clasificación que responde a la siguiente pregunta:

Cuando el modelo predijo la clase positiva, ¿qué porcentaje de las predicciones fue correcto?

Esta es la fórmula:

Precision=true positivestrue positives+false positives

Donde:

  • verdadero positivo significa que el modelo predijo correctamente la clase positiva.
  • falso positivo significa que el modelo erróneamente predijo la clase positiva.

Por ejemplo, supongamos que un modelo realizó 200 predicciones positivas. De estas 200 predicciones positivas:

  • 150 fueron verdaderos positivos.
  • 50 fueron falsos positivos.

En este caso, ocurre lo siguiente:

Precision=150150+50=0.75

Compara esto con la exactitud y la recuperación.

Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas en el Curso intensivo de aprendizaje automático para obtener más información.

precisión en k (precision@k)

#language
#Metric

Es una métrica para evaluar una lista de elementos clasificados (ordenados). La precisión en k identifica la fracción de los primeros k elementos de esa lista que son "relevantes". Es decir:

precision at k=relevant items in first k items of the listk

El valor de k debe ser menor o igual que la longitud de la lista que se muestra. Ten en cuenta que la longitud de la lista que se muestra no forma parte del cálculo.

La relevancia suele ser subjetiva. Incluso los evaluadores humanos expertos suelen estar en desacuerdo sobre qué elementos son relevantes.

Comparar con:

Supongamos que a un modelo de lenguaje extenso se le da la siguiente consulta:

List the 6 funniest movies of all time in order.

Y el modelo de lenguaje grande muestra la lista que se muestra en las primeras dos columnas de la siguiente tabla:

Posición Película ¿Es relevante?
1 El general
2 Chicas malas
3 Pelotón No
4 Damas en guerra
5 Citizen Kane No
6 This is Spinal Tap

Dos de las tres primeras películas son relevantes, por lo que la precisión en 3 es la siguiente:

precision at 3=23=0.67

Cuatro de las primeras cinco películas son muy divertidas, por lo que la precisión en 5 es la siguiente:

precision at 5=45=0.8

curva de precisión-recuperación

#Metric

Una curva de precisión en comparación con la recuperación en diferentes umbrales de clasificación.

sesgo de predicción

#Metric

Es un valor que indica qué tan alejado está el promedio de las predicciones del promedio de las etiquetas en el conjunto de datos.

No se debe confundir con el término sesgo en modelos de aprendizaje automático ni con el sesgo en ética y equidad.

paridad predictiva

#fairness
#Metric

Una métrica de equidad que verifica si, para un clasificador determinado, las tasas de precisión son equivalentes para los subgrupos en consideración.

Por ejemplo, un modelo que predice la aceptación en la universidad satisfaría la paridad predictiva para la nacionalidad si su tasa de precisión fuera la misma para los liliputienses y los brobdingnagianos.

A veces, la paridad predictiva también se denomina paridad de tarifas predictiva.

Consulta "Explicación de las definiciones de equidad" (sección 3.2.1) para obtener una explicación más detallada de la paridad predictiva.

paridad de tarifas predictiva

#fairness
#Metric

Es otro nombre para la paridad predictiva.

función de densidad de probabilidad

#Metric

Es una función que identifica la frecuencia de muestras de datos que tienen exactamente un valor en particular. Cuando los valores de un conjunto de datos son números de punto flotante continuos, raramente se producen coincidencias exactas. Sin embargo, integrar una función de densidad de probabilidad del valor x al valor y genera la frecuencia esperada de muestras de datos entre x y y.

Por ejemplo, considera una distribución normal con una media de 200 y una desviación estándar de 30. Para determinar la frecuencia esperada de muestras de datos que se encuentran dentro del rango de 211.4 a 218.7, puedes integrar la función de densidad de probabilidad para una distribución normal de 211.4 a 218.7.

R

recall

#Metric

Métrica para los modelos de clasificación que responde a la siguiente pregunta:

Cuando la verdad fundamental era la clase positiva, ¿qué porcentaje de predicciones identificó correctamente el modelo como la clase positiva?

Esta es la fórmula:

Recall=true positivestrue positives+false negatives

Donde:

  • verdadero positivo significa que el modelo predijo correctamente la clase positiva.
  • Un falso negativo significa que el modelo erróneamente predijo la clase negativa.

Por ejemplo, supongamos que tu modelo realizó 200 predicciones en ejemplos para los que la verdad fundamental era la clase positiva. De estas 200 predicciones, ocurre lo siguiente:

  • 180 fueron verdaderos positivos.
  • 20 fueron falsos negativos.

En este caso, ocurre lo siguiente:

Recall=180180+20=0.9

La recuperación es particularmente útil para determinar el poder predictivo de los modelos de clasificación en los que la clase positiva es poco frecuente. Por ejemplo, considera un conjunto de datos con desequilibrio de clases en el que la clase positiva de una enfermedad determinada ocurre solo en 10 pacientes de un millón. Supongamos que tu modelo realiza cinco millones de predicciones que generan los siguientes resultados:

  • 30 verdaderos positivos
  • 20 falsos negativos
  • 4,999,000 verdaderos negativos
  • 950 falsos positivos

Por lo tanto, la recuperación de este modelo es la siguiente:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
En cambio, la exactitud de este modelo es:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Ese alto valor de precisión parece impresionante, pero en realidad no tiene sentido. La recuperación es una métrica mucho más útil para los conjuntos de datos con desequilibrio de clases que la precisión.


Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas para obtener más información.

recuperación en k (recall@k)

#language
#Metric

Es una métrica para evaluar sistemas que generan una lista de elementos clasificados (ordenados). La recuperación en k identifica la fracción de elementos relevantes en los primeros k elementos de esa lista de la cantidad total de elementos relevantes que se muestran.

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

Compara esto con la precisión en k.

Supongamos que un modelo de lenguaje extenso recibe la siguiente consulta:

List the 10 funniest movies of all time in order.

Y el modelo de lenguaje grande muestra la lista que se muestra en las primeras dos columnas:

Posición Película ¿Es relevante?
1 El general
2 Chicas malas
3 Pelotón No
4 Damas en guerra
5 This is Spinal Tap
6 ¡Avión!
7 Groundhog Day
8 Los caballeros de la mesa cuadrada
9 Oppenheimer No
10 Ni idea

Ocho de las películas de la lista anterior son muy divertidas, por lo que son “elementos relevantes en la lista”. Por lo tanto, 8 será el denominador en todos los cálculos de recuperación en k. ¿Qué sucede con el numerador? Bueno, 3 de los primeros 4 elementos son relevantes, por lo que la recuperación en 4 es la siguiente:

recall at 4=38=0.375

7 de las primeras 8 películas son muy divertidas, por lo que el recuerdo en la 8ª es el siguiente:

recall at 8=78=0.875

curva ROC (característica operativa del receptor)

#fundamentals
#Metric

Gráfico de la tasa de verdaderos positivos en comparación con la tasa de falsos positivos para diferentes umbrales de clasificación en la clasificación binaria.

La forma de una curva ROC sugiere la capacidad de un modelo de clasificación binaria para separar las clases positivas de las negativas. Supongamos, por ejemplo, que un modelo de clasificación binaria separa perfectamente todas las clases negativas de todas las clases positivas:

Una línea numérica con 8 ejemplos positivos a la derecha y
          7 ejemplos negativos a la izquierda.

La curva ROC del modelo anterior se ve de la siguiente manera:

Una curva ROC. El eje X es la tasa de falsos positivos y el eje Y es la tasa de verdaderos positivos. La curva tiene forma de L invertida. La curva comienza en (0.0,0.0) y sube directamente a (0.0,1.0). Luego, la curva va de (0.0,1.0) a (1.0,1.0).

En cambio, en la siguiente ilustración, se grafican los valores de regresión logística sin procesar de un modelo terrible que no puede separar las clases negativas de las positivas:

Una línea numérica con ejemplos positivos y clases negativas completamente mezclados

La curva ROC de este modelo se ve de la siguiente manera:

Una curva ROC, que en realidad es una línea recta de (0.0,0.0) a (1.0,1.0).

Mientras tanto, en el mundo real, la mayoría de los modelos de clasificación binaria separan las clases positivas y negativas en cierta medida, pero, por lo general, no de forma perfecta. Por lo tanto, una curva ROC típica se encuentra en algún lugar entre los dos extremos:

Una curva ROC. El eje X es la tasa de falsos positivos y el eje Y es la tasa de verdaderos positivos. La curva ROC se aproxima a un arco inestable que atraviesa los puntos de la brújula de oeste a norte.

En teoría, el punto de una curva ROC más cercano a (0.0,1.0) identifica el umbral de clasificación ideal. Sin embargo, varios otros problemas del mundo real influyen en la selección del umbral de clasificación ideal. Por ejemplo, quizás los falsos negativos causen mucho más dolor que los falsos positivos.

Una métrica numérica llamada AUC resume la curva ROC en un solo valor de punto flotante.

Raíz cuadrada del error cuadrático medio (RMSE)

#fundamentals
#Metric

Es la raíz cuadrada del error cuadrático medio.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#Metric

Es una familia de métricas que evalúan los modelos de resumen automático y de traducción automática. Las métricas de ROUGE determinan el grado en que un texto de referencia se superpone con el texto generado de un modelo de IA. Cada miembro de la familia de ROUGE mide la superposición de una manera diferente. Las puntuaciones más altas de ROUGE indican una mayor similitud entre el texto de referencia y el texto generado que las puntuaciones más bajas de ROUGE.

Por lo general, cada miembro de la familia ROUGE genera las siguientes métricas:

  • Precisión
  • Recuperación
  • F1

Para obtener detalles y ejemplos, consulta lo siguiente:

ROUGE-L

#language
#Metric

Un miembro de la familia ROUGE se enfoca en la longitud de la subsecuencia común más larga en el texto de referencia y el texto generado. Las siguientes fórmulas calculan la recuperación y la precisión de ROUGE-L:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

Luego, puedes usar F1 para combinar la recuperación de ROUGE-L y la precisión de ROUGE-L en una sola métrica:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
Considera el siguiente texto de referencia y el texto generado.
Categoría ¿Quién produjo? Texto
Texto de referencia Traductor humano Quiero comprender una amplia variedad de temas.
Texto generado Modelo de AA Quiero aprender muchas cosas.
Por lo tanto:
  • La subsecuente más larga común es 5 (I want to of things).
  • La cantidad de palabras en el texto de referencia es 9.
  • La cantidad de palabras en el texto generado es 7.
Por lo tanto:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

ROUGE-L ignora los saltos de línea en el texto de referencia y el texto generado, por lo que la subsecuencia común más larga podría cruzar varias oraciones. Cuando el texto de referencia y el texto generado incluyen varias oraciones, una variación de ROUGE-L llamada ROUGE-Lsum suele ser una mejor métrica. ROUGE-Lsum determina la subsecuencia común más larga para cada oración en un pasaje y, luego, calcula el promedio de esas subsecuencias comunes más largas.

Considera el siguiente texto de referencia y el texto generado.
Categoría ¿Quién produjo? Texto
Texto de referencia Traductor humano La superficie de Marte está seca. Casi toda el agua está muy por debajo de la superficie.
Texto generado Modelo de AA Marte tiene una superficie seca. Sin embargo, la gran mayoría del agua está bajo tierra.
Por lo tanto:
Primera oración Segunda oración
Secuencia común más larga2 (Mars dry) 3 (el agua está bajo tierra)
Longitud de las oraciones del texto de referencia 6 7
Longitud de las oraciones del texto generado 5 8
Por lo tanto, sucede lo siguiente:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Metric

Es un conjunto de métricas dentro de la familia ROUGE que compara los n-gramas compartidos de un tamaño determinado en el texto de referencia y el texto generado. Por ejemplo:

  • ROUGE-1 mide la cantidad de tokens compartidos en el texto de referencia y el texto generado.
  • ROUGE-2 mide la cantidad de bigramas (2-gramas) compartidos en el texto de referencia y el texto generado.
  • ROUGE-3 mide la cantidad de trigramas (3-gramas) compartidos en el texto de referencia y el texto generado.

Puedes usar las siguientes fórmulas para calcular la recuperación y la precisión de ROUGE-N para cualquier miembro de la familia ROUGE-N:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

Luego, puedes usar F1 para combinar la recuperación de ROUGE-N y la precisión de ROUGE-N en una sola métrica:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
Supongamos que decides usar ROUGE-2 para medir la eficacia de la traducción de un modelo de AA en comparación con la de un traductor humano.
Categoría ¿Quién produjo? Texto Bigramas
Texto de referencia Traductor humano Quiero comprender una amplia variedad de temas. Quiero, quiero, quiero entender, entender una, una amplia, variedad, variedad de, de cosas
Texto generado Modelo de AA Quiero aprender muchas cosas. Quiero, quiero aprender, aprender muchas, muchas cosas
Por lo tanto:
  • La cantidad de 2-gramas coincidentes es 3 (I want, want to y of things).
  • La cantidad de 2-gramas en el texto de referencia es 8.
  • La cantidad de 2-gramas en el texto generado es 6.
Por lo tanto:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Metric

Es una forma tolerante de ROUGE-N que permite la coincidencia de skip-gram. Es decir, ROUGE-N solo cuenta los n-gramas que coinciden exactamente, pero ROUGE-S también cuenta los n-gramas separados por una o más palabras. Por ejemplo, considera lo siguiente:

Cuando se calcula ROUGE-N, el 2-gramo nubes blancas no coincide con nubes blancas ondulantes. Sin embargo, cuando se calcula ROUGE-S, Nubes blancas sí coincide con Nubes blancas ondulantes.

R al cuadrado

#Metric

Es una métrica de regresión que indica qué porcentaje de la variación en una etiqueta se debe a un atributo individual o a un conjunto de atributos. El valor R cuadrado es un valor entre 0 y 1, que puedes interpretar de la siguiente manera:

  • Un valor de R cuadrado de 0 significa que ninguna de las variaciones de una etiqueta se debe al conjunto de atributos.
  • Un valor de R cuadrado de 1 significa que toda la variación de una etiqueta se debe al conjunto de atributos.
  • Un valor de R cuadrado entre 0 y 1 indica el grado en el que se puede predecir la variación de la etiqueta a partir de un atributo en particular o del conjunto de atributos. Por ejemplo, un R cuadrado de 0.10 significa que el 10 por ciento de la variación en la etiqueta se debe al conjunto de atributos, un R cuadrado de 0.20 significa que el 20 por ciento se debe al conjunto de atributos, y así sucesivamente.

R al cuadrado es el cuadrado del coeficiente de correlación de Pearson entre los valores que predijo un modelo y la verdad fundamental.

S

puntuación

#recsystems
#Metric

Es la parte de un sistema de recomendación que proporciona un valor o una clasificación para cada elemento producido por la fase de generación de candidatos.

medida de similitud

#clustering
#Metric

En los algoritmos de agrupamiento en clústeres, la métrica que se usa para determinar qué tan parecidos (cuán similares) son dos ejemplos cualquiera.

dispersión

#Metric

Es la cantidad de elementos que se establecen en cero (o nulos) en un vector o una matriz dividida por la cantidad total de entradas en ese vector o matriz. Por ejemplo, considera una matriz de 100 elementos en la que 98 celdas contienen cero. El cálculo de la dispersión es el siguiente:

sparsity=98100=0.98

La esparsidad de atributos se refiere a la esparsidad de un vector de atributos. La esparsidad del modelo se refiere a la esparsidad de los pesos del modelo.

pérdida de bisagra al cuadrado

#Metric

Es el cuadrado de la pérdida de bisagra. La pérdida de bisagra al cuadrado penaliza a los valores atípicos de manera más severa que la pérdida de bisagra normal.

pérdida al cuadrado

#fundamentals
#Metric

Es un sinónimo de pérdida de L2.

T

pérdida de prueba

#fundamentals
#Metric

Una métrica que representa la pérdida de un modelo en comparación con el conjunto de prueba. Cuando compilas un modelo, por lo general, intentas minimizar la pérdida de la prueba. Esto se debe a que una pérdida de prueba baja es un indicador de calidad más sólido que una pérdida de entrenamiento o una pérdida de validación baja.

A veces, una gran brecha entre la pérdida de prueba y la pérdida de entrenamiento o validación sugiere que debes aumentar la tasa de regularización.

precisión Top-K

#language
#Metric

Es el porcentaje de veces que aparece una "etiqueta de segmentación" en las primeras k posiciones de las listas generadas. Las listas pueden ser recomendaciones personalizadas o una lista de elementos ordenados por softmax.

La precisión Top-K también se conoce como precisión en k.

Considera un sistema de aprendizaje automático que usa softmax para identificar las probabilidades de un árbol en función de una foto de sus hojas. En la siguiente tabla, se muestran las listas de resultados generadas a partir de cinco imágenes de árboles de entrada. Cada fila contiene una etiqueta objetivo y los cinco árboles más probables. Por ejemplo, cuando la etiqueta de destino era arce, el modelo de aprendizaje automático identificó olmo como el árbol más probable, roble como el segundo árbol más probable, y así sucesivamente.

Etiqueta de destino 1 2 3 4 5
arce Olmo roble arce haya poplar
cornejo roble dogwood poplar nogal americano arce
roble roble tilo langosta aliso tilo
tilo arce paw-paw roble tilo poplar
roble langosta tilo roble arce paw-paw

La etiqueta de destino aparece en la primera posición solo una vez, por lo que la precisión Top-1 es la siguiente:

top-1 accuracy=15=0.2

La etiqueta objetivo aparece en una de las tres posiciones principales cuatro veces, por lo que la precisión de las 3 principales es la siguiente:

top-1 accuracy=45=0.8

tóxico

#language
#Metric

El grado en que el contenido es abusivo, amenazante o ofensivo Muchos modelos de aprendizaje automático pueden identificar y medir la toxicidad. La mayoría de estos modelos identifican la toxicidad en varios parámetros, como el nivel de lenguaje abusivo y el nivel de lenguaje amenazante.

pérdida de entrenamiento

#fundamentals
#Metric

Es una métrica que representa la pérdida de un modelo durante una iteración de entrenamiento en particular. Por ejemplo, supongamos que la función de pérdida es el error cuadrático medio. Quizás la pérdida de entrenamiento (el error cuadrático medio) para la 10ª iteración sea 2.2 y la pérdida de entrenamiento para la 100ª iteración sea 1.9.

Una curva de pérdida grafica la pérdida de entrenamiento en función de la cantidad de iteraciones. Una curva de pérdida proporciona las siguientes sugerencias sobre el entrenamiento:

  • Una pendiente descendente implica que el modelo está mejorando.
  • Una pendiente ascendente implica que el modelo empeora.
  • Una pendiente plana implica que el modelo alcanzó la convergencia.

Por ejemplo, la siguiente curva de pérdidas algo idealizada muestra lo siguiente:

  • Una pendiente descendente pronunciada durante las iteraciones iniciales, lo que implica una mejora rápida del modelo.
  • Una pendiente que se aplana gradualmente (pero sigue hacia abajo) hasta cerca del final del entrenamiento, lo que implica una mejora continua del modelo a un ritmo un poco más lento que durante las iteraciones iniciales.
  • Una pendiente plana hacia el final del entrenamiento, lo que sugiere convergencia.

El gráfico de la pérdida de entrenamiento en comparación con las iteraciones. Esta curva de pérdidas comienza con una pendiente descendente pronunciada. La pendiente se aplana gradualmente hasta que se vuelve cero.

Aunque la pérdida de entrenamiento es importante, consulta también la generalización.

verdadero negativo (VN) (TN, true negative)

#fundamentals
#Metric

Ejemplo en el que el modelo predice correctamente la clase negativa. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular no es spam y que realmente no es spam.

verdadero positivo (VP)

#fundamentals
#Metric

Ejemplo en el que el modelo predice correctamente la clase positiva. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular es spam y realmente lo es.

tasa de verdaderos positivos (TPR)

#fundamentals
#Metric

Sinónimo de recuperación. Es decir:

true positive rate=true positivestrue positives+false negatives

La tasa de verdaderos positivos es el eje "y" en una curva ROC.

V

pérdida de validación

#fundamentals
#Metric

Es una métrica que representa la pérdida de un modelo en el conjunto de validación durante una iteración de entrenamiento en particular.

Consulta también la curva de generalización.

importancias de las variables

#df
#Metric

Un conjunto de puntuaciones que indica la importancia relativa de cada atributo para el modelo.

Por ejemplo, considera un árbol de decisión que estime los precios de las casas. Supongamos que este árbol de decisión usa tres atributos: tamaño, edad y estilo. Si un conjunto de importancias de las variables para las tres características es {size=5.8, age=2.5, style=4.7}, entonces el tamaño es más importante para el árbol de decisión que la edad o el estilo.

Existen diferentes métricas de importancia de las variables, que pueden informar a los expertos en la IA sobre diferentes aspectos de los modelos.

W

Pérdida de Wasserstein

#Metric

Es una de las funciones de pérdida que se usan comúnmente en las redes generativas antagónicas, que se basan en la distancia de mover la tierra entre la distribución de datos generados y los datos reales.