Esta página contiene los términos del glosario de métricas. Para ver todos los términos del glosario, haz clic aquí.
A
exactitud
Es la cantidad de predicciones de clasificación correctas dividida por la cantidad total de predicciones. Es decir:
Por ejemplo, un modelo que realizó 40 predicciones correctas y 10 incorrectas tendría una precisión de:
La clasificación binaria proporciona nombres específicos para las diferentes categorías de predicciones correctas y predicciones incorrectas. Por lo tanto, la fórmula de precisión para la clasificación binaria es la siguiente:
Donde:
- TP es la cantidad de verdaderos positivos (predicciones correctas).
- TN es la cantidad de verdaderos negativos (predicciones correctas).
- FP es la cantidad de falsos positivos (predicciones incorrectas).
- FN es la cantidad de falsos negativos (predicciones incorrectas).
Compara y contrasta la exactitud con la precisión y la recuperación.
Haz clic en el ícono para obtener detalles sobre la precisión y los conjuntos de datos con desequilibrio de clases.
Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas en el Curso intensivo de aprendizaje automático para obtener más información.
área bajo la curva de PR
Consulta AUC PR (área bajo la curva PR).
área bajo la curva ROC
Consulta AUC (área bajo la curva ROC).
AUC (área bajo la curva ROC)
Es un número entre 0.0 y 1.0 que representa la capacidad de un modelo de clasificación binaria para separar las clases positivas de las clases negativas. Cuanto más cerca esté la AUC de 1.0, mejor será la capacidad del modelo para separar las clases entre sí.
Por ejemplo, en la siguiente ilustración, se muestra un modelo de clasificador que separa perfectamente las clases positivas (óvalos verdes) de las clases negativas (rectángulos morados). Este modelo perfecto poco realista tiene una AUC de 1.0:
Por el contrario, en la siguiente ilustración, se muestran los resultados de un modelo de clasificador que generó resultados aleatorios. Este modelo tiene un AUC de 0.5:
Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.
La mayoría de los modelos se encuentran en algún punto intermedio entre los dos extremos. Por ejemplo, el siguiente modelo separa los valores positivos de los negativos y, por lo tanto, tiene un AUC entre 0.5 y 1.0:
El AUC ignora cualquier valor que establezcas para el umbral de clasificación. En cambio, la AUC considera todos los umbrales de clasificación posibles.
Haz clic en el ícono para obtener información sobre la relación entre el AUC y las curvas ROC.
Haz clic en el ícono para obtener una definición más formal de la AUC.
Consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático para obtener más información.
precisión promedio en k
Es una métrica para resumir el rendimiento de un modelo en una sola instrucción que genera resultados clasificados, como una lista numerada de recomendaciones de libros. La precisión promedio en k es el promedio de los valores de precisión en k para cada resultado relevante. Por lo tanto, la fórmula de la precisión promedio en k es la siguiente:
average precision at k=1nn∑i=1precision at k for each relevant item
Donde:
- n es la cantidad de elementos relevantes de la lista.
Compara esto con la recuperación en k.
Haz clic en el ícono para ver un ejemplo.
B
modelo de referencia
Un modelo que se usa como punto de referencia para comparar el rendimiento de otro modelo (por lo general, uno más complejo). Por ejemplo, un modelo de regresión logística podría servir como una buena referencia para un modelo profundo.
Para un problema en particular, el modelo de referencia ayuda a los desarrolladores de modelos a cuantificar el rendimiento mínimo esperado que un modelo nuevo debe alcanzar para que sea útil.
C
costo
Sinónimo de pérdida.
equidad contrafáctica
Una métrica de equidad que verifica si un clasificador produce el mismo resultado para una persona que para otra que es idéntica a la primera, excepto en relación con uno o más atributos sensibles. Evaluar un clasificador para la equidad contrafactual es un método para mostrar posibles fuentes de sesgo en un modelo.
Consulta cualquiera de los siguientes vínculos para obtener más información:
- Equidad: Equidad contrafactual en el Curso intensivo de aprendizaje automático.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
entropía cruzada
Una generalización de la pérdida de registro a los problemas de clasificación de clases múltiples. La entropía cruzada cuantifica la diferencia entre dos distribuciones de probabilidad. Consulta también perplejidad.
función de distribución acumulada (CDF)
Es una función que define la frecuencia de muestras menores o iguales a un valor objetivo. Por ejemplo, considera una distribución normal de valores continuos. Una CDF te indica que aproximadamente el 50% de las muestras debe ser menor o igual que la media, y que aproximadamente el 84% de las muestras debe ser menor o igual que una desviación estándar por encima de la media.
D
paridad demográfica
Una métrica de equidad que se satisface si los resultados de la clasificación de un modelo no dependen de un atributo sensible determinado.
Por ejemplo, si los liliputienses y los brobdingnagianos se postulan a la Universidad de Glubbdubdrib, se logra la paridad demográfica si el porcentaje de liliputienses admitidos es el mismo que el porcentaje de brobdingnagianos admitidos, independientemente de si un grupo es, en promedio, más calificado que el otro.
Contrasta con las probabilidades iguales y la igualdad de oportunidades, que permiten que los resultados de la clasificación en conjunto dependan de atributos sensibles, pero no permiten que los resultados de la clasificación de ciertas etiquetas de verdad fundamental especificadas dependan de atributos sensibles. Consulta "Cómo combatir la discriminación con un aprendizaje automático más inteligente" para ver una visualización que explora las compensaciones cuando se realiza la optimización para la paridad demográfica.
Consulta Equidad: paridad demográfica en el Curso intensivo de aprendizaje automático para obtener más información.
E
distancia del movimiento de tierras (EMD)
Es una medida de la similitud relativa de dos distribuciones. Cuanto menor sea la distancia del operador de transferencia, más similares serán las distribuciones.
editar distancia
Es una medición de la similitud entre dos cadenas de texto. En el aprendizaje automático, la distancia de edición es útil por los siguientes motivos:
- La distancia de edición es fácil de calcular.
- La distancia de edición puede comparar dos cadenas que se sabe que son similares entre sí.
- La distancia de edición puede determinar el grado en que diferentes cadenas son similares a una cadena determinada.
Existen varias definiciones de distancia de edición, cada una de las cuales usa diferentes operaciones de cadenas. Consulta Distancia de Levenshtein para ver un ejemplo.
función de distribución acumulativa empírica (eCDF o EDF)
Una función de distribución acumulada basada en mediciones empíricas de un conjunto de datos real. El valor de la función en cualquier punto del eje x es la fracción de observaciones del conjunto de datos que son menores o iguales al valor especificado.
entropía
En la teoría de la información, es una descripción de lo impredecible que es una distribución de probabilidad. Como alternativa, la entropía también se define como la cantidad de información que contiene cada ejemplo. Una distribución tiene la entropía más alta posible cuando todos los valores de una variable aleatoria tienen la misma probabilidad.
La entropía de un conjunto con dos valores posibles "0" y "1" (por ejemplo, las etiquetas en un problema de clasificación binaria) tiene la siguiente fórmula:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
Donde:
- H es la entropía.
- p es la fracción de ejemplos de "1".
- q es la fracción de ejemplos de “0”. Ten en cuenta que q = (1 - p).
- Por lo general, log es log2. En este caso, la unidad de entropía es un bit.
Por ejemplo, supongamos lo siguiente:
- 100 ejemplos contienen el valor "1"
- 300 ejemplos contienen el valor "0".
Por lo tanto, el valor de entropía es:
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 bits por ejemplo
Un conjunto que esté perfectamente equilibrado (por ejemplo, 200 "0" y 200 "1") tendría una entropía de 1.0 bit por ejemplo. A medida que un conjunto se vuelve más desequilibrado, su entropía se mueve hacia 0.0.
En los árboles de decisión, la entropía ayuda a formular la ganancia de información para ayudar al divisor a seleccionar las condiciones durante el crecimiento de un árbol de decisión de clasificación.
Compara la entropía con lo siguiente:
- impureza de Gini
- Función de pérdida de entropía cruzada
A menudo, la entropía se denomina entropía de Shannon.
Consulta Divisor exacto para la clasificación binaria con atributos numéricos en el curso Bosques de decisión para obtener más información.
igualdad de oportunidades
Una métrica de equidad para evaluar si un modelo predice el resultado deseado de la misma manera para todos los valores de un atributo sensible. En otras palabras, si el resultado deseable para un modelo es la clase positiva, el objetivo sería que la tasa de verdaderos positivos sea la misma para todos los grupos.
La igualdad de oportunidades se relaciona con las probabilidades igualadas, que requieren que ambas tasas, la de verdaderos positivos y la de falsos positivos, sean iguales para todos los grupos.
Supongamos que la Universidad de Glubbdubdrib admite a liliputienses y brobdingnagianos a un programa riguroso de matemáticas. Las escuelas secundarias de Lilliput ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Las instituciones educativas secundarias de Brobdingnag no ofrecen clases de matemáticas y, como resultado, muchos menos estudiantes están calificados. Se satisface la igualdad de oportunidades para la etiqueta preferida de “admitido” con respecto a la nacionalidad (liliputiense o brobdingnagiense) si los estudiantes calificados tienen la misma probabilidad de ser admitidos, independientemente de si son liliputienses o brobdingnagienses.
Por ejemplo, supongamos que 100 liliputienses y 100 brobdingnagianos se postulan a la Universidad de Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:
Tabla 1: Solicitantes liliputienses (el 90% son aptos)
Calificado | No cumple con los requisitos | |
---|---|---|
Admitida | 45 | 3 |
Rechazado | 45 | 7 |
Total | 90 | 10 |
Porcentaje de estudiantes calificados admitidos: 45/90 = 50% Porcentaje de estudiantes no calificados rechazados: 7/10 = 70% Porcentaje total de estudiantes liliputienses admitidos: (45+3)/100 = 48% |
Tabla 2: Solicitantes de Brobdingnag (el 10% está calificado):
Calificado | No cumple con los requisitos | |
---|---|---|
Admitida | 5 | 9 |
Rechazado | 5 | 81 |
Total | 10 | 90 |
Porcentaje de estudiantes calificados admitidos: 5/10 = 50% Porcentaje de estudiantes no calificados rechazados: 81/90 = 90% Porcentaje total de estudiantes de Brobdingnagian admitidos: (5+9)/100 = 14% |
Los ejemplos anteriores satisfacen la igualdad de oportunidades para la aceptación de estudiantes calificados, ya que los liliputienses y los brobdingnagianos calificados tienen un 50% de posibilidades de ser admitidos.
Si bien se cumple la igualdad de oportunidades, no se cumplen las siguientes dos métricas de equidad:
- Paridad demográfica: Los liliputienses y los brobdingnagianos ingresan a la universidad a diferentes tasas; se admite el 48% de los estudiantes liliputienses, pero solo el 14% de los brobdingnagianos.
- probabilidades iguales: Si bien los estudiantes liliputienses y brobdingnagianos calificados tienen la misma probabilidad de ser admitidos, no se satisface la restricción adicional de que los liliputienses y brobdingnagianos no calificados tienen la misma probabilidad de ser rechazados. Los liliputienses no calificados tienen un porcentaje de rechazo del 70%, mientras que los brobdingnagianos no calificados tienen un porcentaje de rechazo del 90%.
Consulta Equidad: igualdad de oportunidades en el Curso intensivo de aprendizaje automático para obtener más información.
probabilidades iguales
Es una métrica de equidad para evaluar si un modelo predice resultados de la misma manera para todos los valores de un atributo sensible en relación con la clase positiva y la clase negativa, no solo una clase o la otra de forma exclusiva. En otras palabras, tanto la tasa de verdaderos positivos como la tasa de falsos negativos deben ser las mismas para todos los grupos.
Las probabilidades igualadas se relacionan con la igualdad de oportunidades, que solo se enfoca en las tasas de error de una sola clase (positiva o negativa).
Por ejemplo, supongamos que la Universidad de Glubbdubdrib admite a liliputienses y a brobdingnagianos en un programa de matemáticas riguroso. Las instituciones educativas secundarias de Lilliput ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Las escuelas secundarias de Brobdingnag no ofrecen clases de matemáticas y, como resultado, muchos menos de sus estudiantes están calificados. Se satisfacen las probabilidades iguales, siempre que, sin importar si un solicitante es un liliputiense o un brobdingnagiense, si es calificado, tenga las mismas probabilidades de ser admitido en el programa y, si no es calificado, tenga las mismas probabilidades de ser rechazado.
Supongamos que 100 liliputienses y 100 brobdingnagianos se postulan a la Universidad de Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:
Tabla 3: Solicitantes liliputienses (el 90% son aptos)
Calificado | No cumple con los requisitos | |
---|---|---|
Admitida | 45 | 2 |
Rechazado | 45 | 8 |
Total | 90 | 10 |
Porcentaje de estudiantes calificados admitidos: 45/90 = 50% Porcentaje de estudiantes no calificados rechazados: 8/10 = 80% Porcentaje total de estudiantes liliputienses admitidos: (45+2)/100 = 47% |
Tabla 4. Solicitantes de Brobdingnag (el 10% está calificado):
Calificado | No cumple con los requisitos | |
---|---|---|
Admitida | 5 | 18 |
Rechazado | 5 | 72 |
Total | 10 | 90 |
Porcentaje de estudiantes calificados admitidos: 5/10 = 50% Porcentaje de estudiantes no calificados rechazados: 72/90 = 80% Porcentaje total de estudiantes de Brobdingnagian admitidos: (5+18)/100 = 23% |
Se satisfacen las probabilidades iguales porque los estudiantes Lilliputianos y Brobdingnagianos calificados tienen un 50% de probabilidades de ser admitidos, y los Lilliputianos y Brobdingnagianos no calificados tienen un 80% de probabilidades de ser rechazados.
Las probabilidades iguales se definen formalmente en "Igualdad de oportunidades en el aprendizaje supervisado" de la siguiente manera: "El predictor Ŷ satisface las probabilidades iguales con respecto al atributo protegido A y al resultado Y si Ŷ y A son independientes, condicionados a Y".
evals
Se usa principalmente como abreviatura de evaluaciones de LLM. En términos más generales, evals es una abreviatura de cualquier forma de evaluación.
sin conexión
Es el proceso de medir la calidad de un modelo o comparar diferentes modelos entre sí.
Para evaluar un modelo de aprendizaje automático supervisado, por lo general, se lo compara con un conjunto de validación y un conjunto de prueba. Evaluar un LLM suele implicar evaluaciones de calidad y seguridad más amplias.
F
F1
Una métrica de clasificación binaria "resumida" que se basa en la precisión y la recuperación. Esta es la fórmula:
Haz clic en el ícono para ver ejemplos.
métrica de equidad
Una definición matemática de "equidad" que sea medible. Estas son algunas de las métricas de equidad de uso general:
Muchas métricas de equidad son mutuamente excluyentes. Consulta la sección sobre incompatibilidad de métricas de equidad.
falso negativo (FN)
Ejemplo en el que el modelo predice de manera incorrecta la clase negativa. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular no es spam (la clase negativa), pero ese mensaje de correo electrónico en realidad es spam.
tasa de falsos negativos
Es la proporción de ejemplos positivos reales para los que el modelo predijo de forma incorrecta la clase negativa. La siguiente fórmula calcula la tasa negativa falsa:
Consulta Umbral y matriz de confusión en el Curso intensivo de aprendizaje automático para obtener más información.
falso positivo (FP)
Ejemplo en el que el modelo predice de manera incorrecta la clase positiva. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular es spam (la clase positiva), pero ese mensaje de correo electrónico en realidad no es spam.
Consulta Umbral y matriz de confusión en el Curso intensivo de aprendizaje automático para obtener más información.
tasa de falsos positivos (FPR)
Es la proporción de ejemplos negativos reales para los que el modelo predijo de forma incorrecta la clase positiva. La siguiente fórmula calcula el porcentaje de falsos positivos:
La tasa de falsos positivos es el eje x en una curva ROC.
Consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático para obtener más información.
importancias de los atributos
Sinónimo de importancia de las variables.
fracción de éxitos
Es una métrica para evaluar el texto generado de un modelo de AA. La fracción de éxitos es la cantidad de resultados de texto generados "correctos" dividida por la cantidad total de resultados de texto generados. Por ejemplo, si un modelo de lenguaje grande generó 10 bloques de código, cinco de los cuales se ejecutaron correctamente, la fracción de éxitos sería del 50%.
Aunque la fracción de éxitos es ampliamente útil en todas las estadísticas, en el AA, esta métrica es útil principalmente para medir tareas verificables, como la generación de código o los problemas matemáticos.
G
impureza de Gini
Es una métrica similar a la entropía. Los divisores usan valores derivados de la impureza de Gini o la entropía para componer condiciones para la clasificación de árboles de decisión. La ganancia de información se deriva de la entropía. No existe un término equivalente aceptado universalmente para la métrica derivada de la impureza de Gini. Sin embargo, esta métrica sin nombre es tan importante como la ganancia de información.
La impureza de Gini también se denomina índice de Gini o simplemente Gini.
Haz clic en el ícono para obtener detalles matemáticos sobre la impureza de Gini.
H
pérdida de bisagra
Es una familia de funciones de pérdida para la clasificación diseñada para encontrar el límite de decisión lo más distante posible de cada ejemplo de entrenamiento, lo que maximiza el margen entre los ejemplos y el límite. Las KSVM usan la pérdida de bisagra (o una función relacionada, como la pérdida de bisagra al cuadrado). Para la clasificación binaria, la función de pérdida de bisagra se define de la siguiente manera:
donde y es la etiqueta verdadera, ya sea -1 o +1, y y' es el resultado sin procesar del modelo de clasificador:
En consecuencia, un gráfico de la pérdida de bisagra en comparación con (y * y') se ve de la siguiente manera:
I
Incompatibilidad de métricas de equidad
La idea de que algunas nociones de equidad son mutuamente incompatibles y no se pueden satisfacer de manera simultánea. Como resultado, no existe una sola métrica universal para cuantificar la equidad que se pueda aplicar a todos los problemas de AA.
Si bien esto puede parecer desalentador, la incompatibilidad de las métricas de equidad no implica que los esfuerzos por lograr la equidad sean infructuosos. En cambio, sugiere que la equidad debe definirse de forma contextual para un problema de AA determinado, con el objetivo de evitar daños específicos de sus casos de uso.
Consulta "On the (im)possibility of fairness" para obtener un análisis más detallado de la incompatibilidad de las métricas de equidad.
equidad individual
Es una métrica de equidad que verifica si las personas similares se clasifican de manera similar. Por ejemplo, la Academia Brobdingnagian podría querer satisfacer la equidad individual asegurándose de que dos estudiantes con calificaciones idénticas y puntuaciones estandarizadas en las pruebas tengan la misma probabilidad de ingresar.
Ten en cuenta que la equidad individual depende por completo de cómo definas la "similitud" (en este caso, las calificaciones y las puntuaciones de las pruebas) y que puedes correr el riesgo de introducir nuevos problemas de equidad si tu métrica de similitud omite información importante (como el rigor del plan de estudios de un estudiante).
Consulta "Equidad a través de la sensibilización" para obtener un análisis más detallado de la equidad individual.
ganancia de información
En los bosques de decisión, la diferencia entre la entropía de un nodo y la suma ponderada (por cantidad de ejemplos) de la entropía de sus nodos secundarios. La entropía de un nodo es la entropía de los ejemplos en ese nodo.
Por ejemplo, considera los siguientes valores de entropía:
- Entropía del nodo superior = 0.6
- entropía de un nodo secundario con 16 ejemplos relevantes = 0.2
- entropía de otro nodo secundario con 24 ejemplos relevantes = 0.1
Por lo tanto, el 40% de los ejemplos se encuentra en un nodo secundario y el 60% en el otro nodo secundario. Por lo tanto:
- suma de entropía ponderada de nodos secundarios = (0.4 × 0.2) + (0.6 × 0.1) = 0.14
Por lo tanto, la ganancia de información es la siguiente:
- ganancia de información = entropía del nodo superior - suma ponderada de la entropía de los nodos secundarios
- ganancia de información = 0.6 - 0.14 = 0.46
La mayoría de los divisores buscan crear condiciones que maximicen la ganancia de información.
acuerdo entre evaluadores
Es una medición de la frecuencia con la que los evaluadores humanos coinciden cuando realizan una tarea. Si los evaluadores no están de acuerdo, es posible que debas mejorar las instrucciones de la tarea. En algunas ocasiones, también se denomina acuerdo entre anotadores o fiabilidad entre evaluadores. Consulta también el coeficiente kappa de Cohen, que es una de las mediciones de acuerdo entre evaluadores más populares.
Consulta Datos categóricos: Problemas comunes en el Curso intensivo de aprendizaje automático para obtener más información.
L
Pérdida L1
Una función de pérdida que calcula el valor absoluto de la diferencia entre los valores reales de la etiqueta y los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida de L1 para un lote de cinco ejemplos:
Valor real del ejemplo | Valor predicho del modelo | Valor absoluto de delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = Pérdida de L1 |
La pérdida L1 es menos sensible a los valores atípicos que la pérdida L2.
El error absoluto medio es la pérdida promedio de L1 por ejemplo.
Haz clic en el ícono para ver la matemática formal.
Consulta Regresión lineal: Pérdida en el Curso intensivo de aprendizaje automático para obtener más información.
Pérdida L2
Una función de pérdida que calcula el cuadrado de la diferencia entre los valores reales de la etiqueta y los valores que predice un modelo. Por ejemplo, este es el cálculo de la pérdida L2 para un lote de cinco ejemplos:
Valor real del ejemplo | Valor predicho del modelo | Cuadrado de delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = Pérdida de L2 |
Debido al componente cuadrático, la pérdida L2 amplifica la influencia de los valores atípicos. Es decir, la pérdida de L2 reacciona de manera más severa a las predicciones incorrectas que la pérdida de L1. Por ejemplo, la pérdida de L1 para el lote anterior sería de 8 en lugar de 16. Ten en cuenta que un solo valor extremo representa 9 de los 16.
Los modelos de regresión suelen usar la pérdida L2 como función de pérdida.
El error cuadrático medio es la pérdida promedio de L2 por ejemplo. La pérdida al cuadrado es otro nombre para la pérdida de L2.
Haz clic en el ícono para ver la matemática formal.
Consulta Regresión logística: Pérdida y regularización en el Curso intensivo de aprendizaje automático para obtener más información.
Evaluaciones de LLM (evals)
Un conjunto de métricas y comparativas para evaluar el rendimiento de los modelos de lenguaje extenso (LLM). A grandes rasgos, las evaluaciones de LLM hacen lo siguiente:
- Ayuda a los investigadores a identificar áreas en las que los LLM necesitan mejorar.
- Son útiles para comparar diferentes LLM y, así, identificar el mejor para una tarea en particular.
- Ayudar a garantizar que los LLM sean seguros y éticos de usar
Consulta Modelos de lenguaje extenso (LLM) en el Curso intensivo de aprendizaje automático para obtener más información.
pérdida
Durante el entrenamiento de un modelo supervisado, es una medida de qué tan lejos está la predicción de un modelo de su etiqueta.
Una función de pérdida calcula la pérdida.
Consulta Regresión lineal: Pérdida en el Curso intensivo de aprendizaje automático para obtener más información.
función de pérdida
Durante el entrenamiento o las pruebas, es una función matemática que calcula la pérdida en un lote de ejemplos. Una función de pérdida muestra una pérdida más baja para los modelos que hacen buenas predicciones que para los modelos que hacen predicciones erróneas.
Por lo general, el objetivo del entrenamiento es minimizar la pérdida que muestra una función de pérdida.
Existen muchos tipos diferentes de funciones de pérdida. Elige la función de pérdida adecuada para el tipo de modelo que estás compilando. Por ejemplo:
- La pérdida de L2 (o error cuadrático medio) es la función de pérdida de la regresión lineal.
- Pérdida logística es la función de pérdida de la regresión logística.
M
Error absoluto medio (MAE)
Es la pérdida promedio por ejemplo cuando se usa la pérdida de L1. Calcula el error absoluto medio de la siguiente manera:
- Calcula la pérdida L1 de un lote.
- Divide la pérdida de L1 por la cantidad de ejemplos del lote.
Haz clic en el ícono para ver la matemática formal.
Por ejemplo, considera el cálculo de la pérdida de L1 en el siguiente lote de cinco ejemplos:
Valor real del ejemplo | Valor predicho del modelo | Pérdida (diferencia entre el valor real y el previsto) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = Pérdida de L1 |
Por lo tanto, la pérdida de L1 es 8 y la cantidad de ejemplos es 5. Por lo tanto, el error absoluto medio es:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
Contrasta el error absoluto medio con el error cuadrático medio y la raíz cuadrada del error cuadrático medio.
precisión promedio en k (mAP@k)
Es la media estadística de todas las puntuaciones de precisión promedio en k en un conjunto de datos de validación. Un uso de la precisión promedio ponderada en k es juzgar la calidad de las recomendaciones que genera un sistema de recomendación.
Aunque la frase “promedio medio” suena redundante, el nombre de la métrica es apropiado. Después de todo, esta métrica encuentra el promedio de varios valores de precisión promedio en k.
Haz clic en el ícono para ver un ejemplo.
Error cuadrático medio (ECM)
Es la pérdida promedio por ejemplo cuando se usa la pérdida L2. Calcula el error cuadrático medio de la siguiente manera:
- Calcula la pérdida L2 de un lote.
- Divide la pérdida de L2 por la cantidad de ejemplos del lote.
Haz clic en el ícono para ver la matemática formal.
Por ejemplo, considera la pérdida en el siguiente lote de cinco ejemplos:
Valor real | Predicción del modelo | Pérdida | Pérdida al cuadrado |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = Pérdida de L2 |
Por lo tanto, el error cuadrático medio es:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
El error cuadrático medio es un optimizador de entrenamiento popular, en particular para la regresión lineal.
Contrasta el error cuadrático medio con el error absoluto medio y la raíz cuadrada del error cuadrático medio.
TensorFlow Playground usa el error cuadrático medio para calcular los valores de pérdida.
Haz clic en el ícono para ver más detalles sobre los valores atípicos.
métrica
Una estadística importante para ti.
Un objetivo es una métrica que un sistema de aprendizaje automático intenta optimizar.
API de Metrics (tf.metrics)
Una API de TensorFlow para evaluar modelos. Por ejemplo, tf.metrics.accuracy
determina la frecuencia con la que las predicciones de un modelo coinciden con las etiquetas.
pérdida minimax
Una función de pérdida para las redes generativas adversas, basada en la entropía cruzada entre la distribución de datos generados y los datos reales.
La pérdida minimax se usa en el primer artículo para describir las redes generativas adversas.
Consulta Funciones de pérdida en el curso Redes generativas antagónicas para obtener más información.
capacidad del modelo
La complejidad de los problemas que un modelo puede aprender. Mientras más complejos sean los problemas que un modelo puede aprender, mayor será la capacidad del modelo. La capacidad de un modelo generalmente aumenta con la cantidad de parámetros del modelo. Para una definición formal de capacidad del clasificador, consulta Dimensión VC.
N
clase negativa
En la clasificación binaria, una clase se expresa como positiva y la otra como negativa. La clase positiva es el objeto o evento que el modelo está probando, y la clase negativa es la otra posibilidad. Por ejemplo:
- La clase negativa en una prueba médica puede ser "no es un tumor".
- La clase negativa en un clasificador de correo electrónico puede ser "no es spam".
Compara esto con la clase positiva.
O
objetivo
Una métrica que tu algoritmo intenta optimizar.
función objetivo
Es la fórmula matemática o métrica que un modelo intenta optimizar. Por ejemplo, la función objetivo para la regresión lineal suele ser la pérdida cuadrática media. Por lo tanto, cuando se entrena un modelo de regresión lineal, el objetivo es minimizar la pérdida cuadrática media.
En algunos casos, el objetivo es maximizar la función objetivo. Por ejemplo, si la función objetivo es la precisión, el objetivo es maximizarla.
Consulta también pérdida.
P
pasar en k (pass@k)
Es una métrica para determinar la calidad del código (por ejemplo, Python) que genera un modelo de lenguaje grande. Más específicamente, el pase en k te indica la probabilidad de que al menos un bloque de código generado de k bloques de código generados pase todas sus pruebas de unidades.
Los modelos de lenguaje grandes suelen tener dificultades para generar un buen código para problemas de programación complejos. Los ingenieros de software se adaptan a este problema pidiéndole al modelo de lenguaje grande que genere varias (k) soluciones para el mismo problema. Luego, los ingenieros de software prueban cada una de las soluciones con pruebas de unidades. El cálculo de la aprobación en k depende del resultado de las pruebas de unidades:
- Si una o más de esas soluciones superan la prueba de unidad, el LLM supera ese desafío de generación de código.
- Si ninguna de las soluciones supera la prueba de unidad, el LLM falla en ese desafío de generación de código.
La fórmula para pasar en k es la siguiente:
pass at k=total number of passestotal number of challenges
En general, los valores más altos de k producen puntuaciones más altas en las pruebas de k. Sin embargo, los valores más altos de k requieren más recursos de modelos grandes de lenguaje y pruebas de unidades.
Haz clic en el ícono para ver un ejemplo.
rendimiento
Término sobrecargado con los siguientes significados:
- El significado estándar dentro de la ingeniería de software. Es decir, ¿qué tan rápidamente (o eficazmente) se ejecuta este software?
- El significado dentro del aprendizaje automático. Aquí, el rendimiento responde a la siguiente pregunta: ¿qué tan correcto es este modelo? Esto significa, ¿qué tan buenas son las predicciones del modelo?
importancias de las variables de permutación
Es un tipo de importancia de las variables que evalúa el aumento en el error de predicción de un modelo después de permutar los valores del atributo. La importancia de las variables de permutación es una métrica independiente del modelo.
perplejidad
Es una medida de qué tan bien está logrando su tarea un modelo. Por ejemplo, supongamos que tu tarea es leer las primeras letras de una palabra que un usuario está escribiendo en el teclado de un teléfono y ofrecer una lista de posibles palabras de finalización. La perplejidad, P, para esta tarea es aproximadamente la cantidad de conjeturas que debes ofrecer para que tu lista contenga la palabra real que el usuario intenta escribir.
La perplejidad está relacionada con la entropía cruzada de la siguiente manera:
clase positiva
Es la clase para la que realizas la prueba.
Por ejemplo, la clase positiva en un modelo de cáncer podría ser "tumor". La clase positiva en un clasificador de correo electrónico puede ser "es spam".
Compara esto con la clase negativa.
Haz clic en el ícono para ver notas adicionales.
AUC de PR (área bajo la curva de PR)
Es el área bajo la curva de precisión-recuperación interpolada, que se obtiene trazando puntos (recuperación, precisión) para diferentes valores del umbral de clasificación.
precision
Métrica para los modelos de clasificación que responde a la siguiente pregunta:
Cuando el modelo predijo la clase positiva, ¿qué porcentaje de las predicciones fue correcto?
Esta es la fórmula:
Donde:
- verdadero positivo significa que el modelo predijo correctamente la clase positiva.
- falso positivo significa que el modelo erróneamente predijo la clase positiva.
Por ejemplo, supongamos que un modelo realizó 200 predicciones positivas. De estas 200 predicciones positivas:
- 150 fueron verdaderos positivos.
- 50 fueron falsos positivos.
En este caso, ocurre lo siguiente:
Compara esto con la exactitud y la recuperación.
Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas en el Curso intensivo de aprendizaje automático para obtener más información.
precisión en k (precision@k)
Es una métrica para evaluar una lista de elementos clasificados (ordenados). La precisión en k identifica la fracción de los primeros k elementos de esa lista que son "relevantes". Es decir:
precision at k=relevant items in first k items of the listk
El valor de k debe ser menor o igual que la longitud de la lista que se muestra. Ten en cuenta que la longitud de la lista que se muestra no forma parte del cálculo.
La relevancia suele ser subjetiva. Incluso los evaluadores humanos expertos suelen estar en desacuerdo sobre qué elementos son relevantes.
Comparar con:
Haz clic en el ícono para ver un ejemplo.
curva de precisión-recuperación
Una curva de precisión en comparación con la recuperación en diferentes umbrales de clasificación.
sesgo de predicción
Es un valor que indica qué tan alejado está el promedio de las predicciones del promedio de las etiquetas en el conjunto de datos.
No se debe confundir con el término sesgo en modelos de aprendizaje automático ni con el sesgo en ética y equidad.
paridad predictiva
Una métrica de equidad que verifica si, para un clasificador determinado, las tasas de precisión son equivalentes para los subgrupos en consideración.
Por ejemplo, un modelo que predice la aceptación en la universidad satisfaría la paridad predictiva para la nacionalidad si su tasa de precisión fuera la misma para los liliputienses y los brobdingnagianos.
A veces, la paridad predictiva también se denomina paridad de tarifas predictiva.
Consulta "Explicación de las definiciones de equidad" (sección 3.2.1) para obtener una explicación más detallada de la paridad predictiva.
paridad de tarifas predictiva
Es otro nombre para la paridad predictiva.
función de densidad de probabilidad
Es una función que identifica la frecuencia de muestras de datos que tienen exactamente un valor en particular. Cuando los valores de un conjunto de datos son números de punto flotante continuos, raramente se producen coincidencias exactas. Sin embargo, integrar una función de densidad de probabilidad del valor x
al valor y
genera la frecuencia esperada de muestras de datos entre x
y y
.
Por ejemplo, considera una distribución normal con una media de 200 y una desviación estándar de 30. Para determinar la frecuencia esperada de muestras de datos que se encuentran dentro del rango de 211.4 a 218.7, puedes integrar la función de densidad de probabilidad para una distribución normal de 211.4 a 218.7.
R
recall
Métrica para los modelos de clasificación que responde a la siguiente pregunta:
Cuando la verdad fundamental era la clase positiva, ¿qué porcentaje de predicciones identificó correctamente el modelo como la clase positiva?
Esta es la fórmula:
Recall=true positivestrue positives+false negatives
Donde:
- verdadero positivo significa que el modelo predijo correctamente la clase positiva.
- Un falso negativo significa que el modelo erróneamente predijo la clase negativa.
Por ejemplo, supongamos que tu modelo realizó 200 predicciones en ejemplos para los que la verdad fundamental era la clase positiva. De estas 200 predicciones, ocurre lo siguiente:
- 180 fueron verdaderos positivos.
- 20 fueron falsos negativos.
En este caso, ocurre lo siguiente:
Recall=180180+20=0.9
Haz clic en el ícono para ver notas sobre los conjuntos de datos con desequilibrio de clases.
Consulta Clasificación: exactitud, recuperación, precisión y métricas relacionadas para obtener más información.
recuperación en k (recall@k)
Es una métrica para evaluar sistemas que generan una lista de elementos clasificados (ordenados). La recuperación en k identifica la fracción de elementos relevantes en los primeros k elementos de esa lista de la cantidad total de elementos relevantes que se muestran.
recall at k=relevant items in first k items of the listtotal number of relevant items in the list
Compara esto con la precisión en k.
Haz clic en el ícono para ver un ejemplo.
curva ROC (característica operativa del receptor)
Gráfico de la tasa de verdaderos positivos en comparación con la tasa de falsos positivos para diferentes umbrales de clasificación en la clasificación binaria.
La forma de una curva ROC sugiere la capacidad de un modelo de clasificación binaria para separar las clases positivas de las negativas. Supongamos, por ejemplo, que un modelo de clasificación binaria separa perfectamente todas las clases negativas de todas las clases positivas:
La curva ROC del modelo anterior se ve de la siguiente manera:
En cambio, en la siguiente ilustración, se grafican los valores de regresión logística sin procesar de un modelo terrible que no puede separar las clases negativas de las positivas:
La curva ROC de este modelo se ve de la siguiente manera:
Mientras tanto, en el mundo real, la mayoría de los modelos de clasificación binaria separan las clases positivas y negativas en cierta medida, pero, por lo general, no de forma perfecta. Por lo tanto, una curva ROC típica se encuentra en algún lugar entre los dos extremos:
En teoría, el punto de una curva ROC más cercano a (0.0,1.0) identifica el umbral de clasificación ideal. Sin embargo, varios otros problemas del mundo real influyen en la selección del umbral de clasificación ideal. Por ejemplo, quizás los falsos negativos causen mucho más dolor que los falsos positivos.
Una métrica numérica llamada AUC resume la curva ROC en un solo valor de punto flotante.
Raíz cuadrada del error cuadrático medio (RMSE)
Es la raíz cuadrada del error cuadrático medio.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
Es una familia de métricas que evalúan los modelos de resumen automático y de traducción automática. Las métricas de ROUGE determinan el grado en que un texto de referencia se superpone con el texto generado de un modelo de IA. Cada miembro de la familia de ROUGE mide la superposición de una manera diferente. Las puntuaciones más altas de ROUGE indican una mayor similitud entre el texto de referencia y el texto generado que las puntuaciones más bajas de ROUGE.
Por lo general, cada miembro de la familia ROUGE genera las siguientes métricas:
- Precisión
- Recuperación
- F1
Para obtener detalles y ejemplos, consulta lo siguiente:
ROUGE-L
Un miembro de la familia ROUGE se enfoca en la longitud de la subsecuencia común más larga en el texto de referencia y el texto generado. Las siguientes fórmulas calculan la recuperación y la precisión de ROUGE-L:
Luego, puedes usar F1 para combinar la recuperación de ROUGE-L y la precisión de ROUGE-L en una sola métrica:
Haz clic en el ícono para ver un ejemplo de cálculo de ROUGE-L.
ROUGE-L ignora los saltos de línea en el texto de referencia y el texto generado, por lo que la subsecuencia común más larga podría cruzar varias oraciones. Cuando el texto de referencia y el texto generado incluyen varias oraciones, una variación de ROUGE-L llamada ROUGE-Lsum suele ser una mejor métrica. ROUGE-Lsum determina la subsecuencia común más larga para cada oración en un pasaje y, luego, calcula el promedio de esas subsecuencias comunes más largas.
Haz clic en el ícono para ver un ejemplo de cálculo de ROUGE-Lsum.
ROUGE-N
Es un conjunto de métricas dentro de la familia ROUGE que compara los n-gramas compartidos de un tamaño determinado en el texto de referencia y el texto generado. Por ejemplo:
- ROUGE-1 mide la cantidad de tokens compartidos en el texto de referencia y el texto generado.
- ROUGE-2 mide la cantidad de bigramas (2-gramas) compartidos en el texto de referencia y el texto generado.
- ROUGE-3 mide la cantidad de trigramas (3-gramas) compartidos en el texto de referencia y el texto generado.
Puedes usar las siguientes fórmulas para calcular la recuperación y la precisión de ROUGE-N para cualquier miembro de la familia ROUGE-N:
Luego, puedes usar F1 para combinar la recuperación de ROUGE-N y la precisión de ROUGE-N en una sola métrica:
Haz clic en el ícono para ver un ejemplo.
ROUGE-S
Es una forma tolerante de ROUGE-N que permite la coincidencia de skip-gram. Es decir, ROUGE-N solo cuenta los n-gramas que coinciden exactamente, pero ROUGE-S también cuenta los n-gramas separados por una o más palabras. Por ejemplo, considera lo siguiente:
- texto de referencia: Nubes blancas
- texto generado: Nubes blancas ondulantes
Cuando se calcula ROUGE-N, el 2-gramo nubes blancas no coincide con nubes blancas ondulantes. Sin embargo, cuando se calcula ROUGE-S, Nubes blancas sí coincide con Nubes blancas ondulantes.
R al cuadrado
Es una métrica de regresión que indica qué porcentaje de la variación en una etiqueta se debe a un atributo individual o a un conjunto de atributos. El valor R cuadrado es un valor entre 0 y 1, que puedes interpretar de la siguiente manera:
- Un valor de R cuadrado de 0 significa que ninguna de las variaciones de una etiqueta se debe al conjunto de atributos.
- Un valor de R cuadrado de 1 significa que toda la variación de una etiqueta se debe al conjunto de atributos.
- Un valor de R cuadrado entre 0 y 1 indica el grado en el que se puede predecir la variación de la etiqueta a partir de un atributo en particular o del conjunto de atributos. Por ejemplo, un R cuadrado de 0.10 significa que el 10 por ciento de la variación en la etiqueta se debe al conjunto de atributos, un R cuadrado de 0.20 significa que el 20 por ciento se debe al conjunto de atributos, y así sucesivamente.
R al cuadrado es el cuadrado del coeficiente de correlación de Pearson entre los valores que predijo un modelo y la verdad fundamental.
S
puntuación
Es la parte de un sistema de recomendación que proporciona un valor o una clasificación para cada elemento producido por la fase de generación de candidatos.
medida de similitud
En los algoritmos de agrupamiento en clústeres, la métrica que se usa para determinar qué tan parecidos (cuán similares) son dos ejemplos cualquiera.
dispersión
Es la cantidad de elementos que se establecen en cero (o nulos) en un vector o una matriz dividida por la cantidad total de entradas en ese vector o matriz. Por ejemplo, considera una matriz de 100 elementos en la que 98 celdas contienen cero. El cálculo de la dispersión es el siguiente:
La esparsidad de atributos se refiere a la esparsidad de un vector de atributos. La esparsidad del modelo se refiere a la esparsidad de los pesos del modelo.
pérdida de bisagra al cuadrado
Es el cuadrado de la pérdida de bisagra. La pérdida de bisagra al cuadrado penaliza a los valores atípicos de manera más severa que la pérdida de bisagra normal.
pérdida al cuadrado
Es un sinónimo de pérdida de L2.
T
pérdida de prueba
Una métrica que representa la pérdida de un modelo en comparación con el conjunto de prueba. Cuando compilas un modelo, por lo general, intentas minimizar la pérdida de la prueba. Esto se debe a que una pérdida de prueba baja es un indicador de calidad más sólido que una pérdida de entrenamiento o una pérdida de validación baja.
A veces, una gran brecha entre la pérdida de prueba y la pérdida de entrenamiento o validación sugiere que debes aumentar la tasa de regularización.
precisión Top-K
Es el porcentaje de veces que aparece una "etiqueta de segmentación" en las primeras k posiciones de las listas generadas. Las listas pueden ser recomendaciones personalizadas o una lista de elementos ordenados por softmax.
La precisión Top-K también se conoce como precisión en k.
Haz clic en el ícono para ver un ejemplo.
tóxico
El grado en que el contenido es abusivo, amenazante o ofensivo Muchos modelos de aprendizaje automático pueden identificar y medir la toxicidad. La mayoría de estos modelos identifican la toxicidad en varios parámetros, como el nivel de lenguaje abusivo y el nivel de lenguaje amenazante.
pérdida de entrenamiento
Es una métrica que representa la pérdida de un modelo durante una iteración de entrenamiento en particular. Por ejemplo, supongamos que la función de pérdida es el error cuadrático medio. Quizás la pérdida de entrenamiento (el error cuadrático medio) para la 10ª iteración sea 2.2 y la pérdida de entrenamiento para la 100ª iteración sea 1.9.
Una curva de pérdida grafica la pérdida de entrenamiento en función de la cantidad de iteraciones. Una curva de pérdida proporciona las siguientes sugerencias sobre el entrenamiento:
- Una pendiente descendente implica que el modelo está mejorando.
- Una pendiente ascendente implica que el modelo empeora.
- Una pendiente plana implica que el modelo alcanzó la convergencia.
Por ejemplo, la siguiente curva de pérdidas algo idealizada muestra lo siguiente:
- Una pendiente descendente pronunciada durante las iteraciones iniciales, lo que implica una mejora rápida del modelo.
- Una pendiente que se aplana gradualmente (pero sigue hacia abajo) hasta cerca del final del entrenamiento, lo que implica una mejora continua del modelo a un ritmo un poco más lento que durante las iteraciones iniciales.
- Una pendiente plana hacia el final del entrenamiento, lo que sugiere convergencia.
Aunque la pérdida de entrenamiento es importante, consulta también la generalización.
verdadero negativo (VN) (TN, true negative)
Ejemplo en el que el modelo predice correctamente la clase negativa. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular no es spam y que realmente no es spam.
verdadero positivo (VP)
Ejemplo en el que el modelo predice correctamente la clase positiva. Por ejemplo, el modelo infiere que un mensaje de correo electrónico en particular es spam y realmente lo es.
tasa de verdaderos positivos (TPR)
Sinónimo de recuperación. Es decir:
La tasa de verdaderos positivos es el eje "y" en una curva ROC.
V
pérdida de validación
Es una métrica que representa la pérdida de un modelo en el conjunto de validación durante una iteración de entrenamiento en particular.
Consulta también la curva de generalización.
importancias de las variables
Un conjunto de puntuaciones que indica la importancia relativa de cada atributo para el modelo.
Por ejemplo, considera un árbol de decisión que estime los precios de las casas. Supongamos que este árbol de decisión usa tres atributos: tamaño, edad y estilo. Si un conjunto de importancias de las variables para las tres características es {size=5.8, age=2.5, style=4.7}, entonces el tamaño es más importante para el árbol de decisión que la edad o el estilo.
Existen diferentes métricas de importancia de las variables, que pueden informar a los expertos en la IA sobre diferentes aspectos de los modelos.
W
Pérdida de Wasserstein
Es una de las funciones de pérdida que se usan comúnmente en las redes generativas antagónicas, que se basan en la distancia de mover la tierra entre la distribución de datos generados y los datos reales.