Glossário de machine learning: métricas

Esta página contém os termos do glossário de métricas. Para conferir todos os termos do glossário, clique aqui.

A

precisão

#fundamentals
#Metric

O número de previsões de classificação corretas dividido pelo número total de previsões. Ou seja:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

Por exemplo, um modelo que fez 40 previsões corretas e 10 incorretas teria uma precisão de:

Accuracy=4040 + 10=80%

A classificação binária fornece nomes específicos para as diferentes categorias de previsões corretas e previsões incorretas. A fórmula de precisão para classificação binária é a seguinte:

Accuracy=TP+TNTP+TN+FP+FN

em que:

Compare a acurácia com a precisão e o recall.

Embora seja uma métrica valiosa para algumas situações, a precisão é altamente enganosa para outras. A precisão geralmente é uma métrica ruim para avaliar modelos de classificação que processam conjuntos de dados com classes desequilibradas.

Por exemplo, suponha que a neve caia apenas 25 dias por século em uma determinada cidade subtropical. Como os dias sem neve (a classe negativa) são muito mais numerosos do que os dias com neve (a classe positiva), o conjunto de dados de neve dessa cidade está desequilibrado. Imagine um modelo de classificação binária que deveria prever se vai nevar ou não a cada dia, mas simplesmente prevê "não vai nevar" todos os dias. Esse modelo é muito preciso, mas não tem capacidade de previsão. A tabela a seguir resume os resultados de um século de previsões:

Categoria Número
VP 0
TN 36499
FP 0
FN 25

A precisão desse modelo é, portanto:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Embora a precisão de 99,93% pareça uma porcentagem muito impressionante, o modelo na verdade não tem poder preditivo.

Precisão e recall geralmente são métricas mais úteis do que a precisão para avaliar modelos treinados em conjuntos de dados com classes desequilibradas.


Consulte Classificação: precisão, recall, precisão e métricas relacionadas no Curso intensivo de machine learning para mais informações.

área sob a curva de PR

#Metric

Consulte AUC PR (área sob a curva PR).

área sob a curva ROC

#Metric

Consulte AUC (área sob a curva ROC).

AUC (área sob a curva ROC)

#fundamentals
#Metric

Um número entre 0,0 e 1,0 que representa a capacidade de um modelo de classificação binária de separar classes positivas de classes negativas. Quanto mais próxima da 1,0, melhor será a capacidade do modelo de separar as classes.

Por exemplo, a ilustração a seguir mostra um modelo de classificador que separa perfeitamente as classes positivas (ovais verdes) das classes negativas (retângulos roxos). Esse modelo perfeito tem uma AUC de 1,0:

Uma linha numérica com 8 exemplos positivos de um lado e
          9 exemplos negativos do outro.

Por outro lado, a ilustração a seguir mostra os resultados de um modelo de classificador que gerou resultados aleatórios. Esse modelo tem uma AUC de 0,5:

Uma linha numérica com seis exemplos positivos e seis negativos.
          A sequência de exemplos é positiva, negativa,
          positiva, negativa, positiva, negativa, positiva, negativa, positiva
          negativa, positiva, negativa.

Sim, o modelo anterior tem um AUC de 0,5, não 0,0.

A maioria dos modelos fica entre os dois extremos. Por exemplo, o modelo a seguir separa os positivos dos negativos e, portanto, tem uma AUC entre 0,5 e 1,0:

Uma linha numérica com seis exemplos positivos e seis negativos.
          A sequência de exemplos é negativo, negativo, negativo, negativo,
          positivo, negativo, positivo, positivo, negativo, positivo, positivo,
          positivo.

O AUC ignora qualquer valor definido para o limite de classificação. Em vez disso, a AUC considera todos os limiares de classificação possíveis.

A AUC representa a área sob uma curva ROC. Por exemplo, a curva ROC de um modelo que separa perfeitamente os positivos dos negativos é assim:

Gráfico cartesiano. O eixo x é a taxa de falsos positivos. O eixo y é a taxa de verdadeiros positivos. O gráfico começa em 0,0 e vai direto para 0,1,
          depois para a direita, terminando em 1,1.

A AUC é a área da região cinza na ilustração anterior. Nesse caso incomum, a área é simplesmente o comprimento da região cinza (1,0) multiplicado pela largura da região cinza (1,0). Assim, o produto de 1,0 e 1,0 gera um AUC de exatamente 1,0, que é a maior pontuação de AUC possível.

Por outro lado, a curva ROC de um classificador que não consegue separar classes é a seguinte. A área dessa região cinza é 0,5.

Gráfico cartesiano. O eixo x é a taxa de falsos positivos. O eixo y é a taxa de verdadeiros positivos. O gráfico começa em 0,0 e vai diagonalmente até 1,1.

Uma curva ROC mais típica tem a seguinte aparência:

Gráfico cartesiano. O eixo x é a taxa de falsos positivos. O eixo y é a taxa de verdadeiros positivos. O gráfico começa em 0,0 e faz um arco irregular
          até 1,0.

Seria trabalhoso calcular a área sob essa curva manualmente, por isso um programa geralmente calcula a maioria dos valores de AUC.


A AUC é a probabilidade de um classificador ter mais certeza de que um exemplo positivo escolhido aleatoriamente é realmente positivo do que um exemplo negativo escolhido aleatoriamente.


Consulte Classificação: ROC e AUC no Curso intensivo de machine learning para mais informações.

precisão média em k

#language
#Metric

Uma métrica para resumir a performance de um modelo em uma única solicitação que gera resultados classificados, como uma lista numerada de recomendações de livros. A precisão média em k é a média dos valores de precisão em k para cada resultado relevante. A fórmula para a precisão média em k é a seguinte:

average precision at k=1nni=1precision at k for each relevant item

em que:

  • n é o número de itens relevantes na lista.

Compare com a recordação em k.

Suponha que um modelo de linguagem grande receba a seguinte consulta:

List the 6 funniest movies of all time in order.

E o modelo de linguagem grande retorna a seguinte lista:

  1. O general
  2. Mean Girls
  3. Platoon
  4. Damas de honra
  5. Citizen Kane
  6. This is Spinal Tap
Quatro dos filmes na lista retornada são muito engraçados (ou seja, são relevantes), mas dois são dramas (não relevantes). A tabela a seguir detalha os resultados:
Posição Filme Relevante? Precisão em k
1 O general Sim 1.0
2 Mean Girls Sim 1,0
3 Platoon Não irrelevante
4 Damas de honra Sim 0,75
5 Citizen Kane Não irrelevante
6 This is Spinal Tap Sim 0.67

O número de resultados relevantes é 4. Portanto, você pode calcular a precisão média em 6 da seguinte maneira:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67)
average precision at 6=~0.85

B

baseline

#Metric

Um modelo usado como ponto de referência para comparar o desempenho de outro modelo (geralmente, um mais complexo). Por exemplo, um modelo de regressão logística pode servir como uma boa referência para um modelo profundo.

Para um problema específico, a referência ajuda os desenvolvedores a quantificar a performance mínima esperada que um novo modelo precisa alcançar para ser útil.

C

custo

#Metric

Sinônimo de loss.

imparcialidade contrafactual

#fairness
#Metric

Uma métrica de justiça que verifica se um classificador produz o mesmo resultado para um indivíduo que é idêntico a outro idêntico ao primeiro, exceto em relação a um ou mais atributos sensíveis. Avaliar um classificador para imparcialidade contrafactual é um método para identificar possíveis fontes de viés em um modelo.

Consulte um dos seguintes links para mais informações:

entropia cruzada

#Metric

Uma generalização da perda de registro para problemas de classificação multiclasse. A entropia cruzada quantifica a diferença entre duas distribuições de probabilidade. Consulte também perplexidade.

função de distribuição cumulativa (FDA)

#Metric

Uma função que define a frequência de amostras menores ou iguais a um valor de destino. Por exemplo, considere uma distribuição normal de valores contínuos. Uma CDF informa que aproximadamente 50% das amostras precisam ser menores ou iguais à média e que aproximadamente 84% das amostras precisam ser menores ou iguais a uma variação padrão acima da média.

D

paridade demográfica

#fairness
#Metric

Uma métrica de imparcialidade que é atendida se os resultados da classificação de um modelo não dependerem de um atributo sensível.

Por exemplo, se os liliputianos e os brobdingnagianos se inscreverem na Universidade Glubbdubdrib, a paridade demográfica será alcançada se a porcentagem de Lilliputianos admitidos for a mesma que a porcentagem de Brobdingnagianos admitidos, independentemente de um grupo ser, em média, mais qualificado do que o outro.

Compare com as odds iguais e a igualdade de oportunidades, que permitem que os resultados de classificação em agregado dependam de atributos sensíveis, mas não permitem que os resultados de classificação para determinados dados reais especificados dependam de atributos sensíveis. Consulte "Como combater a discriminação com um aprendizado de máquina mais inteligente" para conferir uma visualização que mostra as compensações ao otimizar para paridade demográfica.

Consulte Imparcialidade: paridade demográfica no Curso intensivo de machine learning para mais informações.

E

Distância de movimentação da Terra (EMD)

#Metric

Uma medida da semelhança relativa de duas distribuições. Quanto menor a distância do movimento de terra, mais semelhantes são as distribuições.

editar distância

#language
#Metric

Uma medida de quão semelhantes duas strings de texto são. No aprendizado de máquina, a distância de edição é útil pelos seguintes motivos:

  • A distância de edição é fácil de calcular.
  • A distância de edição pode comparar duas strings conhecidas por serem semelhantes.
  • A distância de edição pode determinar o grau em que strings diferentes são semelhantes a uma determinada string.

Há várias definições de distância de edição, cada uma usando operações de string diferentes. Consulte Distância de Levenshtein para conferir um exemplo.

função de distribuição cumulativa empírica (eCDF ou EDF, na sigla em inglês)

#Metric

Uma função de distribuição cumulativa com base em medições empíricas de um conjunto de dados real. O valor da função em qualquer ponto ao longo do eixo x é a fração de observações no conjunto de dados que são menores ou iguais ao valor especificado.

entropia

#df
#Metric

Na teoria da informação, uma descrição de como uma distribuição de probabilidade é imprevisível. Como alternativa, a entropia também é definida como a quantidade de informações que cada exemplo contém. Uma distribuição tem a entropia mais alta possível quando todos os valores de uma variável aleatória têm a mesma probabilidade.

A entropia de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) tem a seguinte fórmula:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

em que:

  • H é a entropia.
  • p é a fração dos exemplos "1".
  • q é a fração dos exemplos "0". Observe que q = (1 - p)
  • log geralmente é log2. Nesse caso, a unidade de entropia é um bit.

Por exemplo, suponha que:

  • 100 exemplos contêm o valor "1"
  • 300 exemplos contêm o valor "0"

Portanto, o valor de entropia é:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bits por exemplo

Um conjunto perfeitamente equilibrado (por exemplo, 200 "0"s e 200 "1"s) teria uma entropia de 1,0 bit por exemplo. À medida que um conjunto fica mais desbalanceado, a entropia dele se move em direção a 0,0.

Nas árvores de decisão, a entropia ajuda a formular ganho de informação para ajudar o divisor a selecionar as condições durante o crescimento de uma árvore de decisão de classificação.

Compare a entropia com:

A entropia é frequentemente chamada de entropia de Shannon.

Consulte Divisor exato para classificação binária com recursos numéricos no curso de florestas de decisão para mais informações.

igualdade de oportunidades

#fairness
#Metric

Uma métrica de imparcialidade para avaliar se um modelo está prevendo o resultado desejado igualmente bem para todos os valores de um atributo sensível. Em outras palavras, se o resultado desejado para um modelo for a classe positiva, o objetivo será ter a taxa de verdadeiro positivo igual para todos os grupos.

A igualdade de oportunidades está relacionada às chances iguais, que exige que ambas as taxas de verdadeiro positivo e falso positivo sejam iguais para todos os grupos.

Suponha que a Universidade Glubbdubdrib admita liliputianos e brobdingnagianos em um programa rigoroso de matemática. As escolas secundárias dos liliputianos oferecem um currículo robusto de aulas de matemática, e a grande maioria dos estudantes está qualificada para o programa universitário. As escolas secundárias de Brobdingnag não oferecem aulas de matemática e, como resultado, muito menos estudantes se qualificam. A igualdade de oportunidades é atendida para o rótulo preferido de "admitidos" em relação à nacionalidade (Lilliputian ou Brobdingnagian) se os estudantes qualificados tiverem a mesma probabilidade de serem admitidos, independentemente de serem Lilliputian ou Brobdingnagian.

Por exemplo, suponha que 100 liliputianos e 100 brobdingnagianos se inscrevam na Universidade Glubbdubdrib, e as decisões de admissão sejam feitas da seguinte maneira:

Tabela 1. Candidatos Lilliputianos (90% estão qualificados)

  Qualificado Não qualificado
Admitido 45 3
Recusado 45 7
Total 90 10
Porcentagem de estudantes qualificados admitidos: 45/90 = 50%
Porcentagem de estudantes não qualificados rejeitados: 7/10 = 70%
Porcentagem total de estudantes liliputianos admitidos: (45+3)/100 = 48%

 

Tabela 2. Candidatos Brobdingnagian (10% são qualificados):

  Qualificado Não qualificado
Admitido 5 9
Recusado 5 81
Total 10 90
Porcentagem de estudantes qualificados admitidos: 5/10 = 50%
Porcentagem de estudantes não qualificados rejeitados: 81/90 = 90%
Porcentagem total de estudantes de Brobdingnag admitidos: (5+9)/100 = 14%

Os exemplos anteriores atendem à igualdade de oportunidades para a admissão de alunos qualificados porque os liliputianos e os brobdingnagianos qualificados têm 50% de chance de serem admitidos.

Embora a igualdade de oportunidades seja atendida, as duas métricas de imparcialidade a seguir não são atendidas:

  • Paridade demográfica: os estudantes de Lilliput e Brobdingnag são admitidos na universidade em taxas diferentes. 48% dos estudantes de Lilliput são admitidos, mas apenas 14% dos estudantes de Brobdingnag são admitidos.
  • Chances iguais: embora os estudantes qualificados de Lilliput e Brobdingnag tenham a mesma chance de serem admitidos, a restrição adicional de que os estudantes não qualificados de Lilliput e Brobdingnag têm a mesma chance de serem rejeitados não é satisfeita. Os liliputianos não qualificados têm uma taxa de rejeição de 70%, enquanto os brobdingnagianos não qualificados têm uma taxa de rejeição de 90%.

Consulte Imparcialidade: igualdade de oportunidades no Curso intensivo de machine learning para mais informações.

probabilidades iguais

#fairness
#Metric

Uma métrica de justiça para avaliar se um modelo está prevendo resultados igualmente para todos os valores de um atributo sensível em relação à classe positiva e classe negativa, não apenas uma ou outra exclusivamente. Em outras palavras, a taxa de verdadeiro positivo e a taxa de falso negativo precisam ser as mesmas para todos os grupos.

As probabilidades iguais estão relacionadas à igualdade de oportunidades, que se concentra apenas nas taxas de erro de uma única classe (positiva ou negativa).

Por exemplo, suponha que a Universidade Glubbdubdrib admita liliputianos e brobdingnagianos em um programa de matemática rigoroso. As escolas secundárias dos liliputianos oferecem um currículo robusto de aulas de matemática, e a grande maioria dos alunos está qualificada para o programa universitário. As escolas secundárias de Brobdingnag não oferecem aulas de matemática. Como resultado, muito menos alunos estão qualificados. As chances iguais são satisfeitas, desde que não importe se um candidato é um liliputiano ou um brobdingnaguense, se ele é qualificado, ele tem a mesma probabilidade de ser admitido no programa, e se ele não é qualificado, ele tem a mesma probabilidade de ser rejeitado.

Suponha que 100 liliputianos e 100 brobdingnagianos se inscrevam na Universidade Glubbdubdrib e que as decisões de admissão sejam feitas da seguinte maneira:

Tabela 3. Candidatos Lilliputianos (90% estão qualificados)

  Qualificado Não qualificado
Admitido 45 2
Recusado 45 8
Total 90 10
Porcentagem de estudantes qualificados admitidos: 45/90 = 50%
Porcentagem de estudantes não qualificados reprovados: 8/10 = 80%
Porcentagem total de estudantes Lilliputianos admitidos: (45+2)/100 = 47%

 

Tabela 4. Candidatos Brobdingnagian (10% são qualificados):

  Qualificado Não qualificado
Admitido 5 18
Recusado 5 72
Total 10 90
Porcentagem de estudantes qualificados admitidos: 5/10 = 50%
Porcentagem de estudantes não qualificados rejeitados: 72/90 = 80%
Porcentagem total de estudantes de Brobdingnag admitidos: (5+18)/100 = 23%

As chances iguais são satisfeitas porque os estudantes qualificados de Lilliput e Brobdingnag têm 50% de chance de serem admitidos, e os estudantes não qualificados de Lilliput e Brobdingnag têm 80% de chance de serem rejeitados.

As chances iguais são definidas formalmente em "Igualdade de oportunidades no aprendizado supervisionado" da seguinte maneira: "o preditor Ŷ satisfaz as chances iguais em relação ao atributo protegido A e ao resultado Y se Ŷ e A forem independentes, condicionados a Y".

evals

#language
#generativeAI
#Metric

É usado principalmente como uma abreviação para avaliações de LLM. De forma mais ampla, avaliações é uma abreviação para qualquer forma de avaliação.

Avaliação

#language
#generativeAI
#Metric

O processo de medir a qualidade de um modelo ou comparar modelos diferentes.

Para avaliar um modelo de aprendizado de máquina supervisionado, normalmente você o compara a um conjunto de validação e um conjunto de teste. A avaliação de um LLM normalmente envolve avaliações mais amplas de qualidade e segurança.

F

F1

#Metric

Uma métrica de classificação binária "resumida" que depende de precisão e recall. Esta é a fórmula:

F1=2 * precision * recallprecision + recall

Suponha que a precisão e o recall tenham os seguintes valores:

  • precision = 0.6
  • recall = 0,4

Você calcula F1 da seguinte maneira:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

Quando a precisão e o recall são bastante semelhantes (como no exemplo anterior), F1 fica próximo da média. Quando a precisão e o recall são significativamente diferentes, o F1 fica mais próximo do valor mais baixo. Exemplo:

  • precisão = 0,9
  • recall = 0,1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

métrica de imparcialidade

#fairness
#Metric

Uma definição matemática de "justiça" que pode ser medida. Confira algumas métricas de imparcialidade usadas com frequência:

Muitas métricas de imparcialidade são mutuamente exclusivas. Consulte Incompatibilidade das métricas de imparcialidade.

falso negativo (FN)

#fundamentals
#Metric

Um exemplo em que o modelo prevê erroneamente a classe negativa. Por exemplo, o modelo prevê que uma mensagem de e-mail específica não é spam (a classe negativa), mas essa mensagem de e-mail na verdade é spam.

taxa de falsos negativos

#Metric

A proporção de exemplos positivos reais para os quais o modelo previu incorretamente a classe negativa. A fórmula a seguir calcula a taxa negativa falsa:

false negative rate=false negativesfalse negatives+true positives

Consulte Limites e a matriz de confusão no Curso intensivo de machine learning para mais informações.

falso positivo (FP)

#fundamentals
#Metric

Um exemplo em que o modelo prevê erroneamente a classe positiva. Por exemplo, o modelo prevê que uma mensagem de e-mail específica é spam (a classe positiva), mas essa mensagem de e-mail na verdade não é spam.

Consulte Limites e a matriz de confusão no Curso intensivo de machine learning para mais informações.

taxa de falso positivo (FPR)

#fundamentals
#Metric

A proporção de exemplos negativos reais para os quais o modelo previu incorretamente a classe positiva. A fórmula a seguir calcula a taxa positiva falsa:

false positive rate=false positivesfalse positives+true negatives

A taxa de falsos positivos é o eixo x em uma curva ROC.

Consulte Classificação: ROC e AUC no Curso intensivo de machine learning para mais informações.

importância dos recursos

#df
#Metric

Sinônimo de importâncias de variáveis.

fração de sucessos

#generativeAI
#Metric

Uma métrica para avaliar o texto gerado de um modelo de ML. A fração de sucessos é o número de saídas de texto geradas dividido pelo número total de saídas de texto geradas. Por exemplo, se um modelo de linguagem grande gerar 10 blocos de código, sendo que cinco deles tiveram sucesso, a fração de sucessos será de 50%.

Embora a fração de sucessos seja amplamente útil em estatísticas, no ML, essa métrica é útil principalmente para medir tarefas verificáveis, como a geração de código ou problemas matemáticos.

G

impureza de Gini

#df
#Metric

Uma métrica semelhante à entropia. Os divisores usam valores derivados da impureza de Gini ou da entropia para compor condições para a classificação árvores de decisão. O ganho de informação é derivado da entropia. Não há um termo equivalente universalmente aceito para a métrica derivada da impureza de Gini. No entanto, essa métrica sem nome é tão importante quanto o ganho de informação.

A impureza de Gini também é chamada de índice de Gini ou simplesmente Gini.

A impureza de Gini é a probabilidade de classificar erroneamente um novo dado extraí do mesmo conjunto. A impureza de Gini de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) é calculada com base na seguinte fórmula:

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

em que:

  • I é a impureza de Gini.
  • p é a fração dos exemplos "1".
  • q é a fração dos exemplos "0". Observe que q = 1-p

Por exemplo, considere o seguinte conjunto de dados:

  • 100 rótulos (0,25 do conjunto de dados) contêm o valor "1"
  • 300 rótulos (0,75 do conjunto de dados) contêm o valor "0"

Portanto, a impureza de Gini é:

  • p = 0,25
  • q = 0,75
  • I = 1 - (0,252 + 0,752) = 0,375

Consequentemente, um rótulo aleatório do mesmo conjunto de dados teria 37,5% de chance de ser classificado incorretamente e 62,5% de chance de ser classificado corretamente.

Um rótulo perfeitamente equilibrado (por exemplo, 200 "0" e 200 "1") teria uma impureza de Gini de 0,5. Um rótulo desequilibrado teria uma impureza de Gini próxima de 0,0.


H

perda de articulação

#Metric

Uma família de funções de perda para classificação projetada para encontrar o limite de decisão o mais distante possível de cada exemplo de treinamento, maximizando a margem entre os exemplos e o limite. KSVMs usam a perda de articulação (ou uma função relacionada, como a perda de articulação ao quadrado). Para a classificação binária, a função de perda de articulação é definida da seguinte maneira:

loss=max(0,1(yy))

em que y é o rótulo verdadeiro, -1 ou +1, e y' é a saída bruta do modelo de classificador:

y=b+w1x1+w2x2+wnxn

Consequentemente, um gráfico de perda de articulação em relação a (y * y') é exibido da seguinte maneira:

Um gráfico cartesiano composto por dois segmentos de linha unidos. O primeiro
          segmento de linha começa em (-3, 4) e termina em (1, 0). O segundo segmento
          começa em (1, 0) e continua indefinidamente com uma inclinação
          de 0.

I

Incompatibilidade das métricas de imparcialidade

#fairness
#Metric

A ideia de que algumas noções de justiça são mutuamente incompatíveis e não podem ser atendidas simultaneamente. Como resultado, não há uma única métrica universal para quantificar a imparcialidade que possa ser aplicada a todos os problemas de ML.

Embora isso possa parecer desanimador, a incompatibilidade das métricas de imparcialidade não implica que os esforços de imparcialidade sejam infrutíferos. Em vez disso, ele sugere que a imparcialidade precisa ser definida contextualmente para um determinado problema de ML, com o objetivo de evitar danos específicos aos casos de uso.

Consulte "Sobre a (im)possibilidade de imparcialidade" para uma discussão mais detalhada sobre a incompatibilidade das métricas de imparcialidade.

imparcialidade individual

#fairness
#Metric

Uma métrica de justiça que verifica se indivíduos semelhantes são classificados de forma semelhante. Por exemplo, a Academia Brobdingnagian pode querer satisfazer a justiça individual, garantindo que dois estudantes com notas idênticas e pontuações de teste padronizadas tenham a mesma probabilidade de admissão.

A imparcialidade individual depende inteiramente de como você define "semelhança" (neste caso, notas e pontuações de teste). Você pode correr o risco de introduzir novos problemas de imparcialidade se a métrica de similaridade perder informações importantes, como o rigor do currículo de um estudante.

Consulte "Justiça por consciência" para uma discussão mais detalhada sobre a justiça individual.

ganho de informações

#df
#Metric

Nas florestas de decisão, a diferença entre a entropia de um nó e a soma ponderada (pelo número de exemplos) da entropia dos nós filhos. A entropia de um nó é a entropia dos exemplos nesse nó.

Por exemplo, considere os seguintes valores de entropia:

  • entropia do nó pai = 0,6
  • entropia de um nó filho com 16 exemplos relevantes = 0,2
  • entropia de outro nó filho com 24 exemplos relevantes = 0,1

Assim, 40% dos exemplos estão em um nó filho e 60% estão no outro nó filho. Assim:

  • Soma da entropia ponderada dos nós filhos = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Portanto, o ganho de informação é:

  • ganho de informação = entropia do nó pai - soma de entropia ponderada dos nós filhos
  • ganho de informação = 0,6 - 0,14 = 0,46

A maioria dos divisores procura criar condições que maximizem o ganho de informações.

concordância entre avaliadores

#Metric

Uma medida de frequência com que os avaliadores humanos concordam ao realizar uma tarefa. Se os avaliadores discordarem, talvez seja necessário melhorar as instruções da tarefa. Às vezes, também chamada de acordo entre anotadores ou confiabilidade entre avaliadores. Consulte também a kappa de Cohen, que é uma das medidas de concordância entre avaliadores mais conhecidas.

Consulte Dados categóricos: problemas comuns no Curso intensivo de machine learning para mais informações.

L

Perda L1

#fundamentals
#Metric

Uma função de perda que calcula o valor absoluto da diferença entre os valores reais de rótulo e os valores que um modelo prevê. Por exemplo, confira o cálculo da perda de L1 para um lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Valor absoluto de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perda L1

A perda L1 é menos sensível a outliers do que a perda L2.

O erro médio absoluto é a perda média de L1 por exemplo.

L1loss=ni=0|yiˆyi|

em que:
  • n é o número de exemplos.
  • y é o valor real do rótulo.
  • ˆy é o valor que o modelo prevê para y.

Consulte Regressão linear: perda no Curso intensivo de machine learning para mais informações.

Perda L2

#fundamentals
#Metric

Uma função de perda que calcula o quadrado da diferença entre os valores reais do rótulo e os valores que um modelo prevê. Por exemplo, confira o cálculo da perda de L2 para um lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Quadrado de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perda L2

Devido ao quadrado, a perda de L2 amplifica a influência de valores discrepantes. Ou seja, a perda L2 reage com mais força a previsões ruins do que a perda L1. Por exemplo, a perda de L1 para o lote anterior seria 8 em vez de 16. Observe que um único valor fora da curva representa 9 dos 16.

Os modelos de regressão geralmente usam a perda L2 como a função de perda.

O erro quadrático médio é a perda L2 média por exemplo. Perda ao quadrado é outro nome para a perda L2.

L2loss=ni=0(yiˆyi)2

em que:
  • n é o número de exemplos.
  • y é o valor real do rótulo.
  • ˆy é o valor que o modelo prevê para y.

Consulte Regressão logística: perda e regularização no Curso intensivo de machine learning para mais informações.

Avaliações de LLM (avaliações)

#language
#generativeAI
#Metric

Um conjunto de métricas e comparativos de mercado para avaliar o desempenho de modelos de linguagem grandes (LLMs). De modo geral, as avaliações de LLMs:

  • Ajude os pesquisadores a identificar áreas em que os LLMs precisam de melhorias.
  • São úteis para comparar diferentes LLMs e identificar o melhor LLM para uma tarefa específica.
  • Ajudar a garantir que os LLMs sejam seguros e éticos.

Consulte Modelos de linguagem grandes (LLMs) no Curso intensivo de machine learning para mais informações.

perda

#fundamentals
#Metric

Durante o treinamento de um modelo supervisionado, uma medida de quão distante a previsão de um modelo está do rótulo.

Uma função de perda calcula a perda.

Consulte Regressão linear: perda no Curso intensivo de machine learning para mais informações.

função de perda

#fundamentals
#Metric

Durante o treinamento ou teste, uma função matemática que calcula a perda em um lote de exemplos. Uma função de perda retorna uma perda menor para modelos que fazem boas previsões do que para modelos que fazem previsões ruins.

O objetivo do treinamento é normalmente minimizar a perda retornada por uma função de perda.

Existem muitos tipos diferentes de funções de perda. Escolha a função de perda adequada para o tipo de modelo que você está criando. Exemplo:

M

Erro médio absoluto (MAE)

#Metric

A perda média por exemplo quando a perda L1 é usada. Calcule o erro absoluto médio da seguinte maneira:

  1. Calcule a perda de L1 para um lote.
  2. Divida a perda de L1 pelo número de exemplos no lote.

Mean Absolute Error=1nni=0|yiˆyi|

em que:

  • n é o número de exemplos.
  • y é o valor real do rótulo.
  • ˆy é o valor que o modelo prevê para y.

Por exemplo, considere o cálculo da perda de L1 no seguinte lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Perda (diferença entre o real e o previsto)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perda L1

Portanto, a perda de L1 é 8 e o número de exemplos é 5. Portanto, o erro absoluto médio é:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Compare o erro médio absoluto com o erro quadrático médio e o raiz do erro quadrático médio.

Precisão média em k (mAP@k)

#language
#generativeAI
#Metric

A média estatística de todas as pontuações de precisão média em k em um conjunto de dados de validação. Um uso da precisão média em k é para julgar a qualidade das recomendações geradas por um sistema de recomendação.

Embora a frase "média da média" pareça redundante, o nome da métrica é apropriado. Afinal, essa métrica encontra a média de vários valores de precisão média em k.

Suponha que você crie um sistema de recomendação que gere uma lista personalizada de romances recomendados para cada usuário. Com base no feedback de usuários selecionados, você calcula as cinco precisões médias a seguir em k pontuações (uma pontuação por usuário):

  • 0,73
  • 0.77
  • 0.67
  • 0,82
  • 0,76

A precisão média em K é, portanto:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

Erro quadrático médio (EQM)

#Metric

A perda média por exemplo quando a perda L2 é usada. Calcule o erro quadrático médio da seguinte maneira:

  1. Calcule a perda de L2 para um lote.
  2. Divida a perda L2 pelo número de exemplos no lote.
Mean Squared Error=1nni=0(yiˆyi)2
em que:
  • n é o número de exemplos.
  • y é o valor real do rótulo.
  • ˆy é a previsão do modelo para y.

Por exemplo, considere a perda no seguinte lote de cinco exemplos:

Valor real Previsão do modelo Perda Perda quadrática
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = perda L2

Portanto, o erro quadrático médio é:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

O erro quadrático médio é um otimizador de treinamento conhecido, principalmente para regressão linear.

Compare o erro quadrático médio com o erro médio absoluto e o raiz do erro quadrático médio.

O TensorFlow Playground usa o erro quadrático médio para calcular os valores de perda.

Os valores discrepantes influenciam muito o erro quadrático médio. Por exemplo, uma perda de 1 é uma perda quadrada de 1, mas uma perda de 3 é uma perda quadrada de 9. Na tabela anterior, o exemplo com uma perda de 3 representa cerca de 56% do erro médio ao quadrado, enquanto cada um dos exemplos com uma perda de 1 representa apenas 6% do erro médio ao quadrado.

Os valores atípicos não influenciam o erro médio absoluto tão fortemente quanto o erro quadrático médio. Por exemplo, uma perda de três contas representa apenas cerca de 38% do erro absoluto médio.

O corte é uma maneira de evitar que valores extremos prejudiquem a capacidade preditiva do modelo.


métrica

#TensorFlow
#Metric

Uma estatística importante para você.

Um objetivo é uma métrica que um sistema de aprendizado de máquina tenta otimizar.

API Metrics (tf.metrics)

#Metric

Uma API do TensorFlow para avaliar modelos. Por exemplo, tf.metrics.accuracy determina com que frequência as previsões de um modelo correspondem aos rótulos.

perda minimax

#Metric

Uma função de perda para redes generativas adversariais, com base na entropia cruzada entre a distribuição de dados gerados e dados reais.

A perda minimax é usada no primeiro artigo para descrever redes generativas conflitivas.

Consulte Funções de perda no curso "Redes generativas de adversários" para mais informações.

capacidade do modelo

#Metric

A complexidade dos problemas que um modelo pode aprender. Quanto mais complexos os problemas que um modelo pode aprender, maior é a capacidade dele. A capacidade de um modelo normalmente aumenta com o número de parâmetros do modelo. Para uma definição formal da capacidade do classificador, consulte Dimensão de VC.

N

classe negativa

#fundamentals
#Metric

Na classificação binária, uma classe é chamada de positiva e a outra é negativa. A classe positiva é a coisa ou o evento que o modelo está testando, e a classe negativa é a outra possibilidade. Exemplo:

  • A classe negativa em um teste médico pode ser "não tumor".
  • A classe negativa em um classificador de e-mails pode ser "não spam".

Contraste com a classe positiva.

O

objetivo

#Metric

Uma métrica que o algoritmo está tentando otimizar.

função objetiva

#Metric

A fórmula matemática ou métrica que um modelo visa otimizar. Por exemplo, a função objetiva de regressão linear geralmente é perda quadrática média. Portanto, ao treinar um modelo de regressão linear, o objetivo é minimizar a perda média quadrática.

Em alguns casos, o objetivo é maximizar a função objetiva. Por exemplo, se a função objetiva for a precisão, o objetivo será maximizar a precisão.

Consulte também loss.

P

cartão em k (pass@k)

#Metric

Uma métrica para determinar a qualidade do código (por exemplo, Python) que um modelo de linguagem grande gera. Mais especificamente, a passagem em k informa a probabilidade de pelo menos um bloco de código gerado de k passar em todos os testes de unidade.

Os modelos de linguagem grandes costumam ter dificuldade para gerar um bom código para problemas de programação complexos. Os engenheiros de software se adaptam a esse problema solicitando que o modelo de linguagem grande gere várias (k) soluções para o mesmo problema. Em seguida, os engenheiros de software testam cada uma das soluções em relação aos testes de unidade. O cálculo do cartão em k depende do resultado dos testes de unidade:

  • Se uma ou mais dessas soluções passarem no teste de unidade, o LLM passa no desafio de geração de código.
  • Se nenhuma das soluções passar no teste de unidade, o LLM falha nesse desafio de geração de código.

A fórmula para a passagem em k é a seguinte:

pass at k=total number of passestotal number of challenges

Em geral, valores mais altos de k produzem uma maior aprovação nas pontuações de k. No entanto, valores mais altos de k exigem recursos de modelo de linguagem e teste de unidade maiores.

Suponha que um engenheiro de software peça a um modelo de linguagem grande para gerar k=10 soluções para n=50 problemas de programação desafiadores. Confira os resultados:

  • 30 cartões
  • 20 falhas

A pontuação de aprovação de 10 é a seguinte:

pass at 10=3050=0.6

desempenho

#Metric

Termo sobrecarregado com os seguintes significados:

  • O significado padrão na engenharia de software. Ou seja, com que rapidez (ou eficiência) esse software é executado?
  • O significado no aprendizado de máquina. Aqui, a performance responde à seguinte pergunta: quão correto é este modelo? Ou seja, como as previsões do modelo são boas?

importâncias das variáveis de permutação

#df
#Metric

Um tipo de importância da variável que avalia o aumento no erro de previsão de um modelo depois de trocar os valores do atributo. A importância da variável de permutação é uma métrica independente do modelo.

perplexidade

#Metric

Uma medida de como um modelo está realizando a tarefa. Por exemplo, suponha que sua tarefa seja ler as primeiras letras de uma palavra que um usuário está digitando no teclado de um smartphone e oferecer uma lista de possíveis palavras de conclusão. A perplexidade, P, para essa tarefa é aproximadamente o número de palpites que você precisa oferecer para que a lista contenha a palavra que o usuário está tentando digitar.

A perplexidade está relacionada à entropia cruzada da seguinte maneira:

P=2cross entropy

classe positiva

#fundamentals
#Metric

A classe que você está testando.

Por exemplo, a classe positiva em um modelo de câncer pode ser "tumor". A classe positiva em um classificador de e-mails pode ser "spam".

Contraste com a classe negativa.

O termo classe positiva pode ser confuso porque o resultado "positivo" de muitos testes geralmente é um resultado indesejado. Por exemplo, a classe positiva em muitos testes médicos corresponde a tumores ou doenças. Em geral, você quer que um médico diga: "Parabéns! Os resultados do seu teste foram negativos." De qualquer forma, a classe positiva é o evento que o teste está tentando encontrar.

Você está testando simultaneamente as classes positivas e negativas.


AUC PR (área sob a curva PR)

#Metric

Área sob a curva de precisão-recall interpolada, obtida ao representar (recall, precisão) pontos para diferentes valores do limite de classificação.

precision

#Metric

Uma métrica para modelos de classificação que responde à seguinte pergunta:

Quando o modelo previu a classe positiva, qual porcentagem das previsões estava correta?

Esta é a fórmula:

Precision=true positivestrue positives+false positives

em que:

  • verdadeiro positivo significa que o modelo previu corretamente a classe positiva.
  • significa que o modelo previu incorretamente a classe positiva.

Por exemplo, suponha que um modelo fez 200 previsões positivas. Dessas 200 previsões positivas:

  • 150 foram verdadeiros positivos.
  • 50 foram falsos positivos.

Nesse caso:

Precision=150150+50=0.75

Compare com acurácia e recall.

Consulte Classificação: precisão, recall, precisão e métricas relacionadas no Curso intensivo de machine learning para mais informações.

precisão em k (precision@k)

#language
#Metric

Uma métrica para avaliar uma lista de itens classificados (ordenados). A precisão em k identifica a fração dos primeiros k itens na lista que são "relevantes". Ou seja:

precision at k=relevant items in first k items of the listk

O valor de k precisa ser menor ou igual ao comprimento da lista retornada. O tamanho da lista retornada não faz parte do cálculo.

A relevância é muitas vezes subjetiva. Até mesmo avaliadores humanos experientes muitas vezes discordam sobre quais itens são relevantes.

Comparar com:

Suponha que um modelo de linguagem grande receba a seguinte consulta:

List the 6 funniest movies of all time in order.

E o modelo de linguagem grande retorna a lista mostrada nas duas primeiras colunas da tabela a seguir:

Posição Filme Relevante?
1 O general Sim
2 Mean Girls Sim
3 Platoon Não
4 Damas de honra Sim
5 Citizen Kane Não
6 This is Spinal Tap Sim

Dois dos três primeiros filmes são relevantes, então a precisão em 3 é:

precision at 3=23=0.67

Quatro dos cinco primeiros filmes são muito engraçados, então a precisão em 5 é:

precision at 5=45=0.8

curva de precisão/recall

#Metric

Uma curva de precisão em relação a recall em diferentes limites de classificação.

viés de previsão

#Metric

Um valor que indica a distância entre a média das previsões e a média dos rótulos no conjunto de dados.

Não confunda com o termo viés em modelos de aprendizado de máquina ou com viés em ética e imparcialidade.

paridade preditiva

#fairness
#Metric

Uma métrica de imparcialidade que verifica se, para um determinado classificador, as taxas de precisão são equivalentes para os subgrupos em questão.

Por exemplo, um modelo que prevê a aceitação na faculdade atenderia à paridade preditiva para nacionalidade se a taxa de precisão fosse a mesma para os liliputianos e os brobdingnagianos.

Às vezes, a paridade preditiva também é chamada de paridade de taxa preditiva.

Consulte "Definições de justiça explicadas" (seção 3.2.1) para uma discussão mais detalhada sobre a paridade preditiva.

paridade de taxa preditiva

#fairness
#Metric

Outro nome para paridade preditiva.

função da densidade de probabilidade

#Metric

Uma função que identifica a frequência de amostras de dados com exatamente um valor específico. Quando os valores de um conjunto de dados são números de ponto flutuante contínuos, as correspondências exatas raramente ocorrem. No entanto, integrar uma função de densidade de probabilidade do valor x ao valor y gera a frequência esperada de amostras de dados entre x e y.

Por exemplo, considere uma distribuição normal com uma média de 200 e um desvio padrão de 30. Para determinar a frequência esperada de amostras de dados no intervalo de 211,4 a 218,7, é possível integrar a função de densidade de probabilidade para uma distribuição normal de 211,4 a 218,7.

R

recall

#Metric

Uma métrica para modelos de classificação que responde à seguinte pergunta:

Quando a informação real era a classe positiva, qual porcentagem de previsões o modelo identificou corretamente como a classe positiva?

Esta é a fórmula:

Recall=true positivestrue positives+false negatives

em que:

  • verdadeiro positivo significa que o modelo previu corretamente a classe positiva.
  • significa que o modelo previu incorretamente a classe negativa.

Por exemplo, suponha que seu modelo fez 200 previsões em exemplos em que a informação empírica era a classe positiva. Dessas 200 previsões:

  • 180 foram verdadeiros positivos.
  • 20 foram falsos negativos.

Nesse caso:

Recall=180180+20=0.9

A recuperação é particularmente útil para determinar o poder preditivo de modelos de classificação em que a classe positiva é rara. Por exemplo, considere um conjunto de dados com classes desequilibradas em que a classe positiva de uma determinada doença ocorre em apenas 10 pacientes em um milhão. Suponha que seu modelo faça cinco milhões de previsões que geram os seguintes resultados:

  • 30 verdadeiros positivos
  • 20 falsos negativos
  • 4.999.000 verdadeiros negativos
  • 950 falsos positivos

O recall desse modelo é o seguinte:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
Em contraste, a precisão desse modelo é:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Esse alto valor de precisão parece impressionante, mas é essencialmente sem sentido. O recall é uma métrica muito mais útil para conjuntos de dados com classes desequilibradas do que a precisão.


Consulte Classificação: precisão, recall, precisão e métricas relacionadas para mais informações.

recall at k (recall@k)

#language
#Metric

Uma métrica para avaliar sistemas que geram uma lista classificada (ordenada) de itens. A recuperação em k identifica a fração de itens relevantes nos primeiros k itens dessa lista do número total de itens relevantes retornados.

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

Contraste com precisão em k.

Suponha que um modelo de linguagem grande receba a seguinte consulta:

List the 10 funniest movies of all time in order.

O modelo de linguagem grande retorna a lista mostrada nas duas primeiras colunas:

Posição Filme Relevante?
1 O general Sim
2 Mean Girls Sim
3 Platoon Não
4 Damas de honra Sim
5 This is Spinal Tap Sim
6 Avião! Sim
7 Dia da Marmota Sim
8 Monty Python em Busca do Cálice SagradoSim
9 Oppenheimer Não
10 As Patricinhas de Beverly Hills Sim

Oito dos filmes na lista anterior são muito engraçados, então eles são "itens relevantes na lista". Portanto, 8 será o denominador em todos os cálculos de recuperação em k. E o numerador? Três dos quatro primeiros itens são relevantes, então o recall no item 4 é:

recall at 4=38=0.375

Sete dos primeiros oito filmes são muito engraçados, então a lembrança no 8 é:

recall at 8=78=0.875

Curva ROC

#fundamentals
#Metric

Um gráfico de taxa de verdadeiro positivo em comparação com a taxa de falso positivo para diferentes limites de classificação na classificação binária.

A forma de uma curva ROC sugere a capacidade de um modelo de classificação binária de separar classes positivas de classes negativas. Suponha, por exemplo, que um modelo de classificação binária separe perfeitamente todas as classes negativas de todas as classes positivas:

Uma linha numérica com 8 exemplos positivos à direita e
          7 exemplos negativos à esquerda.

A curva ROC para o modelo anterior é assim:

Uma curva ROC. O eixo x é a taxa de falsos positivos, e o eixo y é a taxa de verdadeiros positivos. A curva tem um formato de L invertido. A curva
          começa em (0,0,0,0) e vai direto para (0,0,1,0). Em seguida, a curva
          vai de (0.0,1.0) para (1.0,1.0).

Em contraste, a ilustração a seguir mostra os valores da regressão logística bruta para um modelo ruim que não consegue separar classes negativas de classes positivas:

Uma linha numérica com exemplos positivos e classes negativas
          completamente misturadas.

A curva ROC desse modelo é a seguinte:

Uma curva ROC, que é uma linha reta de (0,0,0)
          a (1,1,1).

Enquanto isso, no mundo real, a maioria dos modelos de classificação binária separa as classes positivas e negativas até certo ponto, mas geralmente não de forma perfeita. Portanto, uma curva ROC típica fica entre os dois extremos:

Uma curva ROC. O eixo x é a taxa de falsos positivos, e o eixo y é a taxa de verdadeiros positivos. A curva ROC aproxima um arco instável
          que atravessa os pontos da bússola de oeste para norte.

O ponto em uma curva ROC mais próximo de (0,0,1,0) identifica teoricamente o limite de classificação ideal. No entanto, vários outros problemas reais influenciam a seleção do limite de classificação ideal. Por exemplo, talvez os falsos negativos causem muito mais dor do que os falsos positivos.

Uma métrica numérica chamada AUC resume a curva ROC em um único valor de ponto flutuante.

Raiz do erro quadrático médio (RMSE)

#fundamentals
#Metric

A raiz quadrada do erro quadrático médio.

Subestudo orientado para recordação para avaliação Gisting (ROUGE, na sigla em inglês)

#language
#Metric

Uma família de métricas que avalia modelos de resumo automático e tradução automática. As métricas ROUGE determinam o grau em que um texto de referência se sobrepõe ao texto gerado de um modelo de ML. Cada membro da família ROUGE mede a sobreposição de maneira diferente. Pontuações ROUGE mais altas indicam mais semelhança entre o texto de referência e o texto gerado do que pontuações ROUGE mais baixas.

Cada membro da família ROUGE geralmente gera as seguintes métricas:

  • Precisão
  • Recall
  • F1

Para detalhes e exemplos, consulte:

ROUGE-L

#language
#Metric

Um membro da família ROUGE focado no comprimento da maior subsequência comum no texto de referência e texto gerado. As fórmulas a seguir calculam o recall e a precisão do ROUGE-L:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

Em seguida, use F1 para agrupar a precisão e o recall do ROUGE-L em uma única métrica:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
Considere o texto de referência e o texto gerado a seguir.
Categoria Quem produziu? Texto
Texto de referência Tradutor humano Quero entender uma grande variedade de coisas.
Texto gerado Modelo de ML Quero aprender muitas coisas.
Portanto:
  • A subseqência comum mais longa é 5 (I want to of things).
  • O número de palavras no texto de referência é 9.
  • O número de palavras no texto gerado é 7.
Consequentemente:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

O ROUGE-L ignora todos os novos-linhas no texto de referência e no texto gerado. Assim, a maior subsequência comum pode cruzar várias frases. Quando o texto de referência e o texto gerado envolvem várias frases, uma variação de ROUGE-L chamada ROUGE-Lsum geralmente é uma métrica melhor. O ROUGE-Lsum determina a maior subsequência comum de cada frase em uma passagem e calcula a média dessas subsequências comuns mais longas.

Considere o texto de referência e o texto gerado a seguir.
Categoria Quem produziu? Texto
Texto de referência Tradutor humano A superfície de Marte é seca. Quase toda a água está no subsolo.
Texto gerado Modelo de ML Marte tem uma superfície seca. No entanto, a grande maioria da água está no subsolo.
Assim:
Primeira frase Segunda frase
Sequência comum mais longa2 (Mars dry) 3 (a água está no subsolo)
Tamanho das frases do texto de referência 6 7
Comprimento das frases do texto gerado 5 8
Consequentemente:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Metric

Um conjunto de métricas na família ROUGE que compara os n-gramas compartilhados de um determinado tamanho no texto de referência e no texto gerado. Exemplo:

  • ROUGE-1 mede o número de tokens compartilhados no texto de referência e no texto gerado.
  • O ROUGE-2 mede o número de bigramas (2-gramas) compartilhados no texto de referência e no texto gerado.
  • O ROUGE-3 mede o número de trigramas (3-gramas) compartilhados no texto de referência e no texto gerado.

Você pode usar as fórmulas abaixo para calcular a precisão e a recuperação do ROUGE-N para qualquer membro da família ROUGE-N:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

Em seguida, use F1 para agrupar a precisão ROUGE-N e a precisão ROUGE-N em uma única métrica:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
Suponha que você decida usar o ROUGE-2 para medir a eficácia da tradução de um modelo de ML em comparação com a de um tradutor humano.
Categoria Quem produziu? Texto Bigramas
Texto de referência Tradutor humano Quero entender uma grande variedade de coisas. Quero, quero, entender, entender uma, uma ampla, ampla variedade, variedade de, de coisas
Texto gerado Modelo de ML Quero aprender muitas coisas. Quero, quero, quero aprender, aprender muitas, muitas coisas
Portanto:
  • O número de bigramas correspondentes é 3 (I want, want to e of things).
  • O número de 2-gramas no texto de referência é 8.
  • O número de 2-gramas no texto gerado é 6.
Consequentemente:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Metric

Uma forma tolerante de ROUGE-N que permite a correspondência de skip-gram. Ou seja, o ROUGE-N só conta N-grams que correspondem exatamente, mas o ROUGE-S também conta N-grams separados por uma ou mais palavras. Por exemplo, considere o seguinte:

Ao calcular o ROUGE-N, o 2-gram White clouds não corresponde a White billowing clouds. No entanto, ao calcular o ROUGE-S, nuvens brancas correspondem a nuvens brancas infladas.

R ao quadrado

#Metric

Uma métrica de regressão que indica a variação em um rótulo devido a um recurso individual ou a um conjunto de recursos. O R2 é um valor entre 0 e 1, que pode ser interpretado da seguinte maneira:

  • Um R-quadrado de 0 significa que nenhuma variação de um rótulo é devido ao conjunto de recursos.
  • Um R-quadrado de 1 significa que toda a variação de um rótulo se deve ao conjunto de recursos.
  • Um R-quadrado entre 0 e 1 indica até que ponto a variação do rótulo pode ser prevista com base em um atributo específico ou no conjunto de atributos. Por exemplo, um R-quadrado de 0, 10 significa que 10% da variância no rótulo é devido ao conjunto de recursos. Um R-quadrado de 0, 20 significa que 20% é devido ao conjunto de recursos e assim por diante.

R-quadrado é o quadrado do coeficiente de correlação de Pearson entre os valores que um modelo previu e a informações empíricas.

S

em lote

#recsystems
#Metric

Parte de um sistema de recomendação que fornece um valor ou classificação para cada item produzido pela fase de geração de candidatos.

medida de similaridade

#clustering
#Metric

Em algoritmos de agrupamento, a métrica usada para determinar o quanto dois exemplos são semelhantes.

escassez

#Metric

O número de elementos definidos como zero (ou nulo) em um vetor ou matriz dividido pelo número total de entradas nesse vetor ou matriz. Por exemplo, considere uma matriz de 100 elementos em que 98 células contêm zero. O cálculo da esparsidade é o seguinte:

sparsity=98100=0.98

A esparsidade de atributos se refere à sparsidade de um vetor de atributos. A esparsidade do modelo se refere à sparsidade dos pesos do modelo.

perda de articulação quadrática

#Metric

O quadrado da perda de articulação. A perda de articulação quadrática penaliza valores discrepantes de forma mais severa do que a perda de articulação regular.

perda quadrática

#fundamentals
#Metric

Sinônimo de perda L2.

T

perda de teste

#fundamentals
#Metric

Uma métrica que representa a perda de um modelo em relação ao conjunto de teste. Ao criar um modelo, você normalmente tenta minimizar a perda de teste. Isso acontece porque uma perda de teste baixa é um indicador de qualidade mais forte do que uma perda de treinamento ou perda de validação baixa.

Uma grande diferença entre a perda de teste e a perda de treinamento ou de validação às vezes sugere que você precisa aumentar a taxa de regularização.

acurácia top-k

#language
#Metric

É a porcentagem de vezes que um "rótulo de destino" aparece nas primeiras k posições das listas geradas. As listas podem ser recomendações personalizadas ou uma lista de itens ordenados por softmax.

A precisão Top-k também é conhecida como precisão em k.

Considere um sistema de aprendizado de máquina que usa a softmax para identificar probabilidades de árvores com base em uma foto das folhas de uma árvore. A tabela a seguir mostra listas de saída geradas a partir de cinco imagens de árvores de entrada. Cada linha contém um rótulo de destino e as cinco árvores mais prováveis. Por exemplo, quando o rótulo de destino era maple, o modelo de aprendizado de máquina identificava elm como a árvore mais provável, oak como a segunda mais provável e assim por diante.

Rótulo de destino 1 2 3 4 5
bordo olmo carvalho maple faia álamo
corniso carvalho dogwood (link em inglês) álamo Hickory bordo
carvalho carvalho basswood gafanhoto amieiro Linden
Linden bordo mamão carvalho basswood álamo
carvalho gafanhoto Linden carvalho bordo mamão

O rótulo de destino aparece na primeira posição apenas uma vez. Portanto, a precisão top-1 é:

top-1 accuracy=15=0.2

O rótulo de destino aparece quatro vezes em uma das três primeiras posições. Portanto, a precisão dos três primeiros é:

top-1 accuracy=45=0.8

conteúdo tóxico

#language
#Metric

O grau em que o conteúdo é abusivo, ameaçador ou ofensivo. Muitos modelos de machine learning podem identificar e medir a toxicidade. A maioria desses modelos identifica a toxicidade em vários parâmetros, como o nível de linguagem abusiva e o nível de linguagem ameaçadora.

perda do treinamento

#fundamentals
#Metric

Uma métrica que representa a perda de um modelo durante uma iteração de treinamento específica. Por exemplo, suponha que a função de perda seja erro quadrático médio. Talvez a perda de treinamento (o erro quadrado médio) da 10ª iteração seja 2,2, e a perda de treinamento da 100ª iteração seja 1,9.

Uma curva de perda mostra a perda de treinamento em relação ao número de iterações. Uma curva de perda fornece as seguintes dicas sobre o treinamento:

  • Uma inclinação para baixo implica que o modelo está melhorando.
  • Uma inclinação para cima implica que o modelo está piorando.
  • Uma inclinação plana implica que o modelo alcançou a convergência.

Por exemplo, a curva de perda a seguir mostra:

  • Uma inclinação acentuada para baixo durante as iterações iniciais, o que implica uma melhoria rápida do modelo.
  • Uma inclinação gradualmente plana (mas ainda para baixo) até o fim do treinamento, o que implica a melhoria contínua do modelo em um ritmo mais lento do que durante as iterações iniciais.
  • Uma inclinação plana no final do treinamento, o que sugere convergência.

O gráfico de perda de treinamento em relação às iterações. Essa curva de perda começa
     com uma inclinação acentuada para baixo. A inclinação diminui gradualmente até que
     se torne zero.

Embora a perda de treinamento seja importante, consulte também a generalização.

verdadeiro negativo (VN)

#fundamentals
#Metric

Um exemplo em que o modelo prevê corretamente a classe negativa. Por exemplo, o modelo infere que uma mensagem de e-mail específica não é spam e que ela realmente não é spam.

verdadeiro positivo (VP)

#fundamentals
#Metric

Um exemplo em que o modelo prevê corretamente a classe positiva. Por exemplo, o modelo infere que uma mensagem de e-mail específica é spam e que ela realmente é spam.

taxa de verdadeiro positivo (TPR)

#fundamentals
#Metric

Sinônimo de recall. Ou seja:

true positive rate=true positivestrue positives+false negatives

A taxa de verdadeiro positivo é o eixo y em uma curva ROC.

V

perda de validação

#fundamentals
#Metric

Uma métrica que representa a perda de um modelo no conjunto de validação durante uma iteração específica do treinamento.

Consulte também curva de generalização.

importância das variáveis

#df
#Metric

Um conjunto de pontuações que indica a importância relativa de cada recurso para o modelo.

Por exemplo, considere uma árvore de decisão que estima os preços das casas. Suponha que essa árvore de decisão use três características: tamanho, idade e estilo. Se um conjunto de importâncias de variáveis para os três atributos for calculado como {size=5.8, age=2.5, style=4.7}, o tamanho será mais importante para a árvore de decisão do que a idade ou o estilo.

Existem diferentes métricas de importância de variáveis, que podem informar especialistas em aprendizado de máquina sobre diferentes aspectos dos modelos.

W

Perda de Wasserstein

#Metric

Uma das funções de perda comumente usadas em redes generativas adversariais, com base na distância de movimentação da Terra entre a distribuição de dados gerados e dados reais.