Esta página foi traduzida pela API Cloud Translation.

Glossário de machine learning: métricas

Esta página contém termos do glossário de métricas. Para conferir todos os termos do glossário, clique aqui.

A

precisão

#fundamentals

#Metric

O número de previsões de classificação corretas dividido pelo número total de previsões. Ou seja:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por exemplo, um modelo que fez 40 previsões corretas e 10 incorretas teria uma acurácia de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

A classificação binária fornece nomes específicos para as diferentes categorias de previsões corretas e incorretas. Assim, a fórmula de acurácia para classificação binária é a seguinte:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

em que:

TP é o número de verdadeiros positivos (previsões corretas).
TN é o número de verdadeiros negativos (previsões corretas).
FP é o número de falsos positivos (previsões incorretas).
FN é o número de falsos negativos (previsões incorretas).

Compare e contraste a acurácia com a precisão e o recall.

Clique no ícone para saber mais sobre acurácia e conjuntos de dados desequilibrados.

Embora seja uma métrica valiosa em algumas situações, a acurácia é altamente enganosa em outras. A acurácia geralmente é uma métrica ruim para avaliar modelos de classificação que processam conjuntos de dados com classes desbalanceadas.

Por exemplo, suponha que neva apenas 25 dias por século em uma determinada cidade subtropical. Como os dias sem neve (a classe negativa) superam em muito os dias com neve (a classe positiva), o conjunto de dados de neve para essa cidade é desequilibrado. Imagine um modelo de classificação binária que deveria prever se vai nevar ou não a cada dia, mas simplesmente prevê "não vai nevar" todos os dias. Esse modelo é altamente preciso, mas não tem poder preditivo. A tabela a seguir resume os resultados de um século de previsões:

Categoria	Número
VP	0
TN	36499
FP	0
FN	25

Portanto, a acurácia desse modelo é:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Embora 99,93% de acurácia pareça uma porcentagem muito impressionante, o modelo não tem capacidade preditiva.

Precisão e recall geralmente são métricas mais úteis do que acurácia para avaliar modelos treinados em conjuntos de dados com desequilíbrio de classes.

Consulte Classificação: acurácia, recall, precisão e métricas relacionadas no Curso intensivo de machine learning para mais informações.

área sob a curva PR

#Metric

Consulte AUC PR (área sob a curva PR).

área sob a curva ROC

#Metric

Consulte AUC (área sob a curva ROC).

AUC (área sob a curva ROC)

#fundamentals

#Metric

Um número entre 0,0 e 1,0 que representa a capacidade de um modelo de classificação binária separar classes positivas de classes negativas. Quanto mais perto de 1,0 a AUC estiver, melhor será a capacidade do modelo de distinguir as classes.

Por exemplo, a ilustração a seguir mostra um modelo de classificação que separa perfeitamente as classes positivas (ovais verdes) das negativas (retângulos roxos). Esse modelo irrealisticamente perfeito tem uma AUC de 1,0:

Uma reta numérica com oito exemplos positivos de um lado e nove exemplos negativos do outro.

Por outro lado, a ilustração a seguir mostra os resultados de um modelo de classificação que gerou resultados aleatórios. Esse modelo tem uma AUC de 0,5:

Uma reta numérica com seis exemplos positivos e seis negativos.
A sequência de exemplos é positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa.

Sim, o modelo anterior tem uma AUC de 0,5, não de 0,0.

A maioria dos modelos está entre os dois extremos. Por exemplo, o modelo a seguir separa um pouco os positivos dos negativos e, portanto, tem uma AUC entre 0,5 e 1,0:

Uma reta numérica com seis exemplos positivos e seis negativos.
A sequência de exemplos é negativa, negativa, negativa, negativa, positiva, negativa, positiva, positiva, negativa, positiva, positiva, positiva.

A AUC ignora qualquer valor definido para o limite de classificação. Em vez disso, a AUC considera todos os limiares de classificação possíveis.

Clique no ícone para saber mais sobre a relação entre AUC e curvas ROC.

A AUC representa a área sob uma curva ROC. Por exemplo, a curva ROC de um modelo que separa perfeitamente positivos de negativos tem esta aparência:

A AUC é a área da região cinza na ilustração anterior. Nesse caso incomum, a área é simplesmente o comprimento da região cinza (1,0) multiplicado pela largura da região cinza (1,0). Portanto, o produto de 1,0 e 1,0 gera uma AUC de exatamente 1,0, que é a pontuação mais alta possível.

Por outro lado, a curva ROC de um modelo de classificação que não consegue separar classes é assim: A área dessa região cinza é 0,5.

Uma curva ROC mais típica tem aproximadamente esta aparência:

Calcular a área abaixo dessa curva manualmente seria trabalhoso. Por isso, um programa geralmente calcula a maioria dos valores de AUC.

Clique no ícone para uma definição mais formal de AUC.

A AUC é a probabilidade de um modelo de classificação ter mais certeza de que um exemplo positivo escolhido aleatoriamente é, de fato, positivo do que um exemplo negativo escolhido aleatoriamente ser positivo.

Consulte Classificação: ROC e AUC no Curso intensivo de machine learning para mais informações.

Precisão média em k

#Metric

Uma métrica para resumir a performance de um modelo em um único comando que gera resultados classificados, como uma lista numerada de recomendações de livros. A precisão média em k é, bem, a média dos valores de precisão em k para cada resultado relevante. Portanto, a fórmula para a precisão média em k é:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

em que:

$n$ é o número de itens relevantes na lista.

Contraste com o recall em k.

Clique no ícone para ver um exemplo

Suponha que um modelo de linguagem grande receba a seguinte consulta:

List the 6 funniest movies of all time in order.

E o modelo de linguagem grande retorna a seguinte lista:

O General
Meninas Malvadas
Platoon
Madrinhas
Citizen Kane
This is Spinal Tap

Quatro dos filmes na lista retornada são muito engraçados (ou seja, são relevantes), mas dois são dramas (não relevantes). A tabela a seguir detalha os resultados:

Posição	Filme	Relevante?	Precisão em k
1	O General	Sim	1.0
2	Meninas Malvadas	Sim	1.0
3	Platoon	Não	não relevante
4	Madrinhas	Sim	0,75
5	Citizen Kane	Não	não relevante
6	This is Spinal Tap	Sim	0.67

O número de resultados relevantes é 4. Portanto, é possível calcular a precisão média em 6 da seguinte maneira:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

B

baseline

#Metric

Um modelo usado como ponto de referência para comparar o desempenho de outro modelo (normalmente, um mais complexo). Por exemplo, um modelo de regressão logística pode servir como um bom valor de referência para um modelo profundo.

Para um problema específico, o valor de referência ajuda os desenvolvedores de modelos a quantificar o desempenho mínimo esperado que um novo modelo precisa alcançar para ser útil.

Perguntas booleanas (BoolQ)

#Metric

Um conjunto de dados para avaliar a capacidade de um LLM de responder a perguntas de sim ou não. Cada um dos desafios no conjunto de dados tem três componentes:

Uma consulta
Uma passagem que implica a resposta à consulta.
A resposta correta, que é sim ou não.

Exemplo:

Consulta: há usinas nucleares em Michigan?
Trecho: ...três usinas nucleares fornecem a Michigan cerca de 30% da eletricidade.
Resposta correta: sim

Os pesquisadores coletaram as perguntas de consultas anônimas e agregadas da Pesquisa Google e usaram páginas da Wikipédia para fundamentar as informações.

Para mais informações, consulte BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions.

O BoolQ é um componente do conjunto SuperGLUE.

BoolQ

#Metric

Abreviação de Perguntas booleanas.

C

CB

#Metric

Abreviação de CommitmentBank.

Pontuação F de n-gramas de caracteres (ChrF)

#Metric

Uma métrica para avaliar modelos de tradução automática. A pontuação F de n-gramas de caracteres determina o grau em que os n-gramas no texto de referência se sobrepõem aos n-gramas no texto gerado de um modelo de ML.

A pontuação F de n-gramas de caracteres é semelhante às métricas das famílias ROUGE e BLEU, exceto que:

A pontuação F de n-gramas de caracteres opera em n-gramas de caracteres.
ROUGE e BLEU operam em N-gramas de palavras ou tokens.

Escolha de alternativas plausíveis (COPA, na sigla em inglês)

#Metric

Um conjunto de dados para avaliar a capacidade de um LLM de identificar a melhor entre duas respostas alternativas para uma premissa. Cada um dos desafios no conjunto de dados consiste em três componentes:

Uma premissa, que normalmente é uma declaração seguida de uma pergunta
Duas respostas possíveis para a pergunta feita na premissa, uma correta e outra incorreta
A resposta correta

Exemplo:

Premissa:o homem quebrou o dedo do pé. Qual foi a CAUSA disso?
Possíveis respostas:
1. Ele fez um buraco na meia.
2. Ele deixou cair um martelo no pé.
Resposta correta:2

O COPA é um componente do conjunto SuperGLUE.

CommitmentBank (CB)

#Metric

Um conjunto de dados para avaliar a proficiência de um LLM em determinar se o autor de uma passagem acredita em uma cláusula de destino dentro dessa passagem. Cada entrada no conjunto de dados contém:

Um trecho
Uma cláusula de destino dentro dessa passagem
Um valor booleano que indica se o autor da passagem acredita que a cláusula de destino

Exemplo:

Trecho:Que divertido ouvir Artemis rir. Ela é uma criança muito séria. Não sabia que ela tinha senso de humor.
Cláusula de destino:ela tinha senso de humor
Booleano: "True", o que significa que o autor acredita que a cláusula de destino

O CommitmentBank é um componente do conjunto SuperGLUE.

COPA

#Metric

Abreviação de Escolha de alternativas plausíveis.

custo

#Metric

Sinônimo de perda.

Imparcialidade contrafactual

#responsible

#Metric

Uma métrica de justiça que verifica se um modelo de classificação produz o mesmo resultado para um indivíduo e para outro idêntico ao primeiro, exceto em relação a um ou mais atributos sensíveis. A avaliação de um modelo de classificação para imparcialidade contrafactual é um método para identificar possíveis fontes de viés em um modelo.

Para mais informações, consulte:

Imparcialidade: imparcialidade contrafactual no curso intensivo de machine learning.
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness (em inglês)

entropia cruzada

#Metric

Uma generalização da Log Perda para problemas de classificação multiclasse. A entropia cruzada quantifica a diferença entre duas distribuições de probabilidade. Consulte também perplexidade.

função de distribuição cumulativa (CDF, na sigla em inglês)

#Metric

Uma função que define a frequência de amostras menores ou iguais a um valor de destino. Por exemplo, considere uma distribuição normal de valores contínuos. Uma CDF informa que aproximadamente 50% das amostras devem ser menores ou iguais à média e que aproximadamente 84% das amostras devem ser menores ou iguais a um desvio padrão acima da média.

D

paridade demográfica

#responsible

#Metric

Uma métrica de imparcialidade que é satisfeita se os resultados da classificação de um modelo não dependem de um determinado atributo sensível.

Por exemplo, se os liliputianos e os brobdingnagianos se inscreverem na Universidade de Glubbdubdrib, a paridade demográfica será alcançada se a porcentagem de liliputianos admitidos for a mesma que a de brobdingnagianos, independente de um grupo ser, em média, mais qualificado que o outro.

Contraste com odds equalizadas e igualdade de oportunidades, que permitem que os resultados da classificação dependam de atributos sensíveis no agregado, mas não permitem que os resultados da classificação para determinados rótulos de informações empíricas especificados dependam de atributos sensíveis. Consulte "Como combater a discriminação com um aprendizado de máquina mais inteligente" para ver uma visualização que explora as compensações ao otimizar para a paridade demográfica.

Consulte Imparcialidade: paridade demográfica no Curso intensivo de machine learning para mais informações.

E

Distância de movimentação de terra (EMD, na sigla em inglês)

#Metric

Uma medida da similaridade relativa de duas distribuições. Quanto menor a distância do trabalho do operador de terra, mais semelhantes são as distribuições.

distância de edição

#Metric

Uma medição de como duas strings de texto são semelhantes entre si. No aprendizado de máquina, a distância de edição é útil pelos seguintes motivos:

A distância de edição é fácil de calcular.
A distância de edição pode comparar duas strings que são semelhantes entre si.
A distância de edição pode determinar o grau de semelhança entre diferentes strings e uma string específica.

Existem várias definições de distância de edição, cada uma usando diferentes operações de string. Consulte Distância de Levenshtein para conferir um exemplo.

função de distribuição cumulativa empírica (eCDF ou EDF)

#Metric

Uma função de distribuição cumulativa baseada em medições empíricas de um conjunto de dados real. O valor da função em qualquer ponto ao longo do eixo x é a fração de observações no conjunto de dados que são menores ou iguais ao valor especificado.

entropia

#df

#Metric

Na teoria da informação, uma descrição de como uma distribuição de probabilidade é imprevisível. Outra definição de entropia é a quantidade de informações que cada exemplo contém. Uma distribuição tem a maior entropia possível quando todos os valores de uma variável aleatória têm a mesma probabilidade.

A entropia de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) tem a seguinte fórmula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

em que:

H é a entropia.
p é a fração de exemplos "1".
q é a fração de exemplos "0". q = (1 - p)
log geralmente é log₂. Nesse caso, a unidade de entropia é um bit.

Por exemplo, suponha que:

100 exemplos contêm o valor "1"
300 exemplos contêm o valor "0"

Portanto, o valor de entropia é:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bits por exemplo

Um conjunto perfeitamente equilibrado (por exemplo, 200 "0"s e 200 "1"s) teria uma entropia de 1,0 bit por exemplo. À medida que um conjunto se torna mais desequilibrado, a entropia se aproxima de 0,0.

Nas árvores de decisão, a entropia ajuda a formular o ganho de informações para que o divisor selecione as condições durante o crescimento de uma árvore de decisão de classificação.

Compare a entropia com:

impureza de Gini
Função de perda de entropia cruzada

A entropia é geralmente chamada de entropia de Shannon.

Consulte Divisor exato para classificação binária com recursos numéricos no curso "Florestas de decisão" para mais informações.

igualdade de oportunidades

#responsible

#Metric

Uma métrica de imparcialidade para avaliar se um modelo está prevendo o resultado desejado de forma igualmente boa para todos os valores de um atributo sensível. Em outras palavras, se o resultado desejado para um modelo for a classe positiva, o objetivo será ter a taxa de verdadeiro positivo igual para todos os grupos.

A igualdade de oportunidade está relacionada às chances equalizadas, que exigem que ambas as taxas de verdadeiro positivo e falso positivo sejam iguais para todos os grupos.

Suponha que a Universidade Glubbdubdrib admita liliputianos e brobdingnagianos em um programa rigoroso de matemática. As escolas de ensino médio de Lilliput oferecem um currículo robusto de aulas de matemática, e a grande maioria dos estudantes se qualifica para o programa universitário. As escolas de ensino médio de Brobdingnag não oferecem aulas de matemática, e, como resultado, muito menos estudantes se qualificam. A igualdade de oportunidades é satisfeita para o rótulo preferido "admitido" em relação à nacionalidade (Lilliputiana ou Brobdingnagiana) se os estudantes qualificados tiverem a mesma probabilidade de serem admitidos, independentemente de serem Lilliputianos ou Brobdingnagianos.

Por exemplo, suponha que 100 liliputianos e 100 brobdingnagianos se inscrevam na Universidade de Glubbdubdrib, e as decisões de admissão sejam tomadas da seguinte forma:

Tabela 1. Candidatos liliputianos (90% são qualificados)

	Qualificado	Não qualificado
Admitted	45	3
Recusado	45	7
Total	90	10
Porcentagem de estudantes qualificados admitidos: 45/90 = 50% Porcentagem de estudantes não qualificados rejeitados: 7/10 = 70% Porcentagem total de estudantes de Lilliput admitidos: (45+3)/100 = 48%

Tabela 2. Candidatos de Brobdingnag (10% são qualificados):

	Qualificado	Não qualificado
Admitted	5	9
Recusado	5	81
Total	10	90
Porcentagem de estudantes qualificados admitidos: 5/10 = 50% Porcentagem de estudantes não qualificados rejeitados: 81/90 = 90% Porcentagem total de estudantes de Brobdingnag admitidos: (5+9)/100 = 14%

Os exemplos anteriores atendem à igualdade de oportunidades para a aceitação de estudantes qualificados, porque os liliputianos e os brobdingnagianos qualificados têm 50% de chance de serem aceitos.

Embora a igualdade de oportunidade seja atendida, as duas métricas de imparcialidade a seguir não são:

Paridade demográfica: os lilliputianos e os brobdingnagianos são admitidos na universidade em taxas diferentes. 48% dos estudantes lilliputianos são admitidos, mas apenas 14% dos estudantes brobdingnagianos são aceitos.
Probabilidades igualadas: embora os estudantes qualificados de Lilliput e Brobdingnag tenham a mesma chance de serem aceitos, a restrição adicional de que os estudantes não qualificados de Lilliput e Brobdingnag tenham a mesma chance de serem rejeitados não é atendida. Os lilliputianos não qualificados têm uma taxa de rejeição de 70%, enquanto os brobdingnagianos não qualificados têm uma taxa de rejeição de 90%.

Consulte Imparcialidade: igualdade de oportunidades no Curso intensivo de machine learning para mais informações.

probabilidades igualadas

#responsible

#Metric

Uma métrica de justiça para avaliar se um modelo está prevendo resultados igualmente bem para todos os valores de um atributo sensível em relação à classe positiva e à classe negativa, e não apenas uma classe ou outra exclusivamente. Em outras palavras, tanto a taxa de verdadeiro positivo quanto a taxa de falso negativo precisam ser iguais para todos os grupos.

A igualdade de chances está relacionada à igualdade de oportunidades, que se concentra apenas nas taxas de erro de uma única classe (positiva ou negativa).

Por exemplo, suponha que a Universidade Glubbdubdrib admita liliputianos e brobdingnagianos em um programa rigoroso de matemática. As escolas de ensino médio de Lilliput oferecem um currículo robusto de aulas de matemática, e a grande maioria dos estudantes se qualifica para o programa universitário. As escolas secundárias de Brobdingnag não oferecem aulas de matemática, e, como resultado, muito menos estudantes se qualificam. A igualdade de chances é satisfeita desde que, não importa se um candidato é um liliputiano ou um brobdingnagiano, se ele for qualificado, terá a mesma probabilidade de ser aceito no programa, e se não for qualificado, terá a mesma probabilidade de ser rejeitado.

Suponha que 100 liliputianos e 100 brobdingnagianos se inscrevam na Universidade de Glubbdubdrib, e as decisões de admissão sejam tomadas da seguinte forma:

Tabela 3. Candidatos liliputianos (90% são qualificados)

	Qualificado	Não qualificado
Admitted	45	2
Recusado	45	8
Total	90	10
Porcentagem de estudantes qualificados admitidos: 45/90 = 50% Porcentagem de estudantes não qualificados rejeitados: 8/10 = 80% Porcentagem total de estudantes de Lilliput admitidos: (45+2)/100 = 47%

Tabela 4. Candidatos de Brobdingnag (10% são qualificados):

	Qualificado	Não qualificado
Admitted	5	18
Recusado	5	72
Total	10	90
Porcentagem de estudantes qualificados admitidos: 5/10 = 50% Porcentagem de estudantes não qualificados rejeitados: 72/90 = 80% Porcentagem total de estudantes de Brobdingnag admitidos: (5+18)/100 = 23%

A probabilidade igualada é satisfeita porque os estudantes qualificados de Lilliput e Brobdingnag têm uma chance de 50% de serem aceitos, e os estudantes não qualificados de Lilliput e Brobdingnag têm uma chance de 80% de serem rejeitados.

A probabilidade igualada é formalmente definida em "Equality of Opportunity in Supervised Learning" (em inglês) da seguinte forma: "O preditor Ŷ satisfaz a probabilidade igualada em relação ao atributo protegido A e ao resultado Y se Ŷ e A forem independentes, condicionalmente a Y".

avaliações

#generativeAI

#Metric

Usado principalmente como abreviação de avaliações de LLM. De modo geral, avaliações é uma abreviação de qualquer forma de avaliação.

Avaliação

#generativeAI

#Metric

O processo de medir a qualidade de um modelo ou comparar diferentes modelos.

Para avaliar um modelo de machine learning supervisionado, normalmente você o compara a um conjunto de validação e a um conjunto de teste. Avaliar um LLM normalmente envolve avaliações mais amplas de qualidade e segurança.

correspondência exata

#Metric

Uma métrica tudo ou nada em que a saída do modelo corresponde exatamente às informações empíricas ou ao texto de referência, ou não corresponde. Por exemplo, se as informações empíricas forem laranja, a única saída do modelo que atende à correspondência exata é laranja.

A correspondência exata também pode avaliar modelos cuja saída é uma sequência (uma lista classificada de itens). Em geral, a correspondência exata exige que a lista classificada gerada corresponda exatamente às informações empíricas. Ou seja, cada item nas duas listas precisa estar na mesma ordem. No entanto, se as informações empíricas consistirem em várias sequências corretas, a correspondência exata só vai exigir que a saída do modelo corresponda a uma das sequências corretas.

Resumo extremo (xsum)

#Metric

Um conjunto de dados para avaliar a capacidade de um LLM de resumir um único documento. Cada entrada no conjunto de dados consiste em:

Um documento criado pela British Broadcasting Corporation (BBC).
Um resumo de uma frase desse documento.

Para mais detalhes, consulte Não me dê os detalhes, apenas o resumo! Redes neurais convolucionais com reconhecimento de tema para sumarização extrema.

F

F₁

#Metric

Uma métrica de classificação binária "consolidada" que depende da precisão e do recall. Esta é a fórmula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Clique no ícone para ver exemplos.

Suponha que a precisão e o recall tenham os seguintes valores:

precision = 0.6
recall = 0.4

Você calcula F₁ da seguinte forma:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Quando a precisão e o recall são bastante semelhantes (como no exemplo anterior), F₁ fica próximo da média deles. Quando a precisão e o recall diferem significativamente, F₁ fica mais próximo do valor mais baixo. Exemplo:

precision = 0.9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

métrica de imparcialidade

#responsible

#Metric

Uma definição matemática de "justiça" que pode ser medida. Algumas métricas de imparcialidade usadas com frequência incluem:

probabilidades igualadas
Paridade preditiva
Justiça contrafactual
paridade demográfica

Muitas métricas de imparcialidade são mutuamente exclusivas. Consulte incompatibilidade das métricas de imparcialidade.

falso negativo (FN)

#fundamentals

#Metric

Um exemplo em que o modelo prevê incorretamente a classe negativa. Por exemplo, o modelo prevê que uma determinada mensagem de e-mail não é spam (a classe negativa), mas na verdade é spam.

taxa de falso negativo

#Metric

A proporção de exemplos positivos reais para os quais o modelo previu incorretamente a classe negativa. A fórmula a seguir calcula a taxa de falsos negativos:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Consulte Limiares e a matriz de confusão no Curso intensivo de machine learning para mais informações.

falso positivo (FP)

#fundamentals

#Metric

Um exemplo em que o modelo prevê incorretamente a classe positiva. Por exemplo, o modelo prevê que uma determinada mensagem de e-mail é spam (a classe positiva), mas que essa mensagem não é spam.

Consulte Limiares e a matriz de confusão no Curso intensivo de machine learning para mais informações.

taxa de falso positivo (FPR)

#fundamentals

#Metric

A proporção de exemplos negativos reais para os quais o modelo previu incorretamente a classe positiva. A fórmula a seguir calcula a taxa de falsos positivos:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

A taxa de falso positivo é o eixo x em uma curva ROC.

Consulte Classificação: ROC e AUC no Curso intensivo de machine learning para mais informações.

importâncias de atributos

#df

#Metric

Sinônimo de importâncias de variáveis.

modelo de fundação

#generativeAI

#Metric

Um modelo pré-treinado muito grande treinado em um conjunto de treinamento enorme e diversificado. Um modelo de fundação pode fazer o seguinte:

Responder bem a uma ampla variedade de solicitações.
Servir como um modelo de base para outros ajustes refinados ou personalizações.

Em outras palavras, um modelo de fundação já é muito capaz em um sentido geral, mas pode ser ainda mais personalizado para se tornar ainda mais útil para uma tarefa específica.

fração de sucessos

#generativeAI

#Metric

Uma métrica para avaliar o texto gerado de um modelo de ML. A fração de sucessos é o número de saídas de texto geradas "bem-sucedidas" dividido pelo número total de saídas de texto geradas. Por exemplo, se um modelo de linguagem grande gerar 10 blocos de código, cinco deles forem bem-sucedidos, a fração de sucessos será de 50%.

Embora a fração de sucessos seja útil em estatísticas, no aprendizado de máquina, essa métrica é usada principalmente para medir tarefas verificáveis, como geração de código ou problemas de matemática.

G

impureza de Gini

#df

#Metric

Uma métrica semelhante à entropia. Divisores usam valores derivados da impureza de Gini ou da entropia para compor condições para classificação árvores de decisão. O ganho de informação é derivado da entropia. Não existe um termo equivalente universalmente aceito para a métrica derivada da impureza de Gini. No entanto, essa métrica sem nome é tão importante quanto o ganho de informação.

A impureza de Gini também é chamada de índice de Gini ou simplesmente Gini.

Clique no ícone para ver detalhes matemáticos sobre a impureza de Gini.

A impureza de Gini é a probabilidade de classificar incorretamente um novo dado extraído da mesma distribuição. A impureza de Gini de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) é calculada com base na seguinte fórmula:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

em que:

I é a impureza de Gini.
p é a fração de exemplos "1".
q é a fração de exemplos "0". Observe que q = 1-p

Por exemplo, considere o seguinte conjunto de dados:

100 rótulos (0,25 do conjunto de dados) contêm o valor "1"
300 rótulos (0,75 do conjunto de dados) contêm o valor "0"

Portanto, a impureza de Gini é:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Consequentemente, um rótulo aleatório do mesmo conjunto de dados teria uma chance de 37,5% de ser classificado incorretamente e uma chance de 62,5% de ser classificado corretamente.

Um rótulo perfeitamente equilibrado (por exemplo, 200 "0"s e 200 "1"s) teria uma impureza de Gini de 0,5. Um rótulo altamente desequilibrado teria uma impureza de Gini próxima de 0,0.

H

perda de articulação

#Metric

Uma família de funções de perda para classificação projetada para encontrar a fronteira de decisão o mais distante possível de cada exemplo de treinamento, maximizando assim a margem entre os exemplos e a fronteira. KSVMs usam perda de articulação (ou uma função relacionada, como perda de articulação quadrática). Para classificação binária, a função de perda de articulação é definida da seguinte forma:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

em que y é o rótulo verdadeiro, -1 ou +1, e y' é a saída bruta do modelo de classificação:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Consequentemente, um gráfico da perda de articulação versus (y * y') tem esta aparência:

Um gráfico cartesiano que consiste em dois segmentos de linha unidos. O primeiro segmento de linha começa em (-3, 4) e termina em (1, 0). O segundo segmento de linha começa em (1, 0) e continua indefinidamente com uma inclinação de 0.

I

incompatibilidade das métricas de imparcialidade

#responsible

#Metric

A ideia de que algumas noções de justiça são mutuamente incompatíveis e não podem ser atendidas simultaneamente. Por isso, não há uma única métrica universal para quantificar a imparcialidade que possa ser aplicada a todos os problemas de ML.

Embora isso possa parecer desencorajador, a incompatibilidade das métricas de imparcialidade não significa que os esforços de imparcialidade são inúteis. Em vez disso, ela sugere que a imparcialidade seja definida dentro do contexto de um determinado problema de ML, com o objetivo de evitar danos específicos aos casos de uso.

Consulte "On the (im)possibility of fairness" (em inglês) para uma discussão mais detalhada sobre a incompatibilidade das métricas de imparcialidade.

justiça individual

#responsible

#Metric

Uma métrica de justiça que verifica se indivíduos semelhantes são classificados de maneira semelhante. Por exemplo, a Academia Brobdingnagian pode querer satisfazer a justiça individual garantindo que dois estudantes com notas e pontuações de testes padronizados idênticas tenham a mesma probabilidade de serem aceitos.

A imparcialidade individual depende totalmente de como você define "similaridade" (neste caso, notas e resultados de testes). Você pode correr o risco de introduzir novos problemas de imparcialidade se sua métrica de similaridade não considerar informações importantes, como o rigor do currículo de um estudante.

Consulte "Fairness Through Awareness" (em inglês) para uma discussão mais detalhada sobre a justiça individual.

ganho de informação

#df

#Metric

Em florestas de decisão, a diferença entre a entropia de um nó e a soma ponderada (pelo número de exemplos) da entropia dos nós filhos. A entropia de um nó é a entropia dos exemplos nesse nó.

Por exemplo, considere os seguintes valores de entropia:

entropia do nó pai = 0,6
entropia de um nó filho com 16 exemplos relevantes = 0,2
entropia de outro nó filho com 24 exemplos relevantes = 0,1

Portanto, 40% dos exemplos estão em um nó filho e 60% estão no outro. Assim:

Soma ponderada da entropia dos nós filhos = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Portanto, o ganho de informação é:

ganho de informação = entropia do nó pai - soma ponderada da entropia dos nós filhos
ganho de informação = 0,6 - 0,14 = 0,46

A maioria dos divisores tenta criar condições que maximizam o ganho de informações.

concordância entre avaliadores

#Metric

Uma medida de quantas vezes os avaliadores humanos concordam ao realizar uma tarefa. Se os avaliadores discordarem, talvez seja necessário melhorar as instruções da tarefa. Também chamado de concordância entre anotadores ou confiabilidade entre avaliadores. Consulte também Kappa de Cohen, uma das medidas de concordância entre avaliadores mais usadas.

Consulte Dados categóricos: problemas comuns no Curso intensivo de machine learning para mais informações.

L

Perda L₁

#fundamentals

#Metric

Uma função de perda que calcula o valor absoluto da diferença entre os valores reais de rótulo e os valores previstos por um modelo. Por exemplo, este é o cálculo da perda L₁ para um lote de cinco exemplos:

Valor real do exemplo	Valor previsto do modelo	Valor absoluto de delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perda L₁

A perda L₁ é menos sensível a outliers do que a perda L₂.

O erro médio absoluto é a perda média L₁ por exemplo.

Clique no ícone para conferir a matemática formal.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

em que:

$n$ é o número de exemplos.
$y$ é o valor real do rótulo.
$\hat{y}$ é o valor que o modelo prevê para $y$.

Consulte Regressão linear: perda no Curso intensivo de machine learning para mais informações.

Perda L₂

#fundamentals

#Metric

Uma função de perda que calcula o quadrado da diferença entre os valores reais de rótulo e os valores previstos por um modelo. Por exemplo, este é o cálculo da perda L₂ para um lote de cinco exemplos:

Valor real do exemplo	Valor previsto do modelo	Quadrado de delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = perda L₂

Devido ao uso de quadrados, a perda L₂ aumenta a influência de outliers. Ou seja, a perda L₂ reage mais fortemente a previsões ruins do que a perda L₁. Por exemplo, a perda L₁ para o lote anterior seria 8 em vez de 16. Observe que um único outlier representa 9 dos 16.

Modelos de regressão geralmente usam a perda L₂ como função de perda.

O erro quadrático médio é a perda média de L₂ por exemplo. Perda quadrática é outro nome para perda L₂.

Clique no ícone para conferir a matemática formal.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

em que:

$n$ é o número de exemplos.
$y$ é o valor real do rótulo.
$\hat{y}$ é o valor que o modelo prevê para $y$.

Consulte Regressão logística: perda e regularização no Curso intensivo de machine learning para mais informações.

Avaliações de LLM

#generativeAI

#Metric

Um conjunto de métricas e comparativos para avaliar a performance de modelos de linguagem grandes (LLMs). Em um nível alto, as avaliações de LLM:

Ajudar os pesquisadores a identificar áreas em que os LLMs precisam melhorar.
São úteis para comparar diferentes LLMs e identificar o melhor para uma tarefa específica.
Ajudar a garantir que os LLMs sejam seguros e éticos para uso.

Consulte Modelos de linguagem grandes (LLMs) no Curso intensivo de machine learning para mais informações.

perda

#fundamentals

#Metric

Durante o treinamento de um modelo supervisionado, uma medida de quanto uma previsão do modelo se distancia do rótulo.

Uma função de perda calcula a perda.

Consulte Regressão linear: perda no Curso intensivo de machine learning para mais informações.

função de perda

#fundamentals

#Metric

Durante o treinamento ou teste, uma função matemática que calcula a perda em um lote de exemplos. Uma função de perda retorna uma perda menor para modelos que fazem boas previsões do que para modelos que fazem previsões ruins.

O objetivo do treinamento geralmente é minimizar a perda que uma função de perda retorna.

Existem muitos tipos diferentes de funções de perda. Escolha a função de perda adequada para o tipo de modelo que você está criando. Exemplo:

A perda L₂ (ou erro quadrático médio) é a função de perda da regressão linear.
A Log Perda é a função de perda para regressão logística.

M

fatoração de matrizes

Na matemática, um mecanismo para a descoberta das matrizes cujo produto escalar se aproxima de uma matriz de destino.

Em sistemas de recomendação, a matriz de destino geralmente contém as classificações dos usuários em itens. Por exemplo, a matriz de destino para um sistema de recomendação de filmes pode ser parecida com esta, em que os números inteiros positivos são as classificações dos usuários e 0 significa que o usuário não classificou o filme:

	Casablanca	Aconteceu naquela noite	Pantera Negra	Mulher-Maravilha	Pulp Fiction
Usuário 1	5.0	3.0	0,0	2,0	0,0
Usuário 2	4.0	0,0	0,0	1.0	5.0
Usuário 3	3.0	1.0	4.0	5.0	0,0

O sistema de recomendação de filmes tem como objetivo prever as classificações dos usuários para filmes sem classificação. Por exemplo, o usuário 1 vai gostar de Pantera Negra?

Uma abordagem para sistemas de recomendação é usar a fatoração de matrizes para gerar as duas matrizes a seguir:

Uma matriz de usuários, com o formato do número de usuários X o número de dimensões de incorporação.
Uma matriz de itens, com o formato do número de dimensões de embedding X o número de itens.

Por exemplo, usar a fatoração de matrizes nos três usuários e cinco itens pode gerar as seguintes matrizes de usuário e item:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

O produto escalar da matriz de usuários e da matriz de itens gera uma matriz de recomendação que contém não apenas as classificações originais dos usuários, mas também previsões para os filmes que cada usuário não assistiu. Por exemplo, considere a avaliação do usuário 1 de Casablanca, que foi 5,0. O produto escalar correspondente a essa célula na matriz de recomendação deve ser de aproximadamente 5,0, e é:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

E mais importante: o usuário 1 vai gostar de Pantera Negra? O produto escalar correspondente à primeira linha e à terceira coluna gera uma classificação prevista de 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

A fatoração de matrizes geralmente gera uma matriz de usuários e uma matriz de itens que, juntas, são muito mais compactas do que a matriz de destino.

MBPP

#Metric

Abreviação de Mostly Basic Python Problems.

Erro médio absoluto (MAE)

#Metric

A perda média por exemplo quando a perda L₁ é usada. Calcule o erro médio absoluto da seguinte forma:

Calcula a perda L₁ para um lote.
Divida a perda L₁ pelo número de exemplos no lote.

Clique no ícone para conferir a matemática formal.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

em que:

$n$ é o número de exemplos.
$y$ é o valor real do rótulo.
$\hat{y}$ é o valor que o modelo prevê para $y$.

Por exemplo, considere o cálculo da perda L₁ no seguinte lote de cinco exemplos:

Valor real do exemplo	Valor previsto do modelo	Perda (diferença entre o valor real e o previsto)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perda L₁

Portanto, a perda L₁ é 8 e o número de exemplos é 5. Portanto, o erro absoluto médio é:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Compare o erro médio absoluto com o erro quadrático médio e a raiz do erro quadrático médio.

Precisão média em k (mAP@k)

#generativeAI

#Metric

A média estatística de todas as pontuações de precisão média em k em um conjunto de dados de validação. Um uso da precisão média em k é julgar a qualidade das recomendações geradas por um sistema de recomendação.

Embora a frase "média média" pareça redundante, o nome da métrica é adequado. Afinal, essa métrica encontra a média de vários valores de precisão média em k.

Clique no ícone para ver um exemplo.

Suponha que você crie um sistema de recomendação que gere uma lista personalizada de romances recomendados para cada usuário. Com base no feedback de usuários selecionados, calcule as cinco pontuações de precisão média em k a seguir (uma pontuação por usuário):

0,73
0.77
0.67
0,82
0,76

Portanto, a precisão média em K é:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

Erro quadrático médio (EQM)

#Metric

A perda média por exemplo quando a perda _L2 é usada. Calcule o erro quadrático médio da seguinte forma:

Calcula a perda L₂ de um lote.
Divida a perda L₂ pelo número de exemplos no lote.

Clique no ícone para conferir a matemática formal.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ onde:

$n$ é o número de exemplos.
$y$ é o valor real do rótulo.
$\hat{y}$ é a previsão do modelo para $y$.

Por exemplo, considere a perda no seguinte lote de cinco exemplos:

Valor real	Previsão do modelo	Perda	Perda quadrática
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = perda L₂

Portanto, o erro quadrático médio é:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

O erro quadrático médio é um otimizador de treinamento popular, principalmente para regressão linear.

Contraste o erro quadrático médio com o erro médio absoluto e a raiz do erro quadrático médio.

O TensorFlow Playground usa o erro quadrático médio para calcular os valores de perda.

Clique no ícone para ver mais detalhes sobre os outliers.

Outliers influenciam muito o erro quadrático médio. Por exemplo, uma perda de 1 é uma perda quadrática de 1, mas uma perda de 3 é uma perda quadrática de 9. Na tabela anterior, o exemplo com uma perda de 3 representa cerca de 56% do erro quadrático médio, enquanto cada um dos exemplos com uma perda de 1 representa apenas 6% do erro quadrático médio.

Os outliers não influenciam o erro médio absoluto tanto quanto o erro quadrático médio. Por exemplo, uma perda de três contas para apenas 38% do erro absoluto médio.

O ajuste é uma maneira de evitar que outliers extremos prejudiquem a capacidade preditiva do modelo.

métrica

#TensorFlow

#Metric

Uma estatística importante para você.

Um objetivo é uma métrica que um sistema de machine learning tenta otimizar.

API Metrics (tf.metrics)

#Metric

Uma API do TensorFlow para avaliar modelos. Por exemplo, tf.metrics.accuracy determina a frequência com que as previsões de um modelo correspondem aos rótulos.

perda minimax

#Metric

Uma função de perda para redes adversárias generativas (em inglês), com base na entropia cruzada entre a distribuição de dados gerados e dados reais.

A perda de minimax é usada no primeiro documento para descrever redes generativas adversárias.

Consulte Funções de perda no curso de redes adversárias generativas para mais informações.

capacidade do modelo

#Metric

A complexidade dos problemas que um modelo pode aprender. Quanto mais complexos forem os problemas que um modelo pode aprender, maior será a capacidade dele. A capacidade de um modelo geralmente aumenta com o número de parâmetros. Para uma definição formal da capacidade de um modelo de classificação, consulte Dimensão VC.

Momentum

Um algoritmo sofisticado de gradiente descendente em que uma etapa de aprendizado depende não apenas da derivada na etapa atual, mas também das derivadas das etapas imediatamente anteriores. O momentum envolve o cálculo de uma média móvel exponencialmente ponderada dos gradientes ao longo do tempo, semelhante ao momentum na física. Às vezes, o momentum impede que o aprendizado fique preso em mínimos locais.

Mostly Basic Python Problems (MBPP)

#Metric

Um conjunto de dados para avaliar a capacidade de um LLM de gerar código Python. O Mostly Basic Python Problems oferece cerca de 1.000 problemas de programação criados por colaboradores. Cada problema no conjunto de dados contém:

Uma descrição da tarefa
Código da solução
Três casos de teste automatizados

N

classe negativa

#fundamentals

#Metric

Na classificação binária, uma classe é chamada de positiva e a outra de negativa. A classe positiva é o objeto ou evento que o modelo está testando, e a classe negativa é a outra possibilidade. Exemplo:

A classe negativa em um teste médico pode ser "sem tumor".
A classe negativa em um modelo de classificação de e-mail pode ser "não é spam".

Contraste com a classe positiva.

O

objetivo

#Metric

Uma métrica que seu algoritmo está tentando otimizar.

função objetiva

#Metric

A fórmula matemática ou métrica que um modelo visa otimizar. Por exemplo, a função objetiva da regressão linear geralmente é a perda quadrática média. Assim, ao treinar um modelo de regressão linear, o objetivo é minimizar a perda quadrática média.

Em alguns casos, a meta é maximizar a função objetiva. Por exemplo, se a função objetiva for a acurácia, a meta será maximizar a acurácia.

Consulte também perda.

P

pass at k (pass@k)

#Metric

Uma métrica para determinar a qualidade do código (por exemplo, Python) que um modelo de linguagem grande gera. Mais especificamente, "pass at k" informa a probabilidade de que pelo menos um bloco de código gerado entre k blocos de código gerados passe em todos os testes de unidade.

Os modelos de linguagem grandes geralmente têm dificuldade para gerar um bom código para problemas de programação complexos. Os engenheiros de software se adaptam a esse problema pedindo ao modelo de linguagem grande para gerar várias (k) soluções para o mesmo problema. Em seguida, os engenheiros de software testam cada uma das soluções com testes de unidade. O cálculo da aprovação em k depende do resultado dos testes de unidade:

Se uma ou mais dessas soluções passarem no teste de unidade, o LLM passará no desafio de geração de código.
Se nenhuma das soluções passar no teste de unidade, o LLM falhará no desafio de geração de código.

A fórmula para aprovação em k é a seguinte:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

Em geral, valores mais altos de k produzem pontuações de aprovação em k mais altas. No entanto, valores mais altos de k exigem mais recursos de teste de unidade e modelo de linguagem grande.

Clique no ícone para ver um exemplo.

Suponha que um engenheiro de software peça a um modelo de linguagem grande para gerar k=10 soluções para n=50 problemas de programação desafiadores. Confira os resultados:

30 cartões
20 falhas

Portanto, a pontuação de aprovação em 10 é:

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

desempenho

#Metric

Termo sobrecarregado com os seguintes significados:

O significado padrão na engenharia de software. Ou seja, qual a velocidade (ou eficiência) de execução desse software?
O significado no machine learning. Aqui, a performance responde à seguinte pergunta: quão correto é este modelo? Ou seja, quão boas são as previsões do modelo?

Importâncias de variáveis de troca

#df

#Metric

Um tipo de importância da variável que avalia o aumento no erro de previsão de um modelo após a troca dos valores do atributo. A importância da variável de permutação é uma métrica independente do modelo.

perplexidade

#Metric

Uma medida de como um modelo está realizando a tarefa. Por exemplo, suponha que sua tarefa seja ler as primeiras letras de uma palavra que um usuário está digitando em um teclado de smartphone e oferecer uma lista de possíveis palavras de conclusão. A perplexidade, P, para essa tarefa é aproximadamente o número de palpites que você precisa oferecer para que sua lista contenha a palavra real que o usuário está tentando digitar.

A perplexidade está relacionada à entropia cruzada da seguinte maneira:

$$P= 2^{-\text{cross entropy}}$$

classe positiva

#fundamentals

#Metric

A classe que você está testando.

Por exemplo, a classe positiva em um modelo de câncer pode ser "tumor". A classe positiva em um modelo de classificação de e-mail pode ser "spam".

Contraste com a classe negativa.

Clique no ícone para ver mais observações.

O termo classe positiva pode ser confuso porque o resultado "positivo" de muitos testes geralmente é indesejável. Por exemplo, a classe positiva em muitos testes médicos corresponde a tumores ou doenças. Em geral, você quer que um médico diga: "Parabéns! Os resultados do seu teste foram negativos". De qualquer forma, a classe positiva é o evento que o teste está tentando encontrar.

É verdade que você está testando simultaneamente as classes positiva e negativa.

AUC PR (área sob a curva PR)

#Metric

Área sob a curva de precisão-recall interpolada, obtida ao representar pontos (recall, precisão) para diferentes valores do limiar de classificação.

precision

#fundamentals

#Metric

Uma métrica para modelos de classificação que responde à seguinte pergunta:

Quando o modelo previu a classe positiva, qual foi a porcentagem de previsões corretas?

Esta é a fórmula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

em que:

verdadeiro positivo significa que o modelo previu corretamente a classe positiva.
falso positivo significa que o modelo previu incorretamente a classe positiva.

Por exemplo, suponha que um modelo tenha feito 200 previsões positivas. Das 200 previsões positivas:

150 eram verdadeiros positivos.
50 eram falsos positivos.

Neste caso:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Contraste com acurácia e recall.

Consulte Classificação: acurácia, recall, precisão e métricas relacionadas no Curso intensivo de machine learning para mais informações.

precisão em k (precision@k)

#Metric

Uma métrica para avaliar uma lista classificada (ordenada) de itens. A precisão em k identifica a fração dos primeiros k itens na lista que são "relevantes". Ou seja:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

O valor de k precisa ser menor ou igual ao tamanho da lista retornada. O comprimento da lista retornada não faz parte do cálculo.

A relevância costuma ser subjetiva. Até mesmo avaliadores humanos especializados discordam sobre quais itens são relevantes.

Comparar com:

Precisão média em k
Precisão média em k

Clique no ícone para ver um exemplo.

Suponha que um modelo de linguagem grande receba a seguinte consulta:

List the 6 funniest movies of all time in order.

E o modelo de linguagem grande retorna a lista mostrada nas duas primeiras colunas da tabela a seguir:

Posição	Filme	Relevante?
1	O General	Sim
2	Meninas Malvadas	Sim
3	Platoon	Não
4	Madrinhas	Sim
5	Citizen Kane	Não
6	This is Spinal Tap	Sim

Dois dos três primeiros filmes são relevantes. Portanto, a precisão em 3 é:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

Três dos cinco primeiros filmes são muito engraçados. Portanto, a precisão em 5 é:

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

curva de precisão/recall

#Metric

Uma curva de precisão x recall em diferentes limiares de classificação.

viés de previsão

#Metric

Um valor que indica a distância entre a média das previsões e a média dos rótulos no conjunto de dados.

Não confundir com o termo de viés em modelos de machine learning ou com o viés em ética e imparcialidade.

paridade preditiva

#responsible

#Metric

Uma métrica de imparcialidade que verifica se, para um determinado modelo de classificação, as taxas de precisão são equivalentes para os subgrupos em consideração.

Por exemplo, um modelo que prevê a aceitação na faculdade satisfaria a paridade preditiva para nacionalidade se a taxa de precisão fosse a mesma para liliputianos e brobdingnagianos.

Às vezes, a paridade preditiva também é chamada de paridade de taxa preditiva.

Consulte "Explicação das definições de justiça" (seção 3.2.1) para uma discussão mais detalhada sobre a paridade preditiva.

paridade de taxa preditiva

#responsible

#Metric

Outro nome para paridade preditiva.

função da densidade de probabilidade

#Metric

Uma função que identifica a frequência de amostras de dados com exatamente um valor específico. Quando os valores de um conjunto de dados são números de usar pontos flutuantes contínuos, as correspondências exatas raramente ocorrem. No entanto, integrar uma função de densidade de probabilidade do valor x ao valor y gera a frequência esperada de amostras de dados entre x e y.

Por exemplo, considere uma distribuição normal com média de 200 e desvio padrão de 30. Para determinar a frequência esperada de amostras de dados que estão no intervalo de 211,4 a 218,7, é possível integrar a função de densidade de probabilidade de uma distribuição normal de 211,4 a 218,7.

R

Interpretação de texto com o conjunto de dados de raciocínio de senso comum (ReCoRD)

#Metric

Um conjunto de dados para avaliar a capacidade de um LLM de realizar raciocínio de senso comum. Cada exemplo no conjunto de dados contém três componentes:

Um ou dois parágrafos de uma matéria
Uma consulta em que uma das entidades identificadas explícita ou implicitamente no trecho está mascarada.
A resposta (o nome da entidade que pertence à máscara)

Consulte ReCoRD para ver uma lista extensa de exemplos.

O ReCoRD é um componente do conjunto SuperGLUE.

RealToxicityPrompts

#Metric

Um conjunto de dados que contém um conjunto de inícios de frases que podem ter conteúdo tóxico. Use esse conjunto de dados para avaliar a capacidade de um LLM de gerar texto não tóxico para completar a frase. Normalmente, você usa a API Perspective para determinar o desempenho do LLM nessa tarefa.

Consulte RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models para mais detalhes.

recall

#fundamentals

#Metric

Uma métrica para modelos de classificação que responde à seguinte pergunta:

Quando a informação empírica era a classe positiva, qual porcentagem de previsões o modelo identificou corretamente como a classe positiva?

Esta é a fórmula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

em que:

verdadeiro positivo significa que o modelo previu corretamente a classe positiva.
falso negativo significa que o modelo previu incorretamente a classe negativa.

Por exemplo, suponha que seu modelo tenha feito 200 previsões em exemplos para os quais as informações empíricas eram a classe positiva. Das 200 previsões:

180 eram verdadeiros positivos.
20 eram falsos negativos.

Neste caso:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Clique no ícone para ver observações sobre conjuntos de dados não balanceados.

O recall é especialmente útil para determinar o poder preditivo de modelos de classificação em que a classe positiva é rara. Por exemplo, considere um conjunto de dados não balanceado em que a classe positiva para uma determinada doença ocorre em apenas 10 pacientes de um milhão. Suponha que seu modelo faça cinco milhões de previsões que gerem os seguintes rendimentos:

30 verdadeiros positivos
20 falsos negativos
4.999.000 verdadeiros negativos
950 falsos positivos

Portanto, o recall desse modelo é:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Em contrapartida, a acurácia deste modelo é:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Esse valor alto de acurácia parece impressionante, mas não significa nada. O recall é uma métrica muito mais útil para conjuntos de dados com classes desequilibradas do que a acurácia.

Consulte Classificação: acurácia, recall, precisão e métricas relacionadas para mais informações.

recall em k (recall@k)

#Metric

Uma métrica para avaliar sistemas que geram uma lista classificada (ordenada) de itens. O recall em k identifica a fração de itens relevantes nos primeiros k itens da lista em relação ao número total de itens relevantes retornados.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Contraste com precisão em k.

Clique no ícone para ver um exemplo.

Suponha que um modelo de linguagem grande receba a seguinte consulta:

List the 10 funniest movies of all time in order.

E o modelo de linguagem grande retorna a lista mostrada nas duas primeiras colunas:

Posição	Filme	Relevante?
1	O General	Sim
2	Meninas Malvadas	Sim
3	Platoon	Não
4	Madrinhas	Sim
5	This is Spinal Tap	Sim
6	Avião!	Sim
7	Dia da Marmota	Sim
8	Monty Python em Busca do Cálice Sagrado	Sim
9	Oppenheimer	Não
10	As Patricinhas de Beverly Hills	Sim

Oito dos filmes na lista anterior são muito engraçados, então são "itens relevantes na lista". Portanto, 8 será o denominador em todos os cálculos de recall em k. E o numerador? Bem, três dos quatro primeiros itens são relevantes. Portanto, o recall em 4 é:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 dos 8 primeiros filmes são muito engraçados. Portanto, o recall em 8 é:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

Reconhecimento de implicação textual (RTE, na sigla em inglês)

#Metric

Um conjunto de dados para avaliar a capacidade de um LLM de determinar se uma hipótese pode ser deduzida (extraída logicamente) de uma passagem de texto. Cada exemplo em uma avaliação de RTE consiste em três partes:

Um trecho, geralmente de notícias ou artigos da Wikipédia
Uma hipótese
A resposta correta, que é:
- Verdadeiro, ou seja, a hipótese pode ser deduzida da passagem
- Falso, ou seja, a hipótese não pode ser extraída do trecho

Exemplo:

Trecho:o euro é a moeda da União Europeia.
Hipótese:a França usa o euro como moeda.
Entailment:verdadeiro, porque a França faz parte da União Europeia.

O RTE é um componente do conjunto SuperGLUE.

ReCoRD

#Metric

Abreviação de Reading Comprehension with Commonsense Reasoning Dataset.

Curva ROC

#fundamentals

#Metric

Um gráfico da taxa de verdadeiro positivo em relação à taxa de falso positivo para diferentes limiares de classificação na classificação binária.

O formato de uma curva ROC sugere a capacidade de um modelo de classificação binária de separar classes positivas de negativas. Por exemplo, suponha que um modelo de classificação binária separe perfeitamente todas as classes negativas de todas as positivas:

Uma reta numérica com oito exemplos positivos à direita e sete exemplos negativos à esquerda.

A curva ROC do modelo anterior é assim:

Uma curva ROC. O eixo x é a taxa de falso positivo, e o eixo y é a taxa de verdadeiro positivo. A curva tem um formato de L invertido. A curva começa em (0,0) e sobe até (0,1). Em seguida, a curva vai de (0,0, 1,0) a (1,0, 1,0).

Em contraste, a ilustração a seguir mostra os valores brutos de regressão logística de um modelo ruim que não consegue separar classes negativas de positivas:

Uma reta numérica com exemplos positivos e classes negativas completamente misturadas.

A curva ROC para esse modelo é assim:

Uma curva ROC, que é uma linha reta de (0,0) a (1,1).

Enquanto isso, no mundo real, a maioria dos modelos de classificação binária separa classes positivas e negativas até certo ponto, mas geralmente não de forma perfeita. Assim, uma curva ROC típica fica entre os dois extremos:

Uma curva ROC. O eixo x é a taxa de falso positivo, e o eixo y é a taxa de verdadeiro positivo. A curva ROC se aproxima de um arco instável que atravessa os pontos da bússola de oeste a norte.

O ponto em uma curva ROC mais próximo de (0,0, 1,0) identifica teoricamente o limite de classificação ideal. No entanto, vários outros problemas do mundo real influenciam a seleção do limite de classificação ideal. Por exemplo, talvez os falsos negativos causem muito mais problemas do que os falsos positivos.

Uma métrica numérica chamada AUC resume a curva ROC em um único valor de usar pontos flutuantes.

Raiz do erro quadrático médio (RMSE)

#fundamentals

#Metric

A raiz quadrada do erro quadrático médio.

Recall-Oriented Understudy for Gisting Evaluation (ROUGE, na sigla em inglês)

#Metric

Uma família de métricas que avaliam modelos de resumo automático e tradução automática. As métricas ROUGE determinam o grau em que um texto de referência se sobrepõe ao texto gerado de um modelo de ML. Cada membro da família ROUGE mede a sobreposição de uma maneira diferente. Pontuações ROUGE mais altas indicam mais similaridade entre o texto de referência e o texto gerado do que pontuações ROUGE mais baixas.

Cada membro da família ROUGE geralmente gera as seguintes métricas:

Precisão
Recall
F₁

Para detalhes e exemplos, consulte:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Metric

Um membro da família ROUGE (link em inglês) focado no comprimento da maior subsequência comum no texto de referência e no texto gerado. As fórmulas a seguir calculam o recall e a precisão para ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Em seguida, use F₁ para resumir o recall e a precisão do ROUGE-L em uma única métrica:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Clique no ícone para ver um exemplo de cálculo do ROUGE-L.

Considere o texto de referência e o texto gerado a seguir.

Categoria	Quem produziu?	Texto
Texto de referência	Tradutor humano	Quero entender uma grande variedade de coisas.
Texto gerado	Modelo de ML	Quero aprender muitas coisas.

Portanto:

A maior subsequência comum é 5 (I want to of things).
O número de palavras no texto de referência é 9.
O número de palavras no texto gerado é 7.

Consequentemente:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

O ROUGE-L ignora todas as novas linhas no texto de referência e no texto gerado. Assim, a maior subsequência comum pode abranger várias frases. Quando o texto de referência e o texto gerado envolvem várias frases, uma variação do ROUGE-L chamada ROUGE-Lsum geralmente é uma métrica melhor. O ROUGE-Lsum determina a maior subsequência comum para cada frase em um trecho e calcula a média dessas maiores subsequências comuns.

Clique no ícone para ver um exemplo de cálculo do ROUGE-Lsum.

Considere o texto de referência e o texto gerado a seguir.

Categoria	Quem produziu?	Texto
Texto de referência	Tradutor humano	A plataforma de Marte é seca. Quase toda a água está em profundidade.
Texto gerado	Modelo de ML	Marte tem uma plataforma seca. No entanto, a grande maioria da água está no subsolo.

Assim:

	Primeira frase	Segunda frase
Maior sequência comum	2 (Marte seco)	3 (a água está no subsolo)
Tamanho das frases do texto de referência	6	7
Tamanho das frases do texto gerado	5	8

Consequentemente:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Metric

Um conjunto de métricas da família ROUGE que compara os N-gramas compartilhados de um determinado tamanho no texto de referência e no texto gerado. Exemplo:

ROUGE-1 mede o número de tokens compartilhados no texto de referência e no texto gerado.
ROUGE-2 mede o número de bigramas (2-gramas) compartilhados no texto de referência e no texto gerado.
ROUGE-3 mede o número de trigramas (3-gramas) compartilhados no texto de referência e no texto gerado.

Você pode usar as seguintes fórmulas para calcular o recall e a precisão de ROUGE-N para qualquer membro da família ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Em seguida, use F₁ para agregar o recall e a precisão do ROUGE-N em uma única métrica:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Clique no ícone para ver um exemplo.

Suponha que você decida usar o ROUGE-2 para medir a eficácia da tradução de um modelo de ML em comparação com a de um tradutor humano.

Categoria	Quem produziu?	Texto	Bigramas
Texto de referência	Tradutor humano	Quero entender uma grande variedade de coisas.	Quero, quero entender, entender uma, uma ampla, ampla variedade, variedade de, de coisas
Texto gerado	Modelo de ML	Quero aprender muitas coisas.	Quero, quero aprender, aprender muito, muitas coisas

Portanto:

O número de 2-gramas correspondentes é 3 (I want, want to e of things).
O número de 2-gramas no texto de referência é 8.
O número de 2-gramas no texto gerado é 6.

Consequentemente:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Metric

Uma forma tolerante de ROUGE-N que permite a correspondência de skip-gram. Ou seja, o ROUGE-N só conta N-gramas que correspondem exatamente, mas o ROUGE-S também conta N-gramas separados por uma ou mais palavras. Por exemplo, considere o seguinte:

texto de referência: Nuvens brancas
Texto gerado: Nuvens brancas e onduladas

Ao calcular o ROUGE-N, o 2-grama Nuvens brancas não corresponde a Nuvens brancas e onduladas. No entanto, ao calcular o ROUGE-S, Nuvens brancas corresponde a Nuvens brancas e onduladas.

R ao quadrado

#Metric

Uma métrica de regressão que indica o quanto da variação em um rótulo se deve a um atributo individual ou a um conjunto de atributos. O R ao quadrado é um valor entre 0 e 1, que pode ser interpretado da seguinte maneira:

Um R ao quadrado de 0 significa que nada da variação de um rótulo se deve ao conjunto de atributos.
Um R ao quadrado de 1 significa que toda a variação de um rótulo se deve ao conjunto de atributos.
Um R ao quadrado entre 0 e 1 indica o quanto da variação de um rótulo pode ser previsto a partir de um atributo específico ou do conjunto de atributos. Por exemplo, um R ao quadrado de 0,10 significa que 10% da variância no rótulo se deve ao conjunto de atributos, um R ao quadrado de 0,20 significa que 20% se deve ao conjunto de atributos e assim por diante.

R ao quadrado é o quadrado do coeficiente de correlação de Pearson entre os valores previstos por um modelo e as informações empíricas.

RTE

#Metric

Abreviação de Recognizing Textual Entailment.

S

em lote

#Metric

A parte de um sistema de recomendação que fornece um valor ou classificação para cada item produzido pela fase de geração de candidatos.

medida de similaridade

#clustering

#Metric

Em algoritmos de clustering, a métrica usada para determinar o grau de semelhança entre dois exemplos.

esparsidade

#Metric

O número de elementos definidos como zero (ou nulo) em um vetor ou matriz dividido pelo número total de entradas nesse vetor ou matriz. Por exemplo, considere uma matriz de 100 elementos em que 98 células contêm zero. O cálculo da escassez é o seguinte:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

A esparsidade de atributos se refere à esparsidade de um vetor de atributos, e a esparsidade de modelo se refere à esparsidade dos pesos do modelo.

SQuAD

#Metric

Acrônimo de Stanford Question Answering Dataset, apresentado no documento SQuAD: 100.000+ Questions for Machine Comprehension of Text. As perguntas neste conjunto de dados são de pessoas que fazem perguntas sobre artigos da Wikipédia. Algumas perguntas no SQuAD têm respostas, mas outras não têm intencionalmente. Portanto, é possível usar o SQuAD para avaliar a capacidade de um LLM de fazer o seguinte:

Responda às perguntas que podem ser respondidas.
Identifique perguntas que não podem ser respondidas.

A correspondência exata em combinação com o F₁ são as métricas mais comuns para avaliar LLMs em relação ao SQuAD.

perda de articulação quadrática

#Metric

O quadrado da perda de articulação. A perda de articulação quadrática penaliza os outliers com mais rigor do que a perda de articulação regular.

perda quadrática

#fundamentals

#Metric

Sinônimo de perda L₂.

SuperGLUE

#Metric

Um conjunto de dados para classificar a capacidade geral de um LLM de entender e gerar texto. O conjunto é composto pelos seguintes conjuntos de dados:

Perguntas booleanas (BoolQ)
CommitmentBank (CB)
Escolha de alternativas plausíveis (COPA)
Interpretação de texto com várias frases (MultiRC)
Conjunto de dados de interpretação de texto com raciocínio de senso comum (ReCoRD)
Reconhecimento de implicação textual (RTE)
Palavras no contexto (WiC)
Desafio do esquema de Winograd (WSC)

Para mais detalhes, consulte SuperGLUE: um comparativo de mercado mais consistente para sistemas de compreensão de linguagem de uso geral.

T

perda de teste

#fundamentals

#Metric

Uma métrica que representa a perda de um modelo em relação ao conjunto de teste. Ao criar um modelo, geralmente você tenta minimizar a perda de teste. Isso porque uma perda de teste baixa é um indicador de qualidade mais forte do que uma perda de treinamento ou validação baixa.

Uma grande diferença entre a perda de teste e a perda de treinamento ou validação às vezes sugere que você precisa aumentar a taxa de regularização.

acurácia top-k

#Metric

A porcentagem de vezes que um "rótulo de destino" aparece nas primeiras k posições das listas geradas. As listas podem ser recomendações personalizadas ou uma lista de itens ordenados por softmax.

A acurácia Top-k também é conhecida como acurácia em k.

Clique no ícone para ver um exemplo.

Considere um sistema de aprendizado de máquina que usa softmax para identificar probabilidades de árvores com base em uma foto de folhas. A tabela a seguir mostra listas de saída geradas com base em cinco imagens de árvores de entrada. Cada linha contém um rótulo de destino e as cinco árvores mais prováveis. Por exemplo, quando o rótulo de destino era maple, o modelo de machine learning identificou elm como a árvore mais provável, oak como a segunda mais provável e assim por diante.

Rótulo de destino	1	2	3	4	5
bordo	elm	carvalho	maple	faia	álamo
corniso	carvalho	dogwood	álamo	Hickory	bordo
carvalho	oak	basswood	gafanhoto	amieiro	Linden
Linden	bordo	mamão	carvalho	basswood	álamo
carvalho	gafanhoto	Linden	oak	bordo	mamão

O rótulo de destino aparece na primeira posição apenas uma vez. Portanto, a acurácia de top-1 é:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

O rótulo de destino aparece em uma das três primeiras posições quatro vezes. Portanto, a acurácia nos três primeiros é:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

conteúdo tóxico

#Metric

O grau em que o conteúdo é abusivo, ameaçador ou ofensivo. Muitos modelos de aprendizado de máquina podem identificar, medir e classificar a toxicidade. A maioria desses modelos identifica toxicidade em vários parâmetros, como o nível de linguagem abusiva e ameaçadora.

perda de treinamento

#fundamentals

#Metric

Uma métrica que representa a perda de um modelo durante uma iteração de treinamento específica. Por exemplo, suponha que a função de perda seja erro quadrático médio. Talvez a perda de treinamento (o erro quadrático médio) da 10ª iteração seja 2,2, e a perda de treinamento da 100ª iteração seja 1,9.

Uma curva de perda representa a perda de treinamento em relação ao número de iterações. Uma curva de perda fornece as seguintes dicas sobre o treinamento:

Uma inclinação para baixo significa que o modelo está melhorando.
Uma inclinação para cima significa que o modelo está piorando.
Uma inclinação plana significa que o modelo atingiu a convergência.

Por exemplo, a curva de perda um pouco idealizada a seguir mostra:

Uma inclinação acentuada para baixo durante as iterações iniciais, o que implica uma melhoria rápida do modelo.
Uma inclinação gradualmente mais plana (mas ainda descendente) até perto do fim do treinamento, o que implica uma melhoria contínua do modelo em um ritmo um pouco mais lento do que durante as iterações iniciais.
Uma inclinação plana no final do treinamento, o que sugere convergência.

O gráfico da perda de treinamento em relação às iterações. Essa curva começa com uma inclinação descendente acentuada. A inclinação diminui gradualmente até se tornar zero.

Embora a perda de treinamento seja importante, consulte também a generalização.

Respostas a perguntas de curiosidades

#Metric

Conjuntos de dados para avaliar a capacidade de um LLM de responder a perguntas de curiosidades. Cada conjunto de dados contém pares de perguntas e respostas criados por entusiastas de curiosidades. Diferentes conjuntos de dados são fundamentados por diferentes fontes, incluindo:

Pesquisa na Web (TriviaQA)
Wikipedia (TriviaQA_wiki)

Para mais informações, consulte TriviaQA: um conjunto de dados de desafio supervisionado remotamente em grande escala para compreensão de leitura.

verdadeiro negativo (VN)

#fundamentals

#Metric

Um exemplo em que o modelo prevê corretamente a classe negativa. Por exemplo, o modelo deduz que uma determinada mensagem de e-mail não é spam, e essa mensagem realmente não é spam.

verdadeiro positivo (VP)

#fundamentals

#Metric

Um exemplo em que o modelo prevê corretamente a classe positiva. Por exemplo, o modelo infere que uma determinada mensagem de e-mail é spam, e ela realmente é.

taxa de verdadeiro positivo (TVP)

#fundamentals

#Metric

Sinônimo de recall. Ou seja:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

A taxa de verdadeiro positivo é o eixo y em uma curva ROC.

Respostas a perguntas tipologicamente diversas (TyDi QA)

#Metric

Um grande conjunto de dados para avaliar a proficiência de um LLM em responder a perguntas. O conjunto de dados contém pares de perguntas e respostas em vários idiomas.

Para mais detalhes, consulte TyDi QA: um comparativo de mercado para resposta a perguntas de busca de informações em idiomas tipologicamente diversos.

V

perda de validação

#fundamentals

#Metric

Uma métrica que representa a perda de um modelo no conjunto de validação durante uma iteração específica de treinamento.

Consulte também a curva de generalização.

importâncias de variáveis

#df

#Metric

Um conjunto de pontuações que indica a importância relativa de cada atributo para o modelo.

Por exemplo, considere uma árvore de decisão que estima os preços das casas. Suponha que essa árvore de decisão use três recursos: tamanho, idade e estilo. Se um conjunto de importâncias de variáveis para os três recursos for calculado como {size=5.8, age=2.5, style=4.7}, o tamanho será mais importante para a árvore de decisão do que a idade ou o estilo.

Existem diferentes métricas de importância da variável, que podem informar aos especialistas em ML sobre diferentes aspectos dos modelos.

W

Perda de Wasserstein

#Metric

Uma das funções de perda usadas com frequência em redes adversárias generativas (GANs, na sigla em inglês), com base na distância do movimento de terra entre a distribuição de dados gerados e dados reais.

WiC

#Metric

Abreviação de Palavras em contexto.

WikiLingua (wiki_lingua)

#Metric

Um conjunto de dados para avaliar a capacidade de um LLM de resumir artigos curtos. O WikiHow, uma enciclopédia de artigos que explicam como realizar várias tarefas, é a fonte criada por humanos para os artigos e os resumos. Cada entrada no conjunto de dados consiste em:

Um artigo, que é criado anexando cada etapa da versão em prosa (parágrafo) da lista numerada, menos a frase inicial de cada etapa.
Um resumo desse artigo, consistindo na frase inicial de cada etapa da lista numerada.

Para mais detalhes, consulte WikiLingua: um novo conjunto de dados de comparativo de mercado para resumo abstrativo multilíngue.

Desafio de esquema de Winograd (WSC)

#Metric

Um formato (ou conjunto de dados em conformidade com esse formato) para avaliar a capacidade de um LLM de determinar a frase nominal a que um pronome se refere.

Cada entrada em um desafio de esquema de Winograd consiste em:

Um trecho curto que contém um pronome de destino
Um pronome de destino
Frases nominais candidatas, seguidas da resposta correta (um booleano). Se o pronome de destino se referir a esse candidato, a resposta será "True". Se o pronome de destino não se referir a esse candidato, a resposta será "False".

Exemplo:

Trecho: Mark contou muitas mentiras sobre si mesmo para Pete, que as incluiu no livro. Ele deveria ter sido mais sincero.
Pronome de destino: ele
Frases nominais candidatas:
- Mark: True, porque o pronome de destino se refere a Mark
- Pete: falso, porque o pronome de destino não se refere a Peter.

O Winograd Schema Challenge é um componente do conjunto SuperGLUE.

Palavras no contexto (WiC)

#Metric

Um conjunto de dados para avaliar o desempenho de um LLM ao usar o contexto para entender palavras que têm vários significados. Cada entrada no conjunto de dados contém:

Duas frases, cada uma contendo a palavra de destino
A palavra de destino
A resposta correta (um booleano), em que:
- "True" significa que a palavra de destino tem o mesmo significado nas duas frases.
- "False" significa que a palavra de destino tem um significado diferente nas duas frases.

Exemplo:

Duas frases:
- Há muito lixo no leito do rio.
- Eu deixo um copo de água ao lado da minha cama quando durmo.
A palavra-alvo:cama
Resposta correta: falso, porque a palavra-alvo tem um significado diferente nas duas frases.

Para mais detalhes, consulte WiC: o conjunto de dados Word-in-Context para avaliar representações de significado sensíveis ao contexto.

O recurso "Palavras no contexto" é um componente do conjunto SuperGLUE.

WSC

#Metric

Abreviação de Winograd Schema Challenge.

X

XL-Sum (xlsum)

#Metric

Um conjunto de dados para avaliar a capacidade de um LLM de resumir texto. O XL-Sum oferece entradas em vários idiomas. Cada entrada no conjunto de dados contém:

Um artigo da British Broadcasting Company (BBC).
Um resumo do artigo, escrito pelo autor dele. Esse resumo pode conter palavras ou frases que não estão presentes no artigo.

Para mais detalhes, consulte XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages (em inglês).

Glossário de machine learning: métricas Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

A

precisão

Clique no ícone para saber mais sobre acurácia e conjuntos de dados desequilibrados.

área sob a curva PR

área sob a curva ROC

AUC (área sob a curva ROC)

Clique no ícone para saber mais sobre a relação entre AUC e curvas ROC.

Clique no ícone para uma definição mais formal de AUC.

Precisão média em k

Clique no ícone para ver um exemplo

B

baseline

Perguntas booleanas (BoolQ)

BoolQ

C

CB

Pontuação F de n-gramas de caracteres (ChrF)

Escolha de alternativas plausíveis (COPA, na sigla em inglês)

CommitmentBank (CB)

COPA

custo

Imparcialidade contrafactual

entropia cruzada

função de distribuição cumulativa (CDF, na sigla em inglês)

D

paridade demográfica

E

Distância de movimentação de terra (EMD, na sigla em inglês)

distância de edição

função de distribuição cumulativa empírica (eCDF ou EDF)

entropia

igualdade de oportunidades

probabilidades igualadas

avaliações

Avaliação

correspondência exata

Resumo extremo (xsum)

F

F1

Clique no ícone para ver exemplos.

métrica de imparcialidade

falso negativo (FN)

taxa de falso negativo

falso positivo (FP)

taxa de falso positivo (FPR)

importâncias de atributos

modelo de fundação

fração de sucessos

G

impureza de Gini

Clique no ícone para ver detalhes matemáticos sobre a impureza de Gini.

H

perda de articulação

I

incompatibilidade das métricas de imparcialidade

justiça individual

ganho de informação

concordância entre avaliadores

L

Perda L1

Clique no ícone para conferir a matemática formal.

Perda L2

Clique no ícone para conferir a matemática formal.

Avaliações de LLM

perda

função de perda

M

fatoração de matrizes

MBPP

Erro médio absoluto (MAE)

Clique no ícone para conferir a matemática formal.

Precisão média em k (mAP@k)

Clique no ícone para ver um exemplo.

Erro quadrático médio (EQM)

Clique no ícone para conferir a matemática formal.

Clique no ícone para ver mais detalhes sobre os outliers.

métrica

API Metrics (tf.metrics)

perda minimax

Glossário de machine learning: métricas

F₁

Perda L₁

Perda L₂