Esta página contém os termos do glossário de métricas. Para conferir todos os termos do glossário, clique aqui.
A
precisão
O número de previsões de classificação corretas dividido pelo número total de previsões. Ou seja:
Por exemplo, um modelo que fez 40 previsões corretas e 10 incorretas teria uma precisão de:
A classificação binária fornece nomes específicos para as diferentes categorias de previsões corretas e previsões incorretas. A fórmula de precisão para classificação binária é a seguinte:
em que:
- O TP é o número de verdadeiros positivos (previsões corretas).
- TN é o número de verdadeiros negativos (previsões corretas).
- O FP é o número de falsos positivos (previsões incorretas).
- FN é o número de falsos negativos (previsões incorretas).
Compare a acurácia com a precisão e o recall.
Clique no ícone para conferir detalhes sobre a precisão e os conjuntos de dados com classes desequilibradas.
Consulte Classificação: precisão, recall, precisão e métricas relacionadas no Curso intensivo de machine learning para mais informações.
área sob a curva de PR
Consulte AUC PR (área sob a curva PR).
área sob a curva ROC
Consulte AUC (área sob a curva ROC).
AUC (área sob a curva ROC)
Um número entre 0,0 e 1,0 que representa a capacidade de um modelo de classificação binária de separar classes positivas de classes negativas. Quanto mais próxima da 1,0, melhor será a capacidade do modelo de separar as classes.
Por exemplo, a ilustração a seguir mostra um modelo de classificador que separa perfeitamente as classes positivas (ovais verdes) das classes negativas (retângulos roxos). Esse modelo perfeito tem uma AUC de 1,0:
Por outro lado, a ilustração a seguir mostra os resultados de um modelo de classificador que gerou resultados aleatórios. Esse modelo tem uma AUC de 0,5:
Sim, o modelo anterior tem um AUC de 0,5, não 0,0.
A maioria dos modelos fica entre os dois extremos. Por exemplo, o modelo a seguir separa os positivos dos negativos e, portanto, tem uma AUC entre 0,5 e 1,0:
O AUC ignora qualquer valor definido para o limite de classificação. Em vez disso, a AUC considera todos os limiares de classificação possíveis.
Clique no ícone para saber mais sobre a relação entre as curvas AUC e ROC.
Clique no ícone para conferir uma definição mais formal de AUC.
Consulte Classificação: ROC e AUC no Curso intensivo de machine learning para mais informações.
precisão média em k
Uma métrica para resumir a performance de um modelo em uma única solicitação que gera resultados classificados, como uma lista numerada de recomendações de livros. A precisão média em k é a média dos valores de precisão em k para cada resultado relevante. A fórmula para a precisão média em k é a seguinte:
average precision at k=1nn∑i=1precision at k for each relevant item
em que:
- n é o número de itens relevantes na lista.
Compare com a recordação em k.
Clique no ícone para conferir um exemplo
B
baseline
Um modelo usado como ponto de referência para comparar o desempenho de outro modelo (geralmente, um mais complexo). Por exemplo, um modelo de regressão logística pode servir como uma boa referência para um modelo profundo.
Para um problema específico, a referência ajuda os desenvolvedores a quantificar a performance mínima esperada que um novo modelo precisa alcançar para ser útil.
C
custo
Sinônimo de loss.
imparcialidade contrafactual
Uma métrica de justiça que verifica se um classificador produz o mesmo resultado para um indivíduo que é idêntico a outro idêntico ao primeiro, exceto em relação a um ou mais atributos sensíveis. Avaliar um classificador para imparcialidade contrafactual é um método para identificar possíveis fontes de viés em um modelo.
Consulte um dos seguintes links para mais informações:
- Equidade: equidade contrafactual no curso intensivo de machine learning.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness (link em inglês)
entropia cruzada
Uma generalização da perda de registro para problemas de classificação multiclasse. A entropia cruzada quantifica a diferença entre duas distribuições de probabilidade. Consulte também perplexidade.
função de distribuição cumulativa (FDA)
Uma função que define a frequência de amostras menores ou iguais a um valor de destino. Por exemplo, considere uma distribuição normal de valores contínuos. Uma CDF informa que aproximadamente 50% das amostras precisam ser menores ou iguais à média e que aproximadamente 84% das amostras precisam ser menores ou iguais a uma variação padrão acima da média.
D
paridade demográfica
Uma métrica de imparcialidade que é atendida se os resultados da classificação de um modelo não dependerem de um atributo sensível.
Por exemplo, se os liliputianos e os brobdingnagianos se inscreverem na Universidade Glubbdubdrib, a paridade demográfica será alcançada se a porcentagem de Lilliputianos admitidos for a mesma que a porcentagem de Brobdingnagianos admitidos, independentemente de um grupo ser, em média, mais qualificado do que o outro.
Compare com as odds iguais e a igualdade de oportunidades, que permitem que os resultados de classificação em agregado dependam de atributos sensíveis, mas não permitem que os resultados de classificação para determinados dados reais especificados dependam de atributos sensíveis. Consulte "Como combater a discriminação com um aprendizado de máquina mais inteligente" para conferir uma visualização que mostra as compensações ao otimizar para paridade demográfica.
Consulte Imparcialidade: paridade demográfica no Curso intensivo de machine learning para mais informações.
E
Distância de movimentação da Terra (EMD)
Uma medida da semelhança relativa de duas distribuições. Quanto menor a distância do movimento de terra, mais semelhantes são as distribuições.
editar distância
Uma medida de quão semelhantes duas strings de texto são. No aprendizado de máquina, a distância de edição é útil pelos seguintes motivos:
- A distância de edição é fácil de calcular.
- A distância de edição pode comparar duas strings conhecidas por serem semelhantes.
- A distância de edição pode determinar o grau em que strings diferentes são semelhantes a uma determinada string.
Há várias definições de distância de edição, cada uma usando operações de string diferentes. Consulte Distância de Levenshtein para conferir um exemplo.
função de distribuição cumulativa empírica (eCDF ou EDF, na sigla em inglês)
Uma função de distribuição cumulativa com base em medições empíricas de um conjunto de dados real. O valor da função em qualquer ponto ao longo do eixo x é a fração de observações no conjunto de dados que são menores ou iguais ao valor especificado.
entropia
Na teoria da informação, uma descrição de como uma distribuição de probabilidade é imprevisível. Como alternativa, a entropia também é definida como a quantidade de informações que cada exemplo contém. Uma distribuição tem a entropia mais alta possível quando todos os valores de uma variável aleatória têm a mesma probabilidade.
A entropia de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) tem a seguinte fórmula:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
em que:
- H é a entropia.
- p é a fração dos exemplos "1".
- q é a fração dos exemplos "0". Observe que q = (1 - p)
- log geralmente é log2. Nesse caso, a unidade de entropia é um bit.
Por exemplo, suponha que:
- 100 exemplos contêm o valor "1"
- 300 exemplos contêm o valor "0"
Portanto, o valor de entropia é:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bits por exemplo
Um conjunto perfeitamente equilibrado (por exemplo, 200 "0"s e 200 "1"s) teria uma entropia de 1,0 bit por exemplo. À medida que um conjunto fica mais desbalanceado, a entropia dele se move em direção a 0,0.
Nas árvores de decisão, a entropia ajuda a formular ganho de informação para ajudar o divisor a selecionar as condições durante o crescimento de uma árvore de decisão de classificação.
Compare a entropia com:
- Impuridade de Gini
- Função de perda de entropia cruzada
A entropia é frequentemente chamada de entropia de Shannon.
Consulte Divisor exato para classificação binária com recursos numéricos no curso de florestas de decisão para mais informações.
igualdade de oportunidades
Uma métrica de imparcialidade para avaliar se um modelo está prevendo o resultado desejado igualmente bem para todos os valores de um atributo sensível. Em outras palavras, se o resultado desejado para um modelo for a classe positiva, o objetivo será ter a taxa de verdadeiro positivo igual para todos os grupos.
A igualdade de oportunidades está relacionada às chances iguais, que exige que ambas as taxas de verdadeiro positivo e falso positivo sejam iguais para todos os grupos.
Suponha que a Universidade Glubbdubdrib admita liliputianos e brobdingnagianos em um programa rigoroso de matemática. As escolas secundárias dos liliputianos oferecem um currículo robusto de aulas de matemática, e a grande maioria dos estudantes está qualificada para o programa universitário. As escolas secundárias de Brobdingnag não oferecem aulas de matemática e, como resultado, muito menos estudantes se qualificam. A igualdade de oportunidades é atendida para o rótulo preferido de "admitidos" em relação à nacionalidade (Lilliputian ou Brobdingnagian) se os estudantes qualificados tiverem a mesma probabilidade de serem admitidos, independentemente de serem Lilliputian ou Brobdingnagian.
Por exemplo, suponha que 100 liliputianos e 100 brobdingnagianos se inscrevam na Universidade Glubbdubdrib, e as decisões de admissão sejam feitas da seguinte maneira:
Tabela 1. Candidatos Lilliputianos (90% estão qualificados)
Qualificado | Não qualificado | |
---|---|---|
Admitido | 45 | 3 |
Recusado | 45 | 7 |
Total | 90 | 10 |
Porcentagem de estudantes qualificados admitidos: 45/90 = 50% Porcentagem de estudantes não qualificados rejeitados: 7/10 = 70% Porcentagem total de estudantes liliputianos admitidos: (45+3)/100 = 48% |
Tabela 2. Candidatos Brobdingnagian (10% são qualificados):
Qualificado | Não qualificado | |
---|---|---|
Admitido | 5 | 9 |
Recusado | 5 | 81 |
Total | 10 | 90 |
Porcentagem de estudantes qualificados admitidos: 5/10 = 50% Porcentagem de estudantes não qualificados rejeitados: 81/90 = 90% Porcentagem total de estudantes de Brobdingnag admitidos: (5+9)/100 = 14% |
Os exemplos anteriores atendem à igualdade de oportunidades para a admissão de alunos qualificados porque os liliputianos e os brobdingnagianos qualificados têm 50% de chance de serem admitidos.
Embora a igualdade de oportunidades seja atendida, as duas métricas de imparcialidade a seguir não são atendidas:
- Paridade demográfica: os estudantes de Lilliput e Brobdingnag são admitidos na universidade em taxas diferentes. 48% dos estudantes de Lilliput são admitidos, mas apenas 14% dos estudantes de Brobdingnag são admitidos.
- Chances iguais: embora os estudantes qualificados de Lilliput e Brobdingnag tenham a mesma chance de serem admitidos, a restrição adicional de que os estudantes não qualificados de Lilliput e Brobdingnag têm a mesma chance de serem rejeitados não é satisfeita. Os liliputianos não qualificados têm uma taxa de rejeição de 70%, enquanto os brobdingnagianos não qualificados têm uma taxa de rejeição de 90%.
Consulte Imparcialidade: igualdade de oportunidades no Curso intensivo de machine learning para mais informações.
probabilidades iguais
Uma métrica de justiça para avaliar se um modelo está prevendo resultados igualmente para todos os valores de um atributo sensível em relação à classe positiva e classe negativa, não apenas uma ou outra exclusivamente. Em outras palavras, a taxa de verdadeiro positivo e a taxa de falso negativo precisam ser as mesmas para todos os grupos.
As probabilidades iguais estão relacionadas à igualdade de oportunidades, que se concentra apenas nas taxas de erro de uma única classe (positiva ou negativa).
Por exemplo, suponha que a Universidade Glubbdubdrib admita liliputianos e brobdingnagianos em um programa de matemática rigoroso. As escolas secundárias dos liliputianos oferecem um currículo robusto de aulas de matemática, e a grande maioria dos alunos está qualificada para o programa universitário. As escolas secundárias de Brobdingnag não oferecem aulas de matemática. Como resultado, muito menos alunos estão qualificados. As chances iguais são satisfeitas, desde que não importe se um candidato é um liliputiano ou um brobdingnaguense, se ele é qualificado, ele tem a mesma probabilidade de ser admitido no programa, e se ele não é qualificado, ele tem a mesma probabilidade de ser rejeitado.
Suponha que 100 liliputianos e 100 brobdingnagianos se inscrevam na Universidade Glubbdubdrib e que as decisões de admissão sejam feitas da seguinte maneira:
Tabela 3. Candidatos Lilliputianos (90% estão qualificados)
Qualificado | Não qualificado | |
---|---|---|
Admitido | 45 | 2 |
Recusado | 45 | 8 |
Total | 90 | 10 |
Porcentagem de estudantes qualificados admitidos: 45/90 = 50% Porcentagem de estudantes não qualificados reprovados: 8/10 = 80% Porcentagem total de estudantes Lilliputianos admitidos: (45+2)/100 = 47% |
Tabela 4. Candidatos Brobdingnagian (10% são qualificados):
Qualificado | Não qualificado | |
---|---|---|
Admitido | 5 | 18 |
Recusado | 5 | 72 |
Total | 10 | 90 |
Porcentagem de estudantes qualificados admitidos: 5/10 = 50% Porcentagem de estudantes não qualificados rejeitados: 72/90 = 80% Porcentagem total de estudantes de Brobdingnag admitidos: (5+18)/100 = 23% |
As chances iguais são satisfeitas porque os estudantes qualificados de Lilliput e Brobdingnag têm 50% de chance de serem admitidos, e os estudantes não qualificados de Lilliput e Brobdingnag têm 80% de chance de serem rejeitados.
As chances iguais são definidas formalmente em "Igualdade de oportunidades no aprendizado supervisionado" da seguinte maneira: "o preditor Ŷ satisfaz as chances iguais em relação ao atributo protegido A e ao resultado Y se Ŷ e A forem independentes, condicionados a Y".
evals
É usado principalmente como uma abreviação para avaliações de LLM. De forma mais ampla, avaliações é uma abreviação para qualquer forma de avaliação.
Avaliação
O processo de medir a qualidade de um modelo ou comparar modelos diferentes.
Para avaliar um modelo de aprendizado de máquina supervisionado, normalmente você o compara a um conjunto de validação e um conjunto de teste. A avaliação de um LLM normalmente envolve avaliações mais amplas de qualidade e segurança.
F
F1
Uma métrica de classificação binária "resumida" que depende de precisão e recall. Esta é a fórmula:
Clique no ícone para conferir exemplos.
métrica de imparcialidade
Uma definição matemática de "justiça" que pode ser medida. Confira algumas métricas de imparcialidade usadas com frequência:
Muitas métricas de imparcialidade são mutuamente exclusivas. Consulte Incompatibilidade das métricas de imparcialidade.
falso negativo (FN)
Um exemplo em que o modelo prevê erroneamente a classe negativa. Por exemplo, o modelo prevê que uma mensagem de e-mail específica não é spam (a classe negativa), mas essa mensagem de e-mail na verdade é spam.
taxa de falsos negativos
A proporção de exemplos positivos reais para os quais o modelo previu incorretamente a classe negativa. A fórmula a seguir calcula a taxa negativa falsa:
Consulte Limites e a matriz de confusão no Curso intensivo de machine learning para mais informações.
falso positivo (FP)
Um exemplo em que o modelo prevê erroneamente a classe positiva. Por exemplo, o modelo prevê que uma mensagem de e-mail específica é spam (a classe positiva), mas essa mensagem de e-mail na verdade não é spam.
Consulte Limites e a matriz de confusão no Curso intensivo de machine learning para mais informações.
taxa de falso positivo (FPR)
A proporção de exemplos negativos reais para os quais o modelo previu incorretamente a classe positiva. A fórmula a seguir calcula a taxa positiva falsa:
A taxa de falsos positivos é o eixo x em uma curva ROC.
Consulte Classificação: ROC e AUC no Curso intensivo de machine learning para mais informações.
importância dos recursos
Sinônimo de importâncias de variáveis.
fração de sucessos
Uma métrica para avaliar o texto gerado de um modelo de ML. A fração de sucessos é o número de saídas de texto geradas dividido pelo número total de saídas de texto geradas. Por exemplo, se um modelo de linguagem grande gerar 10 blocos de código, sendo que cinco deles tiveram sucesso, a fração de sucessos será de 50%.
Embora a fração de sucessos seja amplamente útil em estatísticas, no ML, essa métrica é útil principalmente para medir tarefas verificáveis, como a geração de código ou problemas matemáticos.
G
impureza de Gini
Uma métrica semelhante à entropia. Os divisores usam valores derivados da impureza de Gini ou da entropia para compor condições para a classificação árvores de decisão. O ganho de informação é derivado da entropia. Não há um termo equivalente universalmente aceito para a métrica derivada da impureza de Gini. No entanto, essa métrica sem nome é tão importante quanto o ganho de informação.
A impureza de Gini também é chamada de índice de Gini ou simplesmente Gini.
Clique no ícone para conferir detalhes matemáticos sobre a impureza de Gini.
H
perda de articulação
Uma família de funções de perda para classificação projetada para encontrar o limite de decisão o mais distante possível de cada exemplo de treinamento, maximizando a margem entre os exemplos e o limite. KSVMs usam a perda de articulação (ou uma função relacionada, como a perda de articulação ao quadrado). Para a classificação binária, a função de perda de articulação é definida da seguinte maneira:
em que y é o rótulo verdadeiro, -1 ou +1, e y' é a saída bruta do modelo de classificador:
Consequentemente, um gráfico de perda de articulação em relação a (y * y') é exibido da seguinte maneira:
I
Incompatibilidade das métricas de imparcialidade
A ideia de que algumas noções de justiça são mutuamente incompatíveis e não podem ser atendidas simultaneamente. Como resultado, não há uma única métrica universal para quantificar a imparcialidade que possa ser aplicada a todos os problemas de ML.
Embora isso possa parecer desanimador, a incompatibilidade das métricas de imparcialidade não implica que os esforços de imparcialidade sejam infrutíferos. Em vez disso, ele sugere que a imparcialidade precisa ser definida contextualmente para um determinado problema de ML, com o objetivo de evitar danos específicos aos casos de uso.
Consulte "Sobre a (im)possibilidade de imparcialidade" para uma discussão mais detalhada sobre a incompatibilidade das métricas de imparcialidade.
imparcialidade individual
Uma métrica de justiça que verifica se indivíduos semelhantes são classificados de forma semelhante. Por exemplo, a Academia Brobdingnagian pode querer satisfazer a justiça individual, garantindo que dois estudantes com notas idênticas e pontuações de teste padronizadas tenham a mesma probabilidade de admissão.
A imparcialidade individual depende inteiramente de como você define "semelhança" (neste caso, notas e pontuações de teste). Você pode correr o risco de introduzir novos problemas de imparcialidade se a métrica de similaridade perder informações importantes, como o rigor do currículo de um estudante.
Consulte "Justiça por consciência" para uma discussão mais detalhada sobre a justiça individual.
ganho de informações
Nas florestas de decisão, a diferença entre a entropia de um nó e a soma ponderada (pelo número de exemplos) da entropia dos nós filhos. A entropia de um nó é a entropia dos exemplos nesse nó.
Por exemplo, considere os seguintes valores de entropia:
- entropia do nó pai = 0,6
- entropia de um nó filho com 16 exemplos relevantes = 0,2
- entropia de outro nó filho com 24 exemplos relevantes = 0,1
Assim, 40% dos exemplos estão em um nó filho e 60% estão no outro nó filho. Assim:
- Soma da entropia ponderada dos nós filhos = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Portanto, o ganho de informação é:
- ganho de informação = entropia do nó pai - soma de entropia ponderada dos nós filhos
- ganho de informação = 0,6 - 0,14 = 0,46
A maioria dos divisores procura criar condições que maximizem o ganho de informações.
concordância entre avaliadores
Uma medida de frequência com que os avaliadores humanos concordam ao realizar uma tarefa. Se os avaliadores discordarem, talvez seja necessário melhorar as instruções da tarefa. Às vezes, também chamada de acordo entre anotadores ou confiabilidade entre avaliadores. Consulte também a kappa de Cohen, que é uma das medidas de concordância entre avaliadores mais conhecidas.
Consulte Dados categóricos: problemas comuns no Curso intensivo de machine learning para mais informações.
L
Perda L1
Uma função de perda que calcula o valor absoluto da diferença entre os valores reais de rótulo e os valores que um modelo prevê. Por exemplo, confira o cálculo da perda de L1 para um lote de cinco exemplos:
Valor real do exemplo | Valor previsto do modelo | Valor absoluto de delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = perda L1 |
A perda L1 é menos sensível a outliers do que a perda L2.
O erro médio absoluto é a perda média de L1 por exemplo.
Clique no ícone para conferir a matemática formal.
Consulte Regressão linear: perda no Curso intensivo de machine learning para mais informações.
Perda L2
Uma função de perda que calcula o quadrado da diferença entre os valores reais do rótulo e os valores que um modelo prevê. Por exemplo, confira o cálculo da perda de L2 para um lote de cinco exemplos:
Valor real do exemplo | Valor previsto do modelo | Quadrado de delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = perda L2 |
Devido ao quadrado, a perda de L2 amplifica a influência de valores discrepantes. Ou seja, a perda L2 reage com mais força a previsões ruins do que a perda L1. Por exemplo, a perda de L1 para o lote anterior seria 8 em vez de 16. Observe que um único valor fora da curva representa 9 dos 16.
Os modelos de regressão geralmente usam a perda L2 como a função de perda.
O erro quadrático médio é a perda L2 média por exemplo. Perda ao quadrado é outro nome para a perda L2.
Clique no ícone para conferir a matemática formal.
Consulte Regressão logística: perda e regularização no Curso intensivo de machine learning para mais informações.
Avaliações de LLM (avaliações)
Um conjunto de métricas e comparativos de mercado para avaliar o desempenho de modelos de linguagem grandes (LLMs). De modo geral, as avaliações de LLMs:
- Ajude os pesquisadores a identificar áreas em que os LLMs precisam de melhorias.
- São úteis para comparar diferentes LLMs e identificar o melhor LLM para uma tarefa específica.
- Ajudar a garantir que os LLMs sejam seguros e éticos.
Consulte Modelos de linguagem grandes (LLMs) no Curso intensivo de machine learning para mais informações.
perda
Durante o treinamento de um modelo supervisionado, uma medida de quão distante a previsão de um modelo está do rótulo.
Uma função de perda calcula a perda.
Consulte Regressão linear: perda no Curso intensivo de machine learning para mais informações.
função de perda
Durante o treinamento ou teste, uma função matemática que calcula a perda em um lote de exemplos. Uma função de perda retorna uma perda menor para modelos que fazem boas previsões do que para modelos que fazem previsões ruins.
O objetivo do treinamento é normalmente minimizar a perda retornada por uma função de perda.
Existem muitos tipos diferentes de funções de perda. Escolha a função de perda adequada para o tipo de modelo que você está criando. Exemplo:
- A perda L (ou erro quadrático médio) é a função de perda da regressão linear.
- Log Loss é a função de perda da regressão logística.
M
Erro médio absoluto (MAE)
A perda média por exemplo quando a perda L1 é usada. Calcule o erro absoluto médio da seguinte maneira:
- Calcule a perda de L1 para um lote.
- Divida a perda de L1 pelo número de exemplos no lote.
Clique no ícone para conferir a matemática formal.
Por exemplo, considere o cálculo da perda de L1 no seguinte lote de cinco exemplos:
Valor real do exemplo | Valor previsto do modelo | Perda (diferença entre o real e o previsto) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = perda L1 |
Portanto, a perda de L1 é 8 e o número de exemplos é 5. Portanto, o erro absoluto médio é:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
Compare o erro médio absoluto com o erro quadrático médio e o raiz do erro quadrático médio.
Precisão média em k (mAP@k)
A média estatística de todas as pontuações de precisão média em k em um conjunto de dados de validação. Um uso da precisão média em k é para julgar a qualidade das recomendações geradas por um sistema de recomendação.
Embora a frase "média da média" pareça redundante, o nome da métrica é apropriado. Afinal, essa métrica encontra a média de vários valores de precisão média em k.
Clique no ícone para conferir um exemplo.
Erro quadrático médio (EQM)
A perda média por exemplo quando a perda L2 é usada. Calcule o erro quadrático médio da seguinte maneira:
- Calcule a perda de L2 para um lote.
- Divida a perda L2 pelo número de exemplos no lote.
Clique no ícone para conferir a matemática formal.
Por exemplo, considere a perda no seguinte lote de cinco exemplos:
Valor real | Previsão do modelo | Perda | Perda quadrática |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = perda L2 |
Portanto, o erro quadrático médio é:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
O erro quadrático médio é um otimizador de treinamento conhecido, principalmente para regressão linear.
Compare o erro quadrático médio com o erro médio absoluto e o raiz do erro quadrático médio.
O TensorFlow Playground usa o erro quadrático médio para calcular os valores de perda.
Clique no ícone para conferir mais detalhes sobre os valores discrepantes.
métrica
Uma estatística importante para você.
Um objetivo é uma métrica que um sistema de aprendizado de máquina tenta otimizar.
API Metrics (tf.metrics)
Uma API do TensorFlow para avaliar modelos. Por exemplo, tf.metrics.accuracy
determina com que frequência as previsões de um modelo correspondem aos rótulos.
perda minimax
Uma função de perda para redes generativas adversariais, com base na entropia cruzada entre a distribuição de dados gerados e dados reais.
A perda minimax é usada no primeiro artigo para descrever redes generativas conflitivas.
Consulte Funções de perda no curso "Redes generativas de adversários" para mais informações.
capacidade do modelo
A complexidade dos problemas que um modelo pode aprender. Quanto mais complexos os problemas que um modelo pode aprender, maior é a capacidade dele. A capacidade de um modelo normalmente aumenta com o número de parâmetros do modelo. Para uma definição formal da capacidade do classificador, consulte Dimensão de VC.
N
classe negativa
Na classificação binária, uma classe é chamada de positiva e a outra é negativa. A classe positiva é a coisa ou o evento que o modelo está testando, e a classe negativa é a outra possibilidade. Exemplo:
- A classe negativa em um teste médico pode ser "não tumor".
- A classe negativa em um classificador de e-mails pode ser "não spam".
Contraste com a classe positiva.
O
objetivo
Uma métrica que o algoritmo está tentando otimizar.
função objetiva
A fórmula matemática ou métrica que um modelo visa otimizar. Por exemplo, a função objetiva de regressão linear geralmente é perda quadrática média. Portanto, ao treinar um modelo de regressão linear, o objetivo é minimizar a perda média quadrática.
Em alguns casos, o objetivo é maximizar a função objetiva. Por exemplo, se a função objetiva for a precisão, o objetivo será maximizar a precisão.
Consulte também loss.
P
cartão em k (pass@k)
Uma métrica para determinar a qualidade do código (por exemplo, Python) que um modelo de linguagem grande gera. Mais especificamente, a passagem em k informa a probabilidade de pelo menos um bloco de código gerado de k passar em todos os testes de unidade.
Os modelos de linguagem grandes costumam ter dificuldade para gerar um bom código para problemas de programação complexos. Os engenheiros de software se adaptam a esse problema solicitando que o modelo de linguagem grande gere várias (k) soluções para o mesmo problema. Em seguida, os engenheiros de software testam cada uma das soluções em relação aos testes de unidade. O cálculo do cartão em k depende do resultado dos testes de unidade:
- Se uma ou mais dessas soluções passarem no teste de unidade, o LLM passa no desafio de geração de código.
- Se nenhuma das soluções passar no teste de unidade, o LLM falha nesse desafio de geração de código.
A fórmula para a passagem em k é a seguinte:
pass at k=total number of passestotal number of challenges
Em geral, valores mais altos de k produzem uma maior aprovação nas pontuações de k. No entanto, valores mais altos de k exigem recursos de modelo de linguagem e teste de unidade maiores.
Clique no ícone para conferir um exemplo.
desempenho
Termo sobrecarregado com os seguintes significados:
- O significado padrão na engenharia de software. Ou seja, com que rapidez (ou eficiência) esse software é executado?
- O significado no aprendizado de máquina. Aqui, a performance responde à seguinte pergunta: quão correto é este modelo? Ou seja, como as previsões do modelo são boas?
importâncias das variáveis de permutação
Um tipo de importância da variável que avalia o aumento no erro de previsão de um modelo depois de trocar os valores do atributo. A importância da variável de permutação é uma métrica independente do modelo.
perplexidade
Uma medida de como um modelo está realizando a tarefa. Por exemplo, suponha que sua tarefa seja ler as primeiras letras de uma palavra que um usuário está digitando no teclado de um smartphone e oferecer uma lista de possíveis palavras de conclusão. A perplexidade, P, para essa tarefa é aproximadamente o número de palpites que você precisa oferecer para que a lista contenha a palavra que o usuário está tentando digitar.
A perplexidade está relacionada à entropia cruzada da seguinte maneira:
classe positiva
A classe que você está testando.
Por exemplo, a classe positiva em um modelo de câncer pode ser "tumor". A classe positiva em um classificador de e-mails pode ser "spam".
Contraste com a classe negativa.
Clique no ícone para ver outras notas.
AUC PR (área sob a curva PR)
Área sob a curva de precisão-recall interpolada, obtida ao representar (recall, precisão) pontos para diferentes valores do limite de classificação.
precision
Uma métrica para modelos de classificação que responde à seguinte pergunta:
Quando o modelo previu a classe positiva, qual porcentagem das previsões estava correta?
Esta é a fórmula:
em que:
- verdadeiro positivo significa que o modelo previu corretamente a classe positiva.
- significa que o modelo previu incorretamente a classe positiva.
Por exemplo, suponha que um modelo fez 200 previsões positivas. Dessas 200 previsões positivas:
- 150 foram verdadeiros positivos.
- 50 foram falsos positivos.
Nesse caso:
Compare com acurácia e recall.
Consulte Classificação: precisão, recall, precisão e métricas relacionadas no Curso intensivo de machine learning para mais informações.
precisão em k (precision@k)
Uma métrica para avaliar uma lista de itens classificados (ordenados). A precisão em k identifica a fração dos primeiros k itens na lista que são "relevantes". Ou seja:
precision at k=relevant items in first k items of the listk
O valor de k precisa ser menor ou igual ao comprimento da lista retornada. O tamanho da lista retornada não faz parte do cálculo.
A relevância é muitas vezes subjetiva. Até mesmo avaliadores humanos experientes muitas vezes discordam sobre quais itens são relevantes.
Comparar com:
Clique no ícone para conferir um exemplo.
curva de precisão/recall
Uma curva de precisão em relação a recall em diferentes limites de classificação.
viés de previsão
Um valor que indica a distância entre a média das previsões e a média dos rótulos no conjunto de dados.
Não confunda com o termo viés em modelos de aprendizado de máquina ou com viés em ética e imparcialidade.
paridade preditiva
Uma métrica de imparcialidade que verifica se, para um determinado classificador, as taxas de precisão são equivalentes para os subgrupos em questão.
Por exemplo, um modelo que prevê a aceitação na faculdade atenderia à paridade preditiva para nacionalidade se a taxa de precisão fosse a mesma para os liliputianos e os brobdingnagianos.
Às vezes, a paridade preditiva também é chamada de paridade de taxa preditiva.
Consulte "Definições de justiça explicadas" (seção 3.2.1) para uma discussão mais detalhada sobre a paridade preditiva.
paridade de taxa preditiva
Outro nome para paridade preditiva.
função da densidade de probabilidade
Uma função que identifica a frequência de amostras de dados com exatamente um valor específico. Quando os valores de um conjunto de dados são números de ponto flutuante contínuos, as correspondências exatas raramente ocorrem. No entanto, integrar uma função de densidade de probabilidade do valor x
ao valor y
gera a frequência esperada de amostras de dados entre x
e y
.
Por exemplo, considere uma distribuição normal com uma média de 200 e um desvio padrão de 30. Para determinar a frequência esperada de amostras de dados no intervalo de 211,4 a 218,7, é possível integrar a função de densidade de probabilidade para uma distribuição normal de 211,4 a 218,7.
R
recall
Uma métrica para modelos de classificação que responde à seguinte pergunta:
Quando a informação real era a classe positiva, qual porcentagem de previsões o modelo identificou corretamente como a classe positiva?
Esta é a fórmula:
Recall=true positivestrue positives+false negatives
em que:
- verdadeiro positivo significa que o modelo previu corretamente a classe positiva.
- significa que o modelo previu incorretamente a classe negativa.
Por exemplo, suponha que seu modelo fez 200 previsões em exemplos em que a informação empírica era a classe positiva. Dessas 200 previsões:
- 180 foram verdadeiros positivos.
- 20 foram falsos negativos.
Nesse caso:
Recall=180180+20=0.9
Clique no ícone para ver notas sobre conjuntos de dados não balanceados.
Consulte Classificação: precisão, recall, precisão e métricas relacionadas para mais informações.
recall at k (recall@k)
Uma métrica para avaliar sistemas que geram uma lista classificada (ordenada) de itens. A recuperação em k identifica a fração de itens relevantes nos primeiros k itens dessa lista do número total de itens relevantes retornados.
recall at k=relevant items in first k items of the listtotal number of relevant items in the list
Contraste com precisão em k.
Clique no ícone para conferir um exemplo.
Curva ROC
Um gráfico de taxa de verdadeiro positivo em comparação com a taxa de falso positivo para diferentes limites de classificação na classificação binária.
A forma de uma curva ROC sugere a capacidade de um modelo de classificação binária de separar classes positivas de classes negativas. Suponha, por exemplo, que um modelo de classificação binária separe perfeitamente todas as classes negativas de todas as classes positivas:
A curva ROC para o modelo anterior é assim:
Em contraste, a ilustração a seguir mostra os valores da regressão logística bruta para um modelo ruim que não consegue separar classes negativas de classes positivas:
A curva ROC desse modelo é a seguinte:
Enquanto isso, no mundo real, a maioria dos modelos de classificação binária separa as classes positivas e negativas até certo ponto, mas geralmente não de forma perfeita. Portanto, uma curva ROC típica fica entre os dois extremos:
O ponto em uma curva ROC mais próximo de (0,0,1,0) identifica teoricamente o limite de classificação ideal. No entanto, vários outros problemas reais influenciam a seleção do limite de classificação ideal. Por exemplo, talvez os falsos negativos causem muito mais dor do que os falsos positivos.
Uma métrica numérica chamada AUC resume a curva ROC em um único valor de ponto flutuante.
Raiz do erro quadrático médio (RMSE)
A raiz quadrada do erro quadrático médio.
Subestudo orientado para recordação para avaliação Gisting (ROUGE, na sigla em inglês)
Uma família de métricas que avalia modelos de resumo automático e tradução automática. As métricas ROUGE determinam o grau em que um texto de referência se sobrepõe ao texto gerado de um modelo de ML. Cada membro da família ROUGE mede a sobreposição de maneira diferente. Pontuações ROUGE mais altas indicam mais semelhança entre o texto de referência e o texto gerado do que pontuações ROUGE mais baixas.
Cada membro da família ROUGE geralmente gera as seguintes métricas:
- Precisão
- Recall
- F1
Para detalhes e exemplos, consulte:
ROUGE-L
Um membro da família ROUGE focado no comprimento da maior subsequência comum no texto de referência e texto gerado. As fórmulas a seguir calculam o recall e a precisão do ROUGE-L:
Em seguida, use F1 para agrupar a precisão e o recall do ROUGE-L em uma única métrica:
Clique no ícone para conferir um exemplo de cálculo de ROUGE-L.
O ROUGE-L ignora todos os novos-linhas no texto de referência e no texto gerado. Assim, a maior subsequência comum pode cruzar várias frases. Quando o texto de referência e o texto gerado envolvem várias frases, uma variação de ROUGE-L chamada ROUGE-Lsum geralmente é uma métrica melhor. O ROUGE-Lsum determina a maior subsequência comum de cada frase em uma passagem e calcula a média dessas subsequências comuns mais longas.
Clique no ícone para conferir um exemplo de cálculo de ROUGE-Lsum.
ROUGE-N
Um conjunto de métricas na família ROUGE que compara os n-gramas compartilhados de um determinado tamanho no texto de referência e no texto gerado. Exemplo:
- ROUGE-1 mede o número de tokens compartilhados no texto de referência e no texto gerado.
- O ROUGE-2 mede o número de bigramas (2-gramas) compartilhados no texto de referência e no texto gerado.
- O ROUGE-3 mede o número de trigramas (3-gramas) compartilhados no texto de referência e no texto gerado.
Você pode usar as fórmulas abaixo para calcular a precisão e a recuperação do ROUGE-N para qualquer membro da família ROUGE-N:
Em seguida, use F1 para agrupar a precisão ROUGE-N e a precisão ROUGE-N em uma única métrica:
Clique no ícone para conferir um exemplo.
ROUGE-S
Uma forma tolerante de ROUGE-N que permite a correspondência de skip-gram. Ou seja, o ROUGE-N só conta N-grams que correspondem exatamente, mas o ROUGE-S também conta N-grams separados por uma ou mais palavras. Por exemplo, considere o seguinte:
- texto de referência: nuvens brancas
- Texto gerado: nuvens brancas
Ao calcular o ROUGE-N, o 2-gram White clouds não corresponde a White billowing clouds. No entanto, ao calcular o ROUGE-S, nuvens brancas correspondem a nuvens brancas infladas.
R ao quadrado
Uma métrica de regressão que indica a variação em um rótulo devido a um recurso individual ou a um conjunto de recursos. O R2 é um valor entre 0 e 1, que pode ser interpretado da seguinte maneira:
- Um R-quadrado de 0 significa que nenhuma variação de um rótulo é devido ao conjunto de recursos.
- Um R-quadrado de 1 significa que toda a variação de um rótulo se deve ao conjunto de recursos.
- Um R-quadrado entre 0 e 1 indica até que ponto a variação do rótulo pode ser prevista com base em um atributo específico ou no conjunto de atributos. Por exemplo, um R-quadrado de 0, 10 significa que 10% da variância no rótulo é devido ao conjunto de recursos. Um R-quadrado de 0, 20 significa que 20% é devido ao conjunto de recursos e assim por diante.
R-quadrado é o quadrado do coeficiente de correlação de Pearson entre os valores que um modelo previu e a informações empíricas.
S
em lote
Parte de um sistema de recomendação que fornece um valor ou classificação para cada item produzido pela fase de geração de candidatos.
medida de similaridade
Em algoritmos de agrupamento, a métrica usada para determinar o quanto dois exemplos são semelhantes.
escassez
O número de elementos definidos como zero (ou nulo) em um vetor ou matriz dividido pelo número total de entradas nesse vetor ou matriz. Por exemplo, considere uma matriz de 100 elementos em que 98 células contêm zero. O cálculo da esparsidade é o seguinte:
A esparsidade de atributos se refere à sparsidade de um vetor de atributos. A esparsidade do modelo se refere à sparsidade dos pesos do modelo.
perda de articulação quadrática
O quadrado da perda de articulação. A perda de articulação quadrática penaliza valores discrepantes de forma mais severa do que a perda de articulação regular.
perda quadrática
Sinônimo de perda L2.
T
perda de teste
Uma métrica que representa a perda de um modelo em relação ao conjunto de teste. Ao criar um modelo, você normalmente tenta minimizar a perda de teste. Isso acontece porque uma perda de teste baixa é um indicador de qualidade mais forte do que uma perda de treinamento ou perda de validação baixa.
Uma grande diferença entre a perda de teste e a perda de treinamento ou de validação às vezes sugere que você precisa aumentar a taxa de regularização.
acurácia top-k
É a porcentagem de vezes que um "rótulo de destino" aparece nas primeiras k posições das listas geradas. As listas podem ser recomendações personalizadas ou uma lista de itens ordenados por softmax.
A precisão Top-k também é conhecida como precisão em k.
Clique no ícone para conferir um exemplo.
conteúdo tóxico
O grau em que o conteúdo é abusivo, ameaçador ou ofensivo. Muitos modelos de machine learning podem identificar e medir a toxicidade. A maioria desses modelos identifica a toxicidade em vários parâmetros, como o nível de linguagem abusiva e o nível de linguagem ameaçadora.
perda do treinamento
Uma métrica que representa a perda de um modelo durante uma iteração de treinamento específica. Por exemplo, suponha que a função de perda seja erro quadrático médio. Talvez a perda de treinamento (o erro quadrado médio) da 10ª iteração seja 2,2, e a perda de treinamento da 100ª iteração seja 1,9.
Uma curva de perda mostra a perda de treinamento em relação ao número de iterações. Uma curva de perda fornece as seguintes dicas sobre o treinamento:
- Uma inclinação para baixo implica que o modelo está melhorando.
- Uma inclinação para cima implica que o modelo está piorando.
- Uma inclinação plana implica que o modelo alcançou a convergência.
Por exemplo, a curva de perda a seguir mostra:
- Uma inclinação acentuada para baixo durante as iterações iniciais, o que implica uma melhoria rápida do modelo.
- Uma inclinação gradualmente plana (mas ainda para baixo) até o fim do treinamento, o que implica a melhoria contínua do modelo em um ritmo mais lento do que durante as iterações iniciais.
- Uma inclinação plana no final do treinamento, o que sugere convergência.
Embora a perda de treinamento seja importante, consulte também a generalização.
verdadeiro negativo (VN)
Um exemplo em que o modelo prevê corretamente a classe negativa. Por exemplo, o modelo infere que uma mensagem de e-mail específica não é spam e que ela realmente não é spam.
verdadeiro positivo (VP)
Um exemplo em que o modelo prevê corretamente a classe positiva. Por exemplo, o modelo infere que uma mensagem de e-mail específica é spam e que ela realmente é spam.
taxa de verdadeiro positivo (TPR)
Sinônimo de recall. Ou seja:
A taxa de verdadeiro positivo é o eixo y em uma curva ROC.
V
perda de validação
Uma métrica que representa a perda de um modelo no conjunto de validação durante uma iteração específica do treinamento.
Consulte também curva de generalização.
importância das variáveis
Um conjunto de pontuações que indica a importância relativa de cada recurso para o modelo.
Por exemplo, considere uma árvore de decisão que estima os preços das casas. Suponha que essa árvore de decisão use três características: tamanho, idade e estilo. Se um conjunto de importâncias de variáveis para os três atributos for calculado como {size=5.8, age=2.5, style=4.7}, o tamanho será mais importante para a árvore de decisão do que a idade ou o estilo.
Existem diferentes métricas de importância de variáveis, que podem informar especialistas em aprendizado de máquina sobre diferentes aspectos dos modelos.
W
Perda de Wasserstein
Uma das funções de perda comumente usadas em redes generativas adversariais, com base na distância de movimentação da Terra entre a distribuição de dados gerados e dados reais.