Limites e a matriz de confusão

Digamos que você tenha um modelo de regressão logística para detecção de e-mails de spam que prevê um valor entre 0 e 1, representando a probabilidade de um determinado e-mail é spam. Uma previsão de 0,50 significa uma probabilidade de 50% de que o e-mail seja uma previsão de 0, 75 significa 75% de probabilidade de que o e-mail seja spam, e assim por diante.

Você quer implantar este modelo em um aplicativo de e-mail para filtrar spam uma pasta de e-mail separada. Mas, para isso, você precisa converter os dados brutos saída numérica (por exemplo, 0.75) em uma destas duas categorias: "spam" ou "não spam".

Para realizar essa conversão, você escolhe um limite de probabilidade, chamado de limite de classificação. Os exemplos com uma probabilidade acima do valor limite são atribuídos para a classe positiva, a classe que você está testando (aqui, spam). Exemplos com menor probabilidade são atribuídas à classe negativa, a classe alternativa (aqui, not spam).

Clique aqui para mais detalhes sobre o limiar de classificação

Você pode estar se perguntando: o que acontece se a pontuação prevista for igual a o limiar de classificação (por exemplo, uma pontuação de 0,5 em que o limiar de classificação também é 0,5)? Tratamento para este caso depende da implementação específica escolhida para a classificação um modelo de machine learning. Por exemplo, o Keras a biblioteca vai prever a classe negativa se a pontuação e o limite são iguais, mas outras ferramentas/frameworks podem lidar com esse caso de maneiras diferentes.

Por exemplo, suponha que o modelo pontua um e-mail como 0,99, prevendo esse e-mail tem 99% de chance de ser spam e outro e-mail como 0,51, o que significa que tem 51% de chance de ser spam. Se você definir o limiar de classificação como 0,5, o modelo classificará os dois e-mails como spam. Se você definir o limite como 0,95, apenas o e-mail com pontuação de 0,99 de spam.

Embora 0,5 possa parecer um limite intuitivo, não é uma boa ideia se o custo de um tipo de classificação errada for maior do que o outro, ou se o ou as classes estiverem desequilibradas. Se apenas 0, 01% dos e-mails forem spam ou se houver erros de preenchimento e-mails legítimos é pior do que deixar spam na caixa de entrada, rotulando tudo o que o modelo considera pelo menos 50% provável como spam já que o spam produz resultados indesejáveis.

Matriz de confusão

a pontuação de probabilidade não for real; ou informações empíricas. Há quatro resultados possíveis para cada saída de um classificador binário. Para o exemplo do classificador de spam, se você apresentar as informações empíricas como colunas e a previsão do modelo como linhas, a tabela a seguir, chamada matriz de confusão, é a resultado:

Verdadeiro positivo Negativo real
Previsão de resultado positivo Verdadeiro positivo (VP): é um spam. de e-mail classificado corretamente como um e-mail de spam. Estas são as mensagens de spam enviados automaticamente para a pasta de spam. Falso positivo (FP): um e-mail que não é spam classificado incorretamente como spam. Estes são os e-mails legítimos que vão para a pasta de spam.
Negativo previsto Falso negativo (FN): um e-mail de spam classificado incorretamente como "não é spam". Esses itens são spam e-mails que não são pegados pelo filtro de spam e chegam à caixa de entrada. Verdadeiro negativo (VN): A e-mail não spam classificado corretamente como não spam. Estes são os e-mails legítimos enviados diretamente na caixa de entrada.

O total em cada linha fornece todos os positivos previstos (VP + FP) e todos os negativos previstos (FN + TN), independentemente da validade. O total em cada fornece todos os positivos reais (VP + FN) e todos os negativos reais (FP + TN) independentemente da classificação do modelo.

Quando o total de positivos reais não é próximo do total dos positivos reais negativos, o conjunto de dados é desequilibrado. Uma instância de um conjunto de dados desequilibrado pode ser um conjunto de milhares de fotos de nuvens, em que o tipo de nuvem raro em que você está interessado, por exemplo, nuvens volutas, aparece apenas algumas vezes.

Efeito do limite sobre verdadeiros e falsos positivos e negativos

Limites diferentes normalmente resultam em números diferentes de verdadeiro e falso positivos e verdadeiros e falsos negativos. O vídeo a seguir explica por que isso é o caso.

Tente mudar o limite por conta própria.

Este widget inclui três conjuntos de dados de brinquedo:

  • Separados, em que exemplos positivos e negativos são geralmente bem diferenciado, com a maioria dos exemplos positivos tendo pontuações maiores do que exemplos negativos.
  • Não separados, em que muitos exemplos positivos têm pontuações menores do que exemplos negativos e muitos exemplos negativos têm pontuações mais altas do que exemplos positivos.
  • Desequilíbrio, contendo apenas alguns exemplos da classe positiva.

Teste seu conhecimento

1. Imagine um modelo de classificação de phishing ou malware em que sites de phishing e malware estão na classe rotulada como 1 (verdadeiro) e sites inofensivos estão na classe rotulada como 0 (falso). Este modelo classifica erroneamente um site legítimo como malware. Como isso é chamado?
Falso positivo
Um exemplo negativo (site legítimo) foi erroneamente classificado como um exemplo positivo (site com malware).
Um verdadeiro positivo
Um verdadeiro positivo seria um site com malware, classificados como malware.
Um falso negativo
Um falso negativo seria um site com malware incorretamente classificados como sites legítimos.
Um verdadeiro negativo
Um verdadeiro negativo seria um site legítimo corretamente. classificados como sites legítimos.
2. Em geral, o que acontece com o número de falsos positivos quando o o limiar de classificação aumenta? E quanto aos verdadeiros positivos? Experimento com o controle deslizante acima.
Os verdadeiros e falsos positivos diminuem.
À medida que o limite aumenta, o modelo provavelmente vai prever menos positivos no geral, tanto verdadeiros quanto falsos. Um classificador de spam com um com limite de .9999 só vai marcar um e-mail como spam se considerar o com pelo menos 99,99% de probabilidade, o que significa que é provavelmente não rotulará incorretamente um e-mail legítimo, e-mail de spam.
Os verdadeiros e falsos positivos aumentam.
Usando o controle deslizante acima, tente definir o limite como 0,1, e arrastá-la para 0,9. O que acontece com o número de falsos positivos e verdadeiros positivos?
Os verdadeiros positivos aumentam. Os falsos positivos diminuem.
Usando o controle deslizante acima, tente definir o limite como 0,1, e arrastá-la para 0,9. O que acontece com o número de falsos positivos e verdadeiros positivos?
3. Em geral, o que acontece com o número de falsos negativos quando a o limiar de classificação aumenta? E os verdadeiros negativos? Experimento com o controle deslizante acima.
Os verdadeiros e falsos negativos aumentam.
À medida que o limite aumenta, o modelo provavelmente vai prever mais negativos no geral, verdadeiros e falsos. Em um limite muito alto, quase todos os e-mails, tanto spam quanto não spam, serão classificados como não spam.
Os verdadeiros e falsos negativos diminuem.
Usando o controle deslizante acima, tente definir o limite como 0,1, e arrastá-la para 0,9. O que acontece com o número de falsos negativos e verdadeiros negativos?
Os verdadeiros negativos aumentam. Os falsos negativos diminuem.
Usando o controle deslizante acima, tente definir o limite como 0,1, e arrastá-la para 0,9. O que acontece com o número de falsos negativos e verdadeiros negativos?