Digamos que você tenha um modelo de regressão logística para detecção de e-mails de spam que prevê um valor entre 0 e 1, representando a probabilidade de um determinado e-mail é spam. Uma previsão de 0,50 significa uma probabilidade de 50% de que o e-mail seja uma previsão de 0, 75 significa 75% de probabilidade de que o e-mail seja spam, e assim por diante.
Você quer implantar este modelo em um aplicativo de e-mail para filtrar spam
uma pasta de e-mail separada. Mas, para isso, você precisa converter os dados brutos
saída numérica (por exemplo, 0.75
) em uma destas duas categorias: "spam" ou "não
spam".
Para realizar essa conversão, você escolhe um limite de probabilidade, chamado de
limite de classificação.
Os exemplos com uma probabilidade acima do valor limite são atribuídos
para a classe positiva,
a classe que você está testando (aqui, spam
). Exemplos com menor
probabilidade são atribuídas à classe negativa,
a classe alternativa (aqui, not spam
).
Clique aqui para mais detalhes sobre o limiar de classificação
Você pode estar se perguntando: o que acontece se a pontuação prevista for igual a o limiar de classificação (por exemplo, uma pontuação de 0,5 em que o limiar de classificação também é 0,5)? Tratamento para este caso depende da implementação específica escolhida para a classificação um modelo de machine learning. Por exemplo, o Keras a biblioteca vai prever a classe negativa se a pontuação e o limite são iguais, mas outras ferramentas/frameworks podem lidar com esse caso de maneiras diferentes.
Por exemplo, suponha que o modelo pontua um e-mail como 0,99, prevendo esse e-mail tem 99% de chance de ser spam e outro e-mail como 0,51, o que significa que tem 51% de chance de ser spam. Se você definir o limiar de classificação como 0,5, o modelo classificará os dois e-mails como spam. Se você definir o limite como 0,95, apenas o e-mail com pontuação de 0,99 de spam.
Embora 0,5 possa parecer um limite intuitivo, não é uma boa ideia se o custo de um tipo de classificação errada for maior do que o outro, ou se o ou as classes estiverem desequilibradas. Se apenas 0, 01% dos e-mails forem spam ou se houver erros de preenchimento e-mails legítimos é pior do que deixar spam na caixa de entrada, rotulando tudo o que o modelo considera pelo menos 50% provável como spam já que o spam produz resultados indesejáveis.
Matriz de confusão
a pontuação de probabilidade não for real; ou informações empíricas. Há quatro resultados possíveis para cada saída de um classificador binário. Para o exemplo do classificador de spam, se você apresentar as informações empíricas como colunas e a previsão do modelo como linhas, a tabela a seguir, chamada matriz de confusão, é a resultado:
Verdadeiro positivo | Negativo real | |
---|---|---|
Previsão de resultado positivo | Verdadeiro positivo (VP): é um spam. de e-mail classificado corretamente como um e-mail de spam. Estas são as mensagens de spam enviados automaticamente para a pasta de spam. | Falso positivo (FP): um e-mail que não é spam classificado incorretamente como spam. Estes são os e-mails legítimos que vão para a pasta de spam. |
Negativo previsto | Falso negativo (FN): um e-mail de spam classificado incorretamente como "não é spam". Esses itens são spam e-mails que não são pegados pelo filtro de spam e chegam à caixa de entrada. | Verdadeiro negativo (VN): A e-mail não spam classificado corretamente como não spam. Estes são os e-mails legítimos enviados diretamente na caixa de entrada. |
O total em cada linha fornece todos os positivos previstos (VP + FP) e todos os negativos previstos (FN + TN), independentemente da validade. O total em cada fornece todos os positivos reais (VP + FN) e todos os negativos reais (FP + TN) independentemente da classificação do modelo.
Quando o total de positivos reais não é próximo do total dos positivos reais negativos, o conjunto de dados é desequilibrado. Uma instância de um conjunto de dados desequilibrado pode ser um conjunto de milhares de fotos de nuvens, em que o tipo de nuvem raro em que você está interessado, por exemplo, nuvens volutas, aparece apenas algumas vezes.
Efeito do limite sobre verdadeiros e falsos positivos e negativos
Limites diferentes normalmente resultam em números diferentes de verdadeiro e falso positivos e verdadeiros e falsos negativos. O vídeo a seguir explica por que isso é o caso.
Tente mudar o limite por conta própria.
Este widget inclui três conjuntos de dados de brinquedo:
- Separados, em que exemplos positivos e negativos são geralmente bem diferenciado, com a maioria dos exemplos positivos tendo pontuações maiores do que exemplos negativos.
- Não separados, em que muitos exemplos positivos têm pontuações menores do que exemplos negativos e muitos exemplos negativos têm pontuações mais altas do que exemplos positivos.
- Desequilíbrio, contendo apenas alguns exemplos da classe positiva.