Muitos problemas exigem uma estimativa de probabilidade como saída. A regressão logística é um mecanismo extremamente eficiente para calcular probabilidades. Na prática é possível usar a probabilidade retornada em uma das opções duas maneiras:
Aplicação "tal qual". Por exemplo, se um modelo de previsão de spam usa um e-mail como entrada e gera um valor de
0.932
, isso implica uma probabilidade93.2%
de que o e-mail é spam.Convertida a uma categoria binária como
True
ouFalse
,Spam
ouNot Spam
.
Este módulo se concentra no uso da saída do modelo de regressão logística como está. No módulo de classificação, você vai aprender a converter essa saída em uma categoria binária.
Função sigmoide
Talvez você esteja se perguntando como um modelo de regressão logística pode garantir que a saída represente uma probabilidade, sempre gerando um valor entre 0 e 1. Como acontece, há uma família de funções chamadas funções logísticas cujas saídas têm as mesmas características. A função logística padrão, também conhecida como função sigmoide (sigmoide significa "em forma de s"), tem a fórmula:
A Figura 1 mostra o gráfico correspondente da função sigmoide.

À medida que a entrada, x
, aumenta, a saída da função sigmoide se aproxima
mas nunca chega a 1
. Da mesma forma, à medida que a entrada diminui, a saída da função sigmoide se aproxima, mas nunca chega a 0
.
Clique aqui para saber mais sobre matemática por trás da função sigmoide
A tabela abaixo mostra os valores de saída da função sigmoide para valores de entrada no intervalo de –7 a 7. Observe a rapidez com que o sigmoide se aproxima 0 para diminuir valores de entrada negativos e a rapidez com que o sigmoide se aproxima 1 para aumentar os valores de entrada positivos.
No entanto, não importa o tamanho do valor de entrada, a saída será sempre maior que 0 e menor que 1.
Entrada | Saída sigmoide |
---|---|
-7 | 0,001 |
-6 | 0,002 |
-5 | 0,007 |
-4 | 0,018 |
-3 | 0,047 |
-2 | 0,119 |
-1 | 0,269 |
0 | 0,50 |
1 | 0,731 |
2 | 0,881 |
3 | 0,952 |
4 | 0,982 |
5 | 0,993 |
6 | 0,997 |
7 | 0,999 |
Como transformar a saída linear usando a função sigmoide
A equação a seguir representa o componente linear de uma logística modelo de regressão:
em que:
- z é a saída da equação linear, também chamada de log probabilidades.
- b é a polaridade.
- Os valores w são os pesos aprendidos do modelo.
- Os valores x são os valores de atributo de um exemplo específico.
Para receber a previsão de regressão logística, o valor z é transmitido para a função sigmoide, gerando um valor (uma probabilidade) entre 0 e 1:
em que:
- y' é a saída do modelo de regressão logística.
- z é a saída linear (conforme calculado na equação anterior).
Clique aqui para saber mais sobre odds lógicas
Na equação , z é chamado de log-odds porque, se você começar com o seguinte função sigmoide (em que é a saída de um valor modelo de regressão, que representa uma probabilidade):
E resolva para z:
Então, z é definido como o registro da razão das probabilidades dos dois resultados possíveis: y e 1 – y.
A Figura 2 ilustra como a saída linear é transformada em regressão logística saída usando esses cálculos.

Na Figura 2, uma equação linear se torna a entrada da função sigmoide, que curva a linha reta em forma de S. Observe que a equação linear pode produzir valores muito grandes ou muito pequenos de z, mas a saída do sigmoide função y', está sempre entre 0 e 1, excluindo estes dois valores. Por exemplo, o amarelo no gráfico à esquerda tem um valor z de -10, mas a função sigmoide na o gráfico à direita mapeia que -10 em um y de 0,00004.
Exercício: testar seu conhecimento
Um modelo de regressão logística com três atributos tem os seguintes vieses e pesos:
Considerando os seguintes valores de entrada:
Responda às duas perguntas a seguir.