Regressão logística: perda e regularização

Regressão logística são treinados usando o mesmo processo regressão linear com duas distinções principais:

As seções a seguir discutem essas duas considerações com mais detalhes.

Log Perda

No módulo de regressão linear, você usou a perda ao quadrado (também chamada de L2) como função de perda. A perda quadrática funciona bem para um modelo em que a taxa de mudança dos valores de saída é constante. Por exemplo: considerando o modelo linear $y' = b + 3x_1$, sempre que você incrementar a entrada valor $x_1$ por 1, o valor de saída $y'$ aumenta em 3.

No entanto, a taxa de mudança de um modelo de regressão logística não é constante. Como você viu em Como calcular uma probabilidade, os A curva sigmoide tem formato em s em vez de linear. Quando o valor do log-chance ($z$) está mais próximo de 0, aumentos em $z$ resultam em mudanças muito maiores em $y$ do que quando $z$ é um valor grande positivo ou negativo. A tabela a seguir mostra os atributos saída para valores de entrada de 5 a 10, bem como a precisão correspondente necessárias para capturar as diferenças nos resultados.

entrada saída logística dígitos de precisão necessários
5 0,993 3
6 0,997 3
7 0,999 3
8 0,9997 4
9 0,9999 4
10 0,99998 5

Se você usou a perda quadrática para calcular erros para a função sigmoide, como o a saída ficava cada vez mais perto de 0 e 1, você precisaria de mais memória para preservar a precisão necessária para rastrear esses valores.

Em vez disso, a função de perda para regressão logística é Log Perda. O A equação de perda de registro retorna o logaritmo da magnitude da mudança, em do que apenas a distância dos dados até a previsão. Log Perda é calculado como segue:

\(\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')\)

em que:

  • \((x,y)\in D\) é o conjunto de dados que contém muitos exemplos rotulados, que são \((x,y)\) pares.
  • \(y\) é o rótulo em um exemplo rotulado. Como isso é regressão logística, todos os valores de \(y\) precisam ser zero ou um.
  • \(y'\) é a previsão do modelo (entre 0 e 1), segundo o conjunto de recursos no \(x\).

Regularização na regressão logística

Regularização, um mecanismo para penalizar a complexidade do modelo durante o treinamento é extremamente importante na logística modelos de regressão. Sem a regularização, a natureza assintótica da logística regressão continuaria gerando perdas em direção a 0 nos casos em que o modelo tem um grande número de atributos. Consequentemente, a maioria dos modelos de regressão logística usa das duas estratégias a seguir para diminuir a complexidade do modelo:

  • Regularização de L2
  • Parada antecipada: Limitar o número de etapas de treinamento para interromper o treinamento enquanto a perda é continua diminuindo.
.