Regressione logistica vengono addestrati utilizzando lo stesso processo regressione lineare di grandi dimensioni, con due distinzioni chiave:
- I modelli di regressione logistica utilizzano Registra perdita come funzione di perdita anziché la perdita al quadrato.
- Applicazione della regolarizzazione è fondamentale per prevenire overfitting.
Le sezioni seguenti trattano queste due considerazioni in modo più approfondito.
Log Loss
Nel modulo Regressione lineare, è stata utilizzata la perdita quadrata (detta anche L2) come funzione di perdita. La perdita quadratica funziona bene per una linea in cui il tasso di variazione dei valori di output è costante. Ad esempio: in base al modello lineare $y' = b + 3x_1$, ogni volta che aumenti l'input valore $x_1$ di 1, il valore di output $y'$ aumenta di 3.
Tuttavia, il tasso di variazione di un modello di regressione logistica non è costante. Come hai visto in Calcolo di una probabilità, La curva sigmoidale è a forma di S piuttosto che lineari. Quando il valore log-odds ($z$) è più vicino a 0, valore piccolo aumenta di $z$ determina variazioni molto più significative in $y$ rispetto a quando $z$ corrisponde a un numero positivo o negativo. La seguente tabella mostra la funzione sigmoidea per i valori di input da 5 a 10, nonché la precisione corrispondente necessario per acquisire le differenze nei risultati.
input | output logistico | cifre di precisione richieste |
---|---|---|
5 | 0,993 | 3 |
6 | 0,997 | 3 |
7 | 0,999 | 3 |
8 | 0,9997 | 4 |
9 | 0,9999 | 4 |
10 | 0,99998 | 5 |
Se hai utilizzato la perdita quadratica per calcolare gli errori per la funzione sigmoidea, come
l'output si è avvicinato sempre di più a 0
e 1
, occorreva più memoria per
di conservare la precisione necessaria per monitorare questi valori.
Invece, la funzione di perdita per la regressione logistica Registra perdita. La L'equazione di perdita logaritmica restituisce il logaritmo della grandezza della variazione, anziché che non sia solo la distanza dai dati alla previsione. La perdita logaritmica viene calcolata come segue: che segue:
\(\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')\)
dove:
- \((x,y)\in D\) è il set di dati contenente molti esempi etichettati, che sono \((x,y)\) coppie.
- \(y\) è l'etichetta in un esempio etichettato. Poiché si tratta di regressione logistica, ogni valore di \(y\) deve essere 0 o 1.
- \(y'\) è la previsione del modello (da 0 a 1), in base alla serie di funzionalità in \(x\).
Regolarizzazione nella regressione logistica
Regolarizzazione, un meccanismo per che penalizza la complessità del modello durante l'addestramento, è estremamente importante in ambito logistico modelli di regressione lineare. Senza la regolarizzazione, la natura asintotica della logistica una regressione continuerebbe a portare la perdita verso 0 nei casi in cui il modello abbia molte caratteristiche. Di conseguenza, la maggior parte dei modelli di regressione logistica utilizza delle due strategie seguenti per ridurre la complessità del modello:
- Regolarizzazione L2
- Interruzione anticipata: La limitazione del numero di passaggi per interrompere l'addestramento in caso di perdita continuano a diminuire.