Regresi logistik model dilatih menggunakan proses yang sama dengan regresi linear khusus, dengan dua perbedaan utama:
- Model regresi logistik digunakan Kerugian Log sebagai fungsi kerugian bukan kerugian kuadrat.
- Menerapkan regularisasi sangat penting untuk mencegah overfitting.
Bagian berikut membahas kedua pertimbangan ini secara lebih mendalam.
Kehilangan Catatan
Dalam Modul regresi linear, Anda menggunakan kerugian kuadrat (juga disebut L2 (kerugian) sebagai fungsi kerugian. Kerugian kuadrat berfungsi baik untuk di mana laju perubahan nilai output konstan. Misalnya, dengan model linear $y' = b + 3x_1$, setiap kali Anda menambahkan input nilai $x_1$ sebesar 1, nilai {i>output<i} $y'$ meningkat 3.
Namun, laju perubahan model regresi logistik tidak konstan. Seperti yang Anda lihat dalam Menghitung probabilitas, Kurva sigmoid berbentuk s dan bukan linear. Ketika nilai log-peluang ($z$) lebih dekat ke 0, kecil peningkatan $z$ menghasilkan perubahan yang jauh lebih besar terhadap $y$ dibandingkan saat $z$ adalah positif atau negatif. Tabel berikut menunjukkan fungsi sigmoid output untuk nilai input dari 5 hingga 10, serta presisi yang sesuai yang diperlukan untuk menangkap perbedaan dalam hasil.
input | output logistik | digit presisi yang diperlukan |
---|---|---|
5 | 0,993 | 3 |
6 | 0,997 | 3 |
7 | 0,999 | 3 |
8 | 0,9997 | 4 |
9 | 0,9999 | 4 |
10 | 0,99998 | 5 |
Jika Anda menggunakan kerugian kuadrat untuk
menghitung kesalahan fungsi sigmoid, sebagai
output semakin mendekati 0
dan 1
, Anda akan memerlukan lebih banyak memori untuk
mempertahankan presisi yang diperlukan untuk melacak nilai ini.
Sebaliknya, fungsi kerugian untuk regresi logistik Kehilangan Log. Tujuan Persamaan Kerugian Log mengembalikan logaritma besaran perubahan, bukan dari sekedar jarak dari data ke prediksi. Kerugian Log dihitung sebagai berikut ini:
\(\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')\)
dalam hal ini:
- \((x,y)\in D\) adalah set data yang berisi banyak contoh berlabel, yang \((x,y)\) pasang.
- \(y\) adalah label dalam contoh berlabel. Karena ini adalah regresi logistik, setiap nilai \(y\) harus 0 atau 1.
- \(y'\) adalah prediksi model Anda (antara 0 dan 1), berdasarkan set di \(x\).
Regularisasi dalam regresi logistik
Regularisasi, sebuah mekanisme untuk menghukum kompleksitas model selama pelatihan, sangat penting dalam logistik pemodelan regresi. Tanpa regularisasi, sifat logistik yang asimtotik regresi akan terus mendorong kerugian menuju 0 jika model tersebut memiliki sejumlah besar fitur. Akibatnya, sebagian besar model regresi logistik menggunakan satu dari dua strategi berikut untuk mengurangi kompleksitas model:
- Regularisasi L2
- Penghentian awal: Membatasi jumlah langkah pelatihan untuk menghentikan pelatihan saat kerugian masih menurun.