Dalam masalah regresi, sebaiknya tentukan error bertanda sebagai perbedaan antara prediksi dan label. Namun, dalam jenis masalah lain, strategi ini sering kali menghasilkan hasil yang buruk. Strategi yang lebih baik yang digunakan dalam gradient boosting adalah:
- Tentukan fungsi kerugian yang mirip dengan fungsi kerugian yang digunakan dalam jaringan neural. Misalnya, entropi (juga dikenal sebagai log loss) untuk masalah klasifikasi.
- Latih model lemah untuk memprediksi gradien kerugian sesuai dengan output model yang kuat.
Secara formal, dengan fungsi kerugian $L(y,p)$ dengan $y$ adalah label dan $p$ adalah prediksi, respons pseudo $z_i$ yang digunakan untuk melatih model lemah pada langkah $i$ adalah:
dalam hal ini:
- $F_i$ adalah prediksi model kuat.
Contoh sebelumnya adalah masalah regresi: Tujuannya adalah untuk memprediksi nilai numerik. Dalam kasus regresi, error kuadrat adalah fungsi kerugian umum:
Dalam hal ini, gradiennya adalah:
Dengan kata lain, gradien adalah error bertanda dari contoh kita dengan faktor 2. Perhatikan bahwa faktor konstan tidak penting karena penyusutan. Perhatikan bahwa kesetaraan ini hanya berlaku untuk masalah regresi dengan rugi error kuadrat. Untuk masalah pembelajaran terpandu lainnya (misalnya, klasifikasi, peringkat, regresi dengan loss persentil), tidak ada kesetaraan antara gradien dan error bertanda.
Pengoptimalan struktur dan daun dengan langkah metode Newton
Metode Newton adalah metode pengoptimalan seperti penurunan gradien. Namun, tidak seperti menuruni gradien yang hanya menggunakan gradien fungsi untuk dioptimalkan, metode Newton menggunakan gradien (turunan pertama) dan turunan kedua fungsi untuk pengoptimalan.
Langkah penurunan gradien adalah sebagai berikut:
dan metode Newton sebagai berikut:
Secara opsional, metode Newton dapat diintegrasikan ke pelatihan hierarki yang ditingkatkan gradien dengan dua cara:
- Setelah hierarki dilatih, langkah Newton diterapkan pada setiap node daun dan mengganti nilainya. Struktur hierarki tidak akan berubah; hanya nilai leaf yang berubah.
- Selama pertumbuhan hierarki, kondisi dipilih sesuai dengan skor yang menyertakan komponen formula Newton. Struktur hierarki akan terpengaruh.
- YDF selalu menerapkan langkah Newton pada node (opsi 1).
- Anda dapat mengaktifkan opsi 2 dengan
use_hessian_gain=True
.