Propagasi mundur adalah algoritma pelatihan yang paling umum untuk jaringan neural.
Hal ini membuat penurunan gradien sesuai untuk jaringan neural multi-lapisan.
TensorFlow menangani propagasi mundur secara otomatis, sehingga Anda tidak perlu memahami algoritmenya secara mendalam. Untuk memahami cara kerjanya, baca: Penjelasan visual algoritme propagasi mundur.
Saat Anda men-scroll penjelasan sebelumnya, perhatikan hal-hal berikut:
Cara data mengalir melalui grafik.
Cara pemrograman dinamis memungkinkan kita menghindari komputasi secara eksponensial banyak jalur yang dilalui grafik. Di sini, "pemrograman dinamis" berarti mencatat hasil menengah terkait operan maju dan mundur.
Pelatihan Jaringan Neural
Properti Mundur: Yang Perlu Anda Ketahui
Gradien itu penting
Jika dapat dibedakan, kita bisa mempelajarinya
Properti Mundur: Yang Perlu Anda Ketahui
Gradien itu penting
Jika dapat dibedakan, kita bisa mempelajarinya
Gradien dapat hilang
Setiap lapisan tambahan dapat mengurangi sinyal vs. derau secara berturut-turut
ULT berguna di sini
Properti Mundur: Yang Perlu Anda Ketahui
Gradien itu penting
Jika dapat dibedakan, kita bisa mempelajarinya
Gradien dapat hilang
Setiap lapisan tambahan dapat mengurangi sinyal vs. derau secara berturut-turut
ULT berguna di sini
Gradien bisa meledak
Kecepatan pembelajaran sangat penting di sini
Normalisasi batch (tombol yang berguna) dapat membantu
Properti Mundur: Yang Perlu Anda Ketahui
Gradien itu penting
Jika dapat dibedakan, kita bisa mempelajarinya
Gradien dapat hilang
Setiap lapisan tambahan dapat mengurangi sinyal vs. derau secara berturut-turut
ULT berguna di sini
Gradien bisa meledak
Kecepatan pembelajaran sangat penting di sini
Normalisasi batch (tombol yang berguna) dapat membantu
Lapisan ULT bisa mati
Tetap tenang dan turunkan kecepatan pembelajaran Anda
Menormalkan Nilai Fitur
Kita ingin fitur kita memiliki skala yang wajar
Sekitar nol, rentang [-1, 1] sering bekerja dengan baik
Membantu konvergensi penurunan gradien; menghindari perangkap NaN
Menghindari nilai pencilan juga dapat membantu
Dapat menggunakan beberapa metode standar:
Skala linier
Hard cap (pemotongan) ke maks, min
Penskalaan log
Regularisasi dengan Pelepasan
Dropout: Bentuk lain dari regularisasi, berguna untuk NN
Bekerja dengan "meloloskan" unit secara acak di jaringan untuk satu langkah gradien
Terdapat koneksi untuk membuat model ensemble di sini
Semakin sering Anda keluar, semakin kuat regularisasi tersebut