Glosarium Machine Learning: Model Urutan

Halaman ini berisi istilah glosarium Model Urutan. Untuk semua istilah glosarium, klik di sini.

B

bigram

#seq
#language

N-gram yang mana N=2.

E

masalah gradien meledak

#seq

Kecenderungan gradien di jaringan saraf dalam (terutama jaringan saraf berulang) menjadi sangat curam (tinggi). Gradien curam sering kali menyebabkan update yang sangat besar pada bobot setiap node dalam jaringan saraf dalam.

Model yang mengalami masalah gradien meledak menjadi sulit atau tidak dapat dilatih. Pemangkasan gradien dapat mengurangi masalah ini.

Bandingkan dengan masalah gradien yang menghilang.

F

forget gate

#seq

Bagian dari sel Long Short-Term Memory yang mengatur aliran informasi melalui sel. Gate lupa mempertahankan konteks dengan memutuskan informasi mana yang akan dihapus dari status sel.

G

pemotongan gradien

#seq

Mekanisme yang biasa digunakan untuk mengurangi masalah ledakan gradien dengan membatasi (memotong) nilai maksimum gradien secara artifisial saat menggunakan gradient descent untuk melatih model.

L

Long Short-Term Memory (LSTM)

#seq

Jenis sel dalam jaringan saraf berulang yang digunakan untuk memproses urutan data dalam aplikasi seperti pengenalan tulisan tangan, terjemahan mesin, dan teks pada gambar. LSTM menangani masalah gradien yang menghilang yang terjadi saat melatih RNN karena urutan data yang panjang dengan mempertahankan histori dalam status memori internal berdasarkan input dan konteks baru dari sel sebelumnya di RNN.

LSTM

#seq

Singkatan dari Long Short-Term Memory.

T

N-gram

#seq
#language

Urutan kata N yang teratur. Misalnya, truly madly adalah 2-gram. Karena urutan relevan, madly truly adalah 2-gram yang berbeda dengan truly madly.

T Nama untuk jenis N-gram ini Contoh
2 bigram atau 2-gram to go, go to, eat lunch, eat dinner
3 trigram atau 3-gram ate too much, three blind mice, the bell tolls
4 4-gram walk in the park, dust in the wind, the boy ate lentils

Banyak model natural language understanding bergantung pada N-gram untuk memprediksi kata berikutnya yang akan diketik atau diucapkan oleh pengguna. Misalnya, pengguna mengetik three blind. Model NLU berdasarkan trigram kemungkinan akan memprediksi bahwa pengguna selanjutnya akan mengetik tikus.

Bedakan N-gram dengan kantong data, yang merupakan kumpulan kata yang tidak berurutan.

R

jaringan saraf berulang

#seq

Jaringan neural yang sengaja dijalankan beberapa kali, yang mana bagian dari setiap proses dimasukkan ke proses berikutnya. Secara khusus, lapisan tersembunyi dari operasi sebelumnya memberikan sebagian input ke lapisan tersembunyi yang sama pada operasi berikutnya. Jaringan saraf berulang sangat berguna untuk mengevaluasi urutan, sehingga lapisan tersembunyi dapat belajar dari operasi jaringan saraf sebelumnya pada bagian awal urutan.

Misalnya, gambar berikut menunjukkan jaringan saraf berulang yang berjalan empat kali. Perhatikan bahwa nilai yang dipelajari di lapisan tersembunyi dari eksekusi pertama menjadi bagian dari input ke lapisan tersembunyi yang sama dalam eksekusi kedua. Demikian pula, nilai yang dipelajari di lapisan tersembunyi pada eksekusi kedua menjadi bagian dari input ke lapisan tersembunyi yang sama dalam eksekusi ketiga. Dengan cara ini, jaringan saraf berulang secara bertahap melatih dan memprediksi makna seluruh urutan, bukan hanya makna setiap kata.

RNN yang berjalan empat kali untuk memproses empat kata input.

RNN

#seq

Singkatan dari jaringan saraf berulang.

S

model urutan

#seq

Model yang input-nya memiliki dependensi berurutan. Misalnya, memprediksi video berikutnya yang ditonton dari urutan video yang ditonton sebelumnya.

S

timestep

#seq

Satu sel "yang tidak di-roll" dalam jaringan saraf berulang. Misalnya, gambar berikut menunjukkan tiga langkah waktu (diberi label dengan subskrip t-1, t, dan t+1):

Tiga langkah waktu dalam jaringan saraf berulang. Output timestep pertama menjadi input untuk timestep kedua. Output
          langkah waktu kedua menjadi input untuk langkah waktu ketiga.

trigram

#seq
#language

N-gram yang mana N=3.

V

masalah gradien yang menghilang

#seq

Kecenderungan gradien lapisan tersembunyi awal dari beberapa jaringan neural dalam menjadi sangat datar (rendah). Gradien yang semakin rendah akan menghasilkan perubahan yang semakin kecil pada bobot pada node di jaringan neural dalam, sehingga menyebabkan sedikit atau tidak ada pembelajaran. Model yang mengalami masalah gradien yang menghilang menjadi sulit atau tidak dapat dilatih. Sel Long Short-Term Memory mengatasi masalah ini.

Bandingkan dengan masalah gradien meledak.