Glosarium Machine Learning: Model Urutan

Halaman ini berisi istilah glosarium Model Urutan. Untuk semua istilah glosarium, klik di sini.

B

Bigram

#seq
#language

N-gram yang mana N=2.

E

masalah gradien yang meledak

#seq

Kecenderungan untuk gradien di jaringan neural dalam (terutama jaringan saraf berulang) menjadi sangat curam (tinggi). Gradien curam sering menyebabkan pembaruan yang sangat besar pada bobot dari setiap node dalam jaringan neural dalam.

Model yang mengalami masalah gradien yang meledak menjadi sulit atau tidak mungkin untuk dilatih. Pemangkasan gradien dapat mengurangi masalah ini.

Bandingkan dengan masalah gradien yang hilang.

F

lupakan gerbang

#seq

Bagian dari sel Long Short-Term Memory yang mengatur aliran informasi melalui sel. Lupakan gate untuk mempertahankan konteks dengan menentukan informasi mana yang akan dihapus dari status sel.

G

pemotongan gradien

#seq

Mekanisme yang biasa digunakan untuk mengurangi masalah gradien yang meledak dengan membatasi (memotong) nilai maksimum gradien secara artifisial saat menggunakan penurunan gradien untuk melatih model.

L

Memori Jangka Pendek (LSTM)

#seq

Jenis sel dalam jaringan neural berulang yang digunakan untuk memproses urutan data dalam aplikasi seperti pengenalan tulis tangan, terjemahan mesin, dan keterangan gambar. LSTM mengatasi masalah gradien yang menghilang yang terjadi saat melatih RNN karena urutan data yang panjang dengan mempertahankan histori dalam status memori internal berdasarkan input baru dan konteks dari sel sebelumnya dalam RNN.

LSTM

#seq

Singkatan dari Long Short-Term Memory.

N

N-gram

#seq
#language

Rangkaian N kata yang berurutan. Misalnya, truly madly bernilai 2 gram. Karena urutan bersifat relevan, nilai 2 gram pada madly true berbeda dengan truly madly.

N Nama untuk jenis N-gram ini Contoh
2 bigram atau 2 gram pergi, pergi, makan siang, makan malam
3 trigram atau 3 gram terlalu banyak makan, tiga tikus buta, suara lonceng
4 4 gram berjalan di taman, berdebu tertiup angin, anak laki-laki itu makan lentil

Banyak model natural language understanding mengandalkan N-gram untuk memprediksi kata berikutnya yang akan diketik atau diucapkan pengguna. Misalnya, anggaplah pengguna mengetik three buta. Model NLU berdasarkan trigram kemungkinan akan memprediksi bahwa pengguna selanjutnya akan mengetik mice.

Bedakan N-gram dengan kantong data, yang merupakan kumpulan kata yang tidak berurutan.

R

jaringan saraf berulang

#seq

Jaringan neural yang sengaja dijalankan beberapa kali, yang mana bagian dari setiap proses dimasukkan ke proses berikutnya. Secara khusus, lapisan tersembunyi dari proses sebelumnya memberikan bagian dari input ke lapisan tersembunyi yang sama pada proses berikutnya. Jaringan neural berulang sangat berguna untuk mengevaluasi urutan, sehingga lapisan tersembunyi dapat belajar dari pengoperasian jaringan neural sebelumnya pada bagian awal urutan tersebut.

Misalnya, gambar berikut menunjukkan jaringan neural berulang yang berjalan empat kali. Perhatikan bahwa nilai yang dipelajari di lapisan tersembunyi dari proses pertama menjadi bagian dari input untuk lapisan tersembunyi yang sama pada proses kedua. Demikian pula, nilai yang dipelajari dalam lapisan tersembunyi pada proses kedua menjadi bagian dari input untuk lapisan tersembunyi yang sama pada proses ketiga. Dengan cara ini, jaringan neural berulang secara bertahap melatih dan memprediksi makna seluruh urutan, bukan hanya arti setiap kata.

RNN yang berjalan empat kali untuk memproses empat kata input.

RNN

#seq

Singkatan dari recurrent neural network.

S

model barisan

#seq

Model yang inputnya memiliki ketergantungan berurutan. Misalnya, memprediksi video berikutnya yang akan ditonton berdasarkan urutan video yang ditonton sebelumnya.

T

batas waktu

#seq

Satu sel "unrolled" dalam jaringan neural berulang. Misalnya, gambar berikut menunjukkan tiga langkah waktu (dilabeli dengan subskrip t-1, t, dan t+1):

Tiga langkah waktu dalam jaringan neural berulang. Output
          timestep pertama menjadi input untuk timestep kedua. Output
          dari timestep kedua menjadi input untuk timestep ketiga.

trigram

#seq
#language

N-gram yang mana N=3.

V

masalah gradien yang hilang

#seq

Kecenderungan gradien lapisan tersembunyi awal dari beberapa jaringan neural dalam secara mengejutkan menjadi datar (rendah). Gradien yang semakin rendah menyebabkan perubahan bobot yang semakin kecil pada node di deep neural network, sehingga menyebabkan sedikit pembelajaran atau tidak ada sama sekali. Model yang mengalami masalah gradien yang menghilang menjadi sulit atau tidak mungkin untuk dilatih. Sel Memori Jangka Pendek Panjang mengatasi masalah ini.

Bandingkan dengan masalah gradien yang meledak.