Introduction to Large Language Models

Apa itu model bahasa?

Model bahasa memperkirakan probabilitas token atau urutan token yang terjadi dalam urutan token yang lebih panjang. Token dapat berupa kata, subkata (subset kata), atau bahkan satu karakter.

Klik ikon untuk mempelajari lebih lanjut token.

Sebagian besar model bahasa modern melakukan tokenisasi berdasarkan subkata, yaitu berdasarkan potongan teks yang berisi makna semantik. Panjang potongan dapat bervariasi dari satu karakter seperti tanda baca atau s posesif hingga seluruh kata. Awalan dan akhiran dapat direpresentasikan sebagai subkata terpisah. Misalnya, kata unwatched dapat direpresentasikan oleh tiga subkata berikut:

un (awalan)
watch (akar)
ed (akhiran)

Kata cats dapat direpresentasikan oleh dua subkata berikut:

cat (akar)
s (akhiran)

Kata yang lebih kompleks seperti "antidisestablishmentarianism" dapat direpresentasikan sebagai enam subkata:

anti
dis
menetapkan
ment
arian
ism

Tokenisasi bersifat spesifik per bahasa, sehingga jumlah karakter per token berbeda di setiap bahasa. Untuk bahasa Inggris, satu token sesuai dengan ~4 karakter atau sekitar 3/4 kata, jadi 400 token ~= 300 kata dalam bahasa Inggris.

Token adalah unit atomik atau unit terkecil dari pemodelan bahasa.

Token kini juga berhasil diterapkan ke computer vision dan pembuatan audio.

Pertimbangkan kalimat berikut dan token yang mungkin melengkapinya:

When I hear rain on my roof, I _______ in my kitchen.

Model bahasa menentukan probabilitas berbagai token atau urutan token untuk melengkapi bagian kosong tersebut. Misalnya, tabel probabilitas berikut mengidentifikasi beberapa kemungkinan token dan probabilitasnya:

Probability	Token
9,4%	memasak sup
5,2%	memanaskan ketel
3,6%	meringkuk
2,5%	tidur siang
2,2%	santai

Dalam beberapa situasi, urutan token dapat berupa seluruh kalimat, paragraf, atau bahkan seluruh esai.

Aplikasi dapat menggunakan tabel probabilitas untuk membuat prediksi. Prediksi dapat berupa probabilitas tertinggi (misalnya, "masak sup") atau pilihan acak dari token yang memiliki probabilitas lebih besar dari nilai minimum tertentu.

Memperkirakan probabilitas pengisian bagian yang kosong dalam urutan teks dapat diperluas ke tugas yang lebih kompleks, termasuk:

Membuat teks.
Menerjemahkan teks dari satu bahasa ke bahasa lain.
Meringkas dokumen.

Dengan memodelkan pola statistik token, model bahasa modern mengembangkan representasi internal bahasa yang sangat canggih dan dapat menghasilkan bahasa yang masuk akal.

Model bahasa N-gram

N-gram adalah urutan kata yang diurutkan yang digunakan untuk membangun model bahasa, dengan N adalah jumlah kata dalam urutan. Misalnya, jika N adalah 2, N-gram disebut 2-gram (atau bigram); jika N adalah 5, N-gram disebut 5-gram. Mengingat frasa berikut dalam dokumen pelatihan:

you are very nice

2-gram yang dihasilkan adalah sebagai berikut:

Anda
sangat
bagus banget

Jika N adalah 3, N-gram disebut 3-gram (atau trigram). Dengan frasa yang sama, 3-gram yang dihasilkan adalah:

Anda sangat
sangat bagus

Dengan dua kata sebagai input, model bahasa berdasarkan 3-gram dapat memprediksi kemungkinan kata ketiga. Misalnya, dengan dua kata berikut:

orange is

Model bahasa memeriksa semua 3-gram berbeda yang berasal dari korpus pelatihannya yang dimulai dengan orange is untuk menentukan kata ketiga yang paling mungkin. Ratusan 3-gram dapat dimulai dengan dua kata orange is, tetapi Anda dapat berfokus hanya pada dua kemungkinan berikut:

orange is ripe
orange is cheerful

Kemungkinan pertama (orange is ripe) adalah tentang buah jeruk, sedangkan kemungkinan kedua (orange is cheerful) adalah tentang warna oranye.

Konteks

Manusia dapat mempertahankan konteks yang relatif panjang. Saat menonton Act 3 sebuah drama, Anda mempertahankan pengetahuan tentang karakter yang diperkenalkan di Act 1. Demikian pula, punchline dari lelucon panjang membuat Anda tertawa karena Anda dapat mengingat konteks dari penuturan lelucon tersebut.

Dalam model bahasa, konteks adalah informasi berguna sebelum atau setelah token target. Konteks dapat membantu model bahasa menentukan apakah "oranye" merujuk pada buah jeruk atau warna.

Konteks dapat membantu model bahasa membuat prediksi yang lebih baik, tetapi apakah 3-gram memberikan konteks yang memadai? Sayangnya, satu-satunya konteks yang diberikan 3-gram adalah dua kata pertama. Misalnya, dua kata orange is tidak memberikan konteks yang cukup bagi model bahasa untuk memprediksi kata ketiga. Karena kurangnya konteks, model bahasa yang didasarkan pada 3-gram membuat banyak kesalahan.

N-gram yang lebih panjang tentu akan memberikan lebih banyak konteks daripada N-gram yang lebih pendek. Namun, seiring bertambahnya N, kemunculan relatif setiap instance akan berkurang. Jika N menjadi sangat besar, model bahasa biasanya hanya memiliki satu instance dari setiap kemunculan N token, yang tidak terlalu membantu dalam memprediksi token target.

Jaringan neural berulang

Jaringan saraf berulang memberikan lebih banyak konteks daripada N-gram. Jaringan neural berulang adalah jenis jaringan neural yang dilatih pada urutan token. Misalnya, jaringan neural berulang dapat belajar secara bertahap (dan belajar untuk mengabaikan) konteks yang dipilih dari setiap kata dalam kalimat, seperti yang Anda lakukan saat mendengarkan seseorang berbicara. Jaringan saraf berulang yang besar dapat memperoleh konteks dari bagian yang terdiri dari beberapa kalimat.

Meskipun jaringan saraf berulang mempelajari lebih banyak konteks daripada N-gram, jumlah konteks berguna yang dapat dipahami jaringan saraf berulang masih relatif terbatas. Jaringan saraf berulang mengevaluasi informasi "token demi token". Sebaliknya, model bahasa besar—topik bagian berikutnya—dapat mengevaluasi seluruh konteks sekaligus.

Perhatikan bahwa pelatihan jaringan neural berulang untuk konteks yang panjang dibatasi oleh masalah gradien yang hilang.

Latihan: Periksa pemahaman Anda

Model bahasa mana yang membuat prediksi lebih baik untuk teks berbahasa Inggris?

Model bahasa berdasarkan 6-gram
Model bahasa berdasarkan 5-gram

Jawabannya bergantung pada ukuran dan keragaman set data pelatihan.

Jika set pelatihan mencakup jutaan dokumen yang beragam, maka model berdasarkan 6-gram kemungkinan akan mengungguli model berdasarkan 5-gram.

Model bahasa berdasarkan 6-gram.

Model bahasa ini memiliki lebih banyak konteks, tetapi kecuali jika model ini telah dilatih dengan banyak dokumen, sebagian besar 6-gram akan jarang terjadi.

Model bahasa berdasarkan 5-gram.

Model bahasa ini memiliki lebih sedikit konteks, sehingga kemungkinan tidak akan mengungguli model bahasa berbasis 6-gram.

Sebelumnya

Uji pengetahuan Anda (10 menit)

Berikutnya

Apa itu Model Bahasa Besar? (15 mnt)