Model bahasa besar (LLM)

Apa itu model bahasa?

Model bahasa memperkirakan probabilitas token atau urutan token yang terjadi dalam urutan token yang lebih panjang. Token bisa berupa kata, subkata (subkata dari sebuah kata), atau bahkan karakter tunggal.

Pertimbangkan kalimat berikut dan token yang mungkin melengkapinya:

When I hear rain on my roof, I _______ in my kitchen.

Model bahasa menentukan probabilitas token yang berbeda atau urutan token untuk melengkapi bagian yang kosong itu. Misalnya, tabel probabilitas mengidentifikasi beberapa kemungkinan token dan probabilitasnya:

Probability Token
9,4% memasak sup
5,2% memanaskan ketel
3,6% gemuk
2,5% tidur siang
2,2% santai

Dalam beberapa situasi, urutan token bisa berupa seluruh kalimat, paragraf, atau bahkan seluruh esai.

Aplikasi dapat menggunakan tabel probabilitas untuk membuat prediksi. Prediksi mungkin memiliki probabilitas tertinggi (misalnya, "masak sup") atau pilihan acak dari token yang memiliki probabilitas lebih besar dari suatu nilai minimum.

Memperkirakan probabilitas apa yang mengisi bagian yang kosong dalam urutan teks diperluas ke tugas yang lebih kompleks, termasuk:

  • Membuat teks.
  • Menerjemahkan teks dari satu bahasa ke bahasa lain.
  • Meringkas dokumen.

Dengan memodelkan pola statistik token, model bahasa modern mengembangkan representasi internal yang sangat ampuh dan dapat menghasilkan yang masuk akal.

Model bahasa N-gram

N-gram adalah urutan kata yang diurutkan digunakan untuk membangun model bahasa, di mana N adalah jumlah kata dalam urutan. Misalnya, jika N adalah 2, N-gram disebut 2 gram (atau bigram); ketika N adalah 5, N-gram adalah disebut 5 gram. Mengingat frasa berikut dalam dokumen pelatihan:

you are very nice

Hasil 2 gram adalah sebagai berikut:

  • Anda
  • sangat
  • bagus banget

Bila N adalah 3, N-gram disebut 3 gram (atau trigram). Dengan frase yang sama, 3 gram yang dihasilkan adalah:

  • kamu sangat
  • sangat bagus

Dengan mempertimbangkan dua kata sebagai input, model bahasa berdasar 3 gram dapat memprediksi kemungkinan dari kata ketiga. Misalnya, dengan dua kata berikut:

orange is

Model bahasa memeriksa semua 3 gram yang berbeda yang berasal dari pelatihannya korpus yang dimulai dengan orange is untuk menentukan kata ketiga yang paling mungkin. Ratusan 3 gram dapat diawali dengan dua kata orange is, tetapi Anda dapat hanya berfokus pada dua kemungkinan berikut:

orange is ripe
orange is cheerful

Kemungkinan pertama (orange is ripe) adalah tentang buah yang berwarna jeruk, sedangkan kemungkinan kedua (orange is cheerful) adalah tentang warna oranye.

Konteks

Manusia dapat mempertahankan konteks yang relatif panjang. Selagi menonton Babak 3 dari suatu drama, Anda mempertahankan pengetahuan tentang karakter yang diperkenalkan dalam Act 1. Demikian pula, lelucon panjang membuat Anda tertawa karena Anda dapat mengingat konteksnya dari penyiapan lelucon.

Dalam model bahasa, konteks adalah informasi yang berguna sebelum atau setelah token target. Konteks dapat membantu model bahasa menentukan apakah "oranye" mengacu pada buah atau warna.

Konteks dapat membantu model bahasa membuat prediksi yang lebih baik, tetapi 3 gram memberikan konteks yang cukup? Sayangnya, satu-satunya konteks 3-gram adalah dua kata pertama. Misalnya, dua kata orange is tidak memberikan konteks yang cukup bagi model bahasa untuk memprediksi kata ketiga. Karena kurangnya konteks, model bahasa berbasis 3 gram membuat banyak kesalahan.

N-gram yang lebih panjang tentu akan memberikan lebih banyak konteks daripada N-gram yang lebih pendek. Namun, seiring dengan bertambahnya N, kemunculan relatif setiap instance menurun. Ketika N menjadi sangat besar, model bahasa biasanya hanya memiliki satu instance dari setiap kemunculan token N, yang tidak terlalu membantu dengan memprediksi token target.

Jaringan saraf berulang

Saraf berulang jaringan memberikan lebih banyak konteks daripada N-gram. Jaringan saraf berulang adalah jenis jaringan neural yang dilatih di yang merupakan urutan token. Misalnya, jaringan saraf berulang dapat secara bertahap mempelajari (dan belajar mengabaikan) konteks yang dipilih dari setiap kata dalam kalimat, seperti yang Anda lakukan ketika mendengarkan seseorang berbicara. Sebuah jaringan saraf berulang yang besar dapat memperoleh konteks dari beberapa yang sama.

Meskipun jaringan saraf berulang mempelajari lebih banyak konteks daripada N-gram, jumlah konteks berguna, jaringan saraf berulang dapat mengintuisi secara terbatas. Jaringan neural berulang mengevaluasi informasi "token demi token". Sebaliknya, model bahasa besar—topik dari — dapat mengevaluasi seluruh konteks sekaligus.

Perhatikan bahwa pelatihan jaringan saraf berulang untuk konteks panjang dibatasi oleh gradien yang menghilang masalah.

Latihan: Memeriksa pemahaman Anda

Model bahasa manakah yang membuat prediksi lebih baik untuk teks bahasa Inggris?
  • Model bahasa berbasis 6 gram
  • Model bahasa berbasis 5 gram
Jawabannya tergantung pada ukuran dan keberagaman pelatihan atur.
Jika set pelatihan mencakup jutaan dokumen yang beragam, maka model dengan basis 6 gram mungkin akan mengungguli model berdasarkan 5 gram.
Model bahasa berdasarkan 6 gram.
Model bahasa ini memiliki lebih banyak konteks, kecuali jika model ini telah dilatih dengan banyak dokumen, sebagian besar dari 6-gram akan jarang terjadi.
Model bahasa berdasarkan 5 gram.
Model bahasa ini memiliki konteks yang lebih sedikit, sehingga cenderung tidak mengungguli model bahasa berbasis 6 gram.