LLM: Apa itu model bahasa besar (LLM)?

Teknologi yang lebih baru, model bahasa besar (LLM) memprediksi token atau urutan token, terkadang berupa banyak paragraf token yang diprediksi. Ingat bahwa token dapat berupa kata, subkata (subkumpulan kata), atau bahkan satu karakter. LLM membuat prediksi yang jauh lebih baik daripada model bahasa N-gram atau jaringan saraf berulang karena:

  • LLM berisi jauh lebih banyak parameter daripada model berulang.
  • LLM mengumpulkan konteks yang jauh lebih banyak.

Bagian ini memperkenalkan arsitektur yang paling sukses dan banyak digunakan untuk membuat LLM: Transformer.

Apa itu Transformer?

Transformer adalah arsitektur canggih untuk berbagai aplikasi model bahasa, seperti terjemahan:

Gambar 1. Inputnya adalah: I am a good dog. Penerjemah berbasis Transformer
            mengubah input tersebut menjadi output: Je suis un bon
            chien, yang merupakan kalimat yang sama yang diterjemahkan ke dalam bahasa Prancis.
Gambar 1. Aplikasi berbasis Transformer yang menerjemahkan dari bahasa Inggris ke bahasa Prancis.

 

Transformer lengkap terdiri dari encoder dan decoder:

  • Encoder mengonversi teks input menjadi representasi perantara. Encoder adalah jaringan neural yang sangat besar.
  • Decoder mengonversi representasi perantara tersebut menjadi teks yang berguna. Decoder juga merupakan jaringan neural yang sangat besar.

Misalnya, dalam penerjemah:

  • Encoder memproses teks input (misalnya, kalimat bahasa Inggris) menjadi beberapa representasi perantara.
  • Decoder mengonversi representasi perantara tersebut menjadi teks output (misalnya, kalimat Prancis yang setara).
Gambar 2. Penerjemah berbasis Transformer dimulai dengan encoder,
            yang menghasilkan representasi perantara dari kalimat
            bahasa Inggris. Decoder mengonversi representasi perantara tersebut menjadi
            kalimat output bahasa Prancis.
Gambar 2. Transformer lengkap berisi encoder dan decoder.

 

Apa yang dimaksud dengan self-attention?

Untuk meningkatkan konteks, Transformer sangat mengandalkan konsep yang disebut self-attention. Secara efektif, atas nama setiap token input, perhatian mandiri mengajukan pertanyaan berikut:

"Seberapa besar pengaruh setiap token input lainnya terhadap interpretasi token ini?"

"Self" dalam "self-attention" mengacu pada urutan input. Beberapa mekanisme perhatian memberi bobot hubungan token input ke token dalam urutan output seperti terjemahan atau ke token dalam beberapa urutan lainnya. Namun, perhatian self hanya memberi bobot pada pentingnya hubungan antara token dalam urutan input.

Untuk menyederhanakan masalah, asumsikan bahwa setiap token adalah kata dan konteks lengkap hanya berupa satu kalimat. Pertimbangkan kalimat berikut:

The animal didn't cross the street because it was too tired.

Kalimat sebelumnya berisi sebelas kata. Setiap dari sebelas kata tersebut memperhatikan sepuluh kata lainnya, bertanya-tanya seberapa penting setiap dari sepuluh kata tersebut bagi dirinya sendiri. Misalnya, perhatikan bahwa kalimat tersebut berisi kata ganti it. Kata ganti sering kali ambigu. Kata ganti it biasanya mengacu pada kata benda atau frasa kata benda terbaru, tetapi dalam contoh kalimat, kata benda terbaru manakah yang dimaksud it—binatang atau jalan?

Mekanisme self-attention menentukan relevansi setiap kata di sekitar dengan kata ganti it. Gambar 3 menunjukkan hasilnya—semakin biru garisnya, semakin penting kata tersebut bagi kata ganti it. Artinya, hewan lebih penting daripada jalan untuk kata ganti itu.

Gambar 3. Relevansi dari masing-masing dari sebelas kata dalam kalimat:
            'Hewan itu tidak menyeberang jalan karena terlalu lelah'
            terhadap kata ganti 'it'. Kata 'hewan' paling relevan dengan
            kata ganti 'itu'.
Gambar 3. Self-attention untuk kata ganti it. Dari Transformer: A Novel Neural Network Architecture for Language Understanding.

 

Sebaliknya, anggap kata terakhir dalam kalimat berubah sebagai berikut:

The animal didn't cross the street because it was too wide.

Dalam kalimat yang direvisi ini, self-attention diharapkan akan menilai street sebagai lebih relevan daripada animal untuk kata ganti it.

Beberapa mekanisme perhatian mandiri bersifat dua arah, yang berarti bahwa mekanisme tersebut menghitung skor relevansi untuk token yang mendahului dan mengikuti kata yang diperhatikan. Misalnya, pada Gambar 3, perhatikan bahwa kata di kedua sisi it diperiksa. Jadi, mekanisme self-attention dua arah dapat mengumpulkan konteks dari kata di kedua sisi kata yang diperhatikan. Sebaliknya, mekanisme self-attention satu arah hanya dapat mengumpulkan konteks dari kata di satu sisi kata yang diperhatikan. Self-attention dua arah sangat berguna untuk menghasilkan representasi seluruh urutan, sedangkan aplikasi yang menghasilkan urutan token demi token memerlukan self-attention satu arah. Oleh karena itu, encoder menggunakan self-attention dua arah, sedangkan decoder menggunakan satu arah.

Apa yang dimaksud dengan self-attention multi-head?

Setiap lapisan self-attention biasanya terdiri dari beberapa head self-attention. Output lapisan adalah operasi matematika (misalnya, rata-rata berbobot atau perkalian titik) dari output berbagai head.

Karena setiap lapisan self-attention diinisialisasi ke nilai acak, head yang berbeda dapat mempelajari hubungan yang berbeda antara setiap kata yang diperhatikan dan kata di dekatnya. Misalnya, lapisan self-attention yang dijelaskan di bagian sebelumnya berfokus pada penentuan kata benda yang dirujuk oleh kata ganti it. Namun, lapisan self-attention lainnya mungkin mempelajari relevansi gramatikal setiap kata dengan setiap kata lainnya, atau mempelajari interaksi lainnya.

Mengapa Transformers begitu besar?

Transformer berisi ratusan miliar atau bahkan triliun parameter. Kursus ini secara umum merekomendasikan pembuatan model dengan jumlah parameter yang lebih sedikit dibandingkan dengan model yang memiliki jumlah parameter yang lebih besar. Lagi pula, model dengan jumlah parameter yang lebih sedikit menggunakan lebih sedikit resource untuk membuat prediksi daripada model dengan jumlah parameter yang lebih besar. Namun, riset menunjukkan bahwa Transformer dengan lebih banyak parameter secara konsisten mengungguli Transformer dengan lebih sedikit parameter.

Namun, bagaimana cara LLM menghasilkan teks?

Anda telah melihat cara peneliti melatih LLM untuk memprediksi satu atau dua kata yang hilang, dan Anda mungkin tidak terkesan. Bagaimanapun, memprediksi satu atau dua kata pada dasarnya adalah fitur pelengkapan otomatis yang disertakan dalam berbagai software teks, email, dan penulisan. Anda mungkin bertanya-tanya bagaimana LLM dapat menghasilkan kalimat atau paragraf atau haiku tentang arbitrase.

Faktanya, LLM pada dasarnya adalah mekanisme pelengkapan otomatis yang dapat secara otomatis memprediksi (menyelesaikan) ribuan token. Misalnya, pertimbangkan kalimat yang diikuti dengan kalimat yang disamarkan:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM dapat menghasilkan probabilitas untuk kalimat yang disamarkan, termasuk:

Probability Kata
3,1% Misalnya, ia dapat duduk, diam, dan berguling.
2,9% Misalnya, ia tahu cara duduk, diam, dan berguling.

LLM yang cukup besar dapat menghasilkan probabilitas untuk paragraf dan seluruh esai. Anda dapat menganggap pertanyaan pengguna ke LLM sebagai kalimat "yang diberikan" yang diikuti dengan mask imajiner. Contoh:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM menghasilkan probabilitas untuk berbagai kemungkinan respons.

Sebagai contoh lain, LLM yang dilatih dengan sejumlah besar "masalah cerita" matematika dapat memberikan kesan melakukan penalaran matematika yang canggih. Namun, LLM tersebut pada dasarnya hanya menyelesaikan perintah soal kata secara otomatis.

Manfaat LLM

LLM dapat menghasilkan teks yang jelas dan mudah dipahami untuk berbagai target audiens. LLM dapat membuat prediksi pada tugas yang dilatih secara eksplisit. Beberapa peneliti mengklaim bahwa LLM juga dapat membuat prediksi untuk input yang tidak dilatih secara eksplisit, tetapi peneliti lain telah membantah klaim ini.

Masalah terkait LLM

Melatih LLM memerlukan banyak masalah, termasuk:

  • Mengumpulkan set pelatihan yang sangat besar.
  • Memerlukan waktu beberapa bulan serta resource komputasi dan listrik yang sangat besar.
  • Memecahkan tantangan paralelisme.

Menggunakan LLM untuk menyimpulkan prediksi menyebabkan masalah berikut:

  • LLM mengalami halusinasi, yang berarti prediksinya sering kali berisi kesalahan.
  • LLM menggunakan resource komputasi dan listrik dalam jumlah besar. Melatih LLM pada set data yang lebih besar biasanya mengurangi jumlah resource yang diperlukan untuk inferensi, meskipun set pelatihan yang lebih besar memerlukan lebih banyak resource pelatihan.
  • Seperti semua model ML, LLM dapat menunjukkan berbagai bias.

Latihan: Periksa pemahaman Anda

Misalkan Transformer dilatih pada satu miliar dokumen, termasuk ribuan dokumen yang berisi setidaknya satu instance kata elephant. Manakah dari pernyataan berikut yang mungkin benar?
Pohon akasia, bagian penting dari makanan gajah, akan secara bertahap mendapatkan skor self-attention yang tinggi dengan kata gajah.
Ya, dan hal ini akan memungkinkan Transformer menjawab pertanyaan tentang makanan gajah.
Transformer akan mengaitkan kata elephant dengan berbagai idiom yang berisi kata elephant.
Ya, sistem akan mulai melampirkan skor perhatian diri yang tinggi antara kata elephant dan kata lain dalam idiom gajah.
Transformer akan secara bertahap belajar untuk mengabaikan penggunaan kata elephant yang sarkastik atau ironis dalam data pelatihan.
Transformer yang cukup besar dan dilatih pada set pelatihan yang cukup luas menjadi cukup mahir dalam mengenali sarkasme, humor, dan ironi. Jadi, alih-alih mengabaikan sarkasme dan ironi, Transformer akan mempelajarinya.