Halaman ini diterjemahkan oleh Cloud Translation API.

LLM: Apa itu model bahasa besar (LLM)?

Teknologi yang lebih baru, model bahasa besar (LLM), memprediksi token atau urutan token, terkadang berupa beberapa paragraf berupa token yang diprediksi. Ingat bahwa token dapat berupa kata, subkata (subkata dari sebuah kata), atau bahkan karakter tunggal. LLM membuat prediksi yang jauh lebih baik daripada model bahasa N-gram atau jaringan saraf berulang karena:

LLM berisi jauh lebih banyak parameter daripada model berulang.
LLM mengumpulkan konteks yang jauh lebih banyak.

Bagian ini memperkenalkan arsitektur yang paling sukses dan banyak digunakan untuk membuat LLM: Transformer.

Apa itu Transformer?

Transformer adalah arsitektur canggih untuk berbagai aplikasi model bahasa, seperti terjemahan:

Gambar 1. Inputnya adalah: I am a good dog. Penerjemah berbasis
Transformer mengubah input tersebut menjadi output: Je suis un bon
chien, yang merupakan kalimat yang sama yang diterjemahkan ke dalam bahasa Prancis. — **Gambar 1.** Aplikasi berbasis Transformer yang menerjemahkan dari bahasa Inggris ke bahasa Prancis.

Transformer penuh terdiri dari encoder dan decoder:

Encoder mengonversi teks input menjadi representasi perantara. Encoder adalah jaringan neural yang sangat besar.
Decoder mengonversi representasi perantara tersebut menjadi teks yang berguna. Decoder juga merupakan jaringan neural yang sangat besar.

Misalnya, dalam penerjemah:

Encoder memproses teks input (misalnya, kalimat bahasa Inggris) menjadi beberapa representasi perantara.
Decoder mengonversi representasi perantara tersebut menjadi teks output (misalnya, kalimat Prancis yang setara).

Gambar 2. Penerjemah berbasis Transformer dimulai dengan encoder,
yang menghasilkan representasi perantara dari kalimat
bahasa Inggris. Decoder mengonversi representasi perantara tersebut menjadi
kalimat output bahasa Prancis. — **Gambar 2.** Transformer lengkap berisi encoder dan decoder.

Klik ikon untuk mempelajari lebih lanjut Transformer parsial.

Modul ini berfokus pada Transformer lengkap, yang berisi encoder dan decoder; namun, arsitektur khusus encoder dan decoder-only juga ada:

Arsitektur khusus encoder memetakan teks input ke dalam representasi perantara (sering kali, lapisan penyematan). Kasus penggunaan untuk arsitektur khusus encoder meliputi:
- Memprediksi token apa pun dalam urutan input (yang merupakan peran konvensional model bahasa).
- Membuat penyematan yang canggih, yang dapat berfungsi sebagai input untuk sistem lain, seperti pengklasifikasi.
Arsitektur khusus dekoder menghasilkan token baru dari teks yang sudah dihasilkan. Model khusus decoder biasanya unggul dalam menghasilkan urutan; model khusus decoder modern dapat menggunakan daya pembangkitnya untuk membuat kelanjutan histori dialog dan perintah lainnya.

Apa yang dimaksud dengan self-attention?

Untuk meningkatkan konteks, Transformers sangat bergantung pada konsep yang disebut self-attention. Secara efektif, atas nama setiap token input, self-attention akan mengajukan pertanyaan berikut:

"Seberapa besar pengaruh setiap token input lainnya terhadap interpretasi token ini?"

"Self" dalam "self-attention" mengacu pada urutan input. Beberapa mekanisme perhatian memberi bobot hubungan token input ke token dalam urutan output seperti terjemahan atau ke token dalam beberapa urutan lainnya. Namun, self-attention hanya membobotkan pentingnya relasi antara token dalam urutan input.

Untuk menyederhanakan masalah, asumsikan bahwa setiap token adalah kata dan konteks lengkap hanya berupa satu kalimat. Pertimbangkan kalimat berikut:

The animal didn't cross the street because it was too tired.

Kalimat sebelumnya berisi sebelas kata. Setiap dari sebelas kata tersebut memperhatikan sepuluh kata lainnya, bertanya-tanya seberapa penting setiap dari sepuluh kata tersebut bagi dirinya sendiri. Misalnya, perhatikan bahwa kalimat tersebut berisi sebutan it. Kata ganti sering kali ambigu. Kata ganti it biasanya mengacu pada kata benda atau frasa kata benda terbaru, tetapi dalam contoh kalimat, kata benda terbaru manakah yang dimaksud it—binatang atau jalan?

Mekanisme self-attention menentukan relevansi setiap kata yang ada di sekitar dengan kata ganti itu. Gambar 3 menunjukkan hasilnya—semakin biru garisnya, semakin penting kata tersebut bagi sebutan itu. Artinya, hewan lebih penting daripada jalan untuk kata ganti itu.

Gambar 3. Relevansi dari masing-masing dari sebelas kata dalam kalimat:
'Hewan itu tidak menyeberang jalan karena terlalu lelah'
terhadap kata ganti 'it'. Kata 'hewan' paling relevan dengan
kata ganti 'itu'. — **Gambar 3.** Self-attention untuk kata ganti it. Dari Transformer: A Novel Neural Network Architecture for Language Understanding.

Sebaliknya, anggap kata terakhir dalam kalimat berubah sebagai berikut:

The animal didn't cross the street because it was too wide.

Dalam kalimat yang direvisi ini, self-attention diharapkan akan menilai street sebagai lebih relevan daripada animal untuk kata ganti it.

Beberapa mekanisme perhatian mandiri bersifat dua arah, yang berarti mekanisme tersebut menghitung skor relevansi untuk token yang mendahului dan mengikuti kata yang diperhatikan. Misalnya, pada Gambar 3, perhatikan bahwa kata di kedua sisi it diperiksa. Jadi, mekanisme perhatian mandiri dua arah dapat mengumpulkan konteks dari kata di kedua sisi kata yang diperhatikan. Sebaliknya, mekanisme self-attention searah hanya dapat mengumpulkan konteks dari kata-kata di satu sisi kata yang sedang diperhatikan. Self-attention dua arah sangat berguna untuk menghasilkan representasi seluruh urutan, sedangkan aplikasi yang menghasilkan urutan token demi token memerlukan self-attention satu arah. Oleh karena itu, encoder menggunakan perhatian mandiri dua arah, sedangkan decoder menggunakan satu arah.

Apa itu multi-head self-attention?

Setiap lapisan self-attention biasanya terdiri dari beberapa headset self-attention. Output lapisan adalah operasi matematika (misalnya, rata-rata berbobot atau perkalian titik) dari output berbagai head.

Karena setiap lapisan self-attention diinisialisasi ke nilai acak, head yang berbeda dapat mempelajari hubungan yang berbeda antara setiap kata yang ditangani dan kata di sekitar. Misalnya, lapisan self-attention yang dijelaskan di bagian sebelumnya berfokus pada penentuan kata benda yang dirujuk oleh kata ganti it. Namun, lapisan self-attention lainnya mungkin mempelajari relevansi gramatikal setiap kata dengan setiap kata lainnya, atau mempelajari interaksi lainnya.

Klik ikon untuk mempelajari tentang Big O untuk LLM.

Self-attention memaksa setiap kata dalam konteks untuk mempelajari relevansi semua kata lain dalam konteks. Jadi, sangat menggoda untuk menyatakan ini sebagai masalah O(N²), dengan:

N adalah jumlah token dalam konteks.

Seolah-olah Big O sebelumnya tidak cukup mengganggu, Transformer berisi beberapa lapisan self-attention dan beberapa head self-attention per lapisan self-attention, sehingga Big O sebenarnya adalah:

O(N² · S · D)

dalam hal ini:

S adalah jumlah lapisan self-attention.
D adalah jumlah head per lapisan.

Klik ikon untuk mempelajari lebih lanjut cara LLM dilatih.

Anda mungkin tidak akan pernah melatih LLM dari awal. Melatih LLM yang canggih membutuhkan banyak sekali keahlian ML, sumber daya komputasi, dan waktu. Terlepas dari itu, Anda mengklik ikon untuk mempelajari lebih lanjut, jadi kami harus memberikan penjelasan.

Bahan utama dalam membangun LLM adalah jumlah data pelatihan (teks) yang fenomenal, biasanya cukup tersaring. Fase pertama pelatihan biasanya berupa beberapa bentuk pembelajaran tanpa pengawasan pada data pelatihan tersebut. Secara khusus, model dilatih menggunakan prediksi yang disamarkan, yang berarti bahwa token tertentu dalam data pelatihan sengaja disembunyikan. Model dilatih dengan mencoba memprediksi token yang hilang tersebut. Misalnya, asumsikan kalimat berikut adalah bagian dari data pelatihan:

The residents of the sleepy town weren't prepared for what came next.

Token acak akan dihapus, misalnya:

The ___ of the sleepy town weren't prepared for ___ came next.

LLM hanyalah jaringan saraf, sehingga kerugian (jumlah token yang disamarkan yang dipertimbangkan model dengan benar) memandu tingkat pembaruan nilai parameter oleh propagasi mundur.

Model berbasis Transformer yang dilatih untuk memprediksi data yang hilang secara bertahap belajar mendeteksi pola dan struktur tingkat tinggi dalam data untuk mendapatkan petunjuk tentang token yang hilang. Perhatikan contoh instance yang disamarkan berikut:

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

Pelatihan ekstensif pada sejumlah besar contoh yang disamarkan memungkinkan LLM mempelajari bahwa "dipanen" atau "dipilih" memiliki kecocokan probabilitas tinggi untuk token pertama dan "oranye" atau "mereka" adalah pilihan yang baik untuk token kedua.

Langkah pelatihan lebih lanjut opsional yang disebut instruction tuning dapat meningkatkan kemampuan LLM untuk mengikuti petunjuk.

Mengapa Transformers begitu besar?

Transformer berisi ratusan miliar atau bahkan triliun parameter. Kursus ini umumnya merekomendasikan pembuatan model dengan jumlah parameter yang lebih kecil daripada model dengan jumlah parameter lebih besar. Bagaimanapun, model dengan jumlah parameter yang lebih kecil menggunakan lebih sedikit resource untuk membuat prediksi dibandingkan model dengan jumlah parameter yang lebih besar. Namun, riset menunjukkan bahwa Transformer dengan lebih banyak parameter secara konsisten mengungguli Transformer dengan lebih sedikit parameter.

Namun, bagaimana cara LLM menghasilkan teks?

Anda telah melihat cara peneliti melatih LLM untuk memprediksi satu atau dua kata yang hilang, dan Anda mungkin tidak terkesan. Bagaimanapun, memprediksi satu atau dua kata pada dasarnya adalah fitur pelengkapan otomatis yang terintegrasi dalam berbagai software teks, email, dan penulisan. Anda mungkin ingin tahu bagaimana LLM dapat membuat kalimat, paragraf, maupun haiku tentang arbitrase.

Faktanya, LLM pada dasarnya adalah mekanisme pelengkapan otomatis yang dapat secara otomatis memprediksi (menyelesaikan) ribuan token. Misalnya, pertimbangkan kalimat yang diikuti dengan kalimat yang disamarkan:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM dapat menghasilkan probabilitas untuk kalimat yang disamarkan, termasuk:

Probability	Kata
3,1%	Misalnya, ia dapat duduk, diam, dan berguling.
2,9%	Misalnya, ia tahu cara duduk, tidak bergerak, dan berguling.

LLM yang cukup besar dapat menghasilkan probabilitas untuk paragraf dan seluruh esai. Anda dapat menganggap pertanyaan pengguna ke LLM sebagai kalimat "yang diberikan" yang diikuti dengan mask imajiner. Contoh:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM menghasilkan probabilitas untuk berbagai kemungkinan respons.

Sebagai contoh lain, LLM yang dilatih pada "masalah kata" matematika dalam jumlah besar dapat memberikan kesan melakukan penalaran matematika yang canggih. Namun, LLM tersebut pada dasarnya hanya melengkapi prompt masalah kata secara otomatis.

Manfaat LLM

LLM dapat menghasilkan teks yang jelas dan mudah dipahami untuk berbagai target audiens. LLM dapat membuat prediksi pada tugas-tugas yang dilatih secara eksplisit. Beberapa peneliti mengklaim bahwa LLM juga dapat membuat prediksi untuk input yang tidak dilatih secara eksplisit, tetapi peneliti lain telah membantah klaim ini.

Masalah terkait LLM

Pelatihan LLM memerlukan banyak masalah, termasuk:

Mengumpulkan set pelatihan yang sangat besar.
Memerlukan waktu beberapa bulan serta resource komputasi dan listrik yang sangat besar.
Menyelesaikan tantangan paralelisme.

Menggunakan LLM untuk menyimpulkan prediksi akan menyebabkan masalah berikut:

LLM mengalami halusinasi, yang berarti prediksinya sering kali berisi kesalahan.
LLM menggunakan resource komputasi dan listrik dalam jumlah besar. Melatih LLM pada set data yang lebih besar biasanya mengurangi jumlah resource yang diperlukan untuk inferensi, meskipun set pelatihan yang lebih besar memerlukan lebih banyak resource pelatihan.
Seperti semua model ML, LLM dapat menunjukkan berbagai bias.

Latihan: Memeriksa pemahaman Anda

Misalkan Transformer dilatih pada satu miliar dokumen, termasuk ribuan dokumen yang berisi setidaknya satu instance kata elephant. Manakah dari pernyataan berikut yang mungkin benar?

Pohon akasia, bagian penting dari makanan gajah, akan secara bertahap mendapatkan skor self-attention yang tinggi dengan kata gajah.

Ya, dan tindakan ini akan memungkinkan Transformer menjawab pertanyaan tentang diet gajah.

Transformer akan mengaitkan kata elephant dengan berbagai idiom yang berisi kata elephant.

Ya, sistem akan mulai melampirkan skor perhatian diri yang tinggi antara kata elephant dan kata lain dalam idiom gajah.

Transformer akan secara bertahap belajar untuk mengabaikan penggunaan kata elephant yang sarkastik atau ironis dalam data pelatihan.

Transformer yang cukup besar dan dilatih pada set pelatihan yang cukup luas menjadi cukup mahir dalam mengenali sarkasme, humor, dan ironi. Jadi, alih-alih mengabaikan sarkasme dan ironi, Transformer belajar darinya.

Sebelumnya

Pengantar: Apa itu model bahasa? (10 mnt)

Berikutnya

Fine-tuning, distilasi, dan rekayasa perintah (10 mnt)