Introduction to Large Language Models

Baru mengenal model bahasa atau model bahasa besar? Lihat referensi di bawah.

Apa yang dimaksud dengan model bahasa?

Model bahasa adalah model machine learning yang bertujuan untuk memprediksi dan menghasilkan bahasa yang masuk akal. Misalnya, Autocomplete adalah model bahasa.

Model ini berfungsi dengan memperkirakan kemungkinan token atau urutan token yang terjadi dalam urutan token yang lebih panjang. Pertimbangkan kalimat berikut:

When I hear rain on my roof, I _______ in my kitchen.

Jika Anda mengasumsikan bahwa token adalah kata, model bahasa akan menentukan kemungkinan kata atau urutan kata yang berbeda untuk menggantikan garis bawah tersebut. Misalnya, model bahasa dapat menentukan kemungkinan berikut:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

"Urutan token" dapat berupa seluruh kalimat atau serangkaian kalimat. Artinya, model bahasa dapat menghitung kemungkinan seluruh kalimat atau blok teks yang berbeda.

Memperkirakan probabilitas apa yang akan terjadi berikutnya dalam urutan berguna untuk berbagai hal: membuat teks, menerjemahkan bahasa, dan menjawab pertanyaan, misalnya.

Apa itu model bahasa besar?

Membuat model bahasa manusia dalam skala besar adalah upaya yang sangat kompleks dan memerlukan banyak resource. Jalur untuk mencapai kemampuan model bahasa saat ini dan model bahasa besar telah berlangsung selama beberapa dekade.

Seiring model dibuat semakin besar, kompleksitas dan efikasinya meningkat. Model bahasa awal dapat memprediksi probabilitas satu kata; model bahasa besar modern dapat memprediksi probabilitas kalimat, paragraf, atau bahkan seluruh dokumen.

Ukuran dan kemampuan model bahasa telah berkembang pesat selama beberapa tahun setelah memori komputer, ukuran {i>dataset<i}, dan daya pemrosesan meningkat, dan teknik yang lebih efektif untuk memodelkan urutan teks yang lebih panjang telah dikembangkan.

Seberapa besar ukuran besar?

Definisinya kabur, tetapi "besar" telah digunakan untuk mendeskripsikan BERT (110 juta parameter) serta PaLM 2 (parameter hingga 340 miliar).

Parameter adalah bobot yang dipelajari model selama pelatihan, yang digunakan untuk memprediksi token berikutnya . "Besar" dapat merujuk pada jumlah parameter dalam model, atau terkadang jumlah kata dalam set data.

Transformator

Pengembangan utama dalam pemodelan bahasa adalah pengenalan Transformer pada tahun 2017, yaitu arsitektur yang dirancang berdasarkan ide perhatian. Hal ini memungkinkan pemrosesan urutan yang lebih panjang dengan berfokus pada bagian input yang paling penting, sehingga dapat menyelesaikan masalah memori yang dialami dalam model sebelumnya.

Transformer adalah arsitektur canggih untuk berbagai aplikasi model bahasa, seperti penerjemah.

Jika inputnya adalah "I am a good dog.", penerjemah berbasis Transformer mengubah input tersebut menjadi output "Je suis un bon chien"., yang merupakan kalimat yang sama diterjemahkan ke dalam bahasa Prancis.

Transformator penuh terdiri dari encoder dan decoder. Encoder mengonversi teks input menjadi representasi perantara, dan decoder mengonversi representasi perantara tersebut menjadi teks yang berguna.

Perhatian diri

Transformer sangat bergantung pada konsep yang disebut self-attention. Bagian diri dari self-attention mengacu pada fokus setiap token dalam korpus. Secara efektif, atas nama setiap token input, perhatian diri bertanya, "Seberapa penting setiap token input lainnya bagi saya?" Untuk menyederhanakan hal-hal, mari kita asumsikan bahwa setiap token adalah sebuah kata dan konteks lengkapnya adalah satu kalimat. Pertimbangkan kalimat berikut:

Hewan itu tidak menyeberang jalan karena terlalu lelah.

Ada 11 kata dalam kalimat sebelumnya, sehingga setiap dari 11 kata tersebut memperhatikan sepuluh kata lainnya, dan bertanya-tanya seberapa penting setiap kata tersebut bagi mereka. Misalnya, perhatikan bahwa kalimat tersebut berisi kata ganti it. Kata ganti sering kali ambigu. Kata ganti it selalu mengacu pada kata benda terbaru, tetapi di contoh kalimat, yang mana kata benda terbaru merujuk: hewan atau di jalan?

Mekanisme self-attention menentukan relevansi setiap kata yang ada di sekitar sebutan it.

Apa saja kasus penggunaan LLM?

LLM sangat efektif dalam tugas yang dibuatnya, yaitu menghasilkan teks yang paling masuk akal sebagai respons terhadap input. Hal ini bahkan mulai menunjukkan kinerja yang baik pada tugas-tugas lain; misalnya perangkuman, pertanyaan dan klasifikasi teks. Hal ini disebut kemampuan yang muncul. LLM bahkan dapat memecahkan beberapa masalah matematika dan menulis kode (meskipun disarankan untuk Anda).

LLM sangat andal dalam meniru pola ucapan manusia. Di antara hal lainnya, infografis sangat cocok untuk menggabungkan informasi dengan berbagai gaya dan nuansa.

Namun, LLM dapat menjadi komponen model yang melakukan lebih dari menghasilkan teks. LLM terbaru telah digunakan untuk membuat pendeteksi sentimen, pengklasifikasi toksisitas, dan membuat teks gambar.

Pertimbangan LLM

Model yang besar ini bukan tanpa kekurangan.

LLM terbesar harganya mahal. Model ini dapat memerlukan waktu berbulan-bulan untuk dilatih, dan sebagai hasilnya, menggunakan banyak resource.

Data tersebut juga biasanya dapat digunakan kembali untuk tugas lain, yang merupakan hal positif.

Melatih model dengan lebih dari satu triliun parameter menciptakan tantangan teknik. Infrastruktur dan teknik pemrograman khusus diperlukan untuk mengoordinasikan aliran ke chip dan kembali lagi.

Ada cara untuk mengurangi biaya model besar ini. Dua pendekatan tersebut adalah inferensi offline dan distilasi.

Bias dapat menjadi masalah dalam model yang sangat besar dan harus dipertimbangkan dalam pelatihan dan deployment.

Karena model ini dilatih dengan bahasa manusia, hal ini dapat menimbulkan banyak potensi masalah etis, termasuk penyalahgunaan bahasa, dan bias dalam ras, gender, agama, dan lainnya.

Perlu diketahui bahwa seiring model ini terus menjadi lebih besar dan berperforma lebih baik, Anda harus terus memahami dan memitigasi kekurangannya. Pelajari lebih lanjut pendekatan Google terkait responsible AI.

Pelajari LLM lebih lanjut

Tertarik dengan pengantar yang lebih mendalam tentang model bahasa besar? Lihat modul Model bahasa besar baru di Kursus Singkat Machine Learning.