Glosarium Machine Learning: Evaluasi Bahasa

Halaman ini berisi istilah glosarium Evaluasi Bahasa. Untuk semua istilah glosarium, klik di sini.

J

Attention,

#language

Mekanisme yang digunakan dalam jaringan neural yang menunjukkan pentingnya kata atau bagian tertentu dari sebuah kata. Attention mengompresi jumlah informasi yang diperlukan model untuk memprediksi token/kata berikutnya. Mekanisme atensi umum mungkin terdiri dari jumlah berbobot pada sekumpulan input dengan bobot untuk setiap input dihitung oleh bagian lain dari jaringan neural.

Lihat juga self-attention dan multi-head self-attention, yang merupakan elemen penyusun Transformer.

autoencoder

#language
#image

Sistem yang mempelajari cara mengekstrak informasi yang paling penting dari input. Autoencoder adalah kombinasi dari encoder dan decoder. Autoencoder mengandalkan proses dua langkah berikut:

  1. Encoder memetakan input ke format dimensi rendah (biasanya) lossy (biasanya) lossy (sedang).
  2. Decoder membuat versi lossy dari input asli dengan memetakan format dimensi rendah ke format input asli yang berdimensi lebih tinggi.

Autoencoder dilatih secara menyeluruh dengan meminta decoder mencoba merekonstruksi input asli dari format perantara encoder sedekat mungkin. Karena format perantara lebih kecil (dimensi lebih rendah) daripada format aslinya, autoencoder terpaksa mempelajari informasi apa yang penting dalam input, dan output tidak akan sama persis dengan input.

Contoh:

  • Jika data input berupa grafis, salinan yang tidak tepat akan serupa dengan grafik asli, tetapi sedikit dimodifikasi. Mungkin teks yang tidak tepat menghilangkan derau dari grafis asli atau mengisi beberapa piksel yang hilang.
  • Jika data input berupa teks, autoencoder akan membuat teks baru yang meniru (tetapi tidak identik) dengan teks asli.

Lihat juga autoencoder bervariasi.

model auto-regresif

#language
#image
#AI generatif

model yang menyimpulkan prediksi berdasarkan prediksinya sendiri sebelumnya. Misalnya, model bahasa auto-regresif memprediksi token berikutnya berdasarkan token yang diprediksi sebelumnya. Semua model bahasa besar berbasis Transformer bersifat auto-regresif.

Sebaliknya, model gambar berbasis GAN biasanya tidak regresi otomatis karena menghasilkan gambar dalam satu penerusan maju dan tidak secara berulang dalam langkah. Namun, model pembuatan gambar tertentu bersifat autoregresif karena model tersebut menghasilkan gambar secara bertahap.

B

kantong data

#language

Representasi kata-kata dalam frasa atau teks, terlepas dari urutannya. Misalnya, kumpulan kata-kata mewakili tiga frasa berikut secara identik:

  • anjingnya melompat
  • anjingnya melompat
  • {i>dog jumping<i}

Setiap kata dipetakan ke indeks dalam vektor renggang, dengan vektor memiliki indeks untuk setiap kata dalam kosakata. Misalnya, frasa the dog jumps dipetakan ke dalam vektor fitur dengan nilai bukan nol pada tiga indeks yang sesuai dengan kata the, dog, dan jumps. Nilai bukan nol dapat berupa salah satu dari hal berikut:

  • A 1 untuk menunjukkan adanya sebuah kata.
  • Hitungan berapa kali kata muncul dalam tas. Misalnya, jika frasanya adalah merah marun adalah berbulu merah marun, maka marun dan akan direpresentasikan sebagai 2, sementara kata lainnya akan direpresentasikan sebagai 1.
  • Beberapa nilai lainnya, seperti logaritma jumlah berapa kali kata muncul dalam tas.

BERT (Representasi Encoder Dua Arah dari Transformer)

#language

Arsitektur model untuk representasi teks. Model BERT terlatih dapat bertindak sebagai bagian dari model yang lebih besar untuk klasifikasi teks atau tugas ML lainnya.

BERT memiliki karakteristik berikut:

Varian BERT meliputi:

  • ALBERT, yang merupakan akronim dari A Light BERT.
  • LaBSE.

Lihat Open Sourcing BERT: Pra-pelatihan Tercanggih untuk Natural Language Processing untuk mengetahui ringkasan BERT.

dua arah

#language

Istilah yang digunakan untuk mendeskripsikan sistem yang mengevaluasi teks yang mendahului dan mengikuti bagian target teks. Sebaliknya, sistem searah hanya mengevaluasi teks yang mendahului bagian teks target.

Misalnya, pertimbangkan model bahasa yang disamarkan yang harus menentukan probabilitas kata atau kata-kata yang mewakili garis bawah dalam pertanyaan berikut:

Apa _____ dengan Anda?

Model bahasa searah harus mendasarkan probabilitasnya hanya pada konteks yang disediakan oleh kata "Apa", "adalah", dan "the". Sebaliknya, model bahasa dua arah juga bisa mendapatkan konteks dari "dengan" dan "Anda", yang mungkin membantu model tersebut menghasilkan prediksi yang lebih baik.

model bahasa dua arah

#language

Model bahasa yang menentukan probabilitas bahwa token tertentu ada di lokasi tertentu dalam kutipan teks berdasarkan teks sebelumnya dan berikut.

Bigram

#seq
#language

N-gram yang mana N=2.

BLEU (Studi Evaluasi Bilingual)

#language

Skor antara 0,0 dan 1,0, inklusif, yang menunjukkan kualitas terjemahan antara dua bahasa manusia (misalnya, antara Inggris dan Rusia). Skor BLEU 1,0 menunjukkan terjemahan yang sempurna; skor BLEU 0,0 menunjukkan terjemahan yang buruk.

C

model bahasa kausal

#language

Sinonim dari model bahasa searah.

Lihat model bahasa dua arah untuk mengontraskan pendekatan terarah yang berbeda dalam pemodelan bahasa.

prompting chain-of-thought

#language
#AI generatif

Teknik rekayasa perintah yang mendorong model bahasa besar (LLM) untuk menjelaskan alasannya, langkah demi langkah. Misalnya, perhatikan perintah berikut, dengan memberi perhatian khusus pada kalimat kedua:

Berapa banyak gaya g yang dialami pengemudi dalam mobil yang melaju dari 0 hingga 60 mil per jam dalam 7 detik? Pada jawaban, tampilkan semua penghitungan yang relevan.

Respons LLM kemungkinan akan:

  • Tampilkan urutan rumus fisika, dengan memasukkan nilai 0, 60, dan 7 di tempat yang sesuai.
  • Jelaskan mengapa ia memilih formula-formula tersebut dan apa arti berbagai variabel tersebut.

Permintaan rantai pemikiran memaksa LLM untuk melakukan semua penghitungan, yang dapat menghasilkan jawaban yang lebih benar. Selain itu, prompting chain-of-pemikiran memungkinkan pengguna memeriksa langkah-langkah LLM untuk menentukan apakah jawabannya masuk akal atau tidak.

chat

#language
#AI generatif

Isi dialog dua arah dengan sistem ML, biasanya model bahasa besar. Interaksi sebelumnya dalam chat (apa yang Anda ketik dan respons model bahasa besar) menjadi konteks untuk bagian chat berikutnya.

chatbot adalah penerapan model bahasa besar.

konfabulasi

#language

Sinonim dari halusinasi.

Konfabulasi mungkin merupakan istilah yang lebih akurat secara teknis daripada halusinasi. Namun, halusinasi menjadi populer terlebih dahulu.

penguraian konstituen

#language

Membagi kalimat menjadi struktur gramatikal yang lebih kecil ("konstituen"). Bagian selanjutnya dari sistem ML, seperti model natural language understanding, dapat mengurai konstituen dengan lebih mudah daripada kalimat aslinya. Misalnya, perhatikan kalimat berikut:

Teman saya mengadopsi dua kucing.

Parser konstituensi dapat membagi kalimat ini menjadi dua konstituen berikut:

  • Teman saya adalah frasa kata benda.
  • adopted two cats adalah frasa kata kerja.

Konstituen ini dapat dibagi lagi menjadi konstituen yang lebih kecil. Misalnya, frasa kata kerja

mengadopsi dua kucing

dapat dibagi lagi menjadi:

  • adopted adalah kata kerja.
  • two cats (dua kucing) adalah frasa kata benda lainnya.

embedding bahasa yang kontekstual

#language
#AI generatif

Penyematan yang mendekati cara "memahami" kata-kata dan frasa dengan cara yang dapat dilakukan oleh penutur asli manusia. Penyematan bahasa yang kontekstual dapat memahami sintaksis, semantik, dan konteks yang kompleks.

Misalnya, pertimbangkan embedding dari kata bahasa Inggris cow. Embedding lama seperti word2vec dapat merepresentasikan kata bahasa Inggris sehingga jarak dalam ruang penyematan dari sapi ke bull mirip dengan jarak dari sapi betina (domba betina) ke ram (domba jantan) atau dari perempuan ke jantan. Penyematan bahasa yang kontekstual dapat berkembang lebih jauh dengan mengenali bahwa penutur bahasa Inggris terkadang menggunakan kata cow untuk berarti sapi atau banteng.

jendela konteks

#language
#AI generatif

Jumlah token yang dapat diproses oleh model pada perintah tertentu. Makin besar jendela konteks, makin banyak informasi yang dapat digunakan model untuk memberikan respons yang koheren dan konsisten terhadap prompt.

frasa ambigu

#language

Kalimat atau frasa dengan makna ambigu. Frasa ambigu menghadirkan masalah yang signifikan dalam natural language understanding. Misalnya, judul Red Tape Holds Up Skyscraper adalah frasa ambigu karena model NLU dapat menafsirkan judul secara harfiah atau figuratif.

D

decoder

#language

Secara umum, semua sistem ML yang melakukan konversi dari representasi yang diproses, padat, atau internal menjadi representasi yang lebih mentah, renggang, atau eksternal.

Decoder sering kali merupakan komponen dari model yang lebih besar, yang sering dipasangkan dengan encoder.

Pada tugas urutan ke urutan, decoder dimulai dengan status internal yang dihasilkan oleh encoder untuk memprediksi urutan berikutnya.

Lihat Transformer untuk mengetahui definisi decoder dalam arsitektur Transformer.

mengurangi derau

#language

Pendekatan umum untuk pembelajaran mandiri yang:

  1. Noise ditambahkan secara artifisial ke set data.
  2. model mencoba menghapus derau.

Pengurangan noise memungkinkan pembelajaran dari contoh tak berlabel. Set data asli berfungsi sebagai target atau label dan data derau sebagai input.

Beberapa model bahasa yang disamarkan menggunakan peredam bising sebagai berikut:

  1. Derau ditambahkan secara artifisial ke kalimat tanpa label dengan menyamarkan beberapa token.
  2. Model ini mencoba memprediksi token awal.

prompting langsung

#language
#AI generatif

Sinonim untuk zero-shot prompting.

E

edit jarak

#language

Pengukuran tentang kemiripan dua {i>string<i} teks satu sama lain. Dalam machine learning, edit jarak berguna karena mudah untuk dihitung, serta cara yang efektif untuk membandingkan dua string yang diketahui mirip atau untuk menemukan string yang mirip dengan string tertentu.

Ada beberapa definisi untuk jarak edit, masing-masing menggunakan operasi string yang berbeda. Misalnya, Jarak Levenshtein mempertimbangkan operasi hapus, penyisipan, dan pengganti yang paling sedikit.

Misalnya, jarak Levenshtein antara kata "hati" dan "anak panah" adalah 3 karena 3 pengeditan berikut adalah perubahan paling sedikit untuk mengubah satu kata menjadi kata lainnya:

  1. hati → deart (ganti "h" dengan "d")
  2. deart → dart (hapus "e")
  3. dart → dart (insert "s")

lapisan embedding

#language
#fundamentals

lapisan tersembunyi khusus yang melatih fitur kategoris berdimensi tinggi untuk mempelajari vektor embedding dengan dimensi yang lebih rendah secara bertahap. Lapisan embedding memungkinkan jaringan neural untuk berlatih jauh lebih efisien daripada melatih fitur kategoris berdimensi tinggi saja.

Misalnya, Bumi saat ini mendukung sekitar 73.000 spesies pohon. Misalkan spesies pohon adalah fitur dalam model Anda, jadi lapisan input model Anda mencakup vektor one-hot dengan panjang 73.000 elemen. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array berisi 73.000 elemen. 6.232 elemen pertama berisi nilai
     0. Elemen berikutnya berisi nilai 1. 66.767 elemen terakhir memiliki
     nilai nol.

Array berisi 73.000 elemen sangat panjang. Jika lapisan embedding tidak ditambahkan ke model, pelatihan akan sangat memakan waktu karena mengalikan 72.999 angka nol. Mungkin Anda memilih lapisan embedding terdiri dari 12 dimensi. Akibatnya, lapisan embedding secara bertahap akan mempelajari vektor embedding baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar untuk lapisan embedding.

ruang sematan

#language

Ruang vektor d dimensi yang ditampilkan dari ruang vektor berdimensi lebih tinggi akan dipetakan. Idealnya, ruang embedding berisi struktur yang menghasilkan hasil matematika yang bermakna; misalnya, dalam ruang embedding yang ideal, penjumlahan dan pengurangan embedding dapat menyelesaikan tugas analogi kata.

Produk titik dari dua embeddings adalah ukuran kesamaan dari embedding tersebut.

vektor embedding

#language

Secara umum, array bilangan floating point yang diambil dari setiap lapisan tersembunyi yang menjelaskan input ke lapisan tersembunyi tersebut. Sering kali, vektor embedding adalah array bilangan floating point yang dilatih dalam lapisan embedding. Misalnya, lapisan embedding harus mempelajari vektor embedding untuk masing-masing dari 73.000 spesies pohon di Bumi. Mungkin array berikut adalah vektor embedding untuk pohon baobab:

Array yang terdiri dari 12 elemen, yang masing-masing berisi angka floating point
          antara 0,0 dan 1,0.

Vektor embedding bukanlah sekelompok angka acak. Lapisan embedding menentukan nilai ini melalui pelatihan, mirip dengan cara jaringan neural mempelajari bobot lain selama pelatihan. Setiap elemen array merupakan rating bersama beberapa karakteristik spesies pohon. Elemen mana yang mewakili karakteristik spesies pohon mana? Sangat sulit bagi manusia untuk menentukannya.

Bagian yang luar biasa secara matematis dari vektor embedding adalah item serupa memiliki kumpulan bilangan floating point yang serupa. Misalnya, spesies pohon yang serupa memiliki kumpulan bilangan floating point yang lebih mirip daripada spesies pohon yang berbeda. Redwood dan sequoia adalah spesies pohon yang terkait, sehingga mereka akan memiliki kumpulan bilangan floating yang lebih mirip daripada kayu redwood dan pohon kelapa. Angka dalam vektor embedding akan berubah setiap kali Anda melatih ulang model, meskipun Anda melatih ulang model dengan input yang identik.

pembuat enkode

#language

Secara umum, semua sistem ML yang melakukan konversi dari representasi mentah, renggang, atau eksternal menjadi representasi internal yang lebih terproses, padat, atau lebih.

Encoder sering kali merupakan komponen dari model yang lebih besar dan sering disambungkan dengan decoder. Beberapa Transformer memasangkan encoder dengan decoder, meskipun Transformer lain hanya menggunakan encoder atau hanya decoder.

Beberapa sistem menggunakan output encoder sebagai input untuk jaringan klasifikasi atau regresi.

Dalam tugas urutan ke urutan, encoder mengambil urutan input dan menampilkan status internal (vektor). Kemudian, decoder menggunakan status internal tersebut untuk memprediksi urutan berikutnya.

Lihat Transformer untuk mengetahui definisi encoder dalam arsitektur Transformer.

F

few-shot prompting

#language
#AI generatif

Prompt yang berisi lebih dari satu ("beberapa") contoh yang menunjukkan cara model bahasa besar merespons. Misalnya, perintah panjang berikut berisi dua contoh yang menunjukkan model bahasa besar cara menjawab kueri.

Bagian dari satu perintah Catatan
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang Anda inginkan untuk dijawab oleh LLM.
Prancis: EUR Salah satu contohnya.
Inggris Raya: GBP Contoh lainnya.
India: Kueri yang sebenarnya.

Few-shot prompting umumnya memberikan hasil yang lebih diinginkan daripada zero-shot prompting dan one-shot prompting. Namun, few-shot prompting memerlukan prompt yang lebih panjang.

Few-shot prompting adalah bentuk pembelajaran few-shot yang diterapkan pada pembelajaran berbasis prompt.

Biola

#language

Library konfigurasi yang mengutamakan Python yang menetapkan nilai fungsi dan class tanpa kode atau infrastruktur invasif. Dalam kasus Pax—dan codebase ML lainnya—fungsi dan class ini mewakili model dan pelatihan hyperparameter.

Fiddle mengasumsikan bahwa codebase machine learning biasanya dibagi menjadi:

  • Kode library, yang menentukan lapisan dan pengoptimal.
  • Kode "glue" set data, yang memanggil library dan menggabungkan semuanya.

Fiddle merekam struktur panggilan kode glue dalam bentuk yang tidak dievaluasi dan dapat diubah.

fine tuning

#language
#image
#AI generatif

Penerusan pelatihan khusus tugas kedua yang dilakukan pada model yang telah dilatih sebelumnya guna meningkatkan kualitas parameternya untuk kasus penggunaan tertentu. Misalnya, urutan pelatihan lengkap untuk beberapa model bahasa besar adalah sebagai berikut:

  1. Pra-pelatihan: Latih model bahasa besar pada set data umum yang luas, seperti semua halaman Wikipedia berbahasa Inggris.
  2. Fine-tuning: Latih model yang telah dilatih sebelumnya untuk melakukan tugas tertentu, seperti merespons kueri medis. Fine-tuning biasanya melibatkan ratusan atau ribuan contoh yang berfokus pada tugas tertentu.

Sebagai contoh lainnya, urutan pelatihan lengkap untuk model gambar besar adalah sebagai berikut:

  1. Pra-pelatihan: Latih model gambar besar pada set data gambar umum yang luas, seperti semua gambar di Wikimedia commons.
  2. Fine-tuning: Latih model yang telah dilatih sebelumnya untuk melakukan tugas tertentu, seperti membuat gambar orca.

Fine-tuning dapat memerlukan kombinasi apa pun dari strategi berikut:

  • Memodifikasi semua parameter model terlatih yang ada. Hal ini terkadang disebut penyempurnaan penuh.
  • Hanya memodifikasi beberapa parameter terlatih yang ada dari model terlatih (biasanya, lapisan yang paling dekat dengan lapisan output), sekaligus mempertahankan parameter lain yang sudah ada (biasanya, lapisan yang paling dekat dengan lapisan input). Lihat parameter-efficient tuning.
  • Menambahkan lebih banyak lapisan, biasanya di atas lapisan yang ada yang terdekat dengan lapisan output.

Penyesuaian adalah salah satu bentuk pembelajaran transfer. Dengan demikian, fine-tuning mungkin menggunakan fungsi kerugian yang berbeda atau jenis model yang berbeda dengan yang digunakan untuk melatih model terlatih. Misalnya, Anda dapat menyesuaikan model gambar besar yang dilatih sebelumnya untuk menghasilkan model regresi yang menampilkan jumlah burung dalam gambar input.

Bandingkan dan kontraskan fine-tuning dengan istilah berikut:

Flax

#language

Library open source berperforma tinggi untuk deep learning yang dibangun di atas JAX. Flax menyediakan fungsi untuk melatih jaringan neural, serta metode untuk mengevaluasi performanya.

Flaxformer

#language

Library Transformer open source, yang dibangun di Flax, dirancang khusus untuk natural language processing dan riset multimodal.

G

AI generatif

#language
#image
#AI generatif

Sebuah bidang transformatif yang sedang berkembang tanpa definisi formal. Meskipun demikian, sebagian besar pakar sependapat bahwa model AI generatif dapat membuat konten ("membuat") yang berupa hal-hal berikut:

  • kompleks
  • koheren
  • asli

Misalnya, model AI generatif dapat membuat esai atau gambar yang canggih.

Beberapa teknologi sebelumnya, termasuk LSTM dan RNN, juga dapat menghasilkan konten asli dan koheren. Beberapa pakar menganggap teknologi lama ini sebagai AI generatif, sementara pakar lain merasa bahwa AI generatif yang sesungguhnya memerlukan output yang lebih kompleks daripada yang dapat dihasilkan oleh teknologi sebelumnya.

Berbeda dengan ML prediktif.

GPT (Transformer terlatih Generatif)

#language

Keluarga Transformer model bahasa besar berbasis OpenAI.

Varian GPT dapat diterapkan ke beberapa modalitas, termasuk:

  • pembuatan gambar (misalnya, ImageGPT)
  • pembuatan teks ke gambar (misalnya DALL-E).

H

halusinasi

#language

Produksi output yang tampak masuk akal tetapi tidak benar secara faktual oleh model AI generatif yang dimaksudkan untuk membuat pernyataan tentang dunia nyata. Misalnya, model AI generatif yang mengklaim bahwa Barack Obama meninggal pada tahun 1865 adalah halusinasi.

I

pembelajaran dalam konteks

#language
#AI generatif

Sinonim dari few-shot prompting.

L

LaMDA (Language Model for Dialogue Applications/Model Bahasa untuk Aplikasi Dialog)

#language

Model bahasa besar berbasis Transformer yang dikembangkan oleh Google dilatih menggunakan set data dialog berukuran besar yang dapat menghasilkan respons percakapan yang realistis.

LaMDA: terobosan teknologi percakapan kami memberikan ringkasan.

model bahasa

#language

model yang memperkirakan probabilitas model atau urutan token yang terjadi dalam urutan token yang lebih panjang.

model bahasa besar

#language

Istilah informal tanpa definisi ketat yang biasanya berarti model bahasa yang memiliki banyak parameter. Beberapa model bahasa besar berisi lebih dari 100 miliar parameter.

ruang laten

#language

Sinonim untuk menyematkan ruang.

LLM

#language

Singkatan dari model bahasa besar.

LoRA

#language
#AI generatif

Singkatan dari Low-Rank Adaptability.

Kemampuan Adaptasi Tingkat Rendah (LoRA)

#language
#AI generatif

Algoritma untuk melakukan penyesuaian parameter yang menyesuaikan hanya subset parameter model bahasa besar. LoRA memberikan manfaat berikut:

  • Menyesuaikan lebih cepat daripada teknik yang memerlukan penyempurnaan semua parameter model.
  • Mengurangi biaya komputasi inferensi dalam model yang disesuaikan.

Model yang disesuaikan dengan LoRA mempertahankan atau meningkatkan kualitas prediksinya.

LoRA memungkinkan beberapa versi khusus dari sebuah model.

S

model bahasa yang disamarkan

#language

Model bahasa yang memprediksi probabilitas token kandidat untuk mengisi bagian yang kosong secara berurutan. Misalnya, model bahasa yang disamarkan dapat menghitung probabilitas kata kandidat untuk mengganti garis bawah dalam kalimat berikut:

____ di dalam topi kembali muncul.

Literatur biasanya menggunakan string "MASK" bukan garis bawah. Contoh:

"MASK" di topi kembali muncul.

Sebagian besar model bahasa modern yang disamarkan bersifat dua arah.

pembelajaran meta

#language

Bagian dari machine learning yang menemukan atau meningkatkan algoritma pembelajaran. Sistem pembelajaran meta juga dapat bertujuan untuk melatih model agar dapat dengan cepat mempelajari tugas baru dari sejumlah kecil data atau dari pengalaman yang diperoleh pada tugas sebelumnya. Algoritma pembelajaran meta umumnya mencoba mencapai hal berikut:

  • Meningkatkan atau mempelajari fitur buatan tangan (seperti penginisialisasi atau pengoptimal).
  • Lebih hemat data dan hemat komputasi.
  • Meningkatkan generalisasi.

Meta-learning berkaitan dengan pembelajaran beberapa tahap.

modalitas

#language

Kategori data tingkat tinggi. Misalnya, angka, teks, gambar, video, dan audio adalah lima modalitas yang berbeda.

paralelisme model

#language

Cara penskalaan pelatihan atau inferensi yang menempatkan berbagai bagian dari satu model di berbagai perangkat. Paralelisme model memungkinkan model yang terlalu besar untuk dimuat di satu perangkat.

Untuk menerapkan paralelisme model, sistem biasanya melakukan hal berikut:

  1. Membagi (membagi) model menjadi bagian-bagian yang lebih kecil.
  2. Mendistribusikan pelatihan bagian yang lebih kecil ke beberapa prosesor. Setiap prosesor melatih bagian modelnya sendiri.
  3. Menggabungkan hasilnya untuk membuat satu model.

Paralelisme model memperlambat pelatihan.

Lihat juga paralelisme data.

atensi mandiri multi-head

#language

Perluasan self-attention yang menerapkan mekanisme self-attention beberapa kali untuk setiap posisi dalam urutan input.

Transformer memperkenalkan atensi mandiri multi-head.

model multimodal

#language

Model yang input dan/atau outputnya menyertakan lebih dari satu modalitas. Misalnya, pertimbangkan model yang menggunakan gambar dan teks teks (dua modalitas) sebagai fitur, dan menghasilkan skor yang menunjukkan seberapa sesuai teks tersebut untuk gambar. Jadi, {i>input<i} model ini adalah multimodal dan {i>outputnya<i} adalah unimodal.

N

natural language understanding

#language

Menentukan niat pengguna berdasarkan apa yang diketik atau dikatakan pengguna. Misalnya, mesin telusur menggunakan natural language understanding untuk menentukan apa yang ditelusuri pengguna berdasarkan apa yang diketik atau dikatakan pengguna.

N-gram

#seq
#language

Rangkaian N kata yang berurutan. Misalnya, truly madly bernilai 2 gram. Karena urutan bersifat relevan, nilai 2 gram pada madly true berbeda dengan truly madly.

N Nama untuk jenis N-gram ini Contoh
2 bigram atau 2 gram pergi, pergi, makan siang, makan malam
3 trigram atau 3 gram terlalu banyak makan, tiga tikus buta, suara lonceng
4 4 gram berjalan di taman, berdebu tertiup angin, anak laki-laki itu makan lentil

Banyak model natural language understanding mengandalkan N-gram untuk memprediksi kata berikutnya yang akan diketik atau diucapkan pengguna. Misalnya, anggaplah pengguna mengetik three buta. Model NLU berdasarkan trigram kemungkinan akan memprediksi bahwa pengguna selanjutnya akan mengetik mice.

Bedakan N-gram dengan kantong data, yang merupakan kumpulan kata yang tidak berurutan.

NLU

#language

Singkatan dari natural language understanding.

O

metode one-shot prompting

#language
#AI generatif

Perintah yang berisi satu contoh yang menunjukkan cara model bahasa besar akan merespons. Misalnya, perintah berikut berisi satu contoh yang menunjukkan model bahasa besar cara menjawab kueri.

Bagian dari satu perintah Catatan
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang Anda inginkan untuk dijawab oleh LLM.
Prancis: EUR Salah satu contohnya.
India: Kueri yang sebenarnya.

Bandingkan dan bedakan one-shot prompting dengan istilah berikut:

P

parameter-efficient tuning

#language
#AI generatif

Serangkaian teknik untuk menyesuaikan model bahasa terlatih (PLM) besar yang lebih efisien daripada penyesuaian sepenuhnya. Penyesuaian yang hemat parameter biasanya meningkatkan parameter yang jauh lebih sedikit daripada penyempurnaan penuh, tetapi umumnya menghasilkan model bahasa besar yang berperforma juga (atau hampir sama)nya dengan model bahasa besar yang dibuat dari penyempurnaan penuh.

Membandingkan dan membedakan parameter-efficient tuning dengan:

Parameter-efficient tuning juga dikenal sebagai parameter-efficient fine-tuning.

pipeline

#language

Bentuk paralelisme model di mana pemrosesan model dibagi menjadi beberapa tahap yang berurutan dan setiap tahap dijalankan di perangkat yang berbeda. Saat suatu tahap memproses satu batch, tahap sebelumnya dapat diterapkan pada batch berikutnya.

Lihat juga pelatihan bertahap.

PLM

#language
#AI generatif

Singkatan dari model bahasa terlatih.

encoding posisi

#language

Teknik untuk menambahkan informasi tentang posisi token dalam suatu urutan ke embedding token. Model transformer menggunakan encoding posisi untuk lebih memahami hubungan antara berbagai bagian urutan.

Implementasi umum dari encoding posisi menggunakan fungsi sinusoidal. (Secara khusus, frekuensi dan amplitudo fungsi sinusoidal ditentukan oleh posisi token dalam urutan.) Teknik ini memungkinkan model Transformer belajar menghadiri berbagai bagian urutan berdasarkan posisinya.

model terlatih

#language
#image
#AI generatif

Model atau komponen model (seperti vektor embedding) yang telah dilatih. Terkadang, Anda akan memasukkan vektor embedding yang telah dilatih sebelumnya ke dalam jaringan neural. Di lain waktu, model Anda akan melatih vektor embedding itu sendiri, bukan mengandalkan embedding yang telah dilatih sebelumnya.

Istilah model bahasa terlatih mengacu pada model bahasa besar yang telah melalui pra-pelatihan.

latihan awal

#language
#image
#AI generatif

Pelatihan awal model pada set data besar. Beberapa model yang dilatih sebelumnya adalah model yang ceroboh dan biasanya harus ditingkatkan melalui pelatihan tambahan. Misalnya, pakar ML dapat melatih terlebih dahulu model bahasa besar dengan set data teks yang luas, seperti semua halaman berbahasa Inggris di Wikipedia. Setelah melakukan pra-pelatihan, model yang dihasilkan dapat disempurnakan lebih lanjut melalui salah satu teknik berikut:

perintah

#language
#AI generatif

Semua teks yang dimasukkan sebagai input untuk model bahasa besar untuk mengondisikan model agar berperilaku dengan cara tertentu. Perintah dapat sesingkat frasa atau panjangnya bebas (misalnya, seluruh teks novel). Perintah terbagi dalam beberapa kategori, termasuk yang ditampilkan dalam tabel berikut:

Kategori perintah Contoh Catatan
Pertanyaan Seberapa cepat burung dara bisa terbang?
Petunjuk Tulis puisi lucu tentang arbitrase. Perintah yang meminta model bahasa besar untuk melakukan sesuatu.
Contoh Terjemahkan kode Markdown ke HTML. Misalnya:
Markdown: * item daftar
HTML: <ul> <li>daftar item</li> </ul>
Kalimat pertama dalam contoh prompt ini adalah sebuah instruksi. Contohnya adalah bagian selanjutnya dari prompt tersebut.
Peran Jelaskan mengapa penurunan gradien digunakan dalam pelatihan machine learning untuk meraih gelar PhD bidang Fisika. Bagian pertama kalimat adalah petunjuk; frasa "mendapatkan gelar PhD dalam bidang Fisika" adalah bagian peran.
Input parsial untuk diselesaikan model Perdana Menteri Inggris Raya tinggal di Permintaan input parsial dapat diakhiri secara tiba-tiba (seperti dalam contoh ini) atau diakhiri dengan garis bawah.

Model AI generatif dapat merespons prompt dengan teks, kode, gambar, penyematan, video...hampir semua hal.

pembelajaran berbasis prompt

#language
#AI generatif

Kemampuan model tertentu yang memungkinkan mereka menyesuaikan perilakunya sebagai respons terhadap input teks arbitrer (perintah). Dalam paradigma pembelajaran berbasis perintah yang umum, model bahasa besar akan merespons perintah dengan membuat teks. Misalnya, anggaplah pengguna memasukkan perintah berikut:

Rangkum Hukum Ketiga Newton tentang Gerak.

Model yang mampu melakukan pembelajaran berbasis perintah tidak dilatih secara khusus untuk menjawab prompt sebelumnya. Sebaliknya, model "mengetahui" banyak fakta tentang fisika, tentang aturan bahasa umum, dan banyak hal tentang jawaban yang umumnya berguna. Pengetahuan tersebut sudah cukup untuk memberikan jawaban yang (semoga) bermanfaat. Masukan manusia tambahan ("Jawaban itu terlalu rumit" atau "Apa itu reaksi?") memungkinkan beberapa sistem pembelajaran berbasis perintah untuk secara bertahap meningkatkan kegunaan jawaban mereka.

desain prompt

#language
#AI generatif

Sinonim dari engineering prompt.

rekayasa perintah

#language
#AI generatif

Seni membuat prompt yang memunculkan respons yang diinginkan dari model bahasa besar. Manusia melakukan rekayasa perintah. Menulis perintah yang terstruktur dengan baik merupakan bagian penting untuk memastikan respons yang bermanfaat dari model bahasa besar. Prompt Engineering bergantung pada banyak faktor, termasuk:

Lihat Pengantar desain perintah untuk mengetahui detail selengkapnya tentang cara menulis perintah yang bermanfaat.

Prompt design adalah sinonim dari prompt engineering.

prompt tuning

#language
#AI generatif

Mekanisme tuning parameter yang efisien yang mempelajari "awalan" yang ditambahkan oleh sistem ke prompt sebenarnya.

Salah satu variasi prompt tuning—terkadang disebut tuning awalan—adalah dengan menambahkan awalan di setiap lapisan. Sebaliknya, sebagian besar prompt tuning hanya menambahkan awalan ke lapisan input.

R

perintah peran

#language
#AI generatif

Bagian opsional dari perintah yang mengidentifikasi target audiens untuk respons model AI generatif. Tanpa dialog peran, model bahasa besar memberikan jawaban yang mungkin berguna atau tidak berguna bagi orang yang mengajukan pertanyaan. Dengan perintah peran, model bahasa besar dapat menjawab dengan cara yang lebih tepat dan lebih membantu untuk target audiens tertentu. Misalnya, bagian perintah peran dari dialog berikut dicetak tebal:

  • Rangkum artikel ini untuk mendapatkan gelar PhD di bidang ekonomi.
  • Menjelaskan cara kerja pasang surut untuk anak berusia sepuluh tahun.
  • Menjelaskan krisis keuangan 2008. Bicaralah seperti yang biasa Anda lakukan pada anak kecil, atau golden retriever.

S

self-attention (juga disebut lapisan self-attention)

#language

Lapisan jaringan neural yang mengubah urutan embeddings (misalnya, embedding token) menjadi urutan embeddings lain. Setiap embedding dalam urutan output dibuat dengan mengintegrasikan informasi dari elemen urutan input melalui mekanisme attention.

Bagian self dari self-attention mengacu pada urutan yang memperhatikan diri itu sendiri, bukan pada beberapa konteks lain. Self-attention adalah salah satu elemen penyusun utama Transformer dan menggunakan terminologi pencarian kamus, seperti "query", "key", dan "value".

Lapisan self-attention dimulai dengan urutan representasi input, satu untuk setiap kata. Representasi input untuk sebuah kata dapat berupa embedding sederhana. Untuk setiap kata dalam urutan input, jaringan akan menilai relevansi kata ke setiap elemen dalam seluruh urutan kata. Skor relevansi menentukan seberapa besar representasi akhir kata menggabungkan representasi kata lain.

Misalnya, pertimbangkan kalimat berikut:

Hewan itu tidak menyeberang jalan karena terlalu lelah.

Ilustrasi berikut (dari Transformer: Arsitektur Jaringan Neural Baru untuk Pemahaman Bahasa) menunjukkan pola atensi lapisan self-attention untuk sebutan it, dengan kegelapan setiap baris menunjukkan seberapa banyak kontribusi setiap kata terhadap representasi:

Kalimat berikut muncul dua kali: Hewan itu tidak menyeberang
          jalan karena terlalu lelah. Garis menghubungkan sebutan dalam
          satu kalimat hingga lima token (The, animal, street, it, dan
          titik) di kalimat lainnya.  Garis antara sebutan it dan kata hewan paling kuat.

Lapisan self-attention menyoroti kata-kata yang relevan dengan "hal itu". Dalam hal ini, lapisan atensi telah belajar untuk menandai kata-kata yang mungkin merujuk, sehingga menetapkan bobot tertinggi untuk animal.

Untuk urutan n token, self-attention mengubah urutan embedding n waktu yang berbeda, sekali pada setiap posisi dalam urutan tersebut.

Lihat juga attention dan multi-head self-attention.

analisis sentimen

#language

Menggunakan algoritma statistik atau machine learning untuk menentukan sikap keseluruhan kelompok—positif atau negatif—terhadap layanan, produk, organisasi, atau topik. Misalnya, dengan menggunakan natural language understanding, algoritme dapat melakukan analisis sentimen terhadap masukan tekstual dari mata kuliah untuk menentukan sejauh mana mahasiswa umumnya menyukai atau tidak menyukai mata kuliah tersebut.

tugas urutan-ke-urutan

#language

Tugas yang mengonversi urutan input token menjadi urutan output token. Misalnya, dua jenis tugas urutan ke urutan yang populer adalah:

  • Penerjemah:
    • Contoh urutan input: "Aku cinta kamu".
    • Contoh urutan output: "Je t'aime".
  • Menjawab pertanyaan:
    • Contoh urutan input: "Apakah saya perlu mobil di New York City?"
    • Contoh urutan output: "Tidak. Simpan mobil Anda di rumah".

lewati-gram

#language

n-gram yang dapat menghilangkan (atau "melewati") kata-kata dari konteks aslinya, yang berarti bahwa kata-kata N mungkin awalnya tidak berdekatan. Tepatnya, "k-skip-n-gram" adalah n-gram yang mungkin telah dilewati hingga k kata.

Misalnya, "rubah cokelat cepat" memiliki kemungkinan 2 gram berikut:

  • "yang cepat"
  • "cokelat cepat"
  • "rubah cokelat"

"1-lewat-2-gram" adalah sepasang kata yang memiliki paling banyak 1 kata di antara mereka. Oleh karena itu, "si rubah cokelat cepat" memiliki 1 gram 2 gram berikut:

  • "cokelat"
  • "rubah cepat"

Selain itu, semua 2 gram juga merupakan 1-lewat-2-gram, karena kurang dari satu kata dapat dilewati.

Lewati-gram berguna untuk lebih memahami konteks di sekitar sebuah kata. Dalam contoh, "fox" secara langsung dikaitkan dengan "cepat" dalam kumpulan 1-lewat-2-gram, tetapi tidak dalam kumpulan 2-gram.

Lewati-gram membantu melatih model penyematan kata.

soft prompt tuning

#language
#AI generatif

Teknik untuk menyesuaikan model bahasa besar untuk tugas tertentu, tanpa penyesuaian resource yang intensif. Alih-alih melatih ulang semua bobot dalam model, penyesuaian soft prompt akan otomatis menyesuaikan perintah untuk mencapai sasaran yang sama.

Mengingat perintah tekstual, soft prompt tuning biasanya menambahkan embedding token tambahan ke prompt dan menggunakan propagasi mundur untuk mengoptimalkan input.

Prompt "hard" berisi token sebenarnya, bukan embedding token.

fitur renggang

#language
#fundamentals

Fitur yang sebagian besar nilainya nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 bersifat jarang. Sebaliknya, fitur padat memiliki nilai yang utamanya bukan nol atau kosong.

Dalam machine learning, fitur yang jumlahnya mengejutkan adalah fitur yang jarang. Fitur kategoris biasanya merupakan fitur renggang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan kemungkinan video dalam pustaka video, satu contoh mungkin hanya mengidentifikasi "Casablanca".

Dalam model, Anda biasanya merepresentasikan fitur renggang dengan encoding one-hot. Jika encoding one-hot berukuran besar, Anda dapat menempatkan lapisan embedding di atas enkode one-hot untuk efisiensi yang lebih besar.

representasi renggang

#language
#fundamentals

Hanya menyimpan posisi elemen bukan nol dalam fitur renggang.

Misalnya, fitur kategoris bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Asumsikan lebih lanjut bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk mewakili spesies pohon pada setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0 (untuk mewakili 35 spesies pohon yang tidak dalam contoh tersebut). Jadi, representasi one-hot maple mungkin terlihat seperti berikut:

Vektor dengan posisi 0 sampai 23 memiliki nilai 0, posisi 24 menyimpan nilai 1, dan posisi 25 sampai 35 menyimpan nilai 0.

Atau, representasi renggang hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada pada posisi 24, representasi renggang maple akan menjadi:

24

Perhatikan bahwa representasi renggang jauh lebih ringkas daripada representasi one-hot.

pelatihan bertahap

#language

Taktik pelatihan model dalam urutan tahapan terpisah. Tujuannya bisa untuk mempercepat proses pelatihan, atau untuk mencapai kualitas model yang lebih baik.

Ilustrasi tentang pendekatan {i>progressive stacking<i} (susunan progresif) ditampilkan di bawah ini:

  • Tahap 1 berisi 3 lapisan tersembunyi, tahap 2 berisi 6 lapisan tersembunyi, dan tahap 3 berisi 12 lapisan tersembunyi.
  • Tahap 2 memulai pelatihan dengan bobot yang dipelajari di 3 lapisan tersembunyi pada Tahap 1. Tahap 3 memulai pelatihan dengan bobot yang dipelajari dalam 6 lapisan tersembunyi pada Tahap 2.

Tiga tahap, yang diberi label Tahap 1, Tahap 2, dan Tahap 3.
          Setiap tahap berisi jumlah lapisan yang berbeda: Tahap 1 berisi
          3 lapisan, Tahap 2 berisi 6 lapisan, dan Tahap 3 berisi 12 lapisan.
          Tiga lapisan dari Tahap 1 menjadi 3 lapisan pertama pada Tahap 2.
          Demikian juga, 6 lapisan dari Tahap 2 menjadi 6 lapisan pertama
          Tahap 3.

Lihat juga pipeline.

token subkata

#language

Dalam model bahasa, token yang merupakan substring kata, yang dapat berupa seluruh kata.

Misalnya, kata seperti "itemize" dapat dipecah menjadi bagian-bagian "item" (kata root) dan "ize" (akhiran), yang masing-masing diwakili oleh tokennya sendiri. Memisahkan kata-kata yang tidak umum menjadi beberapa bagian yang disebut subkata memungkinkan model bahasa beroperasi pada bagian konstituen yang lebih umum dari kata tersebut, seperti awalan dan akhiran.

Sebaliknya, kata-kata umum seperti "pergi" mungkin tidak dipisah dan mungkin diwakili oleh satu token.

T

T5

#language

Model pembelajaran teks ke teks yang diperkenalkan oleh Google AI pada tahun 2020. T5 adalah model encoder-decoder, yang didasarkan pada arsitektur Transformer, yang dilatih pada set data yang sangat besar. API ini efektif pada berbagai tugas natural language processing, seperti membuat teks, menerjemahkan bahasa, dan menjawab pertanyaan seperti percakapan.

T5 mendapatkan namanya dari lima T dalam "{i>Text-to-Text Transfer Transformer<i}."

T5X

#language

Framework machine learning open source yang dirancang untuk membangun dan melatih model natural language processing (NLP) skala besar. T5 diterapkan pada codebase T5X (yang di-build pada JAX dan Flax).

suhu

#language
#image
#AI generatif

hyperparameter yang mengontrol tingkat keacakan output model. Suhu yang lebih tinggi menghasilkan output yang lebih acak, sedangkan suhu yang lebih rendah menghasilkan output yang lebih sedikit acak.

Pemilihan suhu terbaik bergantung pada aplikasi tertentu dan properti pilihan dari output model. Misalnya, Anda mungkin akan menaikkan suhu saat membuat aplikasi yang menghasilkan output materi iklan. Sebaliknya, Anda mungkin akan menurunkan suhu saat membangun model yang mengklasifikasikan gambar atau teks untuk meningkatkan akurasi dan konsistensi model.

Suhu sering digunakan dengan softmax.

rentang teks

#language

Rentang indeks array yang terkait dengan subbagian tertentu dari string teks. Misalnya, kata good dalam string Python s="Be good now" akan menempati rentang teks dari 3 hingga 6.

token

#language

Dalam model bahasa, satuan atom tempat model dilatih dan digunakan untuk membuat prediksi. Token biasanya berupa salah satu dari berikut:

  • sebuah kata—misalnya, frasa "dogs like cats" terdiri dari tiga token kata: "dogs", "like", dan "cats".
  • sebuah karakter—misalnya, frasa "bike fish" terdiri dari token sembilan karakter. (Perhatikan bahwa ruang kosong dihitung sebagai salah satu token.)
  • di mana satu kata bisa menjadi satu token atau beberapa token. Subkata terdiri dari kata dasar, awalan, atau akhiran. Misalnya, model bahasa yang menggunakan subkata sebagai token dapat melihat kata "dogs" sebagai dua token (kata root "dog" dan akhiran jamak "s"). Model bahasa yang sama mungkin menganggap satu kata "taller" sebagai dua subkata (kata root "tall" dan akhiran "er").

Dalam domain di luar model bahasa, token dapat mewakili jenis unit atom lainnya. Misalnya, dalam computer vision, token mungkin merupakan subset dari sebuah gambar.

Transformator

#language

Arsitektur jaringan neural yang dikembangkan di Google yang mengandalkan mekanisme self-attention untuk mengubah urutan embedding input menjadi urutan embedding output tanpa bergantung pada konvolusi atau jaringan neural berulang. Transformer dapat dilihat sebagai tumpukan lapisan self-attention.

Transformer dapat mencakup salah satu dari hal berikut:

Encoder mengubah urutan embedding menjadi urutan baru dengan panjang yang sama. Encoder mencakup N lapisan identik, yang masing-masing berisi dua sub-lapisan. Kedua sub-lapisan ini diterapkan pada setiap posisi urutan penyematan input, sehingga mengubah setiap elemen urutan menjadi embedding baru. Sub-lapisan encoder pertama mengagregasi informasi dari seluruh urutan input. Sub-lapisan encoder kedua mengubah informasi gabungan menjadi embedding output.

Decoder mengubah urutan embedding input menjadi urutan embedding output, yang kemungkinan memiliki panjang yang berbeda. Decoder juga mencakup N lapisan identik dengan tiga sub-lapisan, dua di antaranya mirip dengan sub-lapisan encoder. Sub-lapisan decoder ketiga mengambil output encoder dan menerapkan mekanisme self-attention untuk mengumpulkan informasi darinya.

Postingan blog Transformer: Arsitektur Jaringan Neural Baru untuk Pemahaman Bahasa memberikan pengantar yang bagus tentang Transformer.

trigram

#seq
#language

N-gram yang mana N=3.

U

searah

#language

Sistem yang hanya mengevaluasi teks yang mendahului bagian target teks. Sebaliknya, sistem dua arah mengevaluasi teks yang mendahului dan mengikuti bagian teks target. Lihat dua arah untuk detail selengkapnya.

model bahasa searah

#language

Model bahasa yang mendasarkan probabilitasnya hanya pada token yang muncul sebelum, bukan setelah, token target. Berbeda dengan model bahasa dua arah.

V

{i> variational autoencoder<i} (VAE)

#language

Jenis autoencoder yang memanfaatkan perbedaan antara input dan output untuk menghasilkan versi input yang dimodifikasi. Autoencoder variasional berguna untuk AI generatif.

VAE didasarkan pada inferensi variasi: teknik untuk memperkirakan parameter model probabilitas.

W

penyematan kata

#language

Merepresentasikan setiap kata dalam kumpulan kata dalam vektor embedding; yaitu, merepresentasikan setiap kata sebagai vektor nilai floating point antara 0,0 dan 1,0. Kata dengan makna serupa memiliki representasi yang lebih mirip daripada kata dengan arti yang berbeda. Misalnya, wortel, seledri, dan mentimun akan memiliki representasi yang relatif mirip, yang akan sangat berbeda dari representasi pesawat, kacamata hitam, dan pasta gigi.

Z

metode zero-shot prompting

#language
#AI generatif

Perintah yang tidak memberikan contoh cara Anda ingin model bahasa besar merespons. Contoh:

Bagian dari satu perintah Catatan
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang Anda inginkan untuk dijawab oleh LLM.
India: Kueri yang sebenarnya.

Model bahasa besar dapat merespons dengan salah satu hal berikut:

  • Rupee
  • INR
  • Rupee India
  • Rupee
  • Rupee India

Semua jawaban benar, meskipun Anda mungkin memilih format tertentu.

Bandingkan dan bedakan zero-shot prompting dengan istilah berikut: