Halaman ini berisi istilah glosarium Evaluasi Bahasa. Untuk semua istilah glosarium, klik di sini.
A
perhatian
Berbagai mekanisme mekanisme jaringan neural yang menggabungkan informasi dari kumpulan input dengan cara yang bergantung pada data. Mekanisme perhatian standar mungkin terdiri dari jumlah berbobot selama sekumpulan input, dengan bobot untuk setiap input dihitung oleh bagian lain dari jaringan neural.
Lihat juga perhatian sendiri dan perhatian mandiri multi-kepala, yang merupakan elemen penyusun Transformers.
B
kantong data
Representasi kata dalam frasa atau bagian, terlepas dari urutannya. Misalnya, kumpulan kata-kata merepresentasikan tiga frasa berikut secara identik:
- anjing itu melompat
- melompat anjing itu
- anjing melompat
Setiap kata dipetakan ke indeks dalam vektor renggang, dengan vektor yang memiliki indeks untuk setiap kata dalam kosakata. Misalnya, frasa anjing itu melompat dipetakan ke dalam vektor fitur dengan nilai bukan nol pada tiga indeks yang sesuai dengan kata itu, anjing, dan melompat. Nilai bukan nol dapat berupa salah satu dari hal berikut:
- A 1 untuk menunjukkan adanya sebuah kata.
- Jumlah frekuensi kata muncul di tas. Misalnya, jika frasanya adalah anjing marun adalah anjing dengan bulu marun, marun dan anjing akan direpresentasikan sebagai 2, sementara kata lainnya akan diwakili sebagai 1.
- Beberapa nilai lain, seperti logaritma jumlah frekuensi kemunculan kata dalam tas.
BERT (Representasi Encoder Dua Arah dari Transformer)
Arsitektur model untuk representasi teks. Model BERT terlatih dapat bertindak sebagai bagian dari model yang lebih besar untuk klasifikasi teks atau tugas ML lainnya.
BERT memiliki karakteristik berikut:
- Menggunakan arsitektur Transformator, dan karenanya bergantung pada perhatian sendiri.
- Menggunakan bagian encoder dari Transformer. Tugas encoder adalah menghasilkan representasi teks yang baik, bukan melakukan tugas tertentu seperti klasifikasi.
- Merupakan dua arah.
- Menggunakan masking untuk pelatihan yang tidak diawasi.
Varian BERT mencakup
Lihat Open Sourcing BERT: Pelatihan Terbaru untuk Natural Language processing untuk mengetahui ringkasan BERT.
Bigram
N-gram yang mana N=2.
dua arah
Istilah yang digunakan untuk mendeskripsikan sistem yang mengevaluasi teks yang didahului dan mengikuti bagian target teks. Sebaliknya, sistem searah hanya mengevaluasi teks yang mendahului bagian target teks.
Misalnya, pertimbangkan model bahasa yang disamarkan yang harus menentukan probabilitas untuk kata atau kata-kata yang mewakili garis bawah dalam pertanyaan berikut:
Apakah _____ Anda yang ada?
Model bahasa searah harus mendasarkan probabilitasnya hanya pada konteks yang disediakan oleh kata "Apa", "is", dan "the". Sebaliknya, model bahasa dua arah juga dapat memperoleh konteks dari "dengan" dan "Anda", yang dapat membantu model tersebut menghasilkan prediksi yang lebih baik.
model bahasa dua arah
Model bahasa yang menentukan probabilitas bahwa token tertentu ada di lokasi tertentu dalam nukilan teks berdasarkan teks awalan dan berikut.
BLEU (Studi Evaluasi Bilingual)
Skor antara 0,0 hingga 1,0, inklusif, menunjukkan kualitas terjemahan antara dua bahasa manusia (misalnya, antara bahasa Inggris dan Rusia). Skor BLEU 1,0 menunjukkan terjemahan yang sempurna; skor BLEU 0,0 menunjukkan terjemahan yang buruk.
C
model kausal
Sinonim dari model bahasa searah.
Lihat model bahasa dua arah untuk membedakan pendekatan terarah yang berbeda dalam pemodelan bahasa.
bunga jatuh
Kalimat atau frasa dengan makna yang ambigu. Error bunga dapat menimbulkan masalah signifikan dalam pemahaman bahasa alami. Misalnya, judul Red Tape Holds Up Pilar adalah bunga terkenal karena model NLU dapat menafsirkan judul secara harfiah atau figuratif.
D
dekoder
Secara umum, semua sistem ML yang dikonversi dari representasi yang diproses, padat, atau internal menjadi representasi yang lebih mentah, sparse, atau eksternal.
Dekoder sering kali merupakan komponen dari model yang lebih besar, yang sering disambungkan dengan encoder.
Pada tugas urutan ke urutan, decoder dimulai dengan status internal yang dihasilkan oleh encoder untuk memprediksi urutan berikutnya.
Lihat Transformer untuk mengetahui definisi decoder dalam arsitektur Transformer.
denominasi
Pendekatan umum untuk pembelajaran yang diawasi sendiri dengan:
- Kebisingan secara buatan ditambahkan ke set data.
- Model mencoba menghilangkan derau.
Pengurang bising memungkinkan pembelajaran dari contoh tak berlabel. Set data asli berfungsi sebagai target atau label dan data yang bising sebagai input.
Beberapa model bahasa yang disamarkan menggunakan denominasi seperti berikut:
- Derau ditambahkan secara buatan ke kalimat tidak berlabel dengan menyamarkan beberapa token.
- Model mencoba memprediksi token asli.
E
lapisan sematan
Lapisan tersembunyi khusus yang dilatih pada fitur kategoris dimensi tinggi untuk secara bertahap mempelajari vektor sematan dimensi yang lebih rendah. Lapisan sematan memungkinkan jaringan neural untuk berlatih jauh lebih efisien daripada melatih fitur kategoris berdimensi tinggi saja.
Misalnya, saat ini Bumi mendukung sekitar 73.000 spesies pohon. Misalnya
spesies pohon adalah fitur dalam model Anda, sehingga lapisan input
model Anda menyertakan vektor sekali klik dengan panjang 73.000
elemen.
Misalnya, mungkin baobab
akan ditampilkan seperti ini:
Array 73.000 elemen sangat panjang. Jika Anda tidak menambahkan lapisan penyematan ke model, pelatihan akan sangat memakan waktu karena mengalikan 72.999 nol. Mungkin Anda memilih lapisan penyematan untuk terdiri dari 12 dimensi. Akibatnya, lapisan penyematan secara bertahap akan mempelajari vektor penyematan baru untuk setiap spesies pohon.
Dalam situasi tertentu, hashing merupakan alternatif yang wajar dari lapisan penyematan.
ruang sematan
Ruang vektor d dimensi yang ditampilkan dari ruang vektor berdimensi lebih tinggi akan dipetakan. Idealnya, ruang penyematan berisi struktur yang menghasilkan hasil matematika yang bermakna; misalnya, dalam ruang penyematan yang ideal, penambahan dan pengurangan penyematan dapat menyelesaikan tugas analogi kata.
Produk titik dari dua penyematan adalah ukuran kesamaan.
vektor penyematan
Secara umum, array angka floating point yang diambil dari lapisan tersembunyi apa pun yang mendeskripsikan input ke lapisan tersembunyi tersebut. Sering kali, vektor penyematan adalah array angka floating-point yang dilatih dalam lapisan penyematan. Misalnya, lapisan penyematan harus mempelajari vektor penyematan untuk setiap 73.000 spesies pohon di Bumi. Mungkin array berikut adalah vektor penyematan untuk pohon baobab:
Vektor penyematan bukanlah sekumpulan angka acak. Lapisan penyematan menentukan nilai ini melalui pelatihan, mirip dengan cara jaringan neural mempelajari bobot lain selama pelatihan. Setiap elemen array adalah rating berdasarkan beberapa karakteristik spesies pohon. Manakah elemen yang mewakili spesies pohon? Itu sangat sulit untuk ditentukan oleh manusia.
Bagian yang luar biasa secara matematis dari vektor penyematan adalah bahwa item serupa memiliki kumpulan angka floating-point yang serupa. Misalnya, spesies pohon yang serupa memiliki kumpulan angka floating-point yang lebih mirip daripada spesies pohon yang berbeda. Redwood dan sequoia adalah spesies pohon terkait, sehingga akan memiliki kumpulan angka floating-point yang lebih mirip daripada kayu merah dan pohon kelapa. Angka dalam vektor penyematan akan berubah setiap kali Anda melatih ulang model, meskipun Anda melatih ulang model dengan input yang identik.
pembuat enkode
Secara umum, sistem ML apa pun yang melakukan konversi dari representasi mentah, renggang, atau eksternal menjadi representasi yang lebih diproses, lebih padat, atau lebih internal.
Encoder sering kali merupakan komponen dari model yang lebih besar, yang sering disambungkan dengan decoder. Beberapa Transformers memasangkan encoder dengan dekoder, meskipun Transformer lainnya hanya menggunakan encoder atau hanya dekoder.
Beberapa sistem menggunakan output encoder sebagai input untuk jaringan klasifikasi atau regresi.
Pada tugas urutan ke urutan, encoder mengambil urutan input dan menampilkan status internal (vektor). Kemudian, decoder menggunakan status internal tersebut untuk memprediksi urutan berikutnya.
Lihat Transformer untuk mengetahui definisi encoder dalam arsitektur Transformer.
G
GPT (Transformator terlatih generasi)
Keluarga dari model bahasa besar berbasis Transformer yang dikembangkan oleh OpenAI.
Varian GPT dapat berlaku untuk beberapa modalitas, termasuk:
- pembuatan gambar (misalnya, ImageGPT)
- pembuatan text-to-image (misalnya, DALL-E).
L
LaMDA (Model Bahasa untuk Aplikasi Dialog)
Model bahasa besar berbasis Transformer yang dikembangkan oleh Google dilatih pada set data dialog besar yang dapat menghasilkan respons percakapan yang realistis.
LaMDA: teknologi percakapan terobosan kami memberikan ringkasan.
model bahasa
Model yang memperkirakan kemungkinan token atau urutan token yang terjadi dalam urutan token yang lebih panjang.
model bahasa besar
Istilah informal tanpa definisi yang ketat yang biasanya berarti model bahasa yang memiliki parameter dalam jumlah besar. Beberapa model bahasa besar berisi lebih dari 100 miliar parameter.
M
model bahasa yang disamarkan
Model bahasa yang memprediksi kemungkinan token kandidat untuk mengisi kolom yang kosong secara berurutan. Misalnya, model bahasa disamarkan dapat menghitung probabilitas untuk kata kandidat untuk menggantikan garis bawah dalam kalimat berikut:
____ di dalam topi kembali.
Literatur biasanya menggunakan string "MASK" bukan garis bawah. Contoh:
"MASK" dari balik topi.
Sebagian besar model bahasa disamarkan yang modern adalah dua arah.
pembelajaran meta
Subkumpulan machine learning yang menemukan atau meningkatkan algoritme pembelajaran. Sistem meta-learning juga dapat melatih model untuk mempelajari tugas baru dengan cepat dari sedikit data atau dari pengalaman yang diperoleh pada tugas sebelumnya. Algoritme meta-learning biasanya mencoba mencapai hal berikut:
- Tingkatkan/pelajari fitur yang dirancang dengan tangan (seperti penginisialisasi atau pengoptimal).
- Lebih efisien data dan komputasi.
- Meningkatkan generik.
Pembelajaran meta berkaitan dengan pembelajaran beberapa kali.
modalitas
Kategori data tingkat tinggi. Misalnya, angka, teks, gambar, video, dan audio adalah lima modalitas yang berbeda.
paralelisme model
Cara menskalakan pelatihan atau inferensi yang menempatkan berbagai bagian dari satu model di perangkat yang berbeda. Paralelisme model memungkinkan model yang terlalu besar untuk muat di satu perangkat.
Lihat juga paralelisme data.
menarik perhatian banyak orang
Ekstensi perhatian sendiri yang menerapkan mekanisme perhatian mandiri beberapa kali untuk setiap posisi dalam urutan input.
Transformers memperkenalkan perhatian penuh multi-head.
model multimodal
Model yang input dan/atau outputnya menyertakan lebih dari satu modalitas. Misalnya, pertimbangkan model yang mengambil gambar dan teks (dua modalitas) sebagai fitur, dan menghasilkan skor yang menunjukkan seberapa tepat teks teks untuk gambar. Jadi, input model ini adalah multimodal dan outputnya adalah unimodal.
T
natural language understanding
Menentukan niat pengguna berdasarkan apa yang diketik atau dikatakan pengguna. Misalnya, mesin telusur menggunakan pemahaman bahasa yang alami untuk menentukan apa yang ditelusuri pengguna berdasarkan apa yang diketik atau dikatakan pengguna.
N-gram
Urutan N kata yang diurutkan. Misalnya, truly madly adalah 2 gram. Karena urutan bersifat relevan, nilai 2 gram pada madlytrue berbeda dengan truly madly.
T | Nama untuk jenis N-gram ini | Contoh |
---|---|---|
2 | bigram atau 2 gram | pergi, pergi, makan siang, makan malam |
3 | trigram atau 3 gram | makan terlalu banyak, tiga tikus buta, lonceng berbunyi |
4 | 4 gram | berjalan di taman, debu di angin, anak laki-laki itu makan lentil |
Banyak model natural language understanding bergantung pada N-gram untuk memprediksi kata berikutnya yang akan diketik atau diucapkan pengguna. Misalnya, anggap pengguna mengetik tiga blind. Model NLU berdasarkan trigram kemungkinan akan memprediksi bahwa pengguna selanjutnya akan mengetik mice.
Berbeda dengan Ngram dengan tas kata, yang merupakan rangkaian kata yang tidak berurutan.
NLU
Singkatan untuk pengertian bahasa natural.
P
pipeline
Bentuk paralelisme model dengan pemrosesan model yang dibagi menjadi beberapa tahapan berurutan dan setiap tahapan dieksekusi di perangkat lain. Saat suatu tahapan memproses satu batch, tahap sebelumnya dapat berfungsi pada batch berikutnya.
Lihat juga pelatihan bertahap.
S
perawatan diri (juga disebut lapisan perhatian diri)
Lapisan jaringan neural yang mengubah urutan penyematan (misalnya, penyematan token) ke urutan penyematan lainnya. Setiap penyematan dalam urutan output dibuat dengan mengintegrasikan informasi dari elemen urutan input melalui mekanisme perhatian.
Bagian mandiri dari perhatian sendiri mengacu pada urutan yang mewakili dirinya sendiri, bukan pada konteks lain. Perhatian mandiri adalah salah satu elemen utama untuk Transformers dan menggunakan terminologi pencarian kamus, seperti “kueri”, “kunci”, dan “nilai”.
Lapisan perhatian mandiri dimulai dengan urutan representasi input, satu untuk setiap kata. Representasi input untuk kata dapat menjadi embedding sederhana. Untuk setiap kata dalam urutan input, jaringan mennilai relevansi kata dengan setiap elemen dalam seluruh urutan kata. Skor relevansi menentukan seberapa banyak representasi akhir dari kata pada representasi kata lain.
Sebagai contoh, pertimbangkan kalimat berikut:
Hewan itu tidak menyeberang jalan karena terlalu lelah.
Ilustrasi berikut (dari Transformer: A Novel Neural Network Architecture for Language Understand) menunjukkan pola perhatian mandiri untuk pola perhatian kata ganti, dengan kegelapan setiap baris yang menunjukkan seberapa besar kontribusi setiap kata terhadap representasi:
Lapisan perhatian mandiri menyoroti kata yang relevan dengan "itu". Dalam hal ini, lapisan perhatian telah belajar untuk menandai kata-kata yang mungkin dirujuk, dengan menetapkan bobot tertinggi ke hewan.
Untuk urutan n token, perhatian mandiri mengubah urutan penyematan n waktu terpisah, sekali di setiap posisi dalam urutan.
Lihat juga perhatian dan perhatian mandiri multi-kepala.
analisis sentimen
Menggunakan algoritme statistik atau machine learning untuk menentukan sikap kelompok secara keseluruhan—positif atau negatif—terhadap layanan, produk, organisasi, atau topik. Misalnya, menggunakan pemahaman bahasa alami, algoritme dapat melakukan analisis sentimen terhadap masukan tekstual dari mata kuliah universitas untuk menentukan sejauh mana siswa umumnya menyukai atau tidak menyukai mata pelajaran tersebut.
tugas urutan ke urutan
Tugas yang mengonversi urutan input token menjadi urutan output token. Misalnya, dua jenis tugas urutan-ke-urutan yang populer adalah:
- Penerjemah:
- Contoh urutan input: "Aku mencintaimu."
- Contoh urutan keluaran: "Je t'aime."
- Jawaban pertanyaan:
- Contoh urutan masukan: "Apakah saya perlu mobil saya di Jakarta?"
- Contoh urutan keluaran: "Tidak. Jaga mobil Anda di rumah."
fitur renggang
Fitur yang sebagian besar nilainya nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 jarang terjadi. Sebaliknya, fitur padat memiliki nilai yang sebagian besar tidak berisi nol atau kosong.
Dalam machine learning, jumlah fitur yang mengejutkan adalah fitur yang tersebar. Fitur kategoris biasanya merupakan fitur renggang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan video yang memungkinkan dalam koleksi video, satu contoh mungkin mengidentifikasi hanya "Casablanca."
Dalam model, Anda biasanya mewakili fitur renggang dengan encoding satu kali. Jika encoding sekali klik berukuran besar, Anda dapat menempatkan lapisan penyematan di atas encoding sekali klik untuk efisiensi yang lebih besar.
representasi renggang
Menyimpan hanya posisi elemen bukan nol dalam fitur renggang.
Misalnya, fitur kategoris bernama species
mengidentifikasi 36 spesies pohon di hutan tertentu. Selanjutnya asumsikan bahwa setiap contoh hanya mengidentifikasi satu spesies.
Anda dapat menggunakan vektor one-hot untuk mewakili spesies pohon di setiap contoh.
Vektor one-hot akan berisi satu 1
(untuk mewakili
spesies pohon tertentu dalam contoh tersebut) dan 35 0
(untuk mewakili
35 spesies pohon yang tidak dalam contoh tersebut). Jadi, representasi sekali klik
dari maple
mungkin terlihat seperti berikut:
Atau, representasi renggang hanya akan mengidentifikasi posisi
spesies tertentu. Jika maple
berada di posisi 24, representasi renggang maple
adalah:
24
Perhatikan bahwa representasi renggang jauh lebih ringkas daripada representasi satu kali.
pelatihan bertahap
Taktik pelatihan model dalam urutan tahapan terpisah. Tujuannya bisa untuk mempercepat proses pelatihan, atau untuk mencapai kualitas model yang lebih baik.
Ilustrasi pendekatan progressive stacking ditampilkan di bawah ini:
- Tahap 1 berisi 3 lapisan tersembunyi, tahap 2 berisi 6 lapisan tersembunyi, dan tahap 3 berisi 12 lapisan tersembunyi.
- Tahap 2 memulai pelatihan dengan bobot yang dipelajari pada 3 lapisan tersembunyi Tahap 1. Tahap 3 memulai pelatihan dengan bobot yang dipelajari pada 6 lapisan tersembunyi pada Tahap 2.
Lihat juga pipeline.
T
token
Dalam model bahasa, unit atom yang digunakan untuk melatih model dan membuat prediksi. Token biasanya berupa salah satu dari hal berikut:
- sebuah kata—misalnya, frasa "anjing seperti kucing" terdiri dari tiga token kata: "anjing", "suka", dan "kucing".
- karakter—misalnya, frasa "sepeda &" terdiri dari sembilan token karakter. (Perhatikan bahwa ruang kosong dihitung sebagai salah satu token.)
- subkata—dengan satu kata dapat berupa satu token atau beberapa token. Subkata terdiri dari kata akar, awalan, atau akhiran. Misalnya, model bahasa yang menggunakan subkata sebagai token mungkin melihat kata "anjing" sebagai dua token (kata root "anjing" dan akhiran jamak "s"). Model bahasa yang sama tersebut mungkin melihat satu kata "taller" sebagai dua subkata (kata akar "tinggi" dan akhiran "er").
Di domain di luar model bahasa, token dapat merepresentasikan jenis unit atom lainnya. Misalnya, dalam computer vision, token mungkin merupakan subkumpulan gambar.
Transformator
Arsitektur jaringan neural yang dikembangkan di Google yang mengandalkan mekanisme perawatan mandiri untuk mengubah urutan penyematan input menjadi urutan penyematan output tanpa mengandalkan konvolusi atau jaringan neural berulang. Transformer dapat dipandang sebagai tumpukan lapisan perhatian mandiri.
Transformator dapat menyertakan hal berikut:
Enkoder mengubah urutan penyematan menjadi urutan baru dengan panjang yang sama. Encoder menyertakan N lapisan identik, yang masing-masing berisi dua sub-lapisan. Kedua sub-lapisan ini diterapkan pada setiap posisi dari urutan penyematan input, yang mengubah setiap elemen urutan menjadi penyematan baru. Sub-lapisan encoder pertama menggabungkan informasi dari seluruh urutan input. Sub-lapisan encoder kedua mengubah informasi gabungan menjadi penyematan output.
Dekoder mengubah urutan penyematan input menjadi urutan embedahan output, mungkin dengan panjang yang berbeda. Decoder juga mencakup N lapisan yang identik dengan tiga sub-lapisan, dua di antaranya mirip dengan sub-lapisan encoder. Sublapisan dekoder ketiga mengambil output encoder dan menerapkan mekanisme perhatian sendiri untuk mengumpulkan informasi darinya.
Postingan blog Transformer: A Novel Neural Network Architecture for Language Understand memberikan pengantar yang baik tentang Transformers.
trigram
N-gram yang mana N=3.
U
searah
Sistem yang hanya mengevaluasi teks yang mendahului bagian target teks. Sebaliknya, sistem dua arah mengevaluasi teks yang mendahului dan mengikuti bagian target teks. Lihat dua arah untuk detail selengkapnya.
model bahasa searah
Model bahasa yang mendasarkan probabilitasnya hanya pada token yang muncul sebelum, bukan setelah, token target. Berbeda dengan model bahasa dua arah.
W
penyematan kata
Merepresentasikan setiap kata dalam kata yang ditetapkan dalam vektor sematan; yaitu, mewakili setiap kata sebagai vektor nilai floating point antara 0,0 dan 1,0. Kata-kata dengan makna yang serupa memiliki representasi yang lebih mirip daripada kata-kata dengan makna yang berbeda. Misalnya, wortel, seledri, dan timun akan memiliki representasi yang relatif mirip, yang akan sangat berbeda dari representasi pesawat, kacamata hitam, dan pasta gigi.