Halaman ini diterjemahkan oleh Cloud Translation API.

Glosarium Machine Learning

Glosarium ini mendefinisikan istilah machine learning.

A

ablasi

Teknik untuk mengevaluasi pentingnya fitur atau komponen dengan menghapusnya untuk sementara dari model. Kemudian, Anda akan melatih ulang model tanpa fitur atau komponen tersebut, dan jika model yang dilatih ulang berperforma jauh lebih buruk, berarti fitur atau komponen yang dihapus mungkin penting.

Misalnya, Anda melatih model klasifikasi pada 10 fitur dan mencapai presisi 88% pada set pengujian. Untuk memeriksa pentingnya fitur pertama, Anda dapat melatih ulang model hanya menggunakan sembilan fitur lainnya. Jika model yang dilatih ulang berperforma jauh lebih buruk (misalnya, presisi 55%), fitur yang dihapus mungkin penting. Sebaliknya, jika model yang dilatih ulang berperforma sama baiknya, fitur tersebut mungkin tidak terlalu penting.

Ablasi juga dapat membantu menentukan pentingnya:

Komponen yang lebih besar, seperti seluruh subsistem dari sistem ML yang lebih besar
Proses atau teknik, seperti langkah prapemrosesan data

Dalam kedua kasus tersebut, Anda akan mengamati bagaimana performa sistem berubah (atau tidak berubah) setelah Anda menghapus komponen.

Pengujian A/B

Cara statistik untuk membandingkan dua (atau beberapa) teknik—A dan B. Biasanya, A adalah teknik yang sudah ada, dan B adalah teknik baru. Pengujian A/B tidak hanya menentukan teknik mana yang berperforma lebih baik, tetapi juga apakah perbedaannya signifikan secara statistik.

Pengujian A/B biasanya membandingkan satu metrik pada dua teknik; misalnya, bagaimana perbandingan akurasi model untuk dua teknik? Namun, pengujian A/B juga dapat membandingkan sejumlah metrik yang terbatas.

chip akselerator

#GoogleCloud

Kategori komponen hardware khusus yang dirancang untuk melakukan komputasi utama yang diperlukan untuk algoritma deep learning.

Chip akselerator (atau disingkat akselerator) dapat meningkatkan kecepatan dan efisiensi tugas pelatihan dan inferensi secara signifikan dibandingkan dengan CPU serbaguna. GPU ini ideal untuk melatih neural network dan tugas intensif komputasi serupa.

Contoh chip akselerator meliputi:

Tensor Processing Unit (TPU) Google dengan hardware khusus untuk deep learning.
GPU NVIDIA yang, meskipun awalnya dirancang untuk pemrosesan grafis, dirancang untuk memungkinkan pemrosesan paralel, yang dapat meningkatkan kecepatan pemrosesan secara signifikan.

akurasi

#fundamentals

#Metric

Jumlah prediksi klasifikasi yang benar dibagi dengan jumlah total prediksi. Definisinya yaitu:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Misalnya, model yang membuat 40 prediksi yang benar dan 10 prediksi yang salah akan memiliki akurasi:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasifikasi biner memberikan nama spesifik untuk berbagai kategori prediksi yang benar dan prediksi yang salah. Jadi, formula akurasi untuk klasifikasi biner adalah sebagai berikut:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dalam hal ini:

TP adalah jumlah positif benar (prediksi yang benar).
TN adalah jumlah negatif benar (prediksi yang benar).
FP adalah jumlah positif palsu (prediksi yang salah).
FN adalah jumlah negatif palsu (prediksi yang salah).

Bandingkan dan bedakan akurasi dengan presisi dan recall.

Klik ikon untuk mengetahui detail tentang akurasi dan set data kelas tidak seimbang.

Meskipun merupakan metrik yang berharga untuk beberapa situasi, akurasi sangat menyesatkan untuk situasi lainnya. Secara khusus, akurasi biasanya merupakan metrik yang buruk untuk mengevaluasi model klasifikasi yang memproses set data kelas tidak seimbang.

Misalnya, salju hanya turun 25 hari per abad di kota subtropis tertentu. Karena hari tanpa salju (kelas negatif) jauh lebih banyak daripada hari dengan salju (kelas positif), set data salju untuk kota ini tidak seimbang. Bayangkan model klasifikasi biner yang seharusnya memprediksi salju atau tidak ada salju setiap hari, tetapi hanya memprediksi "tidak ada salju" setiap hari. Model ini sangat akurat, tetapi tidak memiliki kemampuan prediktif. Tabel berikut meringkas hasil prediksi selama satu abad:

Kategori	Angka
TP	0
TN	36499
FP	0
FN	25

Oleh karena itu, akurasi model ini adalah:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Meskipun akurasi 99,93% tampak seperti persentase yang sangat mengesankan, model ini sebenarnya tidak memiliki kemampuan prediktif.

Presisi dan recall biasanya merupakan metrik yang lebih berguna daripada akurasi untuk mengevaluasi model yang dilatih pada set data yang tidak seimbang.

Lihat Klasifikasi: Akurasi, recall, presisi, dan metrik terkait di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

action

#rl

Dalam reinforcement learning, mekanisme yang digunakan agen untuk bertransisi di antara status lingkungan. Agen memilih tindakan menggunakan kebijakan.

fungsi aktivasi

#fundamentals

Fungsi yang memungkinkan jaringan saraf mempelajari hubungan nonlinear (kompleks) antara fitur dan label.

Fungsi aktivasi yang populer meliputi:

ReLU
Sigmoid

Plot fungsi aktivasi tidak pernah berupa garis lurus tunggal. Misalnya, plot fungsi aktivasi ReLU terdiri dari dua garis lurus:

Plot Kartesius dari dua garis. Baris pertama memiliki nilai y konstan
sebesar 0, yang berjalan di sepanjang sumbu x dari -infinity,0 hingga 0,-0.
Baris kedua dimulai pada 0,0. Garis ini memiliki kemiringan +1, sehingga
berjalan dari 0,0 hingga +infinity,+infinity.

Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain
-infinity hingga +positive, sedangkan nilai y mencakup rentang hampir 0 hingga
hampir 1. Jika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi di 0,0,5 dan kemiringan yang menurun secara bertahap seiring dengan meningkatnya nilai absolut x.

Klik ikon untuk melihat contoh.

Dalam jaringan saraf, fungsi aktivasi memanipulasi jumlah berbobot dari semua input ke neuron. Untuk menghitung jumlah berbobot, neuron menambahkan produk dari nilai dan bobot yang relevan. Misalnya, anggap saja input yang relevan ke neuron terdiri dari hal berikut:

nilai input	bobot input
2	-1,3
-1	0,6
3	0,4

Oleh karena itu, jumlah tertimbang adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Misalkan desainer jaringan saraf ini memilih fungsi sigmoid sebagai fungsi aktivasi. Dalam hal ini, neuron menghitung sigmoid -2,0, yang kira-kira 0,12. Oleh karena itu, neuron meneruskan 0,12 (bukan -2,0) ke lapisan berikutnya dalam jaringan saraf. Gambar berikut mengilustrasikan bagian proses yang relevan:

Lihat Jaringan neural: Fungsi aktivasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pembelajaran aktif

Pendekatan pelatihan yang algoritmenya memilih beberapa data yang dipelajarinya. Pembelajaran aktif sangat berharga jika contoh berlabel langka atau mahal untuk diperoleh. Daripada mencari berbagai contoh berlabel secara membabi buta, algoritma pembelajaran aktif secara selektif mencari rentang contoh tertentu yang diperlukan untuk pembelajaran.

AdaGrad

Algoritme penurunan gradien mutakhir yang menskalakan ulang gradien dari setiap parameter, yang secara efektif memberikan kecepatan pembelajaran independen ke setiap parameter. Untuk penjelasan selengkapnya, lihat Metode Subgradient Adaptif untuk Pembelajaran Online dan Pengoptimalan Stochastis.

agen

#rl

Dalam pembelajaran penguatan, entitas yang menggunakan kebijakan untuk memaksimalkan hasil yang diharapkan diperoleh dari transisi antara status lingkungan.

Secara lebih umum, agen adalah software yang secara otonom merencanakan dan menjalankan serangkaian tindakan untuk mencapai sasaran, dengan kemampuan untuk beradaptasi dengan perubahan di lingkungannya. Misalnya, agen berbasis LLM dapat menggunakan LLM untuk membuat rencana, bukan menerapkan kebijakan reinforcement learning.

pengelompokan aglomeratif

#clustering

Lihat pengelompokan hierarkis.

deteksi anomali

Proses mengidentifikasi pencilan. Misalnya, jika nilai tengah untuk fitur tertentu adalah 100 dengan deviasi standar 10, deteksi anomali akan menandai nilai 200 sebagai mencurigakan.

AR

Singkatan dari augmented reality.

area di bawah kurva PR

#Metric

Lihat AUC PR (Area di Bawah Kurva PR).

area di bawah kurva ROC

#Metric

Lihat AUC (Area di bawah kurva ROC).

kecerdasan umum buatan

Mekanisme non-manusia yang menunjukkan berbagai pemecahan masalah, kreativitas, dan kemampuan adaptasi. Misalnya, program yang menunjukkan kecerdasan umum buatan dapat menerjemahkan teks, menulis simfoni, dan unggul dalam game yang belum ditemukan.

kecerdasan buatan

#fundamentals

Program atau model non-manusia yang dapat menyelesaikan tugas-tugas rumit. Misalnya, program atau model yang menerjemahkan teks atau program atau model yang mengidentifikasi penyakit dari gambar radiologi menunjukkan kecerdasan buatan.

Secara formal, machine learning adalah sub-bidang kecerdasan buatan. Namun, dalam beberapa tahun terakhir, beberapa organisasi mulai menggunakan istilah kecerdasan buatan dan machine learning secara bergantian.

Attention,

#language

Mekanisme yang digunakan dalam jaringan neural yang menunjukkan pentingnya kata atau bagian kata tertentu. Perhatian mengompresi jumlah informasi yang diperlukan model untuk memprediksi token/kata berikutnya. Mekanisme perhatian standar mungkin terdiri dari jumlah berbobot pada sekumpulan input, dengan bobot untuk setiap input dihitung oleh bagian lain dari jaringan neural.

Lihat juga self-attention dan multi-head self-attention, yang merupakan elemen penyusun Transformer.

Lihat LLM: Apa itu model bahasa besar? di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya tentang perhatian mandiri.

atribut

#fairness

Sinonim dari fitur.

Dalam keadilan machine learning, atribut sering kali mengacu pada karakteristik yang berkaitan dengan individu.

pengambilan sampel atribut

#df

Taktik untuk melatih hutan keputusan dengan setiap pohon keputusan hanya mempertimbangkan subset acak dari kemungkinan fitur saat mempelajari kondisi. Umumnya, subset fitur yang berbeda diambil sampelnya untuk setiap node. Sebaliknya, saat melatih hierarki keputusan tanpa sampling atribut, semua kemungkinan fitur akan dipertimbangkan untuk setiap node.

AUC (Area di bawah kurva ROC)

#fundamentals

#Metric

Angka antara 0,0 dan 1,0 yang mewakili kemampuan model klasifikasi biner untuk memisahkan class positif dari class negatif. Makin dekat AUC ke 1,0, makin baik kemampuan model untuk memisahkan class satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model klasifikasi yang memisahkan class positif (oval hijau) dari class negatif (persegi panjang ungu) dengan sempurna. Model yang sempurna secara tidak realistis ini memiliki AUC 1,0:

Garis bilangan dengan 8 contoh positif di satu sisi dan
9 contoh negatif di sisi lain.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk model klasifikasi yang menghasilkan hasil acak. Model ini memiliki AUC 0,5:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
Urutan contohnya adalah positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif, negatif.

Ya, model sebelumnya memiliki AUC 0,5, bukan 0,0.

Sebagian besar model berada di antara dua titik ekstrem. Misalnya, model berikut agak memisahkan positif dari negatif, sehingga memiliki AUC antara 0,5 dan 1,0:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
Urutan contohnya adalah negatif, negatif, negatif, negatif, positif, negatif, positif, positif, negatif, positif, positif, positif.

AUC mengabaikan nilai apa pun yang Anda tetapkan untuk nilai minimum klasifikasi. Sebagai gantinya, AUC mempertimbangkan semua kemungkinan batas klasifikasi.

Klik ikon untuk mempelajari hubungan antara AUC dan kurva ROC.

AUC mewakili area di bawah kurva ROC. Misalnya, kurva ROC untuk model yang memisahkan positif dari negatif dengan sempurna terlihat seperti berikut:

AUC adalah area wilayah abu-abu dalam ilustrasi sebelumnya. Dalam kasus yang tidak biasa ini, areanya hanyalah panjang area abu-abu (1,0) yang dikalikan dengan lebar area abu-abu (1,0). Jadi, produk 1,0 dan 1,0 menghasilkan AUC persis 1,0, yang merupakan skor AUC tertinggi.

Sebaliknya, kurva ROC untuk model klasifikasi yang tidak dapat memisahkan class sama sekali adalah sebagai berikut. Area wilayah abu-abu ini adalah 0,5.

Kurva ROC yang lebih umum terlihat kira-kira seperti berikut:

Menghitung area di bawah kurva ini secara manual akan sangat merepotkan, sehingga program biasanya menghitung sebagian besar nilai AUC.

Klik ikon untuk mengetahui definisi AUC yang lebih formal.

AUC adalah probabilitas bahwa model klasifikasi akan lebih yakin daripada contoh positif yang dipilih secara acak sebenarnya positif daripada contoh negatif yang dipilih secara acak adalah positif.

Lihat Klasifikasi: ROC dan AUC di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

augmented reality

#image

Teknologi yang menempatkan gambar buatan komputer pada tampilan pengguna terhadap dunia nyata, sehingga memberikan tampilan komposit.

autoencoder

#language

#image

Sistem yang mempelajari cara mengekstrak informasi yang paling penting dari input. Autoencoder adalah kombinasi dari encoder dan decoder. Autoencoder mengandalkan proses dua langkah berikut:

Encoder memetakan input ke format (biasanya) dengan dimensi lebih rendah (perantara) yang mengalami derau.
Dekoder membuat versi lossy dari input asli dengan memetakan format dimensi yang lebih rendah ke format input dimensi yang lebih tinggi.

Autoencoder dilatih secara menyeluruh dengan meminta decoder untuk merekonstruksi input asli dari format perantara encoder sesecara mungkin. Karena format perantara lebih kecil (dimensi lebih rendah) daripada format asli, autoencoder dipaksa untuk mempelajari informasi apa yang penting dalam input, dan output tidak akan sama persis dengan input.

Contoh:

Jika data input adalah grafik, salinan yang tidak sama persis akan mirip dengan grafik asli, tetapi sedikit dimodifikasi. Mungkin salinan yang tidak sama menghapus derau dari gambar asli atau mengisi beberapa piksel yang hilang.
Jika data input adalah teks, autoencoder akan menghasilkan teks baru yang meniru (tetapi tidak identik dengan) teks asli.

Lihat juga autoencoder variasional.

evaluasi otomatis

#language

#generativeAI

Menggunakan software untuk menilai kualitas output model.

Jika output model relatif sederhana, skrip atau program dapat membandingkan output model dengan respons emas. Jenis evaluasi otomatis ini terkadang disebut evaluasi terprogram. Metrik seperti ROUGE atau BLEU sering kali berguna untuk evaluasi terprogram.

Jika output model kompleks atau tidak memiliki satu jawaban yang benar, program ML terpisah yang disebut autorater terkadang melakukan evaluasi otomatis.

Berbeda dengan evaluasi manual.

bias otomatisasi

#fairness

Ketika pembuat keputusan manusia lebih memilih rekomendasi yang dibuat oleh sistem pengambilan keputusan otomatis daripada informasi yang dibuat tanpa otomatisasi, meskipun sistem pengambilan keputusan otomatis membuat error.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

AutoML

Setiap proses otomatis untuk membuat model machine learning. AutoML dapat otomatis melakukan tugas seperti berikut:

Telusuri model yang paling sesuai.
Sesuaikan hyperparameter.
Menyiapkan data (termasuk melakukan rekayasa fitur).
Deploy model yang dihasilkan.

AutoML berguna bagi data scientist karena dapat menghemat waktu dan upaya mereka dalam mengembangkan pipeline machine learning dan meningkatkan akurasi prediksi. Hal ini juga berguna bagi non-ahli, dengan membuat tugas machine learning yang rumit lebih mudah diakses oleh mereka.

Lihat Machine Learning Otomatis (AutoML) di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

evaluasi autorater

#language

#generativeAI

Mekanisme campuran untuk menilai kualitas output model AI generatif yang menggabungkan evaluasi manual dengan evaluasi otomatis. Autorater adalah model ML yang dilatih pada data yang dibuat oleh evaluasi manusia. Idealnya, pembuat otomatis akan belajar meniru evaluator manusia.

Autorator bawaan tersedia, tetapi autorator terbaik dioptimalkan secara khusus untuk tugas yang Anda evaluasi.

model autoregresif

#language

#image

#generativeAI

Model yang menyimpulkan prediksi berdasarkan prediksi sebelumnya. Misalnya, model bahasa autoregresif memprediksi token berikutnya berdasarkan token yang diprediksi sebelumnya. Semua model bahasa besar berbasis Transformer bersifat autoregresif.

Sebaliknya, model gambar berbasis GAN biasanya tidak bersifat autoregresif karena menghasilkan gambar dalam satu penerusan maju dan tidak secara iteratif dalam langkah-langkah. Namun, model pembuatan gambar tertentu adalah autoregresif karena membuat gambar secara bertahap.

kerugian tambahan

Fungsi kerugian—digunakan bersama dengan jaringan neural model fungsi kerugian utama—yang membantu mempercepat pelatihan selama iterasi awal saat bobot diinisialisasi secara acak.

Fungsi kerugian tambahan mendorong gradient yang efektif ke lapisan sebelumnya. Hal ini memfasilitasi konvergensi selama pelatihan dengan mengatasi masalah gradien yang menghilang.

presisi rata-rata pada k

#language

#Metric

Metrik untuk meringkas performa model pada satu perintah yang menghasilkan hasil yang diberi peringkat, seperti daftar rekomendasi buku yang diberi nomor. Presisi rata-rata pada k adalah rata-rata nilai presisi pada k untuk setiap hasil yang relevan. Oleh karena itu, formula untuk presisi rata-rata pada k adalah:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

dalam hal ini:

$n$ adalah jumlah item yang relevan dalam daftar.

Berbeda dengan recall at k.

Klik ikon untuk melihat contoh

Misalkan model bahasa besar diberi kueri berikut:

List the 6 funniest movies of all time in order.

Dan model bahasa besar menampilkan daftar berikut:

Jenderal
Mean Girls
Platoon
Bridesmaids
Citizen Kane
Ini adalah Spinal Tap

Empat film dalam daftar yang ditampilkan sangat lucu (yaitu, relevan), tetapi dua film adalah drama (tidak relevan). Tabel berikut menjelaskan hasilnya:

Posisi	Film	Relevan?	Presisi pada k
1	Jenderal	Ya	1.0
2	Mean Girls	Ya	1.0
3	Platoon	Tidak	tidak relevan
4	Bridesmaids	Ya	0,75
5	Citizen Kane	Tidak	tidak relevan
6	Ini adalah Spinal Tap	Ya	0.67

Jumlah hasil yang relevan adalah 4. Oleh karena itu, Anda dapat menghitung presisi rata-rata pada 6 sebagai berikut:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

kondisi yang sejajar dengan sumbu

#df

Dalam pohon keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, maka berikut adalah kondisi yang sejajar dengan sumbu:

area > 200

Berbeda dengan kondisi miring.

B

propagasi mundur

#fundamentals

Algoritma yang menerapkan penurunan gradien dalam jaringan saraf.

Melatih jaringan neural melibatkan banyak iterations siklus dua tahap berikut:

Selama forward pass, sistem memproses batch contoh untuk menghasilkan prediksi. Sistem membandingkan setiap prediksi dengan setiap nilai label. Perbedaan antara prediksi dan nilai label adalah kerugian untuk contoh tersebut. Sistem menggabungkan kerugian untuk semua contoh guna menghitung total kerugian untuk batch saat ini.
Selama backward pass (backpropagation), sistem mengurangi kerugian dengan menyesuaikan bobot semua neuron di semua lapisan tersembunyi.

Jaringan saraf sering kali berisi banyak neuron di banyak lapisan tersembunyi. Setiap neuron tersebut berkontribusi pada keseluruhan kerugian dengan cara yang berbeda. Backpropagation menentukan apakah akan meningkatkan atau menurunkan bobot yang diterapkan ke neuron tertentu.

Kecepatan pembelajaran adalah pengganda yang mengontrol tingkat peningkatan atau penurunan setiap bobot oleh setiap iterasi mundur. Kecepatan pembelajaran yang besar akan meningkatkan atau menurunkan setiap bobot lebih banyak daripada kecepatan pembelajaran yang kecil.

Dalam istilah kalkulus, backpropagation menerapkan aturan rantai. dari kalkulus. Artinya, backpropagation menghitung turunan parsial error sehubungan dengan setiap parameter.

Beberapa tahun yang lalu, praktisi ML harus menulis kode untuk menerapkan backpropagation. API ML modern seperti Keras kini menerapkan backpropagation untuk Anda. Fiuh!

Lihat Jaringan neural di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pengelompokan

#df

Metode untuk melatih ensemble dengan setiap model penyusunnya dilatih pada subset acak dari contoh pelatihan yang dipilih dengan penggantian. Misalnya, hutan acak adalah kumpulan pohon keputusan yang dilatih dengan bagging.

Istilah bagging adalah singkatan dari bootstrap aggregating.

Lihat Random forest di kursus Decision Forests untuk mengetahui informasi selengkapnya.

kantong data

#language

Representasi kata dalam frasa atau bagian, terlepas dari urutannya. Misalnya, bag of words mewakili tiga frasa berikut secara identik:

melompat
melompat
melompat

Setiap kata dipetakan ke indeks dalam vektor jarang, dengan vektor memiliki indeks untuk setiap kata dalam kosakata. Misalnya, frasa the dog jumps dipetakan ke dalam vektor fitur dengan nilai bukan nol pada tiga indeks yang sesuai dengan kata the, dog, dan jumps. Nilai non-nol dapat berupa salah satu dari hal berikut:

1 untuk menunjukkan keberadaan kata.
Jumlah frekuensi kemunculan kata dalam bag. Misalnya, jika frasa tersebut adalah merah marun adalah dengan bulu merah marun, maka merah marun dan akan direpresentasikan sebagai 2, sedangkan kata lainnya akan direpresentasikan sebagai 1.
Beberapa nilai lainnya, seperti logaritma jumlah frekuensi kata muncul dalam bag.

dasar

#Metric

Model yang digunakan sebagai titik referensi untuk membandingkan performa model lain (biasanya, model yang lebih kompleks). Misalnya, model regresi logistik dapat berfungsi sebagai dasar pengukuran yang baik untuk model deep learning.

Untuk masalah tertentu, dasar pengukuran membantu developer model mengukur performa minimum yang diharapkan yang harus dicapai model baru agar model baru tersebut berguna.

batch

#fundamentals

Kumpulan contoh yang digunakan dalam satu iterasi pelatihan. Ukuran batch menentukan jumlah contoh dalam batch.

Lihat epoch untuk mendapatkan penjelasan tentang hubungan batch dengan epoch.

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

inferensi batch

#TensorFlow

#GoogleCloud

Proses menyimpulkan prediksi pada beberapa contoh yang tidak berlabel yang dibagi menjadi subkumpulan yang lebih kecil ("batch").

Inferensi batch dapat memanfaatkan fitur paralelisasi chip akselerator. Artinya, beberapa akselerator dapat secara bersamaan menyimpulkan prediksi pada berbagai batch contoh tanpa label, sehingga secara drastis meningkatkan jumlah inferensi per detik.

Lihat Sistem ML produksi: Inferensi statis versus dinamis di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

normalisasi batch

Menstandarkan input atau output fungsi aktivasi di lapisan tersembunyi. Normalisasi batch dapat memberikan manfaat berikut:

Buat jaringan neural lebih stabil dengan melindungi dari bobot outlier.
Mengaktifkan kecepatan belajar yang lebih tinggi, yang dapat mempercepat pelatihan.
Mengurangi overfitting.

ukuran batch

#fundamentals

Jumlah contoh dalam batch. Misalnya, jika ukuran batch adalah 100, model akan memproses 100 contoh per iterasi.

Berikut adalah strategi ukuran batch yang populer:

Penurunan Gradien Stokastik (SGD), dengan ukuran batch 1.
Batch penuh, dengan ukuran batch adalah jumlah contoh di seluruh set pelatihan. Misalnya, jika set pelatihan berisi satu juta contoh, ukuran batch-nya adalah satu juta contoh. Batch penuh biasanya merupakan strategi yang tidak efisien.
mini-batch dengan ukuran batch biasanya antara 10 dan 1.000. Mini-batch biasanya merupakan strategi yang paling efisien.

Lihat informasi selengkapnya di sini:

Sistem ML produksi: Inferensi statis versus dinamis dalam Kursus Singkat Machine Learning.
Playbook Penyesuaian Deep Learning.

Jaringan neural Bayesian

Jaringan neural probabilistik yang memperhitungkan ketidakpastian dalam bobot dan output. Model regresi jaringan neural standar biasanya memprediksi nilai skalar; misalnya, model standar memprediksi harga rumah sebesar 853.000. Sebaliknya, jaringan saraf Bayesian memprediksi distribusi nilai; misalnya, model Bayesian memprediksi harga rumah senilai 853.000 dengan simpangan baku 67.200.

Jaringan saraf Bayesian mengandalkan Teorema Bayes untuk menghitung ketidakpastian dalam bobot dan prediksi. Jaringan saraf Bayesian dapat berguna jika penghitungan ketidakpastian bersifat penting, seperti dalam model yang terkait dengan obat-obatan. Jaringan saraf Bayesian juga dapat membantu mencegah overfitting.

Pengoptimalan Bayesian

Teknik model regresi probabilistik untuk mengoptimalkan fungsi objektif yang mahal secara komputasi dengan mengoptimalkan pengganti yang mengukur ketidakpastian menggunakan teknik pembelajaran Bayesian. Karena pengoptimalan Bayesian itu sendiri sangat mahal, pengoptimalan ini biasanya digunakan untuk mengoptimalkan tugas yang mahal untuk dievaluasi yang memiliki sedikit parameter, seperti memilih hyperparameter.

Persamaan Bellman

#rl

Dalam reinforcement learning, identitas berikut dipenuhi oleh fungsi-Q yang optimal:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algoritma pembelajaran penguatan menerapkan identitas ini untuk membuat pembelajaran Q menggunakan aturan update berikut:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Selain reinforcement learning, persamaan Bellman memiliki aplikasi untuk pemrograman dinamis. Lihat entri Wikipedia untuk persamaan Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Arsitektur model untuk representasi teks. Model BERT yang dilatih dapat bertindak sebagai bagian dari model yang lebih besar untuk klasifikasi teks atau tugas ML lainnya.

BERT memiliki karakteristik berikut:

Menggunakan arsitektur Transformer, sehingga bergantung pada self-attention.
Menggunakan bagian encoder dari Transformer. Tugas encoder adalah menghasilkan representasi teks yang baik, bukan untuk melakukan tugas tertentu seperti klasifikasi.
Dua arah.
Menggunakan masking untuk pelatihan tanpa pengawasan.

Varian BERT mencakup:

ALBERT, yang merupakan akronim dari A Light BERT.
LaBSE.

Lihat Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing untuk mengetahui ringkasan BERT.

bias (etika/keadilan)

#fairness

#fundamentals

1. Stereotip, prasangka, atau preferensi terhadap beberapa hal, orang, atau kelompok dibandingkan yang lain. Bias ini dapat memengaruhi pengumpulan dan interpretasi data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk jenis bias ini meliputi:

automation bias
bias konfirmasi
bias pelaku eksperimen
bias atribusi grup
bias implisit
bias dalam grup
bias kehomogenan luar golongan

2. Error sistematis yang disebabkan oleh prosedur sampling atau pelaporan. Bentuk jenis bias ini meliputi:

bias cakupan
bias abstain
bias keikutsertaan
bias pelaporan
bias sampling
bias seleksi

Jangan sampai tertukar dengan istilah bias dalam model machine learning atau bias prediksi.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

bias (matematika) atau istilah bias

#fundamentals

Intersep atau offset dari asal. Bias adalah parameter dalam model machine learning, yang dilambangkan dengan salah satu hal berikut:

b
w₀

Misalnya, bias bernilai b dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dalam garis dua dimensi sederhana, bias hanya berarti "titik potong y". Misalnya, bias garis dalam ilustrasi berikut adalah 2.

Plot garis dengan kemiringan 0,5 dan bias (titik potong y) 2.

Bias ada karena tidak semua model dimulai dari asal (0,0). Misalnya, sebuah taman hiburan mengenakan biaya masuk sebesar 2 Euro dan biaya tambahan 0,5 Euro untuk setiap jam pelanggan berada di sana. Oleh karena itu, model yang memetakan biaya total memiliki bias 2 karena biaya terendah adalah 2 Euro.

Bias tidak boleh disamakan dengan bias dalam etika dan keadilan atau bias prediksi.

Lihat Regresi Linear di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

dua arah

#language

Istilah yang digunakan untuk mendeskripsikan sistem yang mengevaluasi teks yang mendahului dan mengikuti bagian teks target. Sebaliknya, sistem satu arah hanya mengevaluasi teks yang mendahului bagian teks target.

Misalnya, pertimbangkan model bahasa yang disamarkan yang harus menentukan probabilitas untuk kata atau kata yang mewakili garis bawah dalam pertanyaan berikut:

Apa _____ Anda?

Model bahasa satu arah harus mendasarkan probabilitasnya hanya pada konteks yang diberikan oleh kata "Apa", "adalah", dan "yang". Sebaliknya, model bahasa dua arah juga dapat memperoleh konteks dari "dengan" dan "Anda", yang dapat membantu model menghasilkan prediksi yang lebih baik.

model bahasa dua arah

#language

Model bahasa yang menentukan probabilitas bahwa token tertentu ada di lokasi tertentu dalam cuplikan teks berdasarkan teks sebelumnya dan berikutnya.

bigram

#seq

#language

N-gram yang mana N=2.

klasifikasi biner

#fundamentals

Jenis tugas klasifikasi yang memprediksi salah satu dari dua class yang saling eksklusif:

class positif
kelas negatif

Misalnya, dua model machine learning berikut masing-masing melakukan klasifikasi biner:

Model yang menentukan apakah pesan email spam (kelas positif) atau bukan spam (kelas negatif).
Model yang mengevaluasi gejala medis untuk menentukan apakah seseorang memiliki penyakit tertentu (kelas positif) atau tidak memiliki penyakit tersebut (kelas negatif).

Berbeda dengan klasifikasi multi-kelas.

Lihat juga regresi logistik dan nilai minimum klasifikasi.

Lihat Klasifikasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kondisi biner

#df

Dalam pohon keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya ya atau tidak. Misalnya, berikut adalah kondisi biner:

temperature >= 100

Berbeda dengan kondisi non-biner.

Lihat Jenis kondisi di kursus Decision Forests untuk mengetahui informasi selengkapnya.

pengelompokan

Sinonim dari bucketing.

BLEU (Bilingual Evaluation Understudy)

#language

Metrik antara 0,0 dan 1,0 untuk mengevaluasi terjemahan mesin, misalnya, dari bahasa Spanyol ke bahasa Jepang.

Untuk menghitung skor, BLEU biasanya membandingkan terjemahan model ML (teks yang dihasilkan) dengan terjemahan pakar manusia (teks referensi). Tingkat kecocokan N-gram dalam teks yang dihasilkan dan teks referensi menentukan skor BLEU.

Makalah asli tentang metrik ini adalah BLEU: a Method for Automatic Evaluation of Machine Translation.

Lihat juga BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

#language

Metrik untuk mengevaluasi terjemahan mesin dari satu bahasa ke bahasa lain, terutama ke dan dari bahasa Inggris.

Untuk terjemahan ke dan dari bahasa Inggris, BLEURT lebih selaras dengan rating manusia daripada BLEU. Tidak seperti BLEU, BLEURT menekankan kesamaan semantik (makna) dan dapat mengakomodasi parafrase.

BLEURT mengandalkan model bahasa besar terlatih (tepatnya BERT) yang kemudian dioptimalkan pada teks dari penerjemah manusia.

Makalah asli tentang metrik ini adalah BLEURT: Learning Robust Metrics for Text Generation.

meningkatkan

Teknik machine learning yang secara berulang menggabungkan serangkaian pengklasifikasi sederhana dan tidak terlalu akurat (disebut sebagai pengklasifikasi "lemah") menjadi pengklasifikasi dengan akurasi tinggi (pengklasifikasi "kuat") dengan menambahkan bobot contoh yang saat ini salah diklasifikasikan oleh model.

Lihat Pohon Keputusan Penguatan Gradien? dalam kursus Hutan Keputusan untuk mengetahui informasi selengkapnya.

kotak pembatas

#image

Dalam gambar, koordinat (x, y) persegi panjang di sekitar area yang diinginkan, seperti dalam gambar di bawah.

Foto yang sedang duduk di sofa. Kotak pembatas hijau
dengan koordinat kiri atas (275, 1271) dan koordinat kanan bawah (2954, 2761) melingkari tubuh

penyiaran

Memperluas bentuk operand dalam operasi matematika matriks ke dimensi yang kompatibel untuk operasi tersebut. Misalnya, aljabar linear mengharuskan dua operand dalam operasi penambahan matriks untuk memiliki dimensi yang sama. Akibatnya, Anda tidak dapat menambahkan matriks berbentuk (m, n) ke vektor yang panjangnya n. Penyiaran memungkinkan operasi ini dengan memperluas vektor sepanjang n ke matriks berbentuk (m, n) secara virtual dengan mereplikasi nilai yang sama di setiap kolom.

Klik ikon untuk melihat contoh.

Dengan definisi A dan B berikut, aljabar linear melarang A+B karena A dan B memiliki dimensi yang berbeda:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Namun, penyiaran memungkinkan operasi A+B dengan memperluas B secara virtual ke:

 [[2, 2, 2],
  [2, 2, 2]]

Dengan demikian, kini A+B merupakan operasi yang valid:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Lihat deskripsi penyiaran di NumPy berikut untuk detail selengkapnya.

pengelompokan

#fundamentals

Mengonversi satu fitur menjadi beberapa fitur biner yang disebut bucket atau bin, biasanya berdasarkan rentang nilai. Fitur yang dicincang biasanya merupakan fitur berkelanjutan.

Misalnya, alih-alih merepresentasikan suhu sebagai satu fitur floating point berkelanjutan, Anda dapat memotong rentang suhu menjadi bucket terpisah, seperti:

<= 10 derajat Celsius akan menjadi bucket "cold".
11 - 24 derajat Celsius akan menjadi bucket "sedang".
>= 25 derajat Celsius akan menjadi bucket "hangat".

Model akan memperlakukan setiap nilai dalam bucket yang sama secara identik. Misalnya, nilai 13 dan 22 berada dalam bucket sedang, sehingga model memperlakukan kedua nilai tersebut secara identik.

Klik ikon untuk melihat catatan tambahan.

Jika Anda merepresentasikan suhu sebagai fitur berkelanjutan, model akan memperlakukan suhu sebagai satu fitur. Jika Anda merepresentasikan suhu sebagai tiga bucket, model akan memperlakukan setiap bucket sebagai fitur terpisah. Artinya, model dapat mempelajari hubungan terpisah dari setiap bucket ke label. Misalnya, model regresi linear dapat mempelajari bobot terpisah untuk setiap bucket.

Meningkatkan jumlah bucket akan membuat model Anda lebih rumit dengan meningkatkan jumlah hubungan yang harus dipelajari model Anda. Misalnya, bucket dingin, sedang, dan hangat pada dasarnya adalah tiga fitur terpisah untuk melatih model Anda. Jika Anda memutuskan untuk menambahkan dua bucket lagi, misalnya, pembekuan dan panas, model Anda kini harus dilatih pada lima fitur terpisah.

Bagaimana cara mengetahui jumlah bucket yang akan dibuat, atau rentang untuk setiap bucket? Jawabannya biasanya memerlukan cukup banyak eksperimen.

Lihat Data numerik: Pengelompokan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

C

lapisan kalibrasi

Penyesuaian pascaprediksi, biasanya diperhitungkan untuk bias prediksi. Prediksi dan probabilitas yang disesuaikan harus cocok dengan distribusi set label yang diamati.

pemilihan kandidat

#recsystems

Kumpulan rekomendasi awal yang dipilih oleh sistem rekomendasi. Misalnya, pertimbangkan toko buku yang menawarkan 100.000 judul. Fase pembuatan kandidat membuat daftar buku yang sesuai untuk pengguna tertentu, misalnya 500 buku, yang jauh lebih kecil. Namun, 500 buku tetap terlalu banyak untuk direkomendasikan kepada pengguna. Fase berikutnya dari sistem rekomendasi yang lebih mahal (seperti pemberian skor dan pemeringkatan ulang) akan mengurangi 500 rekomendasi tersebut menjadi set rekomendasi yang jauh lebih kecil dan berguna.

Lihat Ringkasan pembuatan kandidat dalam kursus Sistem Rekomendasi untuk mengetahui informasi selengkapnya.

sampling kandidat

Pengoptimalan waktu pelatihan yang menghitung probabilitas untuk semua label positif, menggunakan, misalnya, softmax, tetapi hanya untuk sampel label negatif acak. Misalnya, diberi contoh berlabel beagle dan dog, pengambilan sampel kandidat menghitung probabilitas yang diprediksi dan persyaratan kerugian yang sesuai untuk:

beagle
dog
subset acak dari kelas negatif yang tersisa (misalnya, kucing, lolipop, pagar).

Idenya adalah bahwa class negatif dapat belajar dari penguatan negatif yang lebih jarang selama class positif selalu mendapatkan penguatan positif yang tepat, dan ini memang diamati secara empiris.

Sampling kandidat lebih efisien secara komputasi daripada algoritma pelatihan yang menghitung prediksi untuk semua class negatif, terutama jika jumlah class negatif sangat besar.

data kategorik

#fundamentals

Fitur yang memiliki kumpulan kemungkinan nilai tertentu. Misalnya, pertimbangkan fitur kategoris bernama traffic-light-state, yang hanya dapat memiliki salah satu dari tiga kemungkinan nilai berikut:

red
yellow
green

Dengan merepresentasikan traffic-light-state sebagai fitur kategoris, model dapat mempelajari dampak yang berbeda dari red, green, dan yellow terhadap perilaku pengemudi.

Fitur kategorik terkadang disebut fitur diskrit.

Berbeda dengan data numerik.

Lihat Bekerja dengan data kategoris di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model bahasa kausal

#language

Sinonim dari model bahasa searah.

Lihat model bahasa dua arah untuk membandingkan berbagai pendekatan arah dalam pemodelan bahasa.

sentroid

#clustering

Pusat cluster seperti yang ditentukan oleh algoritma k-means atau k-median. Misalnya, jika k bernilai 3, maka algoritme k-means atau k-median akan menemukan 3 sentroid.

Lihat Algoritma pengelompokan di kursus Pengelompokan untuk mengetahui informasi selengkapnya.

pengelompokan berbasis sentroid

#clustering

Kategori algoritma pengelompokan yang mengatur data ke dalam cluster nonhierarkis. k-means adalah algoritma pengelompokan berbasis sentroid yang paling banyak digunakan.

Berbeda dengan algoritma pengelompokan hierarkis.

Lihat Algoritma pengelompokan di kursus Pengelompokan untuk mengetahui informasi selengkapnya.

prompting chain-of-thought

#language

#generativeAI

Teknik prompt engineering yang mendorong model bahasa besar (LLM) untuk menjelaskan pemikirannya, langkah demi langkah. Misalnya, pertimbangkan perintah berikut, dengan memperhatikan kalimat kedua secara khusus:

Berapa gaya g yang akan dialami pengemudi dalam mobil yang melaju dari 0 hingga 60 mil per jam dalam 7 detik? Dalam jawaban, tampilkan semua penghitungan yang relevan.

Respons LLM kemungkinan akan:

Tampilkan urutan formula fisika, dengan memasukkan nilai 0, 60, dan 7 di tempat yang sesuai.
Jelaskan alasan formula tersebut dipilih dan arti berbagai variabel.

Perintah chain-of-thought memaksa LLM untuk melakukan semua penghitungan, yang mungkin menghasilkan jawaban yang lebih benar. Selain itu, perintah chain-of-thought memungkinkan pengguna memeriksa langkah-langkah LLM untuk menentukan apakah jawaban tersebut masuk akal atau tidak.

chat

#language

#generativeAI

Konten dialog dua arah dengan sistem ML, biasanya model bahasa besar. Interaksi sebelumnya dalam chat (apa yang Anda ketik dan bagaimana model bahasa besar merespons) menjadi konteks untuk bagian chat berikutnya.

Chatbot adalah aplikasi model bahasa besar.

pos pemeriksaan

Data yang merekam status parameter model selama pelatihan atau setelah pelatihan selesai. Misalnya, selama pelatihan, Anda dapat:

Menghentikan pelatihan, mungkin secara sengaja atau mungkin sebagai akibat dari error tertentu.
Ambil checkpoint.
Kemudian, muat ulang titik pemeriksaan, mungkin di hardware yang berbeda.
Mulai ulang pelatihan.

class

#fundamentals

Kategori yang dapat menjadi bagian dari label. Contoh:

Dalam model klasifikasi biner yang mendeteksi spam, kedua class tersebut mungkin adalah spam dan bukan spam.
Dalam model klasifikasi multi-class yang mengidentifikasi ras, class-nya mungkin poodle, beagle, pug, dan sebagainya.

Model klasifikasi memprediksi class. Sebaliknya, model regresi memprediksi angka, bukan class.

Lihat Klasifikasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model klasifikasi

#fundamentals

Model yang prediksinya adalah class. Misalnya, berikut adalah semua model klasifikasi:

Model yang memprediksi bahasa kalimat input (Prancis? Spanyol? Italia?).
Model yang memprediksi spesies pohon (Maple? Oak? Baobab?).
Model yang memprediksi kelas positif atau negatif untuk kondisi medis tertentu.

Sebaliknya, model regresi memprediksi angka, bukan class.

Dua jenis model klasifikasi yang umum adalah:

klasifikasi biner
klasifikasi multi-class

nilai minimum klasifikasi

#fundamentals

Dalam klasifikasi biner, angka antara 0 dan 1 yang mengonversi output mentah dari model regresi logistik menjadi prediksi kelas positif atau kelas negatif. Perhatikan bahwa nilai minimum klasifikasi adalah nilai yang dipilih manusia, bukan nilai yang dipilih oleh pelatihan model.

Model regresi logistik menghasilkan nilai mentah antara 0 dan 1. Lalu:

Jika nilai mentah ini lebih besar dari nilai minimum klasifikasi, class positif akan diprediksi.
Jika nilai mentah ini kurang dari nilai minimum klasifikasi, kelas negatif akan diprediksi.

Misalnya, batas klasifikasi adalah 0,8. Jika nilai mentah adalah 0,9, model akan memprediksi kelas positif. Jika nilai mentah adalah 0,7, model akan memprediksi kelas negatif.

Pilihan nilai minimum klasifikasi sangat memengaruhi jumlah positif palsu dan negatif palsu.

Klik ikon untuk melihat catatan tambahan.

Seiring perkembangan model atau set data, engineer terkadang juga mengubah volume minimum klasifikasi. Saat nilai minimum klasifikasi berubah, prediksi class positif dapat tiba-tiba menjadi class negatif dan sebaliknya.

Misalnya, pertimbangkan model prediksi penyakit klasifikasi biner. Misalkan saat sistem berjalan pada tahun pertama:

Nilai mentah untuk pasien tertentu adalah 0,95.
Batas klasifikasi adalah 0,94.

Oleh karena itu, sistem mendiagnosis class positif. (Pasien tersentak, "Oh, tidak! Saya sakit!")

Setahun kemudian, mungkin nilainya sekarang terlihat seperti berikut:

Nilai mentah untuk pasien yang sama tetap 0,95.
Nilai minimum klasifikasi berubah menjadi 0,97.

Oleh karena itu, sistem kini mengklasifikasikan ulang pasien tersebut sebagai class negatif. ("Selamat siang! Saya tidak sakit.") Pasien yang sama. Diagnosis yang berbeda.

Lihat Nilai minimum dan matriks kebingungan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pengklasifikasi

#fundamentals

Istilah informal untuk model klasifikasi.

set data kelas tidak seimbang

#fundamentals

Set data untuk masalah klasifikasi dengan jumlah total label dari setiap class berbeda secara signifikan. Misalnya, pertimbangkan set data klasifikasi biner yang dua labelnya dibagi sebagai berikut:

1.000.000 label negatif
10 label positif

Rasio label negatif terhadap positif adalah 100.000 banding 1, sehingga set data ini tidak seimbang.

Sebaliknya, set data berikut tidak tidak seimbang karena rasio label negatif terhadap label positif relatif mendekati 1:

517 label negatif
483 label positif

Set data multi-kelas juga dapat memiliki kelas yang tidak seimbang. Misalnya, set data klasifikasi multi-class berikut juga tidak seimbang karena satu label memiliki contoh yang jauh lebih banyak daripada dua label lainnya:

1.000.000 label dengan class "hijau"
200 label dengan class "purple"
350 label dengan class "orange"

Lihat juga entropi, class mayoritas, dan class minoritas.

pemangkasan

#fundamentals

Teknik untuk menangani pencilan dengan melakukan salah satu atau kedua hal berikut:

Mengurangi nilai feature yang lebih besar dari nilai minimum maksimum hingga nilai minimum maksimum tersebut.
Meningkatkan nilai fitur yang kurang dari nilai minimum hingga nilai minimum tersebut.

Misalnya, <0,5% nilai untuk fitur tertentu berada di luar rentang 40–60. Dalam hal ini, Anda dapat melakukan hal berikut:

Pangkas semua nilai di atas 60 (nilai minimum maksimum) menjadi tepat 60.
Pangkas semua nilai di bawah 40 (nilai minimum) menjadi tepat 40.

Pencilan dapat merusak model, terkadang menyebabkan bobot melebihi batas selama pelatihan. Beberapa outlier juga dapat merusak metrik seperti akurasi secara drastis. Pemangkasan adalah teknik umum untuk membatasi kerusakan.

Pemangkasan gradien memaksa nilai gradien dalam rentang yang ditentukan selama pelatihan.

Lihat Data numerik: Normalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Cloud TPU

#TensorFlow

#GoogleCloud

Akselerator hardware khusus yang dirancang untuk mempercepat beban kerja machine learning di Google Cloud.

pengelompokan

#clustering

Mengelompokkan contoh terkait, terutama selama pembelajaran tanpa pengawasan. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan arti pada setiap cluster.

Ada banyak algoritma pengelompokan. Misalnya, algoritma k-means mengelompokkan contoh berdasarkan kedekatannya dengan sentroid, seperti pada diagram berikut:

Grafik dua dimensi dengan sumbu x berlabel lebar pohon,
dan sumbu y berlabel tinggi pohon. Grafik berisi dua
centroid dan beberapa lusin titik data. Titik data
dikategorikan berdasarkan kedekatannya. Artinya, titik data yang paling dekat dengan satu centroid dikategorikan sebagai cluster 1, sedangkan titik data yang paling dekat dengan centroid lainnya dikategorikan sebagai cluster 2.

Kemudian peneliti manusia dapat meninjau kluster dan, misalnya, memberi label kluster 1 sebagai "pohon kerdil" dan kluster 2 sebagai "pohon berukuran normal".

Sebagai contoh lain, pertimbangkan algoritma pengelompokan berdasarkan jarak contoh dari titik tengah, yang diilustrasikan sebagai berikut:

Puluhan titik data disusun dalam lingkaran konsentris, hampir
seperti lubang di sekitar pusat papan dart. Cincin paling dalam
titik data dikategorikan sebagai cluster 1, cincin tengah
dikategorikan sebagai cluster 2, dan cincin terluar sebagai
cluster 3.

Lihat Materi Clustering untuk mengetahui informasi selengkapnya.

adaptasi bersama

Saat neuron memprediksi pola dalam data pelatihan dengan hampir sepenuhnya mengandalkan output neuron spesifik lain, bukannya mengandalkan perilaku jaringan secara keseluruhan. Jika pola yang menyebabkan adaptasi bersama tidak ada dalam data validasi, adaptasi bersama akan menyebabkan overfitting. Regularisasi dengan pelolosan mengurangi adaptasi bersama karena pelolosan memastikan bahwa neuron tidak dapat sepenuhnya mengandalkan neuron spesifik lain.

pemfilteran kolaboratif

#recsystems

Membuat prediksi tentang minat satu pengguna berdasarkan minat banyak pengguna lain. Penyaringan kolaboratif sering digunakan dalam sistem rekomendasi.

Lihat Pemfilteran kolaboratif dalam kursus Sistem Rekomendasi untuk mengetahui informasi selengkapnya.

penyimpangan konsep

Perubahan hubungan antara fitur dan label. Seiring waktu, penyimpangan konsep akan mengurangi kualitas model.

Selama pelatihan, model mempelajari hubungan antara fitur dan labelnya dalam set pelatihan. Jika label dalam set pelatihan adalah proxy yang baik untuk dunia nyata, model harus membuat prediksi dunia nyata yang baik. Namun, karena penyimpangan konsep, prediksi model cenderung menurun seiring waktu.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah model mobil tertentu "hemat bahan bakar" atau tidak. Artinya, fitur tersebut dapat berupa:

berat mobil
kompresi mesin
jenis transmisi

sedangkan labelnya adalah:

hemat bahan bakar
tidak hemat bahan bakar

Namun, konsep "mobil hemat bahan bakar" terus berubah. Model mobil yang diberi label hemat bahan bakar pada tahun 1994 hampir pasti akan diberi label tidak hemat bahan bakar pada tahun 2024. Model yang mengalami pergeseran konsep cenderung membuat prediksi yang semakin tidak berguna dari waktu ke waktu.

Bandingkan dan bedakan dengan non-stasioneritas.

Klik ikon untuk melihat catatan tambahan.

Untuk mengimbangi perubahan konsep, latih ulang model lebih cepat daripada laju perubahan konsep. Misalnya, jika pergeseran konsep mengurangi presisi model dengan margin yang signifikan setiap dua bulan, latih ulang model Anda lebih sering daripada setiap dua bulan.

kondisi

#df

Dalam pohon keputusan, setiap node yang mengevaluasi ekspresi. Misalnya, bagian berikut dari hierarki keputusan berisi dua kondisi:

Pohon keputusan yang terdiri dari dua kondisi: (x > 0) dan
(y > 0).

Kondisi juga disebut pemisahan atau pengujian.

Kondisi kontras dengan daun.

Lihat juga:

binary condition
kondisi non-biner.
axis-aligned-condition
oblique-condition

Lihat Jenis kondisi di kursus Decision Forests untuk mengetahui informasi selengkapnya.

konfabulasi

#language

Sinonim dari halusinasi.

Konfabulasi mungkin merupakan istilah yang secara teknis lebih akurat daripada halusinasi. Namun, halusinasi menjadi populer terlebih dahulu.

konfigurasi

Proses penetapan nilai properti awal yang digunakan untuk melatih model, termasuk:

Lapisan komposisi model
lokasi data
hyperparameter seperti:

Dalam project machine learning, konfigurasi dapat dilakukan melalui file konfigurasi khusus atau menggunakan library konfigurasi seperti berikut:

bias konfirmasi

#fairness

Kecenderungan untuk mencari, menafsirkan, mendukung, dan mengingat informasi dengan cara yang mengonfirmasi keyakinan atau hipotesis yang sudah ada sebelumnya. Developer machine learning mungkin tidak sengaja mengumpulkan atau memberi label data dengan cara yang memengaruhi hasil yang mendukung kepercayaan mereka yang sudah ada. Bias konfirmasi adalah bentuk dari bias implisit.

Bias pelaku eksperimen adalah bentuk bias konfirmasi, yaitu saat pelaku eksperimen terus melatih model hingga hipotesis yang sudah ada sebelumnya dikonfirmasi.

matriks konfusi

#fundamentals

Tabel NxN yang berisi ringkasan jumlah prediksi yang benar dan salah yang dibuat oleh model klasifikasi. Misalnya, pertimbangkan matriks kebingungan berikut untuk model klasifikasi biner:

	Tumor (prediksi)	Non-Tumor (prediksi)
Tumor (kebenaran nyata)	18 (TP)	1 (FN)
Non-Tumor (kebenaran nyata)	6 (FP)	452 (TN)

Matriks konfusi sebelumnya menunjukkan hal berikut:

Dari 19 prediksi dengan kebenaran dasar adalah Tumor, model mengklasifikasikan 18 dengan benar dan mengklasifikasikan 1 dengan salah.
Dari 458 prediksi dengan ground truth Non-Tumor, model mengklasifikasikan 452 dengan benar dan salah mengklasifikasikan 6.

Matriks kebingungan untuk masalah klasifikasi multi-class dapat membantu Anda mengidentifikasi pola kesalahan. Misalnya, pertimbangkan matriks kebingungan berikut untuk model klasifikasi multi-class 3 kelas yang mengategorikan tiga jenis iris yang berbeda (Virginica, Versicolor, dan Setosa). Jika ground truth-nya adalah Virginica, matriks kebingungan menunjukkan bahwa model jauh lebih mungkin salah memprediksi Versicolor daripada Setosa:

	Setosa (prediksi)	Versicolor (prediksi)	Virginica (prediksi)
Setosa (kebenaran dasar)	88	12	0
Versicolor (kebenaran nyata)	6	141	7
Virginica (kebenaran nyata)	2	27	109

Sebagai contoh lain, matriks konfusi dapat mengungkapkan bahwa model yang dilatih untuk mengenali digit tulisan tangan cenderung salah memprediksi 9, bukan 4, atau salah memprediksi 1, bukan 7.

Matriks kebingungan berisi informasi yang memadai untuk menghitung berbagai metrik performa, termasuk presisi dan recall.

penguraian konstituensi

#language

Membagi kalimat menjadi struktur tata bahasa yang lebih kecil ("konstituen"). Bagian selanjutnya dari sistem ML, seperti model natural language understanding, dapat mengurai konstituen dengan lebih mudah daripada kalimat asli. Misalnya, pertimbangkan kalimat berikut:

Teman saya mengadopsi dua kucing.

Parser konstituen dapat membagi kalimat ini menjadi dua konstituen berikut:

Teman saya adalah frasa kata benda.
mengadopsi dua kucing adalah frasa kata kerja.

Konstituen ini dapat dibagi lagi menjadi konstituen yang lebih kecil. Misalnya, frasa kata kerja

mengadopsi dua kucing

dapat dibagi lagi menjadi:

adopted adalah kata kerja.
dua kucing adalah frasa kata benda lainnya.

penyematan bahasa yang dikontekstualisasikan

#language

#generativeAI

Embedding yang mendekati "pemahaman" kata dan frasa dengan cara yang dapat dilakukan oleh penutur manusia yang fasih. Penyematan bahasa yang kontekstual dapat memahami sintaksis, semantik, dan konteks yang kompleks.

Misalnya, pertimbangkan penyematan kata bahasa Inggris cow. Penyematan lama seperti word2vec dapat merepresentasikan kata-kata bahasa Inggris sehingga jarak dalam ruang penyematan dari cow ke bull mirip dengan jarak dari ewe (domba betina) ke ram (domba jantan) atau dari female ke male. Penyematan bahasa yang kontekstual dapat lebih jauh lagi dengan mengenali bahwa penutur bahasa Inggris terkadang menggunakan kata cow secara santai untuk merujuk pada sapi atau banteng.

jendela konteks

#language

#generativeAI

Jumlah token yang dapat diproses model dalam perintah tertentu. Makin besar jendela konteks, makin banyak informasi yang dapat digunakan model untuk memberikan respons yang koheren dan konsisten kepada perintah.

fitur berkelanjutan

#fundamentals

Fitur floating point dengan rentang kemungkinan nilai yang tak terbatas, seperti suhu atau berat.

Berbeda dengan fitur diskrit.

sampling praktis

Menggunakan set data yang tidak dikumpulkan secara ilmiah untuk menjalankan eksperimen sederhana dalam waktu singkat. Pada tahapan eksperimen yang lebih dalam, gunakanlah set data yang dikumpulkan secara ilmiah.

konvergensi

#fundamentals

Status yang dicapai saat nilai loss berubah sangat sedikit atau tidak sama sekali dengan setiap iteration. Misalnya, kurva kerugian berikut menunjukkan konvergensi pada sekitar 700 iterasi:

Plot Kartesius. Sumbu X adalah kerugian. Sumbu y adalah jumlah iterasi
pelatihan. Kerugian sangat tinggi selama beberapa iterasi pertama, tetapi menurun drastis. Setelah sekitar 100 iterasi, kerugian masih menurun, tetapi jauh lebih bertahap. Setelah sekitar 700 iterasi,
kerugian tetap datar.

Model berkonvergensi jika pelatihan tambahan tidak akan meningkatkan model.

Dalam deep learning, nilai loss terkadang tetap konstan atau hampir konstan untuk banyak iterasi sebelum akhirnya menurun. Selama periode lama nilai kerugian konstan, Anda mungkin mendapatkan kesan konvergensi palsu untuk sementara.

Lihat juga penghentian awal.

Lihat Kurva konvergensi dan loss model di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fungsi konveks

Fungsi yang mana daerah di atas grafik fungsi adalah himpunan konveks. Fungsi konveks prototipe berbentuk seperti huruf U. Misalnya, berikut adalah semua fungsi konveks:

Kurva berbentuk U, masing-masing dengan satu titik minimum.

Sebaliknya, fungsi berikut tidak konveks. Perhatikan bagaimana daerah di atas grafik bukan merupakan himpunan konveks:

Kurva berbentuk huruf W dengan dua titik minimum lokal yang berbeda.

Fungsi konveks tegas memiliki tepat satu titik minimum lokal, yang juga merupakan titik minimum global. Fungsi berbentuk U klasik adalah fungsi konveks tegas. Namun, beberapa fungsi konveks (misalnya, garis lurus) tidak berbentuk U.

Klik ikon untuk melihat matematika lebih mendalam.

Banyak dari fungsi kerugian yang umum, termasuk yang berikut ini, adalah fungsi konveks:

Kerugian L₂
Kerugian Log
Regulasi L₁
Regulasi L₂

Banyak variasi penurunan gradien dijamin untuk menemukan titik yang mendekati minimum dari fungsi konveks tegas. Demikian pula, banyak variasi penurunan gradien stokastik memiliki probabilitas tinggi (meskipun bukan jaminan) untuk menemukan titik yang mendekati minimum dari fungsi konveks tegas.

Jumlah dari dua fungsi konveks (misalnya, kerugian L₂ + regularisasi L₁) adalah fungsi konveks.

Model dalam bukanlah fungsi konveks. Hebatnya, algoritme yang didesain untuk pengoptimalan konveks cenderung menemukan solusi yang cukup baik pada jaringan dalam, meskipun solusi tersebut tidak dijamin menjadi minimum global.

Lihat Fungsi konvergensi dan convex di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pengoptimalan konveks

Proses penggunaan teknik matematika seperti penurunan gradien untuk menemukan nilai minimum fungsi konveks. Banyak riset dalam machine learning telah berfokus pada perumusan berbagai masalah sebagai masalah pengoptimalan konveks dan dalam pemecahan masalah tersebut secara lebih efisien.

Untuk mengetahui detail selengkapnya, lihat Boyd dan Vandenberghe, Pengoptimalan Konveks.

himpunan konveks

Subkumpulan ruang Euclidean sehingga garis yang digambar antara dua titik dalam subkumpulan tetap sepenuhnya berada dalam subkumpulan. Misalnya, dua bentuk berikut adalah kumpulan cembung:

Satu ilustrasi persegi panjang. Ilustrasi lain dari oval.

Sebaliknya, dua bentuk berikut bukan merupakan kumpulan cembung:

Satu ilustrasi diagram lingkaran dengan satu bagian yang hilang.
Ilustrasi lain dari poligon yang sangat tidak beraturan.

konvolusi

#image

Dalam matematika, secara umum, campuran dari dua fungsi. Dalam machine learning, konvolusi mencampur filter konvolusi dan matriks input untuk melatih bobot.

Istilah "konvolusi" dalam machine learning sering kali merupakan cara singkat untuk mengacu pada operasi konvolusi atau lapisan konvolusi.

Tanpa konvolusi, algoritma machine learning harus mempelajari bobot terpisah untuk setiap sel dalam tensor besar. Misalnya, pelatihan algoritma machine learning pada gambar 2K x 2K akan dipaksa untuk menemukan 4 juta bobot terpisah. Berkat konvolusi, algoritma machine learning hanya harus menemukan bobot untuk setiap sel dalam filter konvolusi, yang secara drastis mengurangi memori yang diperlukan untuk melatih model. Saat filter konvolusi diterapkan, filter tersebut hanya direplikasi di seluruh sel sehingga setiap filter dikalikan dengan filter.

Lihat Memperkenalkan Jaringan Neural Konvolusi dalam kursus Klasifikasi Gambar untuk mengetahui informasi selengkapnya.

filter konvolusi

#image

Salah satu dari dua komponen dalam operasi konvolusi. (Aktor lainnya adalah slice matriks input.) Filter konvolusi adalah matriks yang memiliki urutan yang sama dengan matriks input, tetapi bentuknya lebih kecil. Misalnya, dengan matriks input 28x28, filter dapat berupa matriks 2D yang lebih kecil dari 28x28.

Dalam manipulasi fotografi, semua sel dalam filter konvolusi biasanya disetel ke pola konstan dari angka satu dan nol. Dalam machine learning, filter konvolusi biasanya diisi dengan angka acak, lalu jaringan melatih nilai ideal.

Lihat Konvolusi di kursus Klasifikasi Gambar untuk mengetahui informasi selengkapnya.

lapisan konvolusi

#image

Lapisan jaringan neural dalam tempat filter konvolusi diteruskan di sepanjang matriks input. Misalnya, pertimbangkan filter konvolusi 3x3 berikut:

Matriks 3x3 dengan nilai berikut: [[0,1,0], [1,0,1], [0,1,0]]

Animasi berikut menunjukkan lapisan konvolusi yang terdiri dari 9 operasi konvolusi yang melibatkan matriks input 5x5. Perhatikan bahwa setiap operasi konvolusi bekerja pada potongan 3x3 yang berbeda dari matriks input. Matriks 3x3 yang dihasilkan (di sebelah kanan) terdiri dari hasil 9 operasi konvolusi:

Lihat Lapisan Fully Connected di kursus Klasifikasi Gambar untuk mengetahui informasi selengkapnya.

jaringan neural konvolusional

#image

Jaringan neural yang setidaknya satu lapisannya adalah lapisan konvolusi. Jaringan saraf konvolusi biasanya terdiri dari beberapa kombinasi lapisan berikut:

lapisan konvolusi
lapisan pooling
lapisan padu

Jaringan neural konvolusi telah meraih kesuksesan besar dalam jenis masalah tertentu, seperti pengenalan gambar.

operasi konvolusi

#image

Operasi matematika dua langkah berikut:

Perkalian berbasis elemen dari filter konvolusi dan potongan dari matriks input. (Potongan matriks input memiliki peringkat dan ukuran yang sama dengan filter konvolusi.)
Penjumlahan semua nilai dalam matriks produk yang dihasilkan.

Misalnya, pertimbangkan matriks input 5x5 berikut:

Matriks 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Sekarang, bayangkan filter konvolusi 2x2 berikut:

Matriks 2x2: [[1, 0], [0, 1]]

Setiap operasi konvolusi melibatkan satu slice 2x2 dari matriks input. Misalnya, kita menggunakan slice 2x2 di kiri atas matriks input. Jadi, operasi konvolusi pada slice ini terlihat seperti berikut:

Menerapkan filter convolutional [[1, 0], [0, 1]] ke bagian 2x2 kiri atas
matriks input, yaitu [[128,97], [35,22]].
Filter konvolusi membiarkan 128 dan 22 tetap utuh, tetapi meniadakan
97 dan 35. Akibatnya, operasi konvolusi menghasilkan
nilai 150 (128+22).

Lapisan konvolusi terdiri dari serangkaian operasi konvolusi, masing-masing bekerja pada potongan matriks input yang berbeda.

biaya

#Metric

Sinonim dari loss.

pelatihan bersama

Pendekatan pembelajaran semi-berpandu sangat berguna jika semua kondisi berikut terpenuhi:

Rasio contoh tanpa label terhadap contoh berlabel dalam set data tinggi.
Ini adalah masalah klasifikasi (biner atau multi-class).
Set data berisi dua kumpulan fitur prediktif yang berbeda, yang independen satu sama lain dan saling melengkapi.

Co-training pada dasarnya memperkuat sinyal independen menjadi sinyal yang lebih kuat. Misalnya, pertimbangkan model klasifikasi yang mengategorikan setiap mobil bekas sebagai Baik atau Buruk. Satu kumpulan fitur prediktif dapat berfokus pada karakteristik gabungan seperti tahun, merek, dan model mobil; kumpulan fitur prediktif lainnya dapat berfokus pada catatan mengemudi pemilik sebelumnya dan histori pemeliharaan mobil.

Makalah penting tentang pelatihan bersama adalah Combining Labeled and Unlabeled Data with Co-Training oleh Blum dan Mitchell.

keadilan kontrafaktual

#fairness

#Metric

Metrik keadilan yang memeriksa apakah model klasifikasi menghasilkan hasil yang sama untuk satu individu seperti yang dilakukan untuk individu lain yang identik dengan yang pertama, kecuali sehubungan dengan satu atau beberapa atribut sensitif. Mengevaluasi model klasifikasi untuk keadilan counterfactual adalah salah satu metode untuk menampilkan potensi sumber bias dalam model.

Lihat salah satu artikel berikut untuk mengetahui informasi selengkapnya:

Keadilan: Keadilan counterfactual di Kursus Singkat Machine Learning.
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

bias cakupan

#fairness

Lihat bias seleksi.

frasa ambigu

#language

Kalimat atau frasa dengan arti yang ambigu. Frasa ambigu menghadirkan masalah yang signifikan dalam natural language understanding. Misalnya, judul Red Tape Holds Up Skyscraper adalah frase ambigu karena model NLU dapat menafsirkan judul secara harfiah atau kiasan.

Klik ikon untuk melihat catatan tambahan.

Untuk mengklarifikasi judul misterius tersebut:

Birokrasi dapat merujuk pada salah satu hal berikut:
- Perekat
- Birokrasi yang berlebihan
Holds Up dapat merujuk pada salah satu hal berikut:
- Dukungan struktural
- Keterlambatan

kritikus

#rl

Sinonim dari Deep Q-Network.

entropi silang

#Metric

Generalisasi Log Loss ke masalah klasifikasi multi-class. Entropi silang mengukur perbedaan antara dua distribusi probabilitas. Lihat juga perplexity.

validasi silang

Mekanisme untuk memperkirakan seberapa baik model akan digeneralisasi ke data baru dengan menguji model terhadap satu atau beberapa subset data yang tidak tumpang-tindih yang ditahan dari set pelatihan.

fungsi distribusi kumulatif (CDF)

#Metric

Fungsi yang menentukan frekuensi sampel kurang dari atau sama dengan nilai target. Misalnya, pertimbangkan distribusi normal nilai kontinu. CDF memberi tahu Anda bahwa sekitar 50% sampel harus kurang dari atau sama dengan nilai rata-rata dan sekitar 84% sampel harus kurang dari atau sama dengan satu deviasi standar di atas nilai rata-rata.

D

analisis data

Memperoleh pemahaman data dengan mempertimbangkan sampel, pengukuran, dan visualisasi. Analisis data dapat sangat berguna saat pertama kali set data diterima, sebelum membuat model pertama. Analisis data juga penting dalam memahami masalah eksperimen dan proses debug dengan sistem.

augmentasi data

#image

Secara artifisial, meningkatkan rentang dan jumlah contoh pelatihan dengan mengubah contoh yang ada untuk membuat contoh tambahan. Misalnya, anggaplah gambar adalah salah satu fitur Anda, tetapi set data Anda tidak berisi contoh gambar yang memadai bagi model untuk mempelajari asosiasi yang berguna. Idealnya, tambahkan gambar berlabel yang memadai ke set data Anda agar model Anda dapat dilatih dengan benar. Jika tindakan tersebut tidak memungkinkan, pengayaan data dapat memutar, melebarkan, dan mencerminkan setiap gambar untuk memproduksi berbagai variasi dari gambar aslinya, yang mungkin menghasilkan data berlabel yang memadai agar dapat melakukan pelatihan yang sangat baik.

DataFrame

#fundamentals

Jenis data pandas yang populer untuk merepresentasikan set data dalam memori.

DataFrame dapat dianalogikan dengan tabel atau spreadsheet. Setiap kolom DataFrame memiliki nama (header), dan setiap baris diidentifikasi oleh angka unik.

Setiap kolom dalam DataFrame disusun seperti array 2D, kecuali bahwa setiap kolom dapat diberi jenis datanya sendiri.

Lihat juga halaman referensi pandas.DataFrame resmi.

paralelisme data

Cara menskalakan pelatihan atau inferensi yang mereplikasi seluruh model ke beberapa perangkat, lalu meneruskan sebagian data input ke setiap perangkat. Paralelisme data dapat memungkinkan pelatihan dan inferensi pada ukuran batch yang sangat besar; namun, paralelisme data mengharuskan model cukup kecil agar sesuai dengan semua perangkat.

Paralelisme data biasanya mempercepat pelatihan dan inferensi.

Lihat juga paralelisme model.

Dataset API (tf.data)

#TensorFlow

TensorFlow API tingkat tinggi untuk membaca data dan mengubahnya menjadi bentuk yang diperlukan algoritma machine learning. Objek tf.data.Dataset mewakili urutan elemen, yang mana setiap elemen berisi satu atau beberapa Tensor. Objek tf.data.Iterator memberikan akses ke elemen Dataset.

kumpulan data atau set data (data set atau dataset)

#fundamentals

Kumpulan data mentah, biasanya (tetapi tidak secara eksklusif) diatur dalam salah satu format berikut:

spreadsheet
file dalam format CSV (nilai yang dipisahkan koma)

batas keputusan

Pemisah antara class yang dipelajari oleh model dalam class biner atau masalah klasifikasi multi-class. Misalnya, dalam gambar berikut yang merepresentasikan masalah klasifikasi biner, batas keputusannya adalah perbatasan antara kelas berwarna oranye dan kelas berwarna biru:

Batas yang jelas antara satu class dan class lainnya.

hutan keputusan

#df

Model yang dibuat dari beberapa pohon keputusan. Forest keputusan membuat prediksi dengan menggabungkan prediksi pohon keputusannya. Jenis hutan keputusan yang populer mencakup random forest dan gradient boosted tree.

Lihat bagian Hutan Keputusan dalam kursus Hutan Keputusan untuk mengetahui informasi selengkapnya.

nilai minimum keputusan

Sinonim dari batas klasifikasi.

pohon keputusan

#df

Model pembelajaran dengan pengawasan yang terdiri dari kumpulan kondisi dan daun yang diatur secara hierarkis. Misalnya, berikut adalah pohon keputusan:

Pohon keputusan yang terdiri dari empat kondisi yang diatur secara hierarkis, yang mengarah ke lima cabang.

decoder

#language

Secara umum, sistem ML apa pun yang mengonversi dari representasi internal, padat, atau yang diproses menjadi representasi yang lebih mentah, jarang, atau eksternal.

Decoder sering kali merupakan komponen dari model yang lebih besar, yang sering kali dipasangkan dengan encoder.

Dalam tugas urutan ke urutan, decoder dimulai dengan status internal yang dihasilkan oleh encoder untuk memprediksi urutan berikutnya.

Lihat Transformer untuk mengetahui definisi decoder dalam arsitektur Transformer.

Lihat Model bahasa besar di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model dalam

#fundamentals

Jaringan neural yang berisi lebih dari satu lapisan tersembunyi.

Model deep juga disebut jaringan neural dalam.

Berbeda dengan model lebar.

yang sangat populer

Sinonim dari model dalam.

Deep Q-Network (DQN)

#rl

Dalam pembelajaran Q, jaringan neural dalam deep yang memprediksi fungsi Q.

Critic adalah sinonim untuk Deep Q-Network.

paritas demografis

#fairness

#Metric

Metrik keadilan yang terpenuhi jika hasil klasifikasi model tidak bergantung pada atribut sensitif tertentu.

Misalnya, jika Lilliputian dan Brobdingnagian mendaftar ke Universitas Glubbdubdrib, paritas demografis akan tercapai jika persentase Lilliputian yang diterima sama dengan persentase Brobdingnagian yang diterima, terlepas dari apakah satu kelompok rata-rata lebih memenuhi syarat daripada kelompok lainnya.

Berbeda dengan equalized odds dan equality of opportunity, yang mengizinkan hasil klasifikasi secara agregat bergantung pada atribut sensitif, tetapi tidak mengizinkan hasil klasifikasi untuk label ground truth tertentu yang ditentukan bergantung pada atribut sensitif. Lihat "Menangkal diskriminasi dengan machine learning yang lebih cerdas" untuk melihat visualisasi yang mengeksplorasi kompromi saat mengoptimalkan paritas demografis.

Lihat Keadilan: paritas demografis di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

penghapusan derau

#language

Pendekatan umum untuk pembelajaran mandiri dengan:

Derau ditambahkan secara artifisial ke set data.
Model akan mencoba menghilangkan derau.

Pembersihan derau memungkinkan pembelajaran dari contoh tanpa label. Set data asli berfungsi sebagai target atau label dan data berisi derau sebagai input.

Beberapa model bahasa yang disamarkan menggunakan pemrosesan derau sebagai berikut:

Derau ditambahkan secara artifisial ke kalimat yang tidak berlabel dengan menyamarkan beberapa token.
Model ini mencoba memprediksi token asli.

fitur padat

#fundamentals

Fitur yang sebagian besar atau semua nilainya bukan nol, biasanya Tensor dari nilai floating point. Misalnya, Matriks 10 elemen berikut rapat karena 9 nilainya bukan nol:

Berbeda dengan fitur renggang.

lapisan padat

Sinonim dari lapisan terhubung seluruhnya.

kedalaman

#fundamentals

Jumlah hal berikut dalam jaringan neural:

jumlah lapisan tersembunyi
jumlah lapisan output, yang biasanya 1
jumlah lapisan penyematan

Misalnya, jaringan neural dengan lima lapisan tersembunyi dan satu lapisan keluaran memiliki kedalaman 6.

Perhatikan bahwa lapisan input tidak memengaruhi kedalaman.

jaringan neural konvolusi yang dapat dipisahkan secara mendalam (sepCNN)

#image

Arsitektur jaringan saraf konvolusi berdasarkan Inception, tetapi modul Inception diganti dengan konvolusi yang dapat dipisahkan secara mendalam. Juga dikenal sebagai Xception.

Konvolusi yang dapat dipisahkan secara mendalam (juga disingkat sebagai konvolusi yang dapat dipisahkan) memfaktorkan konvolusi 3D standar menjadi dua operasi konvolusi terpisah yang lebih efisien secara komputasi: pertama, konvolusi kedalaman, dengan kedalaman 1 (n ✕ n ✕ 1), lalu kedua, konvolusi titik, dengan panjang dan lebar 1 (1 ✕ 1 ✕ n).

Untuk mempelajari lebih lanjut, lihat Xception: Deep Learning dengan Konvolusi Depthwise Separable.

label turunan

Sinonim dari label proxy.

perangkat

#TensorFlow

#GoogleCloud

Istilah yang memiliki lebih dari satu makna dengan dua kemungkinan definisi berikut:

Kategori hardware yang dapat menjalankan sesi TensorFlow, yang meliputi CPU, GPU, dan TPU.
Saat melatih model ML di chip akselerator (GPU atau TPU), bagian sistem yang benar-benar memanipulasi tensor dan embedding. Perangkat berjalan pada chip akselerator. Sebaliknya, host biasanya berjalan di CPU.

privasi diferensial

Dalam machine learning, pendekatan anonimisasi untuk melindungi data sensitif apa pun (misalnya, informasi pribadi individu) yang disertakan dalam set pelatihan model agar tidak terekspos. Pendekatan ini memastikan bahwa model tidak banyak mempelajari atau mengingat individu tertentu. Hal ini dilakukan dengan mengambil sampel dan menambahkan derau selama pelatihan model untuk mengaburkan setiap titik data, sehingga mengurangi risiko mengekspos data pelatihan sensitif.

Privasi diferensial juga digunakan di luar machine learning. Misalnya, ilmuwan data terkadang menggunakan privasi diferensial untuk melindungi privasi individu saat menghitung statistik penggunaan produk untuk demografi yang berbeda.

pengurangan dimensi

Menurunkan jumlah dimensi yang digunakan untuk merepresentasikan fitur tertentu dalam vektor fitur, umumnya dengan melakukan konversi menjadi vektor penyematan.

dimensi

Istilah yang memiliki lebih dari satu definisi:

Jumlah tingkat koordinat dalam Tensor. Contoh:
- Skalar memiliki nol dimensi; misalnya, ["Hello"].
- Vektor memiliki satu dimensi; misalnya, [3, 5, 7, 11].
- Matriks memiliki dua dimensi; misalnya, [[2, 4, 18], [5, 7, 14]]. Anda dapat secara unik menentukan sel tertentu dalam vektor satu dimensi dengan satu koordinat; Anda memerlukan dua koordinat untuk secara unik menentukan sebuah sel dalam matriks dua dimensi.
Jumlah entri dalam vektor fitur.
Jumlah elemen dalam lapisan penyematan.

perintah langsung

#language

#generativeAI

Sinonim dari zero-shot prompting.

fitur diskret

#fundamentals

Fitur dengan set kemungkinan nilai yang terbatas. Misalnya, fitur yang nilainya hanya boleh hewan, sayuran, atau mineral adalah fitur diskret (atau kategoris).

Berbeda dengan fitur berkelanjutan.

model diskriminatif

Model yang memprediksi label dari kumpulan satu atau beberapa fitur. Secara lebih formal, model diskriminatif menentukan probabilitas bersyarat output berdasarkan fitur dan bobot; yaitu:

p(output | features, weights)

Misalnya, model yang memprediksi apakah email adalah spam dari fitur dan bobot adalah model diskriminatif.

Sebagian besar model pembelajaran dengan pengawasan, termasuk model klasifikasi dan regresi, adalah model diskriminatif.

Berbeda dengan model generatif.

diskriminator

Sistem yang menentukan apakah contoh itu nyata atau palsu.

Atau, subsistem dalam jaringan antagonis generatif yang menentukan apakah contoh yang dibuat oleh generator itu nyata atau palsu.

Lihat Diskriminator di kursus GAN untuk mengetahui informasi selengkapnya.

dampak yang berbeda

#fairness

Membuat keputusan tentang orang yang memengaruhi subgrup populasi yang berbeda secara tidak proporsional. Hal ini biasanya mengacu pada situasi saat proses pengambilan keputusan algoritma merugikan atau menguntungkan beberapa subgrup lebih dari yang lain.

Misalnya, algoritma yang menentukan kelayakan Lilliputian untuk pinjaman rumah miniatur kemungkinan besar akan mengklasifikasikan mereka sebagai "tidak memenuhi syarat" jika alamat surat mereka berisi kode pos tertentu. Jika Liliput Big-Endian lebih cenderung memiliki alamat surat dengan kode pos ini daripada Liliput Little-Endian, algoritma ini dapat menghasilkan dampak yang berbeda.

Berbeda dengan perlakuan yang berbeda, yang berfokus pada perbedaan yang terjadi saat karakteristik subgrup merupakan input eksplisit untuk proses pengambilan keputusan algoritme.

perlakuan yang berbeda

#fairness

Memfaktorkan atribut sensitif subjek ke dalam proses pengambilan keputusan algoritme sehingga subgrup orang yang berbeda diperlakukan secara berbeda.

Misalnya, pertimbangkan algoritma yang menentukan kelayakan Lilliputian untuk pinjaman rumah miniatur berdasarkan data yang mereka berikan dalam permohonan pinjaman. Jika algoritma menggunakan afiliasi Lilliputian sebagai Big-Endian atau Little-Endian sebagai input, algoritma tersebut akan menerapkan perlakuan yang berbeda di sepanjang dimensi tersebut.

Berbeda dengan dampak yang tidak setara, yang berfokus pada perbedaan dampak sosial dari keputusan algoritme terhadap subgrup, terlepas dari apakah subgrup tersebut merupakan input untuk model.

distilasi

#generativeAI

Proses mengurangi ukuran satu model (dikenal sebagai pengajar) menjadi model yang lebih kecil (dikenal sebagai siswa) yang mengemulasi prediksi model asli seakurat mungkin. Distilasi berguna karena model yang lebih kecil memiliki dua manfaat utama dibandingkan model yang lebih besar (pengajar):

Waktu inferensi yang lebih cepat
Mengurangi penggunaan memori dan energi

Namun, prediksi siswa biasanya tidak sebagus prediksi pengajar.

Distilasi melatih model siswa untuk meminimalkan fungsi loss berdasarkan perbedaan antara output prediksi model siswa dan pengajar.

Bandingkan dan bedakan distilasi dengan istilah berikut:

penyesuaian
pembelajaran berbasis perintah

Lihat LLM: Penyesuaian, distilasi, dan rekayasa prompt di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

distribusi

Frekuensi dan rentang nilai yang berbeda untuk fitur atau label tertentu. Distribusi menunjukkan seberapa besar kemungkinan nilai tertentu.

Gambar berikut menunjukkan histogram dari dua distribusi yang berbeda:

Di sebelah kiri, distribusi kekayaan menurut hukum pangkat terhadap jumlah orang yang memiliki kekayaan tersebut.
Di sebelah kanan, distribusi normal tinggi badan versus jumlah orang yang memiliki tinggi badan tersebut.

Memahami setiap fitur dan distribusi label dapat membantu Anda menentukan cara mengonormalisasi nilai dan mendeteksi pencilan.

Frasa out of distribution mengacu pada nilai yang tidak muncul dalam set data atau sangat jarang. Misalnya, gambar planet Saturnus akan dianggap berada di luar distribusi untuk set data yang terdiri dari gambar kucing.

pengelompokan divisif

#clustering

Lihat pengelompokan hierarkis.

downsampling

#image

Istilah yang memiliki lebih dari satu makna:

Mengurangi jumlah informasi dalam fitur untuk melatih model secara lebih efisien. Misalnya, sebelum melatih model pengenalan gambar, downsampling gambar resolusi tinggi ke format resolusi lebih rendah.
Melatih contoh class yang terlalu banyak direpresentasikan dengan persentase rendah dan tidak proporsional untuk meningkatkan pelatihan model pada class yang kurang direpresentasikan. Misalnya, dalam set data yang tidak seimbang berdasarkan class, model cenderung mempelajari banyak hal tentang class mayoritas dan tidak cukup mempelajari class minoritas. Penurunan/pengurangan sampel membantu menyeimbangkan jumlah pelatihan pada kelas mayoritas dan minoritas.

Lihat Set data: Set data tidak seimbang di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

DQN

#rl

Singkatan dari Deep Q-Network.

regularisasi dengan pelolosan

Bentuk regulasi yang berguna dalam melatih jaringan saraf. Regularisasi dengan pelolosan menghapus pilihan acak dari unit yang berjumlah tetap dalam lapisan jaringan untuk satu langkah gradien. Makin banyak unit yang dihapus, makin kuat regulasi. Hal ini dianalogikan dengan pelatihan jaringan untuk mengemulasi ensemble yang besar secara eksponensial dari jaringan yang lebih kecil. Untuk mengetahui detail selengkapnya, lihat Pelolosan: Cara Sederhana untuk Mencegah Overfitting pada Jaringan Neural.

dinamis

#fundamentals

Sesuatu yang dilakukan secara rutin atau terus-menerus. Istilah dinamis dan online adalah sinonim dalam machine learning. Berikut adalah penggunaan umum dinamis dan online dalam pemelajaran mesin:

Model dinamis (atau model online) adalah model yang dilatih ulang secara rutin atau terus-menerus.
Pelatihan dinamis (atau pelatihan online) adalah proses pelatihan yang sering atau terus-menerus.
Inferensi dinamis (atau inferensi online) adalah proses pembuatan prediksi sesuai permintaan.

model dinamis

#fundamentals

Model yang sering (mungkin bahkan terus-menerus) dilatih ulang. Model dinamis adalah "pebelajar sepanjang hayat" yang terus beradaptasi dengan data yang terus berkembang. Model dinamis juga dikenal sebagai model online.

Berbeda dengan model statis.

E

eksekusi segera

#TensorFlow

Lingkungan pemrograman TensorFlow yang mana operasi dijalankan secara langsung. Sebaliknya, operasi yang disebut dengan eksekusi grafik tidak akan dijalankan sampai dievaluasi secara eksplisit. Eksekusi segera adalah antarmuka imperatif, seperti kode dalam sebagian besar bahasa pemrograman. Program eksekusi segera umumnya jauh lebih mudah untuk dilakukan debug daripada program eksekusi grafik.

penghentian awal

#fundamentals

Metode untuk regularisasi yang melibatkan penghentian pelatihan sebelum kerugian pelatihan selesai menurun. Dalam penghentian awal, Anda sengaja menghentikan pelatihan model saat kerugian pada set data validasi mulai meningkat; yaitu, saat performa generalisasi memburuk.

Klik ikon untuk melihat catatan tambahan.

Penghentian awal mungkin tampak berlawanan dengan intuisi. Lagi pula, meminta model untuk menghentikan pelatihan saat kerugian masih menurun mungkin tampak seperti meminta koki untuk berhenti memasak sebelum hidangan penutup matang sepenuhnya. Namun, melatih model terlalu lama dapat menyebabkan overfitting. Artinya, jika Anda melatih model terlalu lama, model mungkin sangat cocok dengan data pelatihan sehingga model tidak membuat prediksi yang baik pada contoh baru.

earth mover's distance (EMD)

#Metric

Ukuran kesamaan relatif dari dua distribusi. Makin rendah jarak earth mover, makin mirip distribusinya.

edit jarak

#language

#Metric

Pengukuran seberapa mirip dua string teks satu sama lain. Dalam machine learning, edit distance berguna karena alasan berikut:

Jarak edit mudah dihitung.
Jarak edit dapat membandingkan dua string yang diketahui mirip satu sama lain.
Jarak edit dapat menentukan tingkat kemiripan string yang berbeda dengan string tertentu.

Ada beberapa definisi jarak edit, masing-masing menggunakan operasi string yang berbeda. Lihat Jarak Levenshtein untuk contoh.

Notasi Einsum

Notasi yang efisien untuk menjelaskan cara menggabungkan dua tensor. Tensor digabungkan dengan mengalikan elemen satu tensor dengan elemen tensor lainnya, lalu menjumlahkan hasilnya. Notasi Einsum menggunakan simbol untuk mengidentifikasi sumbu setiap tensor, dan simbol yang sama tersebut disusun ulang untuk menentukan bentuk tensor baru yang dihasilkan.

NumPy menyediakan implementasi Einsum umum.

lapisan penyematan

#language

#fundamentals

Lapisan tersembunyi khusus yang dilatih pada fitur kategoris berdimensi tinggi untuk mempelajari vektor penyematan dimensi yang lebih rendah secara bertahap. Lapisan penyematan memungkinkan jaringan neural dilatih jauh lebih efisien daripada hanya dilatih pada fitur kategoris dimensi tinggi.

Misalnya, Bumi saat ini mendukung sekitar 73.000 spesies pohon. Misalkan spesies pohon adalah fitur dalam model Anda, sehingga lapisan input model Anda menyertakan vektor one-hot yang panjangnya 73.000 elemen. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array yang berisi 73.000 elemen. 6.232 elemen pertama menyimpan nilai
0. Elemen berikutnya menyimpan nilai 1. Elemen terakhir 66.767 menyimpan nilai nol.

Array 73.000 elemen sangat panjang. Jika Anda tidak menambahkan lapisan penyematan ke model, pelatihan akan sangat memakan waktu karena menggandakan 72.999 nol. Mungkin Anda memilih lapisan penyematan yang terdiri dari 12 dimensi. Akibatnya, lapisan penyematan akan secara bertahap mempelajari vektor penyematan baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar untuk lapisan penyematan.

Lihat Penyematan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

ruang sematan

#language

Ruang vektor berdimensi d yang menjadi tujuan pemetaan fitur dari ruang vektor berdimensi yang lebih tinggi. Ruang penyematan dilatih untuk menangkap struktur yang bermakna bagi aplikasi yang diinginkan.

Produk titik dari dua embeddings adalah ukuran kesamaan dari embedding tersebut.

vektor penyematan

#language

Secara garis besar, array bilangan floating point yang diambil dari setiap lapisan tersembunyi yang menjelaskan input ke lapisan tersembunyi tersebut. Sering kali, vektor penyematan adalah array bilangan floating point yang dilatih di lapisan penyematan. Misalnya, lapisan penyematan harus mempelajari vektor penyematan untuk setiap dari 73.000 spesies pohon di Bumi. Mungkin array berikut adalah vektor penyematan untuk pohon baobab:

Array yang berisi 12 elemen, masing-masing menyimpan bilangan floating point
antara 0,0 dan 1,0.

Vektor penyematan bukanlah sekumpulan angka acak. Lapisan penyematan menentukan nilai ini melalui pelatihan, mirip dengan cara jaringan saraf mempelajari bobot lain selama pelatihan. Setiap elemen array adalah rating beserta beberapa karakteristik spesies pohon. Elemen mana yang mewakili karakteristik spesies pohon? Hal ini sangat sulit ditentukan oleh manusia.

Bagian yang luar biasa secara matematis dari vektor penyematan adalah item yang serupa memiliki kumpulan bilangan floating point yang serupa. Misalnya, jenis pohon yang serupa memiliki kumpulan bilangan floating point yang lebih mirip daripada jenis pohon yang tidak serupa. Pohon redwood dan sequoia adalah spesies pohon yang terkait, sehingga keduanya akan memiliki kumpulan bilangan floating point yang lebih mirip daripada pohon redwood dan pohon kelapa. Angka dalam vektor penyematan akan berubah setiap kali Anda melatih ulang model, meskipun Anda melatih ulang model dengan input yang identik.

fungsi distribusi kumulatif empiris (eCDF atau EDF)

#Metric

Fungsi distribusi kumulatif berdasarkan pengukuran empiris dari set data nyata. Nilai fungsi di titik mana pun di sepanjang sumbu x adalah fraksi pengamatan dalam set data yang kurang dari atau sama dengan nilai yang ditentukan.

minimalisasi risiko empiris (MRE) (empirical risk minimization (ERM))

Memilih fungsi yang meminimalkan kerugian pada set pelatihan. Berbeda dengan minimalisasi risiko struktural.

pembuat enkode

#language

Secara umum, sistem ML apa pun yang mengonversi dari representasi mentah, jarang, atau eksternal menjadi representasi yang lebih diproses, lebih padat, atau lebih internal.

Encoder sering kali merupakan komponen dari model yang lebih besar, yang sering kali dipasangkan dengan decoder. Beberapa Transformer mengaitkan encoder dengan decoder, meskipun Transformer lainnya hanya menggunakan encoder atau hanya decoder.

Beberapa sistem menggunakan output encoder sebagai input ke jaringan klasifikasi atau regresi.

Dalam tugas urutan ke urutan, encoder mengambil urutan input dan menampilkan status internal (vektor). Kemudian, decoder menggunakan status internal tersebut untuk memprediksi urutan berikutnya.

Lihat Transformer untuk mengetahui definisi encoder dalam arsitektur Transformer.

Lihat LLM: Apa itu model bahasa besar di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

ensemble

Kumpulan model yang dilatih secara independen dan prediksinya dirata-ratakan atau digabungkan. Dalam banyak kasus, ensemble menghasilkan prediksi yang lebih baik daripada satu model. Misalnya, hutan acak adalah ansambel yang dibuat dari beberapa pohon keputusan. Perhatikan bahwa tidak semua hutan keputusan adalah ensemble.

Lihat Random Forest di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

entropi

#df

#Metric

Dalam teori informasi, deskripsi tentang seberapa tidak dapat diprediksinya distribusi probabilitas. Atau, entropi juga didefinisikan sebagai jumlah informasi yang dimuat setiap contoh. Distribusi memiliki entropi setinggi mungkin jika semua nilai variabel acak sama-sama mungkin.

Entropi kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) memiliki formula berikut:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dalam hal ini:

H adalah entropi.
p adalah pecahan contoh "1".
q adalah pecahan contoh "0". Perhatikan bahwa q = (1 - p)
log umumnya adalah log₂. Dalam hal ini, unit entropi adalah bit.

Misalnya, anggap saja hal berikut:

100 contoh berisi nilai "1"
300 contoh berisi nilai "0"

Oleh karena itu, nilai entropi adalah:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit per contoh

Kumpulan yang seimbang sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki entropi 1,0 bit per contoh. Saat set menjadi lebih tidak seimbang, entropinya akan bergerak ke arah 0,0.

Dalam pohon keputusan, entropi membantu merumuskan keuntungan informasi untuk membantu pemisah memilih kondisi selama pertumbuhan pohon keputusan klasifikasi.

Bandingkan entropi dengan:

kemurnian gini
Fungsi kerugian entropi silang

Entropi sering disebut entropi Shannon.

Lihat Pemisah persis untuk klasifikasi biner dengan fitur numerik di kursus Decision Forests untuk mengetahui informasi selengkapnya.

lingkungan

#rl

Dalam reinforcement learning, dunia yang berisi agen dan memungkinkan agen mengamati status dunia tersebut. Misalnya, dunia yang direpresentasikan dapat berupa game seperti catur, atau dunia fisik seperti labirin. Saat agen menerapkan tindakan ke lingkungan, lingkungan akan bertransisi antar-status.

episode

#rl

Dalam reinforcement learning, setiap upaya berulang oleh agen untuk mempelajari lingkungan.

epoch

#fundamentals

Pass pelatihan penuh pada seluruh set pelatihan sehingga setiap contoh telah diproses satu kali.

Epoch mewakili iterasi pelatihan N/ukuran batch, dengan N adalah jumlah total contoh.

Misalnya, anggap saja hal berikut:

Set data terdiri dari 1.000 contoh.
Ukuran batch adalah 50 contoh.

Oleh karena itu, satu epoch memerlukan 20 iterasi:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kebijakan epsilon greedy

#rl

Dalam reinforcement learning, kebijakan yang mengikuti kebijakan acak dengan probabilitas epsilon atau kebijakan serakah. Misalnya, jika epsilon adalah 0,9, kebijakan akan mengikuti kebijakan acak 90% dari waktu dan kebijakan greedy 10% dari waktu.

Selama episode berturut-turut, algoritma mengurangi nilai epsilon untuk beralih dari mengikuti kebijakan acak ke mengikuti kebijakan rakus. Dengan mengubah kebijakan, agen pertama-tama menjelajahi lingkungan secara acak, lalu mengeksploitasi hasil eksplorasi acak secara rakus.

kesetaraan peluang

#fairness

#Metric

Metrik keadilan untuk menilai apakah model memprediksi hasil yang diinginkan dengan sama baiknya untuk semua nilai atribut sensitif. Dengan kata lain, jika hasil yang diinginkan untuk model adalah class positif, sasaran yang akan dicapai adalah agar rasio positif benar sama untuk semua grup.

Kesetaraan peluang terkait dengan peluang yang disamakan, yang mengharuskan baik rasio positif benar maupun rasio positif palsu sama untuk semua grup.

Misalkan Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagian ke program matematika yang ketat. Sekolah menengah Lilliputians menawarkan kurikulum kelas matematika yang kuat, dan sebagian besar siswa memenuhi syarat untuk program universitas. Sekolah menengah Brobdingnagians tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswa mereka yang memenuhi syarat. Kesetaraan peluang terpenuhi untuk label pilihan "diterima" sehubungan dengan kewarganegaraan (Lilliputian atau Brobdingnagian) jika siswa yang memenuhi syarat memiliki kemungkinan yang sama untuk diterima, terlepas dari apakah mereka adalah Lilliputian atau Brobdingnagian.

Misalnya, 100 Lilliputian dan 100 Brobdingnagian mendaftar ke Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 1. Pelamar Lilliputian (90% memenuhi syarat)

	Berkualitas	Tidak memenuhi syarat
Diizinkan	45	3
Ditolak	45	7
Total	90	10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50% Persentase siswa yang tidak memenuhi syarat yang ditolak: 7/10 = 70% Total persentase siswa Lilliputian yang diterima: (45+3)/100 = 48%

Tabel 2. Pelamar Brobdingnagian (10% memenuhi syarat):

	Berkualitas	Tidak memenuhi syarat
Diizinkan	5	9
Ditolak	5	81
Total	10	90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50% Persentase siswa yang tidak memenuhi syarat yang ditolak: 81/90 = 90% Total persentase siswa Brobdingnagian yang diterima: (5+9)/100 = 14%

Contoh sebelumnya memenuhi kesetaraan peluang untuk penerimaan siswa yang memenuhi syarat karena Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima.

Meskipun kesetaraan peluang terpenuhi, dua metrik keadilan berikut tidak terpenuhi:

paritas demografi: Lilliputians dan Brobdingnagians diterima di universitas dengan tingkat yang berbeda; 48% siswa Lilliputians diterima, tetapi hanya 14% siswa Brobdingnagian yang diterima.
equalized odds: Meskipun siswa Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang yang sama untuk diterima, batasan tambahan bahwa Lilliputian dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang yang sama untuk ditolak tidak terpenuhi. Lilliputian yang tidak memenuhi syarat memiliki rasio penolakan 70%, sedangkan Brobdingnagian yang tidak memenuhi syarat memiliki rasio penolakan 90%.

Lihat Keadilan: Kesetaraan kesempatan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

peluang yang disamakan

#fairness

#Metric

Metrik keadilan untuk menilai apakah model memprediksi hasil dengan sama baiknya untuk semua nilai atribut sensitif sehubungan dengan kelas positif dan kelas negatif—bukan hanya satu kelas atau yang lainnya secara eksklusif. Dengan kata lain, rasio positif benar dan rasio negatif palsu harus sama untuk semua grup.

Peluang yang disamakan terkait dengan kesetaraan peluang, yang hanya berfokus pada rasio error untuk satu class (positif atau negatif).

Misalnya, Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagian ke program matematika yang ketat. Sekolah menengah Lilliputians menawarkan kurikulum kelas matematika yang kuat, dan sebagian besar siswa memenuhi syarat untuk program universitas. Sekolah menengah Brobdingnag tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswa yang memenuhi syarat. Peluang yang sama terpenuhi asalkan tidak memedulikan apakah pelamar adalah Lilliputian atau Brobdingnagian, jika mereka memenuhi syarat, mereka memiliki peluang yang sama untuk diterima ke program, dan jika mereka tidak memenuhi syarat, mereka memiliki peluang yang sama untuk ditolak.

Misalkan 100 Lilliputian dan 100 Brobdingnagian mendaftar ke Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 3. Pelamar Lilliputian (90% memenuhi syarat)

	Berkualitas	Tidak memenuhi syarat
Diizinkan	45	2
Ditolak	45	8
Total	90	10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50% Persentase siswa yang tidak memenuhi syarat yang ditolak: 8/10 = 80% Total persentase siswa Lilliputian yang diterima: (45+2)/100 = 47%

Tabel 4. Pelamar Brobdingnagian (10% memenuhi syarat):

	Berkualitas	Tidak memenuhi syarat
Diizinkan	5	18
Ditolak	5	72
Total	10	90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50% Persentase siswa yang tidak memenuhi syarat yang ditolak: 72/90 = 80% Total persentase siswa Brobdingnagian yang diterima: (5+18)/100 = 23%

Peluang yang disamakan terpenuhi karena siswa Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima, dan siswa Lilliputian dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang 80% untuk ditolak.

Peluang yang disamakan secara formal ditentukan dalam "Kesetaraan Peluang dalam Pemelajaran Berawas" sebagai berikut: "prediktor Ŷ memenuhi peluang yang disamakan sehubungan dengan atribut A yang dilindungi dan hasil Y jika Ŷ dan A independen, bersyarat pada Y."

Estimator

#TensorFlow

TensorFlow API yang tidak digunakan lagi. Gunakan tf.keras, bukan Estimator.

evals

#language

#generativeAI

#Metric

Utamanya digunakan sebagai singkatan untuk evaluasi LLM. Secara lebih luas, evals adalah singkatan dari bentuk evaluasi apa pun.

evaluasi

#language

#generativeAI

#Metric

Proses mengukur kualitas model atau membandingkan berbagai model satu sama lain.

Untuk mengevaluasi model machine learning dengan pengawasan, Anda biasanya menilainya berdasarkan set validasi dan set pengujian. Mengevaluasi LLM biasanya melibatkan penilaian kualitas dan keamanan yang lebih luas.

contoh

#fundamentals

Nilai satu baris fitur dan mungkin label. Contoh dalam pembelajaran dengan pengawasan terbagi dalam dua kategori umum:

Contoh berlabel terdiri dari satu atau beberapa fitur dan label. Contoh berlabel digunakan selama pelatihan.
Contoh tanpa label terdiri dari satu atau beberapa fitur, tetapi tidak memiliki label. Contoh tanpa label digunakan selama inferensi.

Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Berikut adalah tiga contoh berlabel:

Fitur			Label
Suhu	Kelembapan	Tekanan	Skor pengujian
15	47	998	Baik
19	34	1020	Luar biasa
18	92	1012	Buruk

Berikut adalah tiga contoh tanpa label:

Suhu	Kelembapan	Tekanan
12	62	1014
21	47	1017
19	41	1021

Baris set data biasanya merupakan sumber mentah untuk contoh. Artinya, contoh biasanya terdiri dari subset kolom dalam set data. Selain itu, fitur dalam contoh juga dapat mencakup fitur sintetis, seperti silang fitur.

Lihat Pembelajaran dengan Pengawasan di kursus Pengantar Machine Learning untuk mengetahui informasi selengkapnya.

pemutaran ulang pengalaman

#rl

Dalam reinforcement learning, teknik DQN digunakan untuk mengurangi korelasi temporal dalam data pelatihan. Agen menyimpan transisi status dalam buffer replay, lalu mengambil sampel transisi dari buffer replay untuk membuat data pelatihan.

bias pelaku eksperimen

#fairness

Lihat bias konfirmasi.

masalah gradien meledak

#seq

Kecenderungan gradien di jaringan saraf dalam (terutama jaringan saraf berulang) menjadi sangat curam (tinggi). Gradien yang curam sering kali menyebabkan update yang sangat besar pada bobot setiap node dalam jaringan saraf dalam.

Model yang mengalami masalah gradien meledak menjadi sulit atau tidak dapat dilatih. Pemangkasan gradien dapat mengurangi masalah ini.

Bandingkan dengan masalah gradien yang menghilang.

F

F₁

#Metric

Metrik klasifikasi biner "gabungan" yang bergantung pada presisi dan recall. Berikut adalah formulanya:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Klik ikon untuk melihat contoh.

Misalkan presisi dan perolehan memiliki nilai berikut:

precision = 0,6
recall = 0,4

Anda menghitung F₁ sebagai berikut:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Jika presisi dan perolehan cukup mirip (seperti pada contoh sebelumnya), F₁ mendekati rata-ratanya. Jika presisi dan perolehan berbeda secara signifikan, F₁ akan lebih mendekati nilai yang lebih rendah. Contoh:

precision = 0,9
recall = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

faktualitas

#generativeAI

Dalam dunia ML, properti yang menjelaskan model yang output-nya didasarkan pada kenyataan. Faktualitas adalah konsep, bukan metrik. Misalnya, Anda mengirim perintah berikut ke model bahasa besar:

Apa rumus kimia untuk garam dapur?

Model yang mengoptimalkan faktualitas akan merespons:

NaCl

Kita mungkin tergoda untuk mengasumsikan bahwa semua model harus didasarkan pada fakta. Namun, beberapa perintah, seperti berikut, akan menyebabkan model AI generatif mengoptimalkan kreativitas, bukan fakta.

Ceritakan limerick tentang astronot dan ulat.

Limerick yang dihasilkan kemungkinan tidak akan didasarkan pada kenyataan.

Berbeda dengan groundedness.

batasan keadilan

#fairness

Menerapkan batasan ke algoritma untuk memastikan satu atau beberapa definisi keadilan terpenuhi. Contoh batasan keadilan meliputi:

Pascapemrosesan output model Anda.
Mengubah fungsi loss untuk menyertakan penalti karena melanggar metrik keadilan.
Menambahkan batasan matematika secara langsung ke masalah pengoptimalan.

metrik keadilan

#fairness

#Metric

Definisi matematika "keadilan" yang dapat diukur. Beberapa metrik keadilan yang umum digunakan meliputi:

odds yang disamakan
paritas prediktif
keadilan counterfactual
paritas demografis

Banyak metrik keadilan yang saling eksklusif; lihat ketidakcocokan metrik keadilan.

negatif palsu (NP)

#fundamentals

#Metric

Contoh yang mana model salah memprediksi kelas negatif. Misalnya, model memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email tersebut sebenarnya adalah spam.

rasio negatif palsu

#Metric

Proporsi contoh positif sebenarnya yang salah diprediksi oleh model sebagai kelas negatif. Rumus berikut menghitung rasio negatif palsu:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Lihat Nilai minimum dan matriks kebingungan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

positif palsu (PP)

#fundamentals

#Metric

Contoh yang mana model salah memprediksi kelas positif. Misalnya, model memprediksi bahwa pesan email tertentu adalah spam (kelas positif), tetapi pesan email tersebut sebenarnya bukan spam.

Lihat Nilai minimum dan matriks kebingungan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

rasio positif palsu (FPR)

#fundamentals

#Metric

Proporsi contoh negatif sebenarnya yang salah diprediksi oleh model sebagai kelas positif. Rumus berikut menghitung rasio positif palsu:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Rasio positif palsu adalah sumbu x dalam kurva ROC.

Lihat Klasifikasi: ROC dan AUC di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fitur

#fundamentals

Variabel input ke model machine learning. Contoh terdiri dari satu atau beberapa fitur. Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Tabel berikut menunjukkan tiga contoh, yang masing-masing berisi tiga fitur dan satu label:

Fitur			Label
Suhu	Kelembapan	Tekanan	Skor pengujian
15	47	998	92
19	34	1020	84
18	92	1012	87

Berbeda dengan label.

Lihat Pembelajaran dengan Pengawasan di kursus Pengantar Machine Learning untuk mengetahui informasi selengkapnya.

persilangan fitur

#fundamentals

Fitur sintetis yang dibentuk dengan "menyilang" kategoris atau bucket.

Misalnya, pertimbangkan model "perkiraan suasana hati" yang mewakili suhu di salah satu dari empat bucket berikut:

freezing
chilly
temperate
warm

Dan mewakili kecepatan angin di salah satu dari tiga bucket berikut:

still
light
windy

Tanpa persilangan fitur, model linear dilatih secara terpisah pada setiap tujuh bucket sebelumnya. Jadi, model dilatih, misalnya, freezing secara independen dari pelatihan pada, misalnya, windy.

Atau, Anda dapat membuat persilangan fitur suhu dan kecepatan angin. Fitur sintetis ini akan memiliki 12 kemungkinan nilai berikut:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Berkat persilangan fitur, model dapat mempelajari perbedaan suasana hati antara hari freezing-windy dan hari freezing-still.

Jika Anda membuat fitur sintetis dari dua fitur yang masing-masing memiliki banyak bucket yang berbeda, persilangan fitur yang dihasilkan akan memiliki kemungkinan kombinasi yang sangat banyak. Misalnya, jika satu fitur memiliki 1.000 bucket dan fitur lainnya memiliki 2.000 bucket, persilangan fitur yang dihasilkan memiliki 2.000.000 bucket.

Secara formal, persilangan adalah produk Kartesius.

Persilangan fitur sebagian besar digunakan dengan model linear dan jarang digunakan dengan jaringan saraf.

Lihat Data kategoris: Persilangan fitur di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

rekayasa fitur

#fundamentals

#TensorFlow

Proses yang melibatkan langkah-langkah berikut:

Menentukan fitur mana yang mungkin berguna dalam melatih model.
Mengonversi data mentah dari set data menjadi versi yang efisien dari fitur tersebut.

Misalnya, Anda mungkin menentukan bahwa temperature mungkin merupakan fitur yang berguna. Kemudian, Anda dapat bereksperimen dengan bucketing untuk mengoptimalkan hal yang dapat dipelajari model dari berbagai rentang temperature.

Rekayasa fitur terkadang disebut ekstraksi fitur atau featurisasi.

Klik ikon untuk melihat catatan tambahan tentang TensorFlow.

Di TensorFlow, rekayasa fitur sering kali berarti mengonversi entri file log mentah menjadi buffering protokol tf.Example. Lihat juga tf.Transform.

Lihat Data numerik: Cara model menyerap data menggunakan vektor fitur di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

ekstraksi fitur

Istilah yang memiliki lebih dari satu definisi:

Mengambil representasi fitur perantara yang dihitung oleh model tanpa pengawasan atau terlatih (misalnya, nilai lapisan tersembunyi dalam jaringan saraf) untuk digunakan dalam model lain sebagai input.
Sinonim dari rekayasa fitur.

tingkat kepentingan fitur

#df

#Metric

Sinonim dari pentingnya variabel.

set fitur

#fundamentals

Kelompok fitur tempat model machine learning Anda dilatih. Misalnya, kumpulan fitur sederhana untuk model yang memprediksi harga perumahan mungkin terdiri dari kode pos, ukuran properti, dan kondisi properti.

spesifikasi fitur

#TensorFlow

Menjelaskan informasi yang diperlukan untuk mengekstrak data features dari buffering protokol tf.Example. Karena buffering protokol tf.Example hanyalah penampung data, Anda harus menentukan hal berikut:

Data yang akan diekstrak (yaitu, kunci untuk fitur)
Jenis data (misalnya, float atau int)
Panjang (tetap atau variabel)

vektor fitur

#fundamentals

Array nilai feature yang terdiri dari example. Vektor fitur adalah input selama pelatihan dan selama inferensi. Misalnya, vektor fitur untuk model dengan dua fitur terpisah mungkin:

[0.92, 0.56]

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan satu lapisan output.
Lapisan input berisi dua node, satu berisi nilai
0,92 dan yang lainnya berisi nilai 0,56.

Setiap contoh memberikan nilai yang berbeda untuk vektor fitur, sehingga vektor fitur untuk contoh berikutnya bisa berupa:

[0.73, 0.49]

Feature engineering menentukan cara merepresentasikan fitur dalam vektor fitur. Misalnya, fitur kategoris biner dengan lima kemungkinan nilai dapat direpresentasikan dengan encoding one-hot. Dalam hal ini, bagian vektor fitur untuk contoh tertentu akan terdiri dari empat nol dan satu 1,0 di posisi ketiga, sebagai berikut:

[0.0, 0.0, 1.0, 0.0, 0.0]

Sebagai contoh lain, misalkan model Anda terdiri dari tiga fitur:

fitur kategorikal biner dengan lima kemungkinan nilai yang direpresentasikan dengan encoding one-hot; misalnya: [0.0, 1.0, 0.0, 0.0, 0.0]
fitur kategorikal biner lainnya dengan tiga kemungkinan nilai yang direpresentasikan dengan encoding one-hot; misalnya: [0.0, 0.0, 1.0]
fitur floating point; misalnya: 8.3.

Dalam hal ini, vektor fitur untuk setiap contoh akan direpresentasikan oleh sembilan nilai. Dengan contoh nilai dalam daftar sebelumnya, vektor fitur akan menjadi:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Lihat Data numerik: Cara model menyerap data menggunakan vektor fitur di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fiturisasi

Proses mengekstrak fitur dari sumber input, seperti dokumen atau video, dan memetakan fitur tersebut ke dalam vektor fitur.

Beberapa pakar ML menggunakan fiturisasi sebagai sinonim untuk rekayasa fitur atau ekstraksi fitur.

federated learning

Pendekatan machine learning terdistribusi yang melatih model machine learning menggunakan contoh terdesentralisasi yang berada di perangkat seperti smartphone. Dalam federated learning, sebagian perangkat mendownload model saat ini dari server koordinasi pusat. Perangkat menggunakan contoh yang disimpan di perangkat untuk melakukan peningkatan pada model. Perangkat kemudian mengupload peningkatan model (tetapi bukan contoh pelatihan) ke server koordinasi, tempat peningkatan tersebut digabungkan dengan update lain untuk menghasilkan model global yang lebih baik. Setelah agregasi, update model yang dihitung oleh perangkat tidak diperlukan lagi, dan dapat dihapus.

Karena contoh pelatihan tidak pernah diupload, federated learning mengikuti prinsip privasi pengumpulan data yang terfokus dan minimalisasi data.

Lihat komik Federated Learning (ya, komik) untuk mengetahui detail selengkapnya.

feedback loop

#fundamentals

Dalam machine learning, situasi saat prediksi model memengaruhi data pelatihan untuk model yang sama atau model lain. Misalnya, model yang merekomendasikan film akan memengaruhi film yang dilihat orang, yang kemudian akan memengaruhi model rekomendasi film berikutnya.

Lihat Sistem ML produksi: Pertanyaan yang harus diajukan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

jaringan saraf alur maju (feedforward neural network (FFN))

Jaringan neural tanpa koneksi berulang atau siklis. Misalnya, jaringan neural dalam tradisional merupakan jaringan saraf alur maju. Berbeda dengan jaringan saraf berulang, yang bersifat siklis.

pemelajaran beberapa tahap

Pendekatan machine learning, yang sering digunakan untuk klasifikasi objek, dirancang untuk melatih model klasifikasi yang efektif hanya dari sejumlah kecil contoh pelatihan.

Lihat juga pemelajaran satu tahap dan pemelajaran zero-shot.

perintah few-shot

#language

#generativeAI

Perintah yang berisi lebih dari satu ("beberapa") contoh yang menunjukkan bagaimana model bahasa besar harus merespons. Misalnya, perintah panjang berikut berisi dua contoh yang menunjukkan cara model bahasa besar menjawab kueri.

Bagian dari satu perintah	Catatan
`Apa mata uang resmi negara yang ditentukan?`	Pertanyaan yang ingin Anda jawab dengan LLM.
`Prancis: EUR`	Satu contoh.
`Inggris Raya: GBP`	Contoh lainnya.
`India:`	Kueri sebenarnya.

Perintah few-shot umumnya menghasilkan hasil yang lebih diinginkan daripada perintah zero-shot dan perintah one-shot. Namun, perintah few-shot memerlukan perintah yang lebih panjang.

Perintah few-shot adalah bentuk pemelajaran beberapa tahap yang diterapkan pada pembelajaran berbasis perintah.

Lihat Rekayasa perintah di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Biola

#language

Library konfigurasi yang mengutamakan Python dan menetapkan nilai fungsi dan class tanpa kode atau infrastruktur yang invasif. Dalam kasus Pax—dan codebase ML lainnya—fungsi dan class ini mewakili model dan pelatihan hyperparameter.

Fiddle menganggap bahwa codebase machine learning biasanya dibagi menjadi:

Kode library, yang menentukan lapisan dan pengoptimal.
Kode "lem" set data, yang memanggil library dan menghubungkan semuanya.

Fiddle menangkap struktur panggilan kode glue dalam bentuk yang tidak dievaluasi dan dapat diubah.

penyesuaian

#language

#image

#generativeAI

Kartu pelatihan kedua khusus tugas yang dilakukan pada model terlatih untuk meningkatkan parameternya untuk kasus penggunaan tertentu. Misalnya, urutan pelatihan lengkap untuk beberapa model bahasa besar adalah sebagai berikut:

Prapelatihan: Melatih model bahasa besar pada set data umum yang luas, seperti semua halaman Wikipedia bahasa Inggris.
Penyesuaian: Melatih model terlatih untuk melakukan tugas tertentu, seperti merespons kueri medis. Penyesuaian biasanya melibatkan ratusan atau ribuan contoh yang berfokus pada tugas tertentu.

Sebagai contoh lain, urutan pelatihan lengkap untuk model gambar besar adalah sebagai berikut:

Prapelatihan: Melatih model gambar besar pada set data gambar umum yang luas, seperti semua gambar di Wikimedia commons.
Penyesuaian: Melatih model terlatih untuk melakukan tugas tertentu, seperti membuat gambar paus orca.

Penyesuaian dapat mencakup kombinasi strategi berikut:

Mengubah semua parameter yang ada pada model terlatih. Hal ini terkadang disebut penyesuaian penuh.
Hanya mengubah beberapa parameter yang ada dari model terlatih (biasanya, lapisan yang paling dekat dengan lapisan output), sementara parameter lain yang ada tidak berubah (biasanya, lapisan yang paling dekat dengan lapisan input). Lihat parameter-efficient tuning.
Menambahkan lebih banyak lapisan, biasanya di atas lapisan yang ada dan paling dekat dengan lapisan output.

Penyesuaian adalah bentuk pemelajaran transfer. Dengan demikian, penyesuaian mungkin menggunakan fungsi loss yang berbeda atau jenis model yang berbeda dari yang digunakan untuk melatih model terlatih. Misalnya, Anda dapat menyetel model gambar besar terlatih untuk menghasilkan model regresi yang menampilkan jumlah burung dalam gambar input.

Bandingkan dan bedakan penyesuaian halus dengan istilah berikut:

distilasi
pembelajaran berbasis perintah

Lihat Penyesuaian di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Flax

#language

Library open source berperforma tinggi untuk deep learning yang dibuat di atas JAX. Flax menyediakan fungsi untuk melatih jaringan saraf, serta metode untuk mengevaluasi performanya.

Flaxformer

#language

Library Transformer open source, yang dibuat di Flax, yang dirancang terutama untuk pemrosesan bahasa alami dan riset multimodal.

forget gate

#seq

Bagian dari sel Long Short-Term Memory yang mengatur aliran informasi melalui sel. Gate lupa mempertahankan konteks dengan memutuskan informasi mana yang akan dihapus dari status sel.

fraksi keberhasilan

#generativeAI

#Metric

Metrik untuk mengevaluasi teks yang dihasilkan model ML. Fraksi keberhasilan adalah jumlah output teks yang dihasilkan "berhasil" dibagi dengan jumlah total output teks yang dihasilkan. Misalnya, jika model bahasa besar menghasilkan 10 blok kode, lima di antaranya berhasil, maka fraksi keberhasilan akan menjadi 50%.

Meskipun fraksi keberhasilan secara luas berguna di seluruh statistik, dalam ML, metrik ini terutama berguna untuk mengukur tugas yang dapat diverifikasi seperti pembuatan kode atau masalah matematika.

full softmax

Sinonim dari softmax.

Berbeda dengan sampling kandidat.

Lihat Jaringan neural: Klasifikasi multi-class di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

lapisan terhubung seluruhnya

Lapisan tersembunyi tempat setiap node terhubung ke setiap node di lapisan tersembunyi berikutnya.

Lapisan terhubung seluruhnya juga dikenal sebagai lapisan padat.

transformasi fungsi

Fungsi yang menggunakan fungsi sebagai input dan menampilkan fungsi yang ditransformasi sebagai output. JAX menggunakan transformasi fungsi.

G

GAN

Singkatan dari generative adversarial network.

Gemini

#language

#image

#generativeAI

Ekosistem yang terdiri dari AI tercanggih Google. Elemen ekosistem ini meliputi:

Berbagai model Gemini.
Antarmuka percakapan interaktif ke model Gemini. Pengguna mengetik perintah dan Gemini merespons perintah tersebut.
Berbagai Gemini API.
Berbagai produk bisnis berdasarkan model Gemini; misalnya, Gemini untuk Google Cloud.

Model Gemini

#language

#image

#generativeAI

Model multimodal berbasis Transformer mutakhir dari Google. Model Gemini dirancang khusus untuk berintegrasi dengan agen.

Pengguna dapat berinteraksi dengan model Gemini dengan berbagai cara, termasuk melalui antarmuka dialog interaktif dan melalui SDK.

generalisasi

#fundamentals

Kemampuan model untuk membuat prediksi yang benar terkait data baru yang sebelumnya tidak terlihat. Model yang dapat digeneralisasi adalah kebalikan dari model yang overfitting.

Klik ikon untuk melihat catatan tambahan.

Anda melatih model pada contoh dalam set pelatihan. Akibatnya, model mempelajari keunikan data dalam set pelatihan. Generalisasi pada dasarnya menanyakan apakah model Anda dapat membuat prediksi yang baik pada contoh yang tidak ada dalam set pelatihan.

Untuk mendorong generalisasi, regularisasi membantu model melatih dengan lebih akurat ke keunikan data dalam set pelatihan.

Lihat Generalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kurva generalisasi

#fundamentals

Plot loss pelatihan dan loss validasi sebagai fungsi dari jumlah iterasi.

Kurva generalisasi dapat membantu Anda mendeteksi kemungkinan overfitting. Misalnya, kurva generalisasi berikut menunjukkan overfitting karena kerugian validasi pada akhirnya menjadi jauh lebih tinggi daripada kerugian pelatihan.

Grafik Kartesius dengan sumbu y berlabel loss dan sumbu x berlabel iterasi. Dua plot akan muncul. Satu plot menunjukkan
kerugian pelatihan dan plot lainnya menunjukkan kerugian validasi.
Kedua plot dimulai dengan cara yang sama, tetapi kerugian pelatihan pada akhirnya menurun jauh lebih rendah daripada kerugian validasi.

Lihat Generalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model linear tergeneralisasi

Generalisasi model regresi kuadrat terkecil, yang didasarkan pada derau Gaussian, ke jenis model lain berdasarkan jenis derau lain, seperti derau Poisson atau derau kategoris. Contoh model linear tergeneralisasi meliputi:

regresi logistik
regresi multi-kelas
regresi kuadrat terkecil

Parameter dari model linear tergeneralisasi dapat ditemukan melalui pengoptimalan konveks.

Model linear tergeneralisasi menunjukkan properti berikut:

Prediksi rata-rata model regresi kuadrat terkecil yang optimal sama dengan label rata-rata pada data pelatihan.
Probabilitas rata-rata yang diprediksi oleh model regresi logistik optimal sama dengan label rata-rata pada data pelatihan.

Kekuatan model linear umum dibatasi oleh fiturnya. Tidak seperti model deep, model linear umum tidak dapat "mempelajari fitur baru".

teks yang dihasilkan

#language

#generativeAI

Secara umum, teks yang dihasilkan model ML. Saat mengevaluasi model bahasa besar, beberapa metrik membandingkan teks yang dihasilkan dengan teks referensi. Misalnya, Anda mencoba menentukan seberapa efektif model ML menerjemahkan dari bahasa Prancis ke bahasa Belanda. Dalam hal ini:

Teks yang dihasilkan adalah terjemahan Belanda yang dihasilkan model ML.
Teks referensi adalah terjemahan Belanda yang dibuat oleh penerjemah manusia (atau software).

Perhatikan bahwa beberapa strategi evaluasi tidak melibatkan teks referensi.

jaringan saraf generatif berlawanan (generative adversarial network (GAN))

Sistem untuk membuat data baru dengan generator membuat data dan discriminator menentukan apakah data yang dibuat tersebut valid atau tidak valid.

Lihat kursus Generative Adversarial Networks untuk mengetahui informasi selengkapnya.

AI generatif

#language

#image

#generativeAI

Bidang transformatif yang baru muncul tanpa definisi formal. Meskipun demikian, sebagian besar pakar setuju bahwa model AI generatif dapat membuat ("menghasilkan") konten yang merupakan semua hal berikut:

kompleks
koheren
asli

Misalnya, model AI generatif dapat membuat esai atau gambar yang canggih.

Beberapa teknologi sebelumnya, termasuk LSTM dan RNN, juga dapat menghasilkan konten yang orisinal dan koheren. Beberapa pakar memandang teknologi sebelumnya ini sebagai AI generatif, sementara yang lain merasa bahwa AI generatif sejati memerlukan output yang lebih kompleks daripada yang dapat dihasilkan teknologi sebelumnya.

Berbeda dengan ML prediktif.

model generatif

Secara praktis, model yang melakukan salah satu tindakan berikut:

Membuat (menghasilkan) contoh baru dari set data pelatihan. Misalnya, model generatif dapat membuat puisi setelah dilatih di set data yang terdiri dari beberapa puisi. Bagian generator dari jaringan saraf generatif berlawanan termasuk dalam kategori ini.
Menentukan probabilitas bahwa contoh baru berasal dari set pelatihan, atau dibuat dari mekanisme yang sama yang membuat set pelatihan. Misalnya, setelah dilatih di set data yang terdiri dari kalimat bahasa Inggris, model generatif dapat menentukan probabilitas bahwa masukan baru adalah kalimat bahasa Inggris yang valid.

Model generatif dapat secara teoretis memahami distribusi contoh atau fitur tertentu dalam set data. Definisinya yaitu:

p(examples)

Model unsupervised learning bersifat generatif.

Berbeda dengan model diskriminatif.

generator

Subsistem dalam jaringan saraf generatif berlawanan yang membuat contoh baru.

Berbeda dengan model diskriminatif.

ketidakmurnian gini

#df

#Metric

Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari impuritas gini atau entropi untuk menyusun kondisi untuk klasifikasi pohon keputusan. Keuntungan informasi berasal dari entropi. Tidak ada istilah setara yang diterima secara universal untuk metrik yang berasal dari impuritas gini; namun, metrik tanpa nama ini sama pentingnya dengan keuntungan informasi.

Impuritas gini juga disebut indeks gini, atau hanya gini.

Klik ikon untuk mengetahui detail matematika tentang impuritas gini.

Impuritas Gini adalah probabilitas kesalahan klasifikasi bagian data baru yang diambil dari distribusi yang sama. Impuritas gini dari kumpulan dengan dua nilai yang mungkin "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) dihitung dari formula berikut:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

dalam hal ini:

I adalah impuritas gini.
p adalah pecahan contoh "1".
q adalah pecahan contoh "0". Perhatikan bahwa q = 1-p

Misalnya, pertimbangkan set data berikut:

100 label (0,25 set data) berisi nilai "1"
300 label (0,75 set data) berisi nilai "0"

Oleh karena itu, ketidakmurnian gini adalah:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Akibatnya, label acak dari set data yang sama akan memiliki peluang 37,5% untuk salah diklasifikasikan, dan peluang 62,5% untuk diklasifikasikan dengan benar.

Label yang seimbang sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki impuritas gini 0,5. Label yang sangat tidak seimbang akan memiliki impuritas gini yang mendekati 0,0.

set data emas

Kumpulan data yang diseleksi secara manual yang menangkap kebenaran nyata. Tim dapat menggunakan satu atau beberapa set data emas untuk mengevaluasi kualitas model.

Beberapa set data emas menangkap subdomain kebenaran dasar yang berbeda. Misalnya, set data emas untuk klasifikasi gambar dapat menangkap kondisi pencahayaan dan resolusi gambar.

respons emas

#language

#generativeAI

Jawaban yang diketahui bagus. Misalnya, dengan perintah berikut:

2 + 2

Respons yang diharapkan adalah:

4

Klik di sini untuk melihat catatan tentang respons terbaik dan teks referensi.

Beberapa metrik evaluasi, seperti ROUGE, membandingkan teks referensi dengan teks yang dihasilkan model. Jika ada satu jawaban yang benar untuk perintah, respons emas biasanya berfungsi sebagai teks referensi.

Beberapa perintah tidak memiliki satu jawaban yang benar. Misalnya, perintah Ringkas dokumen ini kemungkinan akan memiliki banyak jawaban yang benar. Untuk perintah tersebut, teks referensi sering kali tidak praktis karena model dapat menghasilkan berbagai kemungkinan ringkasan. Namun, respons terbaik mungkin akan membantu dalam situasi ini. Misalnya, respons emas yang berisi ringkasan dokumen yang baik dapat membantu melatih autorater untuk menemukan pola ringkasan dokumen yang baik.

GPT (Generative Pre-trained Transformer)

#language

Serangkaian model bahasa besar berbasis Transformer yang dikembangkan oleh OpenAI.

Varian GPT dapat diterapkan ke beberapa modalitas, termasuk:

pembuatan gambar (misalnya, ImageGPT)
pembuatan teks ke gambar (misalnya, DALL-E).

gradien

Vektor turunan parsial yang terkait dengan semua variabel independen. Dalam machine learning, gradien adalah vektor turunan parsial dari fungsi model. Gradien mengarah ke arah pendakian tercuram.

akumulasi gradien

Teknik backpropagation yang memperbarui parameter hanya sekali per epoch, bukan sekali per iterasi. Setelah memproses setiap mini-batch, akumulasi gradien hanya memperbarui total gradien yang berjalan. Kemudian, setelah memproses mini-batch terakhir dalam epoch, sistem akhirnya akan memperbarui parameter berdasarkan total semua perubahan gradien.

Akumulasi gradien berguna jika ukuran batch sangat besar dibandingkan dengan jumlah memori yang tersedia untuk pelatihan. Jika memori menjadi masalah, kecenderungan alaminya adalah mengurangi ukuran batch. Namun, mengurangi ukuran batch dalam backpropagation normal akan meningkatkan jumlah pembaruan parameter. Akumulasi gradien memungkinkan model menghindari masalah memori, tetapi tetap dilatih secara efisien.

pohon (keputusan) yang ditingkatkan dengan gradien (GBT)

#df

Jenis hutan keputusan yang:

Pelatihan mengandalkan gradient boosting.
Model lemah adalah pohon keputusan.

Lihat Gradient Boosted Decision Trees di kursus Decision Forests untuk mengetahui informasi selengkapnya.

boosting gradien

#df

Algoritma pelatihan tempat model lemah dilatih untuk secara iteratif meningkatkan kualitas (mengurangi kerugian) model yang kuat. Misalnya, model yang lemah dapat berupa model pohon keputusan linear atau kecil. Model kuat menjadi jumlah dari semua model lemah yang dilatih sebelumnya.

Dalam bentuk gradient boosting yang paling sederhana, pada setiap iterasi, model lemah dilatih untuk memprediksi gradien kerugian model yang kuat. Kemudian, output model yang kuat diperbarui dengan mengurangi gradien yang diprediksi, serupa dengan gradient descent.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dalam hal ini:

$F_{0}$ adalah model kuat awal.
$F_{i+1}$ adalah model kuat berikutnya.
$F_{i}$ adalah model kuat saat ini.
$\xi$ adalah nilai antara 0,0 dan 1,0 yang disebut penyingkatan, yang analog dengan kecepatan belajar dalam penurunan gradien.
$f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian $F_{i}$.

Variasi modern dari gradient boosting juga menyertakan turunan kedua (Hessian) dari kerugian dalam komputasinya.

Pohon keputusan biasanya digunakan sebagai model lemah dalam gradient boosting. Lihat pohon (keputusan) dengan peningkatan gradien.

pemotongan gradien

#seq

Mekanisme yang biasa digunakan untuk mengurangi masalah ledakan gradien dengan membatasi (memotong) nilai maksimum gradien secara artifisial saat menggunakan gradient descent untuk melatih model.

penurunan gradien

#fundamentals

Teknik matematika untuk meminimalkan kerugian. Penurunan gradien secara berulang menyesuaikan bobot dan bias, yang secara bertahap menemukan kombinasi terbaik untuk meminimalkan kerugian.

Gradient descent lebih lama—jauh lebih lama—daripada machine learning.

Lihat Regresi linear: Penurunan gradien di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

grafik

#TensorFlow

Di TensorFlow, spesifikasi komputasi. Node dalam grafik mewakili operasi. Edge diarahkan dan merepresentasikan penerusan hasil operasi (Tensor) sebagai operand ke operasi lain. Gunakan TensorBoard untuk memvisualisasikan grafik.

eksekusi grafik

#TensorFlow

Lingkungan pemrograman TensorFlow yang mana program mengonstruksi grafik terlebih dahulu, kemudian mengeksekusi semua atau sebagian grafik tersebut. Eksekusi grafik adalah mode eksekusi default di TensorFlow 1.x.

Berbeda dengan eksekusi segera.

kebijakan rakus

#rl

Dalam reinforcement learning, kebijakan yang selalu memilih tindakan dengan hasil yang diharapkan tertinggi.

groundedness

Properti model yang output-nya didasarkan pada ("didasarkan pada") bahan sumber tertentu. Misalnya, Anda memberikan seluruh buku fisika sebagai input ("konteks") ke model bahasa besar. Kemudian, Anda meminta model bahasa besar tersebut dengan pertanyaan fisika. Jika respons model mencerminkan informasi dalam buku teks tersebut, maka model tersebut didasarkan pada buku teks tersebut.

Perhatikan bahwa model yang berdasar tidak selalu merupakan model faktual. Misalnya, buku teks fisika input dapat berisi kesalahan.

kebenaran dasar

#fundamentals

Realitas.

Hal yang sebenarnya terjadi.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah siswa di tahun pertama universitasnya akan lulus dalam waktu enam tahun. Ground truth untuk model ini adalah apakah siswa tersebut benar-benar lulus dalam waktu enam tahun atau tidak.

Klik ikon untuk melihat catatan tambahan.

Kami menilai kualitas model berdasarkan kebenaran nyata. Namun, kebenaran tidak selalu sepenuhnya benar. Misalnya, pertimbangkan contoh berikut tentang potensi ketidaksempurnaan dalam ground truth:

Dalam contoh kelulusan, apakah kita yakin bahwa catatan kelulusan untuk setiap siswa selalu benar? Apakah pencatatan universitas sudah sempurna?
Misalkan label adalah nilai floating point yang diukur oleh instrumen (misalnya, barometer). Bagaimana kita dapat memastikan bahwa setiap instrumen dikalibrasi secara identik atau bahwa setiap pembacaan diambil dalam keadaan yang sama?
Jika label adalah masalah pendapat manusia, bagaimana kita bisa memastikan bahwa setiap penilai manusia mengevaluasi peristiwa dengan cara yang sama? Untuk meningkatkan konsistensi, penilai manual ahli terkadang melakukan intervensi.

bias atribusi kelompok

#fairness

Dengan asumsi bahwa hal yang benar bagi individu juga benar bagi semua orang dalam grup tersebut. Efek dari bias atribusi grup dapat diperburuk jika pengambilan sampel praktis digunakan untuk pengumpulan data. Dalam sampel bukan perwakilan, atribusi dapat dibuat yang tidak mencerminkan realitas.

Lihat juga bias kehomogenan luar golongan dan bias dalam golongan. Selain itu, lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

H

halusinasi

#language

Produksi output yang tampak masuk akal, tetapi salah secara faktual, oleh model AI generatif yang berpura-pura membuat pernyataan tentang dunia nyata. Misalnya, model AI generatif yang mengklaim bahwa Barack Obama meninggal pada tahun 1865 mengalami halusinasi.

hashing

Dalam machine learning, mekanisme untuk pengelompokan data kategorik, terutama ketika jumlah kategorinya besar, tetapi jumlah kategori yang benar-benar muncul dalam set data relatif kecil.

Misalnya, Bumi merupakan rumah bagi sekitar 73.000 spesies pohon. Anda dapat mewakili setiap 73.000 spesies pohon dalam 73.000 bucket kategorik yang berbeda. Atau, jika hanya ada 200 dari spesies pohon tersebut yang benar-benar muncul di set data, Anda dapat menggunakan teknik hashing untuk membagi spesies pohon menjadi sekitar 500 bucket.

Satu bucket dapat berisi beberapa spesies pohon. Misalnya, hashing dapat menempatkan beringin dan cemara udang—dua spesies yang berbeda secara genetik—ke dalam bucket yang sama. Bagaimanapun juga, hashing masih merupakan cara yang baik untuk memetakan set kategorik dalam jumlah besar ke jumlah bucket yang dipilih. Hashing mengubah fitur kategorik yang memiliki kemungkinan nilai dalam jumlah besar menjadi nilai dalam jumlah yang jauh lebih kecil dengan mengelompokkan nilai secara deterministik.

Lihat Data kategoris: Encoding one-hot dan kosakata di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

heuristik

Solusi sederhana dan cepat diterapkan untuk suatu masalah. Misalnya, "Dengan heuristik, kami mencapai akurasi 86%. Saat kami beralih ke jaringan neural dalam, akurasi meningkat hingga 98%."

lapisan tersembunyi

#fundamentals

Lapisan dalam jaringan neural antara lapisan input (fitur) dan lapisan output (prediksi). Setiap lapisan tersembunyi terdiri dari satu atau beberapa neuron. Misalnya, jaringan neural berikut berisi dua lapisan tersembunyi, yang pertama dengan tiga neuron dan yang kedua dengan dua neuron:

Jaringan neural dalam berisi lebih dari satu lapisan tersembunyi. Misalnya, ilustrasi sebelumnya adalah jaringan neural dalam karena model berisi dua lapisan tersembunyi.

Lihat Jaringan neural: Node dan lapisan tersembunyi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pengelompokan hierarkis

#clustering

Kategori algoritma pengelompokan yang membuat hierarki cluster. Pengelompokan hierarkis sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis algoritma pengelompokan hierarkis:

Pengelompokan aglomeratif pertama-tama menetapkan setiap contoh ke clusternya sendiri, dan secara berulang menggabungkan cluster terdekat untuk membuat hierarki pohon.
Pengelompokan divisif mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, lalu secara berulang membagi kluster ke dalam pohon hierarki.

Berbeda dengan pengelompokan berbasis sentroid.

Lihat Algoritma pengelompokan di kursus Pengelompokan untuk mengetahui informasi selengkapnya.

pendakian bukit

Algoritma untuk meningkatkan kualitas ("naik bukit") model ML secara iteratif hingga model berhenti meningkat ("mencapai puncak bukit"). Bentuk umum algoritma adalah sebagai berikut:

Buat model awal.
Buat model kandidat baru dengan melakukan penyesuaian kecil pada cara Anda melatih atau melakukan fine-tune. Hal ini mungkin memerlukan penggunaan set pelatihan yang sedikit berbeda atau hyperparameter yang berbeda.
Evaluasi model kandidat baru dan lakukan salah satu tindakan berikut:
- Jika model kandidat mengungguli model awal, model kandidat tersebut akan menjadi model awal yang baru. Dalam hal ini, ulangi Langkah 1, 2, dan 3.
- Jika tidak ada model yang mengungguli model awal, berarti Anda telah mencapai puncak dan harus berhenti melakukan iterasi.

Lihat Playbook Penyesuaian Deep Learning untuk mendapatkan panduan tentang penyesuaian hyperparameter. Lihat modul Data di Kursus Singkat Machine Learning untuk mendapatkan panduan tentang rekayasa fitur.

kerugian engsel

#Metric

Serangkaian fungsi loss untuk klasifikasi yang dirancang untuk menemukan batas keputusan sejauh mungkin dari setiap contoh pelatihan, sehingga memaksimalkan margin antara contoh dan batas. KSVM menggunakan kerugian engsel (atau fungsi terkait, seperti kerugian engsel kuadrat). Untuk klasifikasi biner, fungsi hinge loss ditentukan sebagai berikut:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

dengan y adalah label sebenarnya, baik -1 atau +1, dan y' adalah output mentah model klasifikasi:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Akibatnya, plot hinge loss versus (y * y') terlihat seperti berikut:

Plot Kartesius yang terdiri dari dua segmen garis yang terhubung. Segmen garis pertama dimulai pada (-3, 4) dan berakhir pada (1, 0). Segmen garis kedua
dimulai dari (1, 0) dan berlanjut tanpa batas dengan kemiringan
0.

bias historis

#fairness

Jenis bias yang sudah ada di dunia dan telah masuk ke set data. Bias ini cenderung mencerminkan stereotip budaya, ketimpangan demografi, dan prasangka terhadap kelompok sosial tertentu yang ada.

Misalnya, pertimbangkan model klasifikasi yang memprediksi apakah pemohon pinjaman akan gagal bayar pinjamannya atau tidak, yang dilatih dengan data historis default pinjaman dari tahun 1980-an dari bank lokal di dua komunitas yang berbeda. Jika pelamar sebelumnya dari Komunitas A enam kali lebih mungkin gagal membayar pinjaman mereka daripada pelamar dari Komunitas B, model mungkin mempelajari bias historis yang menyebabkan model tersebut kurang mungkin menyetujui pinjaman di Komunitas A, meskipun kondisi historis yang mengakibatkan tingkat default yang lebih tinggi di komunitas tersebut tidak lagi relevan.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

data holdout

Contoh sengaja tidak digunakan ("dipisah") selama pelatihan. Set data validasi dan set data pengujian adalah contoh data holdout. Data holdout membantu mengevaluasi kemampuan model Anda dalam menggeneralisasi data selain data tempat model dilatih. Kerugian pada set holdout memberikan perkiraan kerugian yang lebih baik pada set data yang tidak terlihat daripada kerugian pada set pelatihan.

host

#TensorFlow

#GoogleCloud

Saat melatih model ML di chip akselerator (GPU atau TPU), bagian sistem yang mengontrol kedua hal berikut:

Alur keseluruhan kode.
Ekstraksi dan transformasi pipeline input.

Host biasanya berjalan di CPU, bukan di chip akselerator; perangkat memanipulasi tensor di chip akselerator.

evaluasi manual

#language

#generativeAI

Proses saat orang menilai kualitas output model ML; misalnya, meminta orang bilingual menilai kualitas model terjemahan ML. Evaluasi manusia sangat berguna untuk menilai model yang tidak memiliki satu jawaban yang benar.

Berbeda dengan evaluasi otomatis dan evaluasi penilai otomatis.

memerlukan interaksi manusia (HITL)

#generativeAI

Idiom yang ditentukan secara longgar yang dapat berarti salah satu dari hal berikut:

Kebijakan untuk melihat output AI Generatif secara kritis atau skeptis. Misalnya, manusia yang menulis Glosarium ML ini kagum dengan apa yang dapat dilakukan model bahasa besar, tetapi memperhitungkan kesalahan yang dibuat model bahasa besar.
Strategi atau sistem untuk memastikan bahwa orang membantu membentuk, mengevaluasi, dan meningkatkan kualitas perilaku model. Mempertahankan interaksi manusia memungkinkan AI mendapatkan manfaat dari kecerdasan mesin dan kecerdasan manusia. Misalnya, sistem yang menggunakan AI untuk membuat kode yang kemudian ditinjau oleh engineer software adalah sistem human-in-the-loop.

hyperparameter

#fundamentals

Variabel yang Anda atau layanan penyesuaian hyperparameter sesuaikan selama menjalankan pelatihan model berturut-turut. Misalnya, kecepatan pembelajaran adalah hyperparameter. Anda dapat menetapkan kecepatan belajar ke 0,01 sebelum satu sesi pelatihan. Jika menentukan bahwa 0,01 terlalu tinggi, Anda mungkin dapat menetapkan kecepatan pembelajaran ke 0,003 untuk sesi pelatihan berikutnya.

Sebaliknya, parameter adalah berbagai bobot dan bias yang dipelajari model selama pelatihan.

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

bidang-hiper

Batas yang memisahkan ruang menjadi dua subruang. Misalnya, garis adalah hiperbidang dalam dua dimensi dan bidang adalah hiperbidang dalam tiga dimensi. Lebih umum dalam machine learning, bidang hiper adalah batas yang memisahkan ruang berdimensi tinggi. Kernel Support Vector Machines menggunakan bidang-hiper untuk memisahkan kelas positif dari kelas negatif, biasanya dalam ruang yang berdimensi sangat tinggi.

I

terdistribusi secara independen dan identik

Singkatan dari terdistribusi secara independen dan identik.

pengenalan gambar

#image

Suatu proses yang mengklasifikasikan objek, pola, atau konsep dalam suatu gambar. Pengenalan gambar juga dikenal sebagai klasifikasi gambar.

Untuk informasi selengkapnya, lihat Praktikum ML: Klasifikasi Gambar.

Lihat kursus Praktikum ML: Klasifikasi Gambar untuk mengetahui informasi selengkapnya.

set data tak seimbang

Sinonim dari set data kelas tidak seimbang.

bias implisit

#fairness

Membuat asosiasi atau asumsi secara otomatis berdasarkan model dan kenangan pikiran seseorang. Bias implisit dapat memengaruhi hal berikut:

Cara data dikumpulkan dan diklasifikasikan.
Cara sistem machine learning dirancang dan dikembangkan.

Misalnya, saat membuat model klasifikasi untuk mengidentifikasi foto pernikahan, seorang engineer dapat menggunakan keberadaan gaun putih dalam foto sebagai fitur. Namun, gaun putih hanya menjadi kebiasaan selama zaman tertentu dan dalam budaya tertentu.

Lihat juga bias konfirmasi.

imputasi

Bentuk singkat dari imputasi nilai.

ketidakcocokan metrik keadilan

#fairness

#Metric

Gagasan bahwa beberapa gagasan keadilan saling tidak kompatibel dan tidak dapat dipenuhi secara bersamaan. Akibatnya, tidak ada satu metrik universal untuk mengukur keadilan yang dapat diterapkan ke semua masalah ML.

Meskipun hal ini mungkin tampak mengecewakan, ketidakcocokan metrik keadilan tidak berarti bahwa upaya keadilan tidak membuahkan hasil. Sebaliknya, hal ini menunjukkan bahwa keadilan harus ditentukan secara kontekstual untuk masalah ML tertentu, dengan tujuan mencegah bahaya yang spesifik untuk kasus penggunaannya.

Lihat "Tentang (ketidak)mungkinan keadilan" untuk mengetahui pembahasan yang lebih mendetail tentang ketidakcocokan metrik keadilan.

pembelajaran dalam konteks

#language

#generativeAI

Sinonim dari perintah few-shot.

terdistribusi secara independen dan identik (i.i.d)

#fundamentals

Data yang diambil dari distribusi yang tidak berubah, dan setiap nilai yang diambil tidak bergantung pada nilai yang telah diambil sebelumnya. I.i.d. adalah gas ideal machine learning—konstruksi matematis yang berguna, tetapi hampir tidak pernah benar-benar ditemukan di dunia nyata. Misalnya, distribusi pengunjung halaman dapat terdistribusi secara independen dan identik selama jendela waktu yang singkat; artinya, distribusi tidak berubah selama jendela waktu tersebut dan kunjungan satu orang umumnya tidak bergantung pada kunjungan orang lain. Namun, jika Anda memperluas jangka waktu tersebut, perbedaan musiman pada pengunjung halaman web mungkin muncul.

Lihat juga nonstabilitas.

keadilan individu

#fairness

#Metric

Metrik keadilan yang memeriksa apakah individu yang serupa diklasifikasikan secara serupa. Misalnya, Brobdingnagian Academy mungkin ingin memenuhi keadilan individu dengan memastikan bahwa dua siswa dengan nilai yang sama dan skor ujian standar memiliki peluang yang sama untuk diterima.

Perhatikan bahwa keadilan individu sepenuhnya bergantung pada cara Anda menentukan "kemiripan" (dalam hal ini, nilai dan skor ujian), dan Anda dapat berisiko memperkenalkan masalah keadilan baru jika metrik kemiripan Anda melewatkan informasi penting (seperti ketelitian kurikulum siswa).

Lihat "Keadilan Melalui Kesadaran" untuk pembahasan yang lebih mendetail tentang keadilan individu.

inferensi

#fundamentals

Dalam machine learning, proses pembuatan prediksi dengan menerapkan model yang terlatih ke contoh tak berlabel.

Inferensi memiliki arti yang agak berbeda dalam statistik. Lihat artikel Wikipedia tentang inferensi statistik untuk mengetahui detailnya.

Lihat Pembelajaran Berbantuan dalam kursus Pengantar ML untuk melihat peran inferensi dalam sistem pembelajaran berbantuan.

jalur inferensi

#df

Dalam pohon keputusan, selama inferensi, rute yang diambil contoh tertentu dari akar ke kondisi lainnya, yang diakhiri dengan daun. Misalnya, dalam hierarki keputusan berikut, panah yang lebih tebal menunjukkan jalur inferensi untuk contoh dengan nilai fitur berikut:

x = 7
y = 12
z = -3

Jalur inferensi dalam ilustrasi berikut melewati tiga kondisi sebelum mencapai node daun (Zeta).

Pohon keputusan yang terdiri dari empat kondisi dan lima daun.
Kondisi root adalah (x > 0). Karena jawabannya adalah Ya, jalur inferensi akan berjalan dari root ke kondisi berikutnya (y > 0).
Karena jawabannya adalah Ya, jalur inferensi kemudian akan berpindah ke
kondisi berikutnya (z > 0). Karena jawabannya adalah Tidak, jalur inferensi
akan menuju node terminalnya, yaitu node daun (Zeta).

Tiga panah tebal menunjukkan jalur inferensi.

Lihat Hierarki keputusan dalam kursus Hutan Keputusan untuk mengetahui informasi selengkapnya.

perolehan informasi

#df

#Metric

Di hutan keputusan, perbedaan antara entropi node dan jumlah berbobot (menurut jumlah contoh) entropi node turunannya. Entropi node adalah entropi contoh dalam node tersebut.

Misalnya, pertimbangkan nilai entropi berikut:

entropi node induk = 0,6
entropi satu node turunan dengan 16 contoh yang relevan = 0,2
entropi node turunan lain dengan 24 contoh yang relevan = 0,1

Jadi, 40% contoh berada di satu node turunan dan 60% berada di node turunan lainnya. Jadi:

jumlah entropi berbobot node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Jadi, perolehan informasinya adalah:

perolehan informasi = entropi node induk - jumlah entropi berbobot dari node turunan
information gain = 0,6 - 0,14 = 0,46

Sebagian besar pemisah berupaya membuat kondisi yang memaksimalkan perolehan informasi.

bias dalam grup

#fairness

Menunjukkan keberpihakan pada golongan atau karakteristik milik seseorang. Jika penguji atau pelabel terdiri dari teman, keluarga, atau rekan developer machine learning, bias dalam golongan dapat membatalkan validasi pengujian produk atau set data.

Bias dalam grup adalah bentuk bias atribusi grup. Lihat juga bias kehomogenan luar golongan.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

generator input

Mekanisme yang digunakan untuk memuat data ke dalam jaringan saraf.

Generator input dapat dianggap sebagai komponen yang bertanggung jawab untuk memproses data mentah menjadi tensor yang di-iterasi untuk menghasilkan batch untuk pelatihan, evaluasi, dan inferensi.

lapisan input

#fundamentals

Lapisan jaringan neural yang menyimpan vektor fitur. Artinya, lapisan input menyediakan contoh untuk pelatihan atau inferensi. Misalnya, lapisan input dalam jaringan saraf berikut terdiri dari dua fitur:

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan lapisan output.

kondisi dalam set

#df

Dalam pohon keputusan, kondisi yang menguji keberadaan satu item dalam kumpulan item. Misalnya, berikut adalah kondisi dalam set:

  house-style in [tudor, colonial, cape]

Selama inferensi, jika nilai fitur gaya rumah adalah tudor atau colonial atau cape, kondisi ini akan bernilai Ya. Jika nilai fitur gaya rumah adalah sesuatu yang lain (misalnya, ranch), kondisi ini akan bernilai Tidak.

Kondisi dalam set biasanya menghasilkan pohon keputusan yang lebih efisien daripada kondisi yang menguji fitur enkode one-hot.

instance

Sinonim dari contoh.

penyesuaian instruksi

#generativeAI

Bentuk penyesuaian yang meningkatkan kemampuan model AI generatif untuk mengikuti petunjuk. Penyesuaian petunjuk melibatkan pelatihan model pada serangkaian perintah petunjuk, biasanya mencakup berbagai tugas. Model yang disesuaikan dengan petunjuk yang dihasilkan kemudian cenderung menghasilkan respons yang berguna untuk perintah zero-shot di berbagai tugas.

Bandingkan dan bedakan dengan:

parameter-efficient tuning
penyesuaian perintah

interpretabilitas

#fundamentals

Kemampuan untuk menjelaskan atau menyajikan penalaran model ML dalam istilah yang dapat dipahami manusia.

Misalnya, sebagian besar model regresi linear sangat interpretabel. (Anda hanya perlu melihat bobot terlatih untuk setiap fitur.) Hutan keputusan juga sangat mudah ditafsirkan. Namun, beberapa model memerlukan visualisasi yang rumit agar dapat ditafsirkan.

Anda dapat menggunakan Learning Interpretability Tool (LIT) untuk menafsirkan model ML.

kecocokan antar-pelabel

#Metric

Pengukuran seberapa sering penilai manusia setuju saat melakukan tugas. Jika penilai tidak setuju, petunjuk tugas mungkin perlu ditingkatkan. Terkadang disebut juga kecocokan antar-anotator atau reliabilitas antar-pelabel. Lihat juga kappa Cohen, yang merupakan salah satu pengukuran kecocokan antar-pelabel yang paling populer.

Lihat Data kategoris: Masalah umum di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

intersection over union (IoU)

#image

Persimpangan dua set yang dibagi dengan gabungannya. Dalam tugas deteksi gambar machine learning, IoU digunakan untuk mengukur akurasi kotak pembatas yang diprediksi model sehubungan dengan kotak pembatas kebenaran dasar. Dalam hal ini, IoU untuk dua kotak adalah rasio antara area tumpang-tindih dan area total, dan nilainya berkisar dari 0 (tidak ada tumpang-tindih antara kotak pembatas yang diprediksi dan kotak pembatas kebenaran dasar) hingga 1 (kotak pembatas yang diprediksi dan kotak pembatas kebenaran dasar memiliki koordinat yang sama persis).

Misalnya, pada gambar di bawah:

Kotak pembatas yang diprediksi (koordinat yang membatasi tempat model memprediksi lokasi meja malam dalam lukisan) digarisbawahi dengan warna ungu.
Kotak pembatas ground truth (koordinat yang membatasi lokasi meja samping dalam lukisan yang sebenarnya) digarisbawahi dengan warna hijau.

Di sini, perpotongan kotak pembatas untuk prediksi dan kebenaran dasar (kiri bawah) adalah 1, dan gabungan kotak pembatas untuk prediksi dan kebenaran dasar (kanan bawah) adalah 7, sehingga IoU-nya adalah $\frac{1}{7}$.

Gambar yang sama seperti di atas, tetapi dengan setiap kotak pembatas dibagi menjadi empat
kuadran. Ada total tujuh kuadran, karena kuadran kanan bawah
dari kotak pembatas ground truth dan kuadran kiri atas
dari kotak pembatas yang diprediksi saling tumpang-tindih. Bagian
tumpang-tindih ini (ditandai dengan warna hijau) mewakili
persimpangan, dan memiliki area 1.

IoU

Singkatan dari intersection over union.

matriks item

#recsystems

Dalam sistem rekomendasi, matriks vektor penyematan yang dihasilkan oleh faktorisasi matriks yang menyimpan sinyal laten tentang setiap item. Setiap baris matriks item memiliki nilai fitur laten tunggal untuk semua item. Misalnya, pertimbangkan sistem rekomendasi film. Setiap kolom dalam matriks item mewakili satu film. Sinyal laten mungkin mewakili genre, atau mungkin sinyal yang lebih sulit ditafsirkan yang melibatkan interaksi kompleks di antara genre, bintang, usia film, atau faktor lainnya.

Matriks item memiliki jumlah kolom yang sama dengan matriks target yang sedang difaktorkan. Misalnya, dengan sistem rekomendasi film yang mengevaluasi 10.000 judul film, matriks item akan memiliki 10.000 kolom.

item

#recsystems

Dalam sistem rekomendasi, entitas yang direkomendasikan oleh sistem. Misalnya, video adalah item yang direkomendasikan toko video, sedangkan buku adalah item yang direkomendasikan toko buku.

iterasi

#fundamentals

Satu pembaruan parameter model—bobot dan bias model—selama pelatihan. Ukuran batch menentukan jumlah contoh yang diproses model dalam satu iterasi. Misalnya, jika ukuran batch adalah 20, model akan memproses 20 contoh sebelum menyesuaikan parameter.

Saat melatih jaringan neural, satu iterasi melibatkan dua penerusan berikut:

Penerusan maju untuk mengevaluasi kerugian pada satu batch.
Penerusan mundur (backpropagation) untuk menyesuaikan parameter model berdasarkan kerugian dan kecepatan pemelajaran.

Lihat Penurunan gradien di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

J

JAX

Library komputasi array, yang menggabungkan XLA (Accelerated Linear Algebra) dan diferensiasi otomatis untuk komputasi numerik berperforma tinggi. JAX menyediakan API sederhana dan canggih untuk menulis kode numerik yang dipercepat dengan transformasi composable. JAX menyediakan fitur seperti:

grad (diferensiasi otomatis)
jit (kompilasi tepat waktu)
vmap (vektorisasi atau pengelompokan otomatis)
pmap (paralelisasi)

JAX adalah bahasa untuk mengekspresikan dan menyusun transformasi kode numerik, yang analog—tetapi cakupannya jauh lebih besar—dengan library NumPy Python. (Faktanya, library .numpy di JAX adalah versi library NumPy Python yang setara secara fungsional, tetapi sepenuhnya ditulis ulang.)

JAX sangat cocok untuk mempercepat banyak tugas machine learning dengan mengubah model dan data menjadi bentuk yang sesuai untuk paralelisme di seluruh GPU dan chip akselerator TPU.

Flax, Optax, Pax, dan banyak library lainnya dibuat di infrastruktur JAX.

K

Keras

API machine learning Python yang populer. Keras berjalan di beberapa framework deep learning, termasuk TensorFlow, yang mana tersedia sebagai tf.keras.

Kernel Support Vector Machines (KSVMs)

Algoritma klasifikasi yang berupaya memaksimalkan margin antara kelas positif dan kelas negatif dengan memetakan vektor data input ke ruang berdimensi yang lebih tinggi. Misalnya, pertimbangkan masalah klasifikasi yang mana set data masukan memiliki seratus fitur. Untuk memaksimalkan margin antara kelas positif dan negatif, KSVM dapat secara internal memetakan fitur tersebut dalam ruang satu juta dimensi. KSVM menggunakan fungsi kerugian yang disebut kerugian engsel.

keypoint

#image

Koordinat fitur tertentu dalam gambar. Misalnya, untuk model pengenalan gambar yang membedakan spesies bunga, titik kunci mungkin adalah pusat setiap kelopak, batang, stamen, dan sebagainya.

validasi silang k-fold

Algoritma untuk memprediksi kemampuan model dalam melakukan generalisasi ke data baru. k dalam k-fold mengacu pada jumlah grup yang sama yang Anda bagi menjadi contoh set data; yaitu, Anda melatih dan menguji model k kali. Untuk setiap putaran pelatihan dan pengujian, grup yang berbeda adalah set pengujian, dan semua grup yang tersisa menjadi set pelatihan. Setelah k putaran pelatihan dan pengujian, Anda menghitung rata-rata dan standar deviasi metrik pengujian yang dipilih.

Misalnya, set data Anda terdiri dari 120 contoh. Selanjutnya, Anda memutuskan untuk menetapkan k ke 4. Oleh karena itu, setelah mengacak contoh, Anda membagi set data menjadi empat grup yang sama dengan 30 contoh dan melakukan empat putaran pelatihan dan pengujian:

Misalnya, Mean Squared Error (MSE) mungkin merupakan metrik yang paling bermakna untuk model regresi linear. Oleh karena itu, Anda akan menemukan rata-rata dan deviasi standar MSE di keempat putaran.

k-means

#clustering

Algoritme pengelompokan populer yang mengelompokkan contoh dalam unsupervised learning. Algoritma k-means pada dasarnya melakukan hal berikut:

Secara berulang menentukan titik tengah k terbaik (dikenal sebagai sentroid).
Menetapkan setiap contoh ke centroid terdekat. Contoh yang terdekat dengan centroid yang sama berada dalam grup yang sama.

Algoritma k-means memilih lokasi sentroid untuk meminimalkan kuadrat kumulatif jarak dari setiap contoh ke sentroid terdekatnya.

Misalnya, perhatikan plot tinggi terhadap lebar berikut:

Plot Kartesius dengan beberapa lusin titik data.

Jika k=3, algoritma k-means akan menentukan tiga sentroid. Setiap contoh ditetapkan ke centroid terdekatnya, sehingga menghasilkan tiga grup:

Plot Kartesius yang sama seperti pada ilustrasi sebelumnya, kecuali
dengan tiga centroid yang ditambahkan.
Titik data sebelumnya dikelompokkan ke dalam tiga grup yang berbeda,
dengan setiap grup mewakili titik data yang paling dekat dengan centroid
tertentu.

Bayangkan produsen ingin menentukan ukuran ideal untuk sweter berukuran kecil, sedang, dan besar. Tiga centroid mengidentifikasi tinggi rata-rata dan lebar rata-rata setiap dalam cluster tersebut. Jadi, produsen mungkin harus mendasarkan ukuran sweter pada tiga centroid tersebut. Perhatikan bahwa centroid cluster biasanya bukan contoh dalam cluster.

Ilustrasi sebelumnya menunjukkan k-means untuk contoh dengan hanya dua fitur (tinggi dan lebar). Perhatikan bahwa k-means dapat mengelompokkan contoh di banyak fitur.

Lihat Apa yang dimaksud dengan pengelompokan k-means? di kursus Pengelompokan untuk mengetahui informasi selengkapnya.

k-median

#clustering

Algoritme pengelompokan yang sangat terkait dengan k-means. Perbedaan praktis antara keduanya adalah sebagai berikut:

Dalam k-means, centroid ditentukan dengan meminimalkan jumlah kuadrat jarak antara kandidat centroid dan setiap contohnya.
Dalam k-median, centroid ditentukan dengan meminimalkan jumlah jarak antara kandidat centroid dan setiap contohnya.

Perhatikan bahwa definisi jarak juga berbeda:

k-means bergantung pada jarak Euclidean dari sentroid ke contoh. (Dalam dua dimensi, jarak Euclid berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-means antara (2,2) dan (5,-2) adalah:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah delta absolut di setiap dimensi. Misalnya, jarak k-median antara (2,2) dan (5,-2) adalah:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularisasi L₀

#fundamentals

Jenis regularisasi yang mengharuskan jumlah total bobot yang bukan nol dalam model. Misalnya, model yang memiliki 11 bobot non-nol akan dikenai penalti lebih besar daripada model serupa yang memiliki 10 bobot non-nol.

Regularisasi L₀ terkadang disebut regularisasi norma L0.

Klik ikon untuk melihat catatan tambahan.

Regularisasi L₀ umumnya tidak praktis dalam model besar karena regularisasi L₀ mengubah pelatihan menjadi masalah pengoptimalan konveks.

Kerugian L₁

#fundamentals

#Metric

Fungsi kerugian yang menghitung nilai absolut perbedaan antara nilai label yang sebenarnya dan nilai yang diprediksi model. Misalnya, berikut adalah penghitungan kerugian L₁ untuk batch yang terdiri dari lima contoh:

Nilai sebenarnya dari contoh	Nilai prediksi model	Nilai absolut delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = kerugian L₁

Kerugian L₁ kurang sensitif terhadap pencilan daripada kerugian L₂.

Mean Absolute Error adalah rata-rata kerugian L₁ per contoh.

Klik ikon untuk melihat matematika formal.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

dengan:

$n$ adalah jumlah contoh.
$y$ adalah nilai sebenarnya dari label.
$\hat{y}$ adalah nilai yang diprediksi model untuk $y$.

Lihat Regresi linear: Kerugian di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Regularisasi L₁

#fundamentals

Jenis regularisasi yang menghukum bobot sebanding dengan jumlah nilai absolut bobot. Regularisasi L₁ membantu mendorong bobot fitur yang tidak relevan atau hampir tidak relevan menjadi persis 0. Fitur dengan bobot 0 akan dihapus secara efektif dari model.

Berbeda dengan regularisasi ₂.

Kerugian L₂

#fundamentals

#Metric

Fungsi kerugian yang menghitung kuadrat perbedaan antara nilai label sebenarnya dan nilai yang diprediksi model. Misalnya, berikut adalah penghitungan kerugian L₂ untuk batch yang terdiri dari lima contoh:

Nilai sebenarnya dari contoh	Nilai prediksi model	Kuadrat delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = kerugian L₂

Karena adanya kuadrat, kerugian L₂ memperkuat pengaruh pencilan. Artinya, kerugian L₂ bereaksi lebih kuat terhadap prediksi yang buruk daripada kerugian L₁. Misalnya, kerugian L₁ untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu outlier mencakup 9 dari 16.

Model regresi biasanya menggunakan kerugian L₂ sebagai fungsi kerugian.

Rataan Kuadrat Galat adalah rata-rata kerugian L₂ per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L₂.

Klik ikon untuk melihat matematika formal.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

dengan:

$n$ adalah jumlah contoh.
$y$ adalah nilai sebenarnya dari label.
$\hat{y}$ adalah nilai yang diprediksi model untuk $y$.

Lihat Regresi logistik: Loss dan regulasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Regularisasi L₂

#fundamentals

Jenis regularisasi yang menghukum bobot sebanding dengan jumlah kuadrat bobot. Regularisasi L₂ membantu mendorong bobot pencilan (bobot dengan nilai positif tinggi atau negatif rendah) lebih dekat ke 0, tetapi tidak benar-benar 0. Fitur dengan nilai yang sangat mendekati 0 tetap ada dalam model, tetapi tidak terlalu memengaruhi prediksi model.

Regularisasi L₂ selalu meningkatkan generalisasi dalam model linear.

Berbeda dengan regularisasi _L1.

Lihat Overfitting: Regularisasi L2 di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

label

#fundamentals

Dalam machine learning dengan pengawasan, bagian "jawaban" atau "hasil" dari contoh.

Setiap contoh berlabel terdiri dari satu atau beberapa fitur dan label. Misalnya, dalam set data deteksi spam, label mungkin berupa "spam" atau "bukan spam". Dalam set data curah hujan, labelnya mungkin berupa jumlah hujan yang turun selama periode tertentu.

Lihat Pembelajaran dengan Pengawasan di Pengantar Machine Learning untuk mengetahui informasi selengkapnya.

contoh berlabel

#fundamentals

Contoh yang berisi satu atau beberapa fitur dan label. Misalnya, tabel berikut menunjukkan tiga contoh berlabel dari model penilaian rumah, masing-masing dengan tiga fitur dan satu label:

Jumlah kamar	Jumlah kamar mandi	Usia rumah	Harga rumah (label)
3	2	15	$345.000
2	1	72	$179.000
4	2	34	$392.000

Dalam machine learning dengan pengawasan, model dilatih pada contoh berlabel dan membuat prediksi pada contoh tanpa label.

Bandingkan contoh berlabel dengan contoh yang tidak berlabel.

Lihat Pembelajaran dengan Pengawasan di Pengantar Machine Learning untuk mengetahui informasi selengkapnya.

kebocoran label

Cacat desain model saat fitur adalah proxy untuk label. Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah calon pelanggan akan membeli produk tertentu atau tidak. Misalkan salah satu fitur untuk model adalah Boolean bernama SpokeToCustomerAgent. Selanjutnya, anggaplah bahwa agen pelanggan hanya ditetapkan setelah calon pelanggan benar-benar membeli produk. Selama pelatihan, model akan dengan cepat mempelajari hubungan antara SpokeToCustomerAgent dan label.

Lihat Memantau pipeline di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

lambda

#fundamentals

Sinonim dari derajat regularisasi.

Lambda adalah istilah yang memiliki lebih dari satu makna. Di sini kita berfokus pada definisi istilah dalam regularisasi.

LaMDA (Language Model for Dialogue Applications/Model Bahasa untuk Aplikasi Dialog)

#language

Model bahasa besar berbasis Transformer yang dikembangkan oleh Google dan dilatih pada set data dialog besar yang dapat menghasilkan respons percakapan yang realistis.

LaMDA: our breakthrough conversation technology memberikan ringkasan.

tempat terkenal

#image

Sinonim dari titik kunci.

model bahasa

#language

Model yang memperkirakan probabilitas token atau urutan token yang terjadi dalam urutan token yang lebih panjang.

Klik ikon untuk melihat catatan tambahan.

Meskipun berlawanan dengan intuisi, banyak model yang mengevaluasi teks bukanlah model bahasa. Misalnya, model klasifikasi teks dan model analisis sentimen bukan model bahasa.

Lihat Apa yang dimaksud dengan model bahasa? di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model bahasa besar

#language

Setidaknya, model bahasa memiliki jumlah parameter yang sangat tinggi. Secara tidak resmi, semua model bahasa berbasis Transformer, seperti Gemini atau GPT.

Lihat Model bahasa besar (LLM) di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

ruang laten

#language

Sinonim dari ruang penyematan.

lapisan

#fundamentals

Kumpulan neuron dalam jaringan neural. Tiga jenis lapisan yang umum adalah sebagai berikut:

Lapisan input, yang memberikan nilai untuk semua fitur.
Satu atau beberapa lapisan tersembunyi, yang menemukan hubungan non-linear antara fitur dan label.
Lapisan output, yang memberikan prediksi.

Misalnya, ilustrasi berikut menunjukkan jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi
pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua
terdiri dari dua neuron. Lapisan output terdiri dari satu node.

Di TensorFlow, lapisan juga merupakan fungsi Python yang menggunakan Tensor dan opsi konfigurasi sebagai input dan menghasilkan tensor lain sebagai output.

Layers API (tf.layers)

#TensorFlow

TensorFlow API untuk membuat jaringan neural dalam sebagai komposisi lapisan. Layers API memungkinkan Anda membuat berbagai jenis lapisan, seperti:

tf.layers.Dense untuk lapisan terhubung seluruhnya.
tf.layers.Conv2D untuk lapisan konvolusi.

Layers API mengikuti konvensi API lapisan Keras. Artinya, selain awalan yang berbeda, semua fungsi di Layers API memiliki nama dan tanda tangan yang sama dengan fungsi yang setara di API lapisan Keras.

daun

#df

Endpoint apa pun dalam pohon keputusan. Tidak seperti kondisi, node daun tidak melakukan pengujian. Sebaliknya, node adalah kemungkinan prediksi. Daun juga merupakan node terminal dari jalur inferensi.

Misalnya, pohon keputusan berikut berisi tiga node daun:

Pohon keputusan dengan dua kondisi yang mengarah ke tiga daun.

Lihat Hierarki keputusan dalam kursus Hutan Keputusan untuk mengetahui informasi selengkapnya.

Learning Interpretability Tool (LIT)

Alat visualisasi data dan pemahaman model yang interaktif.

Anda dapat menggunakan LIT open source untuk menafsirkan model atau memvisualisasikan teks, gambar, dan data tabel.

kecepatan pembelajaran

#fundamentals

Bilangan floating point yang memberi tahu algoritma penurunan gradien seberapa kuat bobot dan bias harus disesuaikan pada setiap iterasi. Misalnya, kecepatan pembelajaran sebesar 0,3 akan menyesuaikan bobot dan bias tiga kali lebih kuat daripada kecepatan pembelajaran 0,1.

Kecepatan pembelajaran adalah hyperparameter utama. Jika Anda menetapkan kecepatan pembelajaran terlalu rendah, pelatihan akan memakan waktu terlalu lama. Jika Anda menetapkan kecepatan belajar terlalu tinggi, gradien menurun sering kali mengalami masalah dalam mencapai konvergensi.

Klik ikon untuk mengetahui penjelasan yang lebih matematis.

Selama setiap iterasi, algoritma penurunan gradien akan mengalikan kecepatan pembelajaran dengan gradien. Produk yang dihasilkan disebut langkah gradien.

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

regresi kuadrat terkecil

Model regresi linear yang dilatih dengan meminimalkan L₂ Loss.

Jarak Levenshtein

#language

#metric

Metrik jarak edit yang menghitung operasi penghapusan, penyisipan, dan penggantian paling sedikit yang diperlukan untuk mengubah satu kata menjadi kata lain. Misalnya, jarak Levenshtein antara kata "heart" dan "darts" adalah tiga karena tiga pengeditan berikut adalah perubahan paling sedikit untuk mengubah satu kata menjadi kata lain:

heart → deart (ganti "h" dengan "d")
deart → dart (hapus "e")
dart → darts (masukkan "s")

Perhatikan bahwa urutan sebelumnya bukan satu-satunya jalur dari tiga pengeditan.

linier

#fundamentals

Hubungan antara dua atau beberapa variabel yang dapat direpresentasikan hanya melalui penambahan dan perkalian.

Plot hubungan linear adalah garis.

Berbeda dengan nonlinear.

model linear

#fundamentals

Model yang menetapkan satu bobot per fitur untuk membuat prediksi. (Model linear juga menyertakan bias.) Sebaliknya, hubungan fitur dengan prediksi dalam model dalam umumnya nonlinear.

Model linear biasanya lebih mudah dilatih dan lebih dapat ditafsirkan daripada model deep. Namun, model deep dapat mempelajari hubungan kompleks antara fitur.

Regresi linear dan regresi logistik adalah dua jenis model linear.

Klik ikon untuk melihat matematika.

Model linear mengikuti formula ini:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

dengan:

y' adalah prediksi mentah. (Dalam jenis model linear tertentu, prediksi mentah ini akan dimodifikasi lebih lanjut. Misalnya, lihat regresi logistik.)
b adalah bias.
w adalah bobot, sehingga w₁ adalah bobot fitur pertama, w₂ adalah bobot fitur kedua, dan seterusnya.
x adalah fitur, sehingga x₁ adalah nilai fitur pertama, x₂ adalah nilai fitur kedua, dan seterusnya.

Misalnya, model linear untuk tiga fitur mempelajari bias dan bobot berikut:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Oleh karena itu, dengan tiga fitur (x₁, x₂, dan x₃), model linear menggunakan persamaan berikut untuk menghasilkan setiap prediksi:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Misalkan contoh tertentu berisi nilai berikut:

x₁ = 4
x₂ = -10
x₃ = 5

Memasukkan nilai tersebut ke dalam formula akan menghasilkan prediksi untuk contoh ini:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Model linear tidak hanya mencakup model yang hanya menggunakan persamaan linear untuk membuat prediksi, tetapi juga kumpulan model yang lebih luas yang menggunakan persamaan linear sebagai salah satu komponen formula yang membuat prediksi. Misalnya, regresi logistik memproses ulang prediksi mentah (y') untuk menghasilkan nilai prediksi akhir antara 0 dan 1, secara eksklusif.

regresi linear

#fundamentals

Jenis model machine learning yang memenuhi kedua hal berikut:

Model ini adalah model linear.
Prediksi adalah nilai floating point. (Ini adalah bagian regresi dari regresi linear.)

Bandingkan regresi linear dengan regresi logistik. Selain itu, bandingkan regresi dengan klasifikasi.

Lihat Regresi linear di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

LIT

Singkatan untuk Learning Interpretability Tool (LIT), yang sebelumnya dikenal sebagai Language Interpretability Tool.

LLM

#language

#generativeAI

Singkatan dari large language model.

Evaluasi LLM (eval)

#language

#generativeAI

#Metric

Serangkaian metrik dan tolok ukur untuk menilai performa model bahasa besar (LLM). Pada tingkat yang tinggi, evaluasi LLM:

Membantu peneliti mengidentifikasi area yang perlu ditingkatkan pada LLM.
Berguna dalam membandingkan berbagai LLM dan mengidentifikasi LLM terbaik untuk tugas tertentu.
Membantu memastikan bahwa LLM aman dan etis untuk digunakan.

Lihat Model bahasa besar (LLM) di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

regresi logistik

#fundamentals

Jenis model regresi yang memprediksi probabilitas. Model regresi logistik memiliki karakteristik berikut:

Labelnya kategoris. Istilah regresi logistik biasanya mengacu pada regresi logistik biner, yaitu model yang menghitung probabilitas untuk label dengan dua kemungkinan nilai. Varian yang kurang umum, regresi logistik multinomial, menghitung probabilitas untuk label dengan lebih dari dua kemungkinan nilai.
Fungsi kerugian selama pelatihan adalah Log Loss. (Beberapa unit Log Loss dapat ditempatkan secara paralel untuk label dengan lebih dari dua kemungkinan nilai.)
Model ini memiliki arsitektur linear, bukan deep neural network. Namun, bagian lain dari definisi ini juga berlaku untuk model mendalam yang memprediksi probabilitas untuk label kategoris.

Misalnya, pertimbangkan model regresi logistik yang menghitung probabilitas email input adalah spam atau bukan spam. Selama inferensi, misalkan model memprediksi 0,72. Oleh karena itu, model memperkirakan:

Kemungkinan email tersebut adalah spam sebesar 72%.
Kemungkinan 28% bahwa email tersebut bukan spam.

Model regresi logistik menggunakan arsitektur dua langkah berikut:

Model menghasilkan prediksi mentah (y') dengan menerapkan fungsi linear fitur input.
Model menggunakan prediksi mentah tersebut sebagai input ke fungsi sigmoid, yang mengonversi prediksi mentah menjadi nilai antara 0 dan 1, secara eksklusif.

Seperti model regresi lainnya, model regresi logistik memprediksi angka. Namun, angka ini biasanya menjadi bagian dari model klasifikasi biner sebagai berikut:

Jika jumlah yang diprediksi lebih besar dari nilai minimum klasifikasi, model klasifikasi biner akan memprediksi kelas positif.
Jika jumlah yang diprediksi lebih kecil dari nilai minimum klasifikasi, model klasifikasi biner akan memprediksi class negatif.

Lihat Regresi logistik di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

logit

Vektor prediksi mentah (tidak dinormalisasi) yang dihasilkan model klasifikasi, yang biasanya diteruskan ke fungsi normalisasi. Jika model memecahkan masalah klasifikasi multi-class, logit biasanya menjadi input untuk fungsi softmax. Fungsi softmax kemudian menghasilkan vektor probabilitas (ternormalisasi) dengan satu nilai untuk setiap kemungkinan class.

Kerugian Log

#fundamentals

Fungsi kerugian yang digunakan dalam regresi logistik biner.

Klik ikon untuk melihat matematika.

Rumus berikut menghitung Kerugian Log:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

dengan:

$(x,y)\in D$ adalah set data yang berisi banyak contoh berlabel, yang merupakan pasangan $(x,y)$ .
$y$ adalah label dalam contoh berlabel. Karena ini adalah regresi logistik, setiap nilai $y$ harus berupa 0 atau 1.
$y'$ adalah nilai yang diprediksi (antara 0 dan 1, eksklusif), dengan serangkaian fitur di $x$.

Lihat Regresi logistik: Kerugian dan regularisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

log-peluang

#fundamentals

Logaritma peluang terjadinya beberapa peristiwa.

Klik ikon untuk melihat matematika.

Jika peristiwanya adalah probabilitas biner, odds mengacu pada rasio probabilitas keberhasilan (p) terhadap probabilitas kegagalan (1-p). Misalnya, anggap peristiwa tertentu memiliki probabilitas keberhasilan sebesar 90% dan probabilitas kegagalan sebesar 10%. Dalam hal ini, odds dihitung sebagai berikut:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Log-peluang hanyalah logaritma peluang. Secara umum, "logaritma" mengacu pada logaritma natural, tetapi logaritma sebenarnya dapat berupa basis apa pun yang lebih besar dari 1. Dengan mengikuti konvensi, log-odds dari contoh kita adalah:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Fungsi log-odds adalah invers dari fungsi sigmoid.

Long Short-Term Memory (LSTM)

#seq

Jenis sel dalam jaringan saraf berulang yang digunakan untuk memproses urutan data dalam aplikasi seperti pengenalan tulisan tangan, terjemahan mesin, dan teks pada gambar. LSTM menangani masalah gradien yang menghilang yang terjadi saat melatih RNN karena urutan data yang panjang dengan mempertahankan histori dalam status memori internal berdasarkan input dan konteks baru dari sel sebelumnya di RNN.

LoRA

#language

#generativeAI

Singkatan dari Low-Rank Adaptability.

kalah

#fundamentals

#Metric

Selama pelatihan model tersupervisi, ukuran seberapa jauh prediksi model dari label-nya.

Fungsi kerugian menghitung kerugian.

Lihat Regresi linear: Kerugian di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

agregator kerugian

Jenis algoritma machine learning yang meningkatkan performa model dengan menggabungkan prediksi dari beberapa model dan menggunakan prediksi tersebut untuk membuat satu prediksi. Akibatnya, aggregator kerugian dapat mengurangi varian prediksi dan meningkatkan akurasi prediksi.

kurva penyimpangan

#fundamentals

Plot kerugian sebagai fungsi dari jumlah iterasi pelatihan. Plot berikut menunjukkan kurva kehilangan yang umum:

Grafik Kartesius tentang kerugian versus iterasi pelatihan, yang menunjukkan
penurunan kerugian yang cepat untuk iterasi awal, diikuti dengan penurunan
bertahap, lalu kemiringan datar selama iterasi akhir.

Kurva kerugian dapat membantu Anda menentukan kapan model Anda berkonvergensi atau overfitting.

Kurva kerugian dapat memetakan semua jenis kerugian berikut:

kerugian pelatihan
kehilangan validasi
test loss

Lihat juga kurva generalisasi.

Lihat Overfitting: Menafsirkan kurva kerugian di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fungsi loss

#fundamentals

#Metric

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada batch contoh. Fungsi kerugian menampilkan kerugian yang lebih rendah untuk model yang membuat prediksi yang baik daripada model yang membuat prediksi yang buruk.

Tujuan pelatihan biasanya untuk meminimalkan kerugian yang ditampilkan fungsi kerugian.

Ada banyak jenis fungsi kerugian. Pilih fungsi loss yang sesuai untuk jenis model yang Anda buat. Contoh:

Kerugian ₂ (atau Mean Squared Error) adalah fungsi kerugian untuk regresi linear.
Log Loss adalah fungsi kerugian untuk regresi logistik.

permukaan penyimpangan

Grafik berat versus kerugian. Penurunan gradien bertujuan untuk menemukan bobot saat permukaan penyimpangan berada pada minimum lokal.

Low-Rank Adaptability (LoRA)

#language

#generativeAI

Teknik parameter-efficient untuk penyesuaian halus yang "membekukan" bobot yang telah dilatih sebelumnya pada model (sehingga tidak dapat lagi diubah), lalu menyisipkan sekumpulan kecil bobot yang dapat dilatih ke dalam model. Kumpulan bobot yang dapat dilatih ini (juga dikenal sebagai "matriks pembaruan") jauh lebih kecil daripada model dasar sehingga jauh lebih cepat dilatih.

LoRA memberikan manfaat berikut:

Meningkatkan kualitas prediksi model untuk domain tempat penyesuaian lanjut diterapkan.
Melakukan penyesuaian lebih cepat daripada teknik yang memerlukan penyesuaian semua parameter model.
Mengurangi biaya komputasi inferensi dengan mengaktifkan penayangan serentak beberapa model khusus yang berbagi model dasar yang sama.

Klik ikon untuk mempelajari lebih lanjut matriks update di LoRA.

Matriks pembaruan yang digunakan di LoRA terdiri dari matriks dekomposisi peringkat, yang berasal dari model dasar untuk membantu memfilter derau dan memfokuskan pelatihan pada fitur terpenting model.

LSTM

#seq

Singkatan dari Long Short-Term Memory.

M

machine learning

#fundamentals

Program atau sistem yang melatih model dari data input. Model terlatih dapat membuat prediksi yang berguna dari data baru (yang belum pernah dilihat) yang diambil dari distribusi yang sama dengan yang digunakan untuk melatih model.

Machine learning juga mengacu pada bidang studi yang terkait dengan program atau sistem ini.

Lihat kursus Pengantar Machine Learning untuk mengetahui informasi selengkapnya.

terjemahan mesin

#generativeAI

Menggunakan software (biasanya, model machine learning) untuk mengonversi teks dari satu bahasa manusia ke bahasa manusia lainnya, misalnya, dari bahasa Inggris ke bahasa Jepang.

kelas mayoritas

#fundamentals

Label yang lebih umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi 99% label negatif dan 1% label positif, label negatif adalah kelas mayoritas.

Berbeda dengan kelas minoritas.

Lihat Set data: Set data yang tidak seimbang di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Proses keputusan Markov (MDP)

#rl

Grafik yang mewakili model pengambilan keputusan tempat keputusan (atau tindakan) diambil untuk menavigasi urutan status dengan asumsi bahwa properti Markov berlaku. Dalam reinforcement learning, transisi antara status ini menampilkan reward numerik.

Properti Markov

#rl

Properti lingkungan tertentu, dengan transisi status sepenuhnya ditentukan oleh informasi yang implisit dalam status saat ini dan tindakan agen.

model bahasa yang disamarkan

#language

Model bahasa yang memprediksi kemungkinan token kandidat untuk mengisi bagian yang kosong dalam urutan. Misalnya, model bahasa yang disamarkan dapat menghitung probabilitas untuk kata kandidat guna mengganti garis bawah dalam kalimat berikut:

____ di topi kembali.

Referensi biasanya menggunakan string "MASK", bukan garis bawah. Contoh:

"MASK" di topi muncul kembali.

Sebagian besar model bahasa masked modern bersifat dua arah.

matplotlib

Library plot 2D Python open source. matplotlib membantu Anda memvisualisasikan berbagai aspek machine learning.

faktorisasi matriks

#recsystems

Dalam matematika, mekanisme untuk menemukan matriks yang produk titiknya mendekati matriks target.

Dalam sistem rekomendasi, matriks target sering kali menyimpan rating pengguna pada item. Misalnya, matriks target untuk sistem rekomendasi film mungkin terlihat seperti berikut, yang mana bilangan bulat positif adalah nilai pengguna dan 0 berarti bahwa pengguna tidak menilai film:

	Casablanca	The Philadelphia Story	Black Panther	Wonder Woman	Pulp Fiction
Pengguna 1	5,0	3.0	0,0	2.0	0,0
Pengguna 2	4.0	0,0	0,0	1.0	5,0
Pengguna 3	3.0	1.0	4.0	5,0	0,0

Sistem rekomendasi film bertujuan untuk memprediksi rating pengguna untuk film yang tidak diberi rating. Misalnya, apakah Pengguna 1 akan menyukai Black Panther?

Salah satu pendekatan untuk sistem rekomendasi adalah menggunakan faktorisasi matriks untuk menghasilkan dua matriks berikut:

Matriks pengguna, dibentuk dari jumlah pengguna X jumlah dimensi penyematan.
Matriks item, dibentuk dari jumlah dimensi embedding X jumlah item.

Misalnya, menggunakan faktorisasi matriks pada tiga pengguna dan lima item dapat menghasilkan matriks pengguna dan matriks item berikut:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Hasil perkalian titik matriks pengguna dan matriks item menghasilkan matriks rekomendasi yang tidak hanya berisi rating pengguna asli, tetapi juga prediksi untuk film yang belum ditonton oleh setiap pengguna. Misalnya, pertimbangkan rating Casablanca dari Pengguna 1, yang sebesar 5,0. Produk titik yang sesuai dengan sel tersebut dalam matriks rekomendasi seharusnya berkisar 5,0, dan hasilnya adalah:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Lebih penting lagi, apakah Pengguna 1 akan menyukai Black Panther? Mengambil hasil perkalian titik yang sesuai dengan baris pertama dan kolom ketiga menghasilkan prediksi rating 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Faktorisasi matriks biasanya menghasilkan matriks pengguna dan matriks item yang, bersama-sama, secara signifikan lebih ringkas daripada matriks target.

Mean Absolute Error (MAE)

#Metric

Kerugian rata-rata per contoh saat kerugian₁ digunakan. Hitung Mean Absolute Error sebagai berikut:

Hitung kerugian L₁ untuk batch.
Bagi kerugian L₁ dengan jumlah contoh dalam batch.

Klik ikon untuk melihat matematika formal.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

dalam hal ini:

$n$ adalah jumlah contoh.
$y$ adalah nilai sebenarnya dari label.
$\hat{y}$ adalah nilai yang diprediksi model untuk $y$.

Misalnya, pertimbangkan penghitungan kerugian L₁ pada kumpulan lima contoh berikut:

Nilai sebenarnya dari contoh	Nilai prediksi model	Kerugian (perbedaan antara aktual dan prediksi)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = kerugian L₁

Jadi, kerugian L₁ adalah 8 dan jumlah contoh adalah 5. Oleh karena itu, Rata-Rata Error Absolut adalah:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Bandingkan Mean Absolute Error dengan Mean Squared Error dan Root Mean Squared Error.

presisi rata-rata pada k (mAP@k)

#language

#generativeAI

#Metric

Rata-rata statistik dari semua skor presisi rata-rata pada k di seluruh set data validasi. Salah satu penggunaan presisi rata-rata mean pada k adalah untuk menilai kualitas rekomendasi yang dihasilkan oleh sistem rekomendasi.

Meskipun frasa "rata-rata mean" terdengar berlebihan, nama metrik ini sudah tepat. Bagaimanapun, metrik ini menemukan nilai tengah beberapa nilai presisi rata-rata pada k.

Klik ikon untuk melihat contoh.

Misalnya, Anda membuat sistem rekomendasi yang menghasilkan daftar novel yang direkomendasikan yang dipersonalisasi untuk setiap pengguna. Berdasarkan masukan dari pengguna yang dipilih, Anda menghitung lima presisi rata-rata berikut pada skor k (satu skor per pengguna):

0,73
0,77
0.67
0,82
0,76

Oleh karena itu, Presisi Rata-Rata mean pada K adalah:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

Rataan Kuadrat Galat (MSE)

#Metric

Kerugian rata-rata per contoh saat kerugian L₂ digunakan. Hitung Rataan Kuadrat Galat (RKG) sebagai berikut:

Hitung kerugian L₂ untuk batch.
Bagikan kerugian L₂ dengan jumlah contoh dalam batch.

Klik ikon untuk melihat matematika formal.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ dengan:

$n$ adalah jumlah contoh.
$y$ adalah nilai sebenarnya dari label.
$\hat{y}$ adalah prediksi model untuk $y$.

Misalnya, pertimbangkan kerugian pada batch lima contoh berikut:

Nilai sebenarnya	Prediksi model	Kerugian	Kerugian kuadrat
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = kerugian L₂

Oleh karena itu, Rataan Kuadrat Galat adalah:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Mean Squared Error adalah pengoptimal pelatihan yang populer, terutama untuk regresi linear.

Bandingkan Rataan Kuadrat Galat dengan Rataan Kesalahan Mutlak dan Galat Akar Rataan Kuadrat.

TensorFlow Playground menggunakan Mean Squared Error untuk menghitung nilai kerugian.

Klik ikon untuk melihat detail selengkapnya tentang pencilan.

Pengabaian sangat memengaruhi Rataan Kuadrat Galat. Misalnya, kerugian 1 adalah kerugian kuadrat 1, tetapi kerugian 3 adalah kerugian kuadrat 9. Dalam tabel sebelumnya, contoh dengan kerugian 3 menyumbang ~56% dari Mean Squared Error, sedangkan setiap contoh dengan kerugian 1 hanya menyumbang 6% dari Mean Squared Error.

Nilai ekstrem tidak memengaruhi Mean Absolute Error sekuat Mean Squared Error. Misalnya, kehilangan 3 akun hanya untuk ~38% dari Mean Absolute Error.

Pemangkasan adalah salah satu cara untuk mencegah pencilan ekstrem merusak kemampuan prediktif model Anda.

mesh

#TensorFlow

#GoogleCloud

Dalam pemrograman paralel ML, istilah yang terkait dengan penetapan data dan model ke chip TPU, serta menentukan cara nilai ini akan di-shard atau direplikasi.

Mesh adalah istilah yang memiliki lebih dari satu makna:

Tata letak fisik TPU chip.
Konstruksi logis abstrak untuk memetakan data dan model ke chip TPU.

Dalam kedua kasus tersebut, mesh ditentukan sebagai shape.

meta-pembelajaran

#language

Subkumpulan machine learning yang menemukan atau meningkatkan algoritma pembelajaran. Sistem meta-pembelajaran juga dapat bertujuan untuk melatih model agar dapat dengan cepat mempelajari tugas baru dari sejumlah kecil data atau dari pengalaman yang diperoleh dalam tugas sebelumnya. Algoritma meta-pembelajaran umumnya mencoba mencapai hal berikut:

Meningkatkan atau mempelajari fitur yang dibuat secara manual (seperti penginisialisasi atau pengoptimal).
Lebih efisien dalam penggunaan data dan komputasi.
Meningkatkan generalisasi.

Meta-pembelajaran terkait dengan pemelajaran beberapa tahap.

metrik

#TensorFlow

#Metric

Statistik yang Anda minati.

Tujuan adalah metrik yang coba dioptimalkan oleh sistem machine learning.

Metrics API (tf.metrics)

#Metric

TensorFlow API untuk mengevaluasi model. Misalnya, tf.metrics.accuracy menentukan seberapa sering prediksi model cocok dengan label.

tumpukan mini

#fundamentals

Subset kecil yang dipilih secara acak dari batch yang diproses dalam satu iterasi. Ukuran batch dari batch mini biasanya antara 10 dan 1.000 contoh.

Misalnya, seluruh set pelatihan (batch penuh) terdiri dari 1.000 contoh. Selanjutnya, anggaplah Anda menetapkan ukuran batch dari setiap batch mini ke 20. Oleh karena itu, setiap iterasi menentukan kerugian pada 20 contoh acak dari 1.000 contoh,lalu menyesuaikan bobot dan bias yang sesuai.

Menghitung kerugian pada batch mini jauh lebih efisien daripada kerugian pada semua contoh dalam batch penuh.

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

penurunan gradien stokastik tumpukan mini

Algoritma penurunan gradien yang menggunakan batch mini. Dengan kata lain, penurunan gradien stokastik tumpukan mini memperkirakan gradien berdasarkan subset kecil dari data pelatihan. Penurunan gradien stokastik reguler menggunakan tumpukan mini berukuran 1.

kerugian minimax

#Metric

Fungsi kerugian untuk generative adversarial networks, berdasarkan cross-entropy antara distribusi data yang dihasilkan dan data sebenarnya.

Kerugian minimax digunakan dalam makalah pertama untuk mendeskripsikan jaringan adversarial generatif.

Lihat Fungsi Kerugian dalam kursus Generative Adversarial Networks untuk mengetahui informasi selengkapnya.

kelas minoritas

#fundamentals

Label yang kurang umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi 99% label negatif dan 1% label positif, label positif adalah kelas minoritas.

Berbeda dengan kelas mayoritas.

Klik ikon untuk melihat catatan tambahan.

Set pelatihan dengan satu juta contoh terdengar mengesankan. Namun, jika kelas minoritas tidak terwakili dengan baik, set pelatihan yang sangat besar pun mungkin tidak memadai. Kurangi fokus pada jumlah total contoh dalam set data dan lebih fokus pada jumlah contoh dalam class minoritas.

Jika set data Anda tidak berisi cukup contoh class minoritas, pertimbangkan untuk menggunakan downsampling (definisi di poin kedua) untuk melengkapi class minoritas.

Lihat Set data: Set data yang tidak seimbang di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

campuran pakar

#language

#generativeAI

Skema untuk meningkatkan efisiensi jaringan saraf dengan hanya menggunakan sebagian parameternya (dikenal sebagai ahli) untuk memproses token atau contoh input tertentu. Jaringan gating merutekan setiap token atau contoh input ke pakar yang sesuai.

Untuk mengetahui detailnya, lihat salah satu makalah berikut:

ML

Singkatan dari machine learning.

MMIT

#language

#image

#generativeAI

Singkatan dari multimodal instruction-tuned.

MNIST

#image

Set data domain publik yang dikompilasi oleh LeCun, Cortes, dan Burges yang berisi 60.000 gambar, setiap gambar menunjukkan cara manusia secara manual menulis digit tertentu dari 0–9. Setiap gambar disimpan sebagai array bilangan bulat berukuran 28x28, yang mana setiap bilangan bulat adalah nilai hitam putih antara 0 dan 255, inklusif.

MNIST adalah set data kanonis untuk machine learning, yang sering digunakan untuk menguji pendekatan machine learning baru. Untuk mengetahui detailnya, lihat Database MNIST untuk Digit Tulisan Tangan.

modalitas

#language

Kategori data tingkat tinggi. Misalnya, angka, teks, gambar, video, dan audio adalah lima modalitas yang berbeda.

model

#fundamentals

Secara umum, setiap konstruksi matematika yang memproses data input dan menampilkan output. Dengan kata lain, model adalah kumpulan parameter dan struktur yang diperlukan sistem untuk membuat prediksi. Dalam supervised machine learning, model menggunakan contoh sebagai input dan menyimpulkan prediksi sebagai output. Dalam machine learning yang diawasi, modelnya agak berbeda. Contoh:

Model regresi linear terdiri dari serangkaian bobot dan bias.
Model jaringan saraf terdiri dari:
- Kumpulan lapisan tersembunyi, yang masing-masing berisi satu atau beberapa neuron.
- Bobot dan bias yang terkait dengan setiap neuron.
Model pohon keputusan terdiri dari:
- Bentuk hierarki; yaitu, pola yang menghubungkan kondisi dan daun.
- Kondisi dan daun.

Anda dapat menyimpan, memulihkan, atau membuat salinan model.

Unsupervised machine learning juga membuat model, biasanya fungsi yang dapat memetakan contoh input ke cluster yang paling sesuai.

Klik ikon untuk membandingkan fungsi algjebra dan pemrograman dengan model ML.

Fungsi aljabar seperti berikut adalah model:

  f(x, y) = 3x -5xy + y² + 17

Fungsi sebelumnya memetakan nilai input (x dan y) ke output.

Demikian pula, fungsi pemrograman seperti berikut juga merupakan model:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Pemanggil meneruskan argumen ke fungsi Python sebelumnya, dan fungsi Python menghasilkan output (melalui pernyataan return).

Meskipun deep neural network memiliki struktur matematika yang sangat berbeda dengan fungsi aljabar atau pemrograman, deep neural network masih mengambil input (contoh) dan menampilkan output (prediksi).

Programmer manusia membuat kode fungsi pemrograman secara manual. Sebaliknya, model machine learning secara bertahap mempelajari parameter optimal selama pelatihan otomatis.

kapasitas model

#Metric

Kompleksitas masalah yang dapat dipelajari oleh model. Semakin kompleks masalah yang dapat dipelajari model, semakin tinggi pula kapasitas model. Kapasitas model biasanya meningkat seiring dengan jumlah parameter model. Untuk definisi formal dari kapasitas model klasifikasi, lihat dimensi VC.

cascading model

#generativeAI

Sistem yang memilih model ideal untuk kueri inferensi tertentu.

Bayangkan sekelompok model, mulai dari yang sangat besar (banyak parameter) hingga yang jauh lebih kecil (parameter jauh lebih sedikit). Model yang sangat besar menggunakan lebih banyak resource komputasi pada waktu inferensi daripada model yang lebih kecil. Namun, model yang sangat besar biasanya dapat menyimpulkan permintaan yang lebih kompleks daripada model yang lebih kecil. Cascading model menentukan kompleksitas kueri inferensi, lalu memilih model yang sesuai untuk melakukan inferensi. Motivasi utama untuk cascading model adalah untuk mengurangi biaya inferensi dengan umumnya memilih model yang lebih kecil, dan hanya memilih model yang lebih besar untuk kueri yang lebih kompleks.

Bayangkan model kecil berjalan di ponsel dan versi yang lebih besar dari model tersebut berjalan di server jarak jauh. Cascading model yang baik akan mengurangi biaya dan latensi dengan memungkinkan model yang lebih kecil menangani permintaan sederhana dan hanya memanggil model jarak jauh untuk menangani permintaan yang kompleks.

Lihat juga router model.

paralelisme model

#language

Cara menskalakan pelatihan atau inferensi yang menempatkan berbagai bagian dari satu model di berbagai perangkat. Paralelisme model memungkinkan model yang terlalu besar untuk dimuat di satu perangkat.

Untuk menerapkan paralelisme model, sistem biasanya melakukan hal berikut:

Shard (membagi) model menjadi bagian-bagian yang lebih kecil.
Mendistribusikan pelatihan bagian-bagian yang lebih kecil tersebut ke beberapa prosesor. Setiap prosesor melatih bagian modelnya sendiri.
Menggabungkan hasil untuk membuat satu model.

Paralelisme model memperlambat pelatihan.

Lihat juga paralelisme data.

router model

#generativeAI

Algoritma yang menentukan model ideal untuk inferensi dalam cascade model. Router model itu sendiri biasanya merupakan model machine learning yang secara bertahap mempelajari cara memilih model terbaik untuk input tertentu. Namun, router model terkadang dapat berupa algoritma non-machine learning yang lebih sederhana.

pelatihan model

Proses penentuan model terbaik.

MOE

#language

#image

#generativeAI

Singkatan dari mixture of experts.

Momentum

Algoritme penurunan gradien mutakhir yang langkah pembelajarannya tidak hanya bergantung pada turunan dalam langkah saat ini, tetapi juga pada turunan langkah yang langsung mendahuluinya. Momentum melibatkan komputasi rata-rata bergerak berbobot eksponensial dari gradien dari waktu ke waktu, yang analog dengan momentum dalam fisika. Momentum terkadang mencegah pembelajaran terhenti di lokal minimum.

MT

#generativeAI

Singkatan dari machine translation.

klasifikasi multi-class

#fundamentals

Dalam supervised learning, masalah klasifikasi yang set data-nya berisi lebih dari dua kelas label. Misalnya, label dalam set data Iris harus berupa salah satu dari tiga class berikut:

Iris setosa
Iris virginica
Iris versicolor

Model yang dilatih pada set data Iris yang memprediksi jenis Iris pada contoh baru melakukan klasifikasi multi-class.

Sebaliknya, masalah klasifikasi yang membedakan antara tepat dua kelas adalah model klasifikasi biner. Misalnya, model email yang memprediksi spam atau bukan spam adalah model klasifikasi biner.

Dalam masalah pengelompokan, klasifikasi multi-class mengacu pada lebih dari dua cluster.

Lihat Jaringan neural: Klasifikasi multi-class di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

regresi logistik multi-kelas

Menggunakan regresi logistik dalam masalah klasifikasi multikelas.

self-attention multi-head

#language

Ekstensi self-attention yang menerapkan mekanisme self-attention beberapa kali untuk setiap posisi dalam urutan input.

Transformer memperkenalkan self-attention multi-head.

disesuaikan dengan petunjuk multimodal

#language

Model yang disesuaikan dengan petunjuk yang dapat memproses input selain teks, seperti gambar, video, dan audio.

model multimodal

#language

Model yang input, output, atau keduanya menyertakan lebih dari satu modalitas. Misalnya, pertimbangkan model yang menggunakan gambar dan teks (dua modalitas) sebagai fitur, dan mengeluarkan skor yang menunjukkan seberapa sesuai teks untuk gambar. Jadi, input model ini bersifat multimodal dan output-nya bersifat unimodal.

klasifikasi multinomial

Sinonim dari klasifikasi multi-kelas.

regresi multinomial

Sinonim dari regresi logistik multi-kelas.

multitasking

Teknik machine learning yang menggunakan satu model yang dilatih untuk melakukan beberapa tugas.

Model multitask dibuat dengan pelatihan pada data yang sesuai untuk setiap tugas yang berbeda. Hal ini memungkinkan model belajar untuk membagikan informasi di seluruh tugas, yang membantu model belajar secara lebih efektif.

Model yang dilatih untuk beberapa tugas sering kali memiliki kemampuan generalisasi yang lebih baik dan dapat lebih andal dalam menangani berbagai jenis data.

T

Perangkap NaN

Saat satu angka dalam model Anda menjadi NaN selama pelatihan, yang menyebabkan banyak atau semua angka lain dalam model Anda akhirnya menjadi NaN.

NaN adalah singkatan dari Bukan A Numb er.

natural language processing

#language

Bidang yang mengajarkan komputer untuk memproses apa yang diucapkan atau diketik pengguna menggunakan aturan linguistik. Hampir semua natural language processing modern mengandalkan machine learning.

natural language understanding

#language

Subkumpulan natural language processing yang menentukan niat dari sesuatu yang diucapkan atau diketik. Pemahaman bahasa alam dapat melampaui natural language processing untuk mempertimbangkan aspek bahasa yang kompleks seperti konteks, sarkasme, dan sentimen.

kelas negatif

#fundamentals

#Metric

Dalam klasifikasi biner, satu class disebut positif dan class lainnya disebut negatif. Class positif adalah hal atau peristiwa yang diuji model, dan class negatif adalah kemungkinan lainnya. Contoh:

Kelas negatif dalam tes medis dapat berupa "bukan tumor".
Kelas negatif dalam model klasifikasi email dapat berupa "bukan spam".

Berbeda dengan class positif.

sampling negatif

Sinonim dari sampling kandidat.

Neural Architecture Search (NAS)

Teknik untuk mendesain arsitektur jaringan neural secara otomatis. Algoritma NAS dapat mengurangi jumlah waktu dan resource yang diperlukan untuk melatih jaringan saraf.

NAS biasanya menggunakan:

Ruang penelusuran, yang merupakan kumpulan kemungkinan arsitektur.
Fungsi kebugaran, yang merupakan ukuran seberapa baik performa arsitektur tertentu pada tugas tertentu.

Algoritma NAS sering kali dimulai dengan sekumpulan kecil kemungkinan arsitektur dan secara bertahap memperluas ruang penelusuran saat algoritma mempelajari lebih lanjut arsitektur yang efektif. Fungsi kebugaran biasanya didasarkan pada performa arsitektur pada set pelatihan, dan algoritma biasanya dilatih menggunakan teknik reinforcement learning.

Algoritma NAS telah terbukti efektif dalam menemukan arsitektur berperforma tinggi untuk berbagai tugas, termasuk klasifikasi gambar, klasifikasi teks, dan terjemahan mesin.

alur maju

#fundamentals

Model yang berisi setidaknya satu lapisan tersembunyi. Jaringan neural dalam adalah jenis jaringan neural yang berisi lebih dari satu lapisan tersembunyi. Misalnya, diagram berikut menunjukkan jaringan neural dalam yang berisi dua lapisan tersembunyi.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan lapisan output.

Setiap neuron dalam jaringan saraf terhubung ke semua node di lapisan berikutnya. Misalnya, dalam diagram sebelumnya, perhatikan bahwa setiap dari tiga neuron di lapisan tersembunyi pertama terhubung secara terpisah ke kedua neuron di lapisan tersembunyi kedua.

Jaringan neural yang diterapkan di komputer terkadang disebut jaringan neural buatan untuk membedakannya dari jaringan neural yang ditemukan di otak dan sistem saraf lainnya.

Beberapa jaringan saraf dapat meniru hubungan nonlinier yang sangat kompleks antara berbagai fitur dan label.

Lihat juga jaringan neural konvolusi dan jaringan neural berulang.

Lihat Jaringan neural di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

neuron

#fundamentals

Dalam machine learning, unit yang berbeda dalam lapisan tersembunyi dari jaringan neural. Setiap neuron melakukan tindakan dua langkah berikut:

Menghitung jumlah berbobot dari nilai input yang dikalikan dengan bobot yang sesuai.
Meneruskan jumlah berbobot sebagai input ke fungsi aktivasi.

Neuron di lapisan tersembunyi pertama menerima input dari nilai fitur di lapisan input. Neuron di lapisan tersembunyi apa pun selain lapisan pertama menerima input dari neuron di lapisan tersembunyi sebelumnya. Misalnya, neuron di lapisan tersembunyi kedua menerima input dari neuron di lapisan tersembunyi pertama.

Ilustrasi berikut menyoroti dua neuron dan inputnya.

Neuron dalam jaringan neural meniru perilaku neuron di otak dan bagian lain sistem saraf.

N-gram

#seq

#language

Urutan kata N yang teratur. Misalnya, truly madly adalah 2-gram. Karena urutan relevan, madly truly adalah 2-gram yang berbeda dengan truly madly.

T	Nama untuk jenis N-gram ini	Contoh
2	bigram atau 2-gram	to go, go to, eat lunch, eat dinner
3	trigram atau 3-gram	makan terlalu banyak, bahagia selamanya, bel berbunyi
4	4-gram	walk in the park, dust in the wind, the boy ate lentils

Banyak model natural language understanding bergantung pada N-gram untuk memprediksi kata berikutnya yang akan diketik atau diucapkan oleh pengguna. Misalnya, pengguna mengetik happily ever. Model NLU berdasarkan trigram kemungkinan akan memprediksi bahwa pengguna selanjutnya akan mengetik kata setelah.

Bedakan N-gram dengan kantong data, yang merupakan kumpulan kata yang tidak berurutan.

Lihat Model bahasa besar di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

NLP

#language

Singkatan dari natural language processing.

NLU

#language

Singkatan dari natural language understanding.

node (pohon keputusan)

#df

Dalam pohon keputusan, setiap kondisi atau daun.

Pohon keputusan dengan dua kondisi dan tiga daun.

Lihat Pohon Keputusan dalam kursus Hutan Keputusan untuk mengetahui informasi selengkapnya.

node (jaringan neural)

#fundamentals

Neuron di lapisan tersembunyi.

Lihat Jaringan Neural di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

node (grafik TensorFlow) (node (TensorFlow graph))

#TensorFlow

Operasi dalam grafik TensorFlow.

kebisingan

Secara garis besar, segala sesuatu yang mengaburkan sinyal dalam set data. Derau dapat dimasukkan ke dalam data dengan berbagai cara. Contoh:

Penilai manusia melakukan kesalahan dalam pelabelan.
Manusia dan instrumen salah mencatat atau menghilangkan nilai fitur.

kondisi non-biner

#df

Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan hasil:

Kondisi (number_of_legs = ?) yang mengarah ke tiga kemungkinan
hasil. Satu hasil (number_of_legs = 8) mengarah ke daun
bernama spider. Hasil kedua (number_of_legs = 4) mengarah ke
node bernama dog. Hasil ketiga (number_of_legs = 2) mengarah ke
daun bernama penguin.

Lihat Jenis kondisi di kursus Decision Forests untuk mengetahui informasi selengkapnya.

nonlinear

#fundamentals

Hubungan antara dua atau beberapa variabel yang tidak dapat direpresentasikan hanya melalui penambahan dan perkalian. Hubungan linear dapat direpresentasikan sebagai garis; hubungan nonlinear tidak dapat direpresentasikan sebagai garis. Misalnya, pertimbangkan dua model yang masing-masing mengaitkan satu fitur ke satu label. Model di sebelah kiri bersifat linear dan model di sebelah kanan bersifat non-linear:

Dua plot. Satu plot adalah garis, sehingga ini adalah hubungan linear.
Plot lainnya adalah kurva, sehingga ini adalah hubungan nonlinier.

Lihat Jaringan saraf: Node dan lapisan tersembunyi di Kursus Singkat Machine Learning untuk bereksperimen dengan berbagai jenis fungsi nonlinier.

bias abstain

#fairness

Lihat bias seleksi.

nonstasioneritas

#fundamentals

Fitur yang nilainya berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, perhatikan contoh nonstabilitas berikut:

Jumlah baju renang yang terjual di toko tertentu bervariasi sesuai musim.
Jumlah buah tertentu yang dipanen di wilayah tertentu nol selama sebagian besar tahun, tetapi besar selama periode singkat.
Karena perubahan iklim, suhu rata-rata tahunan mengalami pergeseran.

Berbeda dengan stabilitas.

no one right answer (NORA)

#language

#generativeAI

Perintah yang memiliki beberapa respons yang sesuai. Misalnya, perintah berikut tidak memiliki satu jawaban yang benar:

Ceritakan lelucon tentang gajah.

Mengevaluasi perintah yang tidak memiliki jawaban yang benar bisa jadi sulit.

NORA

#language

#generativeAI

Singkatan dari tidak ada jawaban yang benar.

normalisasi

#fundamentals

Secara umum, proses mengonversi rentang nilai variabel sebenarnya menjadi rentang nilai standar, seperti:

-1 hingga +1
0 hingga 1
Skor Z (kira-kira, -3 hingga +3)

Misalnya, rentang nilai sebenarnya dari fitur tertentu adalah 800 hingga 2.400. Sebagai bagian dari feature engineering, Anda dapat menormalisasi nilai sebenarnya ke rentang standar, seperti -1 hingga +1.

Normalisasi adalah tugas umum dalam feature engineering. Model biasanya dilatih lebih cepat (dan menghasilkan prediksi yang lebih baik) jika setiap fitur numerik dalam vektor fitur memiliki rentang yang kira-kira sama.

Lihat juga Normalisasi skor z.

Lihat Data Numerik: Normalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

deteksi kebaruan

Proses menentukan apakah contoh baru (baru) berasal dari distribusi yang sama dengan set pelatihan. Dengan kata lain, setelah pelatihan pada set pelatihan, deteksi kebaruan menentukan apakah contoh baru (selama inferensi atau selama pelatihan tambahan) adalah outlier.

Berbeda dengan deteksi pencilan.

data numerik

#fundamentals

Fitur yang direpresentasikan sebagai bilangan bulat atau bilangan real-bernilai. Misalnya, model penilaian rumah mungkin akan mewakili ukuran rumah (dalam kaki persegi atau meter persegi) sebagai data numerik. Merepresentasikan fitur sebagai data numerik menunjukkan bahwa nilai fitur memiliki hubungan matematika dengan label. Artinya, jumlah meter persegi di rumah mungkin memiliki beberapa hubungan matematika dengan nilai rumah.

Tidak semua data bilangan bulat harus direpresentasikan sebagai data numerik. Misalnya, kode pos di beberapa bagian dunia adalah bilangan bulat; namun, kode pos bilangan bulat tidak boleh direpresentasikan sebagai data numerik dalam model. Hal ini karena kode pos 20000 tidak dua kali (atau setengah) lebih efektif daripada kode pos 10.000. Selain itu, meskipun kode pos yang berbeda memang berkorelasi dengan nilai properti yang berbeda, kita tidak dapat mengasumsikan bahwa nilai properti di kode pos 20000 bernilai dua kali lipat dari nilai properti di kode pos 10000. Kode pos sebaiknya direpresentasikan sebagai data kategorik.

Fitur numerik terkadang disebut fitur berkelanjutan.

Lihat Menangani data numerik di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

NumPy

Library matematika open source yang menyediakan operasi array dalam Python. pandas dibuat di NumPy.

O

tujuan

#Metric

Metrik yang coba dioptimalkan oleh algoritme Anda.

fungsi objektif

#Metric

Formula matematika atau metrik yang ingin dioptimalkan oleh model. Misalnya, fungsi objektif untuk regresi linier biasanya Mean Squared Loss. Oleh karena itu, saat melatih model regresi linear, pelatihan bertujuan untuk meminimalkan Mean Squared Loss.

Dalam beberapa kasus, sasarannya adalah memaksimalkan fungsi objektif. Misalnya, jika fungsi objektifnya adalah akurasi, sasarannya adalah memaksimalkan akurasi.

Lihat juga kerugian.

kondisi miring

#df

Dalam pohon keputusan, kondisi yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar adalah fitur, kondisi berikut adalah kondisi miring:

  height > width

Berbeda dengan kondisi yang sejajar dengan sumbu.

Lihat Jenis kondisi di kursus Decision Forests untuk mengetahui informasi selengkapnya.

offline

#fundamentals

Sinonim dari static.

inferensi offline

#fundamentals

Proses model yang menghasilkan batch prediksi, lalu menyimpan prediksi tersebut dalam cache. Aplikasi kemudian dapat mengakses prediksi yang disimpulkan dari cache, bukan menjalankan ulang model.

Misalnya, pertimbangkan model yang menghasilkan perkiraan cuaca lokal (prediksi) sekali setiap empat jam. Setelah setiap model dijalankan, sistem akan meng-cache semua perkiraan cuaca lokal. Aplikasi cuaca mengambil perkiraan dari cache.

Inferensi offline juga disebut inferensi statis.

Berbeda dengan inferensi online.

Lihat Sistem ML produksi: Inferensi statis versus dinamis di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

enkode one-hot

#fundamentals

Merepresentasikan data kategoris sebagai vektor dengan:

Satu elemen ditetapkan ke 1.
Semua elemen lainnya ditetapkan ke 0.

Enkode one-hot biasanya digunakan untuk merepresentasikan string atau ID yang memiliki kemungkinan set nilai yang terbatas. Misalnya, fitur kategoris tertentu bernama Scandinavia memiliki lima kemungkinan nilai:

"Denmark"
"Swedia"
"Norway"
"Finlandia"
"Islandia"

Encoding one-hot dapat mewakili setiap lima nilai sebagai berikut:

country	Vektor
"Denmark"	1	0	0	0	0
"Swedia"	0	1	0	0	0
"Norway"	0	0	1	0	0
"Finlandia"	0	0	0	1	0
"Islandia"	0	0	0	0	1

Berkat encoding one-hot, model dapat mempelajari berbagai koneksi berdasarkan masing-masing dari lima negara.

Merepresentasikan fitur sebagai data numerik adalah alternatif untuk encoding one-hot. Sayangnya, merepresentasikan negara-negara Skandinavia secara numerik bukanlah pilihan yang baik. Misalnya, pertimbangkan representasi numerik berikut:

"Denmark" adalah 0
"Swedia" adalah 1
"Norway" adalah 2
"Finland" adalah 3
"Iceland" adalah 4

Dengan encoding numerik, model akan menafsirkan angka mentah secara matematis dan akan mencoba melatih angka tersebut. Namun, Islandia sebenarnya tidak memiliki dua kali lipat (atau setengah) sesuatu seperti Norwegia, sehingga model akan menghasilkan beberapa kesimpulan aneh.

Lihat Data kategoris: Encoding one-hot dan kosakata di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pemelajaran satu tahap

Pendekatan machine learning, yang sering digunakan untuk klasifikasi objek, dirancang untuk mempelajari model klasifikasi yang efektif dari satu contoh pelatihan.

Lihat juga pemelajaran beberapa tahap dan pemelajaran zero-shot.

one-shot prompting

#language

#generativeAI

Perintah yang berisi satu contoh yang menunjukkan cara model bahasa besar harus merespons. Misalnya, perintah berikut berisi satu contoh yang menunjukkan model bahasa besar cara menjawab kueri.

Bagian dari satu perintah	Catatan
`Apa mata uang resmi negara yang ditentukan?`	Pertanyaan yang ingin Anda jawab dengan LLM.
`Prancis: EUR`	Satu contoh.
`India:`	Kueri sebenarnya.

Bandingkan dan bedakan perintah satu kali dengan istilah berikut:

zero-shot prompting
few-shot prompting

satu vs. semua

#fundamentals

Dalam masalah klasifikasi dengan N class, solusi yang terdiri dari N pengklasifikasi biner terpisah—satu pengklasifikasi biner untuk setiap kemungkinan hasil. Misalnya, dengan model yang mengklasifikasikan contoh sebagai hewan, sayuran, atau mineral, solusi satu vs. semua akan memberikan tiga pengklasifikasi biner terpisah berikut:

hewan versus bukan hewan
sayuran versus bukan sayuran
mineral versus non-mineral

online

#fundamentals

Sinonim dari dinamis.

inferensi online

#fundamentals

Menghasilkan prediksi sesuai permintaan. Misalnya, misalnya aplikasi meneruskan input ke model dan mengeluarkan permintaan untuk prediksi. Sistem yang menggunakan inferensi online merespons permintaan dengan menjalankan model (dan menampilkan prediksi ke aplikasi).

Berbeda dengan inferensi offline.

Lihat Sistem ML produksi: Inferensi statis versus dinamis di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

operasi (op)

#TensorFlow

Di TensorFlow, prosedur apa pun yang membuat, memanipulasi, atau menghancurkan Tensor. Misalnya, perkalian matriks adalah operasi yang menggunakan dua Tensor sebagai input dan menghasilkan satu Tensor sebagai output.

Optax

Library pemrosesan dan pengoptimalan gradien untuk JAX. Optax memfasilitasi riset dengan menyediakan elemen penyusun yang dapat digabungkan kembali dengan cara kustom untuk mengoptimalkan model parametrik seperti deep neural network. Sasaran lainnya mencakup:

Menyediakan implementasi komponen inti yang dapat dibaca, teruji dengan baik, dan efisien.
Meningkatkan produktivitas dengan memungkinkan penggabungan bahan level rendah ke dalam pengoptimal kustom (atau komponen pemrosesan gradien lainnya).
Mempercepat adopsi ide baru dengan memudahkan siapa saja untuk berkontribusi.

pengoptimal

Implementasi spesifik dari algoritma penurunan gradien. Pengoptimal populer mencakup:

AdaGrad, yang merupakan singkatan dari ADAptive GRADient descent.
Adam, yang merupakan singkatan dari ADAptive with Momentum.

bias kehomogenan luar golongan

#fairness

Kecenderungan untuk melihat anggota luar kelompok sebagai lebih mirip daripada anggota dalam kelompok saat membandingkan sikap, nilai, ciri kepribadian, dan karakteristik lainnya. Dalam grup mengacu pada orang yang berinteraksi dengan Anda secara berkala; luar grup mengacu pada orang yang tidak berinteraksi dengan Anda secara berkala. Jika Anda membuat set data dengan meminta orang untuk memberikan atribut tentang luar golongan, atribut tersebut mungkin kurang bernuansa dan lebih stereotip daripada atribut yang dicantumkan oleh peserta untuk orang di dalam golongan mereka.

Misalnya, Liliput mungkin mendeskripsikan rumah Liliput lain dengan sangat mendetail, dengan menyebutkan perbedaan kecil dalam gaya arsitektur, jendela, pintu, dan ukuran. Namun, Lilliputian yang sama mungkin hanya menyatakan bahwa Brobdingnagians semuanya tinggal di rumah yang identik.

Bias kehomogenan luar golongan adalah bentuk bias atribusi kelompok.

Lihat juga bias dalam grup.

deteksi outlier

Proses identifikasi outlier dalam set pelatihan.

Berbeda dengan deteksi kebaruan.

kekecualian

Nilai yang jauh dari sebagian besar nilai lainnya. Dalam machine learning, salah satu hal berikut adalah outlier:

Data input yang nilainya lebih dari sekitar 3 standar deviasi dari rata-rata.
Bobot dengan nilai absolut yang tinggi.
Nilai prediksi relatif jauh dari nilai sebenarnya.

Misalnya, widget-price adalah fitur dari model tertentu. Asumsikan bahwa rata-rata widget-price adalah 7 Euro dengan simpangan baku 1 Euro. Contoh yang berisi widget-price sebesar 12 Euro atau 2 Euro akan dianggap sebagai outlier karena setiap harga tersebut memiliki lima deviasi standar dari rata-rata.

Nilai ekstrem sering kali disebabkan oleh kesalahan ketik atau kesalahan input lainnya. Dalam kasus lain, nilai ekstrem bukanlah kesalahan; pada akhirnya, nilai yang lima deviasi standar dari rata-rata jarang terjadi, tetapi hampir tidak mungkin.

Pencilan biasanya menyebabkan masalah dalam pelatihan model. Penyesuaian nilai adalah salah satu cara untuk mengelola pencilan.

Lihat Menangani data numerik di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

evaluasi out-of-bag (evaluasi OOB)

#df

Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan terhadap contoh yang tidak digunakan selama pelatihan pohon keputusan tersebut. Misalnya, dalam diagram berikut, perhatikan bahwa sistem melatih setiap hierarki keputusan pada sekitar dua pertiga contoh, lalu mengevaluasi terhadap sisa sepertiga contoh.

Hutan keputusan yang terdiri dari tiga pohon keputusan.
Satu pohon keputusan dilatih pada dua pertiga contoh, lalu menggunakan sepertiga sisanya untuk evaluasi OOB.
Pohon keputusan kedua dilatih pada dua pertiga contoh yang berbeda dari pohon keputusan sebelumnya, lalu menggunakan sepertiga yang berbeda untuk evaluasi OOB dari pohon keputusan sebelumnya.

Evaluasi out-of-bag adalah perkiraan yang efisien dan konservatif secara komputasi dari mekanisme validasi silang. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, satu model dilatih. Karena bagging menyembunyikan beberapa data dari setiap pohon selama pelatihan, evaluasi OOB dapat menggunakan data tersebut untuk memperkirakan validasi silang.

Lihat Evaluasi out-of-bag di kursus Decision Forests untuk mengetahui informasi selengkapnya.

lapisan output

#fundamentals

Lapisan "akhir" jaringan neural. Lapisan output berisi prediksi.

Ilustrasi berikut menunjukkan jaringan neural dalam kecil dengan lapisan input, dua lapisan tersembunyi, dan lapisan output:

overfitting

#fundamentals

Membuat model yang sangat cocok dengan data pelatihan sehingga model gagal membuat prediksi yang benar pada data baru.

Regularisasi dapat mengurangi overfitting. Pelatihan pada set pelatihan yang besar dan beragam juga dapat mengurangi overfitting.

Klik ikon untuk melihat catatan tambahan.

Overfitting seperti mengikuti saran dari guru favorit Anda saja. Anda mungkin akan berhasil di kelas pengajar tersebut, tetapi Anda mungkin "terlalu cocok" dengan ide pengajar tersebut dan tidak berhasil di kelas lain. Dengan mengikuti saran dari berbagai pengajar, Anda akan dapat beradaptasi dengan lebih baik terhadap situasi baru.

Lihat Overfitting di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

oversampling

Menggunakan kembali contoh dari kelas minoritas dalam set data kelas tidak seimbang untuk membuat set pelatihan yang lebih seimbang.

Misalnya, pertimbangkan masalah klasifikasi biner dengan rasio kelas mayoritas terhadap kelas minoritas adalah 5.000:1. Jika set data berisi satu juta contoh, set data tersebut hanya berisi sekitar 200 contoh class minoritas, yang mungkin terlalu sedikit untuk pelatihan yang efektif. Untuk mengatasi kekurangan ini, Anda dapat mengambil sampel berlebihan (menggunakan kembali) 200 contoh tersebut beberapa kali, yang mungkin menghasilkan contoh yang memadai untuk pelatihan yang berguna.

Anda harus berhati-hati terhadap overfitting yang berlebihan saat melakukan oversampling.

Berbeda dengan undersampling.

P

data yang dikemas

Pendekatan untuk menyimpan data dengan lebih efisien.

Data yang dipaketkan menyimpan data menggunakan format yang dikompresi atau dengan cara lain yang memungkinkan data diakses secara lebih efisien. Data yang dipaketkan meminimalkan jumlah memori dan komputasi yang diperlukan untuk mengaksesnya, sehingga menghasilkan pelatihan yang lebih cepat dan inferensi model yang lebih efisien.

Data yang dipaketkan sering digunakan dengan teknik lain, seperti pengayaan data dan regulasi, yang lebih meningkatkan performa model.

pandas

#fundamentals

API analisis data berorientasi kolom yang dibuat berdasarkan numpy. Banyak framework machine learning, termasuk TensorFlow, mendukung struktur data pandas sebagai input. Untuk mengetahui detailnya, lihat dokumentasi pandas.

parameter

#fundamentals

Bobot dan bias yang dipelajari model selama pelatihan. Misalnya, dalam model regresi linear, parameter terdiri dari bias (b) dan semua bobot (w₁, w₂, dan sebagainya) dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sebaliknya, hyperparameter adalah nilai yang Anda (atau layanan penyesuaian hyperparameter) berikan ke model. Misalnya, kecepatan pembelajaran adalah hyperparameter.

parameter-efficient tuning

#language

#generativeAI

Serangkaian teknik untuk melakukan penyesuaian halus model bahasa terlatih (PLM) yang besar secara lebih efisien daripada penyesuaian halus penuh. Penyesuaian yang hemat parameter biasanya menyesuaikan jauh lebih sedikit parameter daripada penyesuaian lengkap, tetapi umumnya menghasilkan model bahasa besar yang berperforma setara (atau hampir setara) dengan model bahasa besar yang dibuat dari penyesuaian lengkap.

Membandingkan dan membedakan parameter-efficient tuning dengan:

instruction tuning
penyesuaian perintah

Parameter-efficient tuning juga dikenal sebagai parameter-efficient fine-tuning.

Server Parameter (PS)

#TensorFlow

Tugas yang melacak parameter model dalam setelan terdistribusi.

pembaruan parameter

Operasi penyesuaian parameter model selama pelatihan, biasanya dalam satu iterasi gradient descent.

turunan parsial

Turunan yang semua variabelnya kecuali satu dianggap konstan. Misalnya, turunan parsial f(x, y) sehubungan dengan x adalah turunan f yang dianggap sebagai fungsi dari x saja (yaitu, mempertahankan y konstanta). Turunan parsial f sehubungan dengan x hanya berfokus pada cara x berubah dan mengabaikan semua variabel lain dalam persamaan.

bias partisipasi

#fairness

Sinonim dari bias abstain. Lihat bias seleksi.

strategi partisi

Algoritme yang mana variabel dibagi di semua server parameter.

lulus di k (pass@k)

#Metric

Metrik untuk menentukan kualitas kode (misalnya, Python) yang dihasilkan model bahasa besar. Lebih khusus lagi, lulus pada k memberi tahu Anda kemungkinan bahwa setidaknya satu blok kode yang dihasilkan dari k blok kode yang dihasilkan akan lulus semua pengujian unitnya.

Model bahasa besar sering kali kesulitan menghasilkan kode yang baik untuk masalah pemrograman yang kompleks. Engineer software beradaptasi dengan masalah ini dengan meminta model bahasa besar untuk menghasilkan beberapa (k) solusi untuk masalah yang sama. Kemudian, engineer software menguji setiap solusi terhadap pengujian unit. Penghitungan lulus di k bergantung pada hasil pengujian unit:

Jika satu atau beberapa solusi tersebut lulus pengujian unit, LLM Lulus tantangan pembuatan kode tersebut.
Jika tidak ada solusi yang lulus pengujian unit, LLM Gagal tantangan pembuatan kode tersebut.

Rumus untuk lulus di k adalah sebagai berikut:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

Secara umum, nilai k yang lebih tinggi menghasilkan skor lulus k yang lebih tinggi; tetapi, nilai k yang lebih tinggi memerlukan lebih banyak resource pengujian unit dan model bahasa besar.

Klik ikon untuk melihat contoh.

Misalkan seorang engineer software meminta model bahasa besar untuk membuat k=10 solusi untuk n=50 masalah coding yang menantang. Berikut hasilnya:

30 Kartu
20 Gagal

Oleh karena itu, skor lulus pada 10 adalah:

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

Pax

Framework pemrograman yang dirancang untuk melatih model jaringan neural berskala besar yang begitu besar sehingga mencakup beberapa TPU chip akselerator slice atau pod.

Pax dibuat berdasarkan Flax, yang dibuat berdasarkan JAX.

Diagram yang menunjukkan posisi Pax dalam stack software.
Pax dibuat berdasarkan JAX. Pax sendiri terdiri dari tiga lapisan. Lapisan bawah berisi TensorStore dan Flax.
Lapisan tengah berisi Optax dan Flaxformer. Lapisan
atas berisi Praxis Modeling Library. Fiddle dibuat
di atas Pax.

perceptron

Sistem (hardware atau software) yang menggunakan satu atau beberapa nilai masukan, menjalankan fungsi pada jumlah bobot masukan, dan menghitung satu nilai keluaran. Dalam machine learning, fungsi biasanya non-linear, seperti ReLU, sigmoid, atau tanh. Misalnya, perceptron berikut bergantung pada fungsi sigmoid untuk memproses tiga nilai input:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Dalam ilustrasi berikut, perseptron menggunakan tiga input, yang masing-masing dimodifikasi sendiri oleh bobot sebelum memasuki perseptron:

Perseptron yang menggunakan 3 input, masing-masing dikalikan dengan bobot
terpisah. Perceptron menghasilkan satu nilai.

Perceptron adalah neuron dalam jaringan saraf.

performa

#Metric

Istilah yang memiliki lebih dari satu makna:

Arti standar dalam software engineering. Yaitu: Seberapa cepat (atau efisien) software ini berjalan?
Makna dalam machine learning. Di sini, performa menjawab pertanyaan berikut: Seberapa benar model ini? Artinya, seberapa baik prediksi model?

kepentingan variabel permutasi

#df

#Metric

Jenis pentingnya variabel yang mengevaluasi peningkatan error prediksi model setelah menukar nilai fitur. Permutation variable importance adalah metrik yang tidak bergantung pada model.

perplexity

#Metric

Salah satu ukuran terkait seberapa baik model menyelesaikan tugasnya. Misalnya, tugas Anda adalah membaca beberapa huruf pertama dari kata yang diketik pengguna di keyboard ponsel, dan menawarkan daftar kemungkinan kata penyelesaian. Perplexity, P, untuk tugas ini adalah perkiraan jumlah tebakan yang perlu Anda tawarkan agar daftar Anda berisi kata sebenarnya yang coba diketik pengguna.

Perpleksitas terkait dengan entropi silang sebagai berikut:

$$P= 2^{-\text{cross entropy}}$$

pipeline

Infrastruktur yang mengelilingi algoritma machine learning. Pipeline mencakup pengumpulan data, memasukkan data ke dalam file data pelatihan, melatih satu atau beberapa model, dan mengekspor model ke produksi.

Lihat pipeline ML dalam kursus Mengelola Project ML untuk mengetahui informasi selengkapnya.

pipeline

#language

Bentuk paralelisme model yang memproses model dibagi menjadi beberapa tahap berturut-turut dan setiap tahap dijalankan di perangkat yang berbeda. Saat suatu tahap memproses satu batch, tahap sebelumnya dapat mengerjakan batch berikutnya.

Lihat juga pelatihan bertahap.

pjit

Fungsi JAX yang membagi kode untuk dijalankan di beberapa chip akselerator. Pengguna meneruskan fungsi ke pjit, yang menampilkan fungsi yang memiliki semantik yang setara, tetapi dikompilasi menjadi komputasi XLA yang berjalan di beberapa perangkat (seperti GPU atau core TPU).

pjit memungkinkan pengguna melakukan shard komputasi tanpa menulis ulang dengan menggunakan partisioner SPMD.

Mulai Maret 2023, pjit telah digabungkan dengan jit. Lihat Array terdistribusi dan paralelisasi otomatis untuk mengetahui detail selengkapnya.

PLM

#language

#generativeAI

Singkatan dari model bahasa terlatih.

pmap

Fungsi JAX yang mengeksekusi salinan fungsi input di beberapa perangkat hardware yang mendasarinya (CPU, GPU, atau TPU), dengan nilai input yang berbeda. pmap bergantung pada SPMD.

kebijakan

#rl

Dalam reinforcement learning, pemetaan probabilistik agen dari status ke tindakan.

penggabungan

#image

Mengurangi satu atau beberapa matriks yang dibuat oleh lapisan konvolusi sebelumnya ke matriks yang lebih kecil. Penggabungan biasanya melibatkan pengambilan nilai maksimum atau rata-rata di seluruh area gabungan. Misalnya, kita memiliki matriks 3x3 berikut:

Matriks 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Operasi penggabungan, seperti operasi konvolusi, membagi matriks tersebut menjadi beberapa potongan, lalu menggeser operasi konvolusi tersebut dengan langkah. Misalnya, operasi penggabungan membagi matriks konvolusi menjadi slice 2x2 dengan langkah 1x1. Seperti yang digambarkan diagram berikut, empat operasi penggabungan terjadi. Bayangkan setiap operasi penggabungan memilih nilai maksimum dari empat nilai dalam slice tersebut:

Penggabungan membantu menerapkan invariansi translasi dalam matriks input.

Pengelompokan untuk aplikasi visi dikenal secara lebih formal sebagai pengelompokan spasial. Aplikasi deret waktu biasanya menyebut penggabungan sebagai penggabungan temporal. Secara tidak resmi, penggabungan sering disebut subsampling atau downsampling.

Lihat Memperkenalkan Convolutional Neural Networks dalam kursus Praktikum ML: Klasifikasi Gambar.

encoding posisi

#language

Teknik untuk menambahkan informasi tentang posisi token dalam urutan ke penyematan token. Model Transformer menggunakan encoding posisi untuk lebih memahami hubungan antara berbagai bagian urutan.

Implementasi umum encoding posisi menggunakan fungsi sinus. (Secara khusus, frekuensi dan amplitudo fungsi sinusoid ditentukan oleh posisi token dalam urutan.) Teknik ini memungkinkan model Transformer mempelajari cara memperhatikan berbagai bagian urutan berdasarkan posisinya.

kelas positif

#fundamentals

#Metric

Class yang Anda uji.

Misalnya, kelas positif dalam model kanker mungkin berupa "tumor". Kelas positif dalam model klasifikasi email dapat berupa "spam".

Berbeda dengan kelas negatif.

Klik ikon untuk melihat catatan tambahan.

Istilah class positif dapat membingungkan karena hasil "positif" dari banyak pengujian sering kali merupakan hasil yang tidak diinginkan. Misalnya, class positif dalam banyak tes medis sesuai dengan tumor atau penyakit. Secara umum, Anda ingin dokter memberi tahu Anda, "Selamat! Hasil tes Anda negatif." Terlepas dari itu, class positif adalah peristiwa yang ingin ditemukan oleh pengujian.

Memang, Anda secara bersamaan menguji class positif dan negatif.

pasca-pemrosesan

#fairness

#fundamentals

Menyesuaikan output model setelah model dijalankan. Pascapemrosesan dapat digunakan untuk menerapkan batasan keadilan tanpa mengubah model itu sendiri.

Misalnya, seseorang dapat menerapkan pascapemrosesan ke klasifikasi biner dengan menetapkan nilai minimum klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa apakah rasio positif sejati sama untuk semua nilai atribut tersebut.

model pasca-pelatihan

#language

#image

#generativeAI

Istilah yang didefinisikan secara longgar yang biasanya mengacu pada model terlatih yang telah melalui beberapa pemrosesan pasca, seperti satu atau beberapa hal berikut:

Distilasi
Penyesuaian
Penyesuaian petunjuk

PR AUC (area di bawah kurva PR)

#Metric

Area di bawah kurva presisi-recall yang diinterpolasi, diperoleh dengan memetakan titik (recall, presisi) untuk berbagai nilai batas klasifikasi.

Praxis

Library ML inti berperforma tinggi dari Pax. Praxis sering kali disebut "Pustaka lapisan".

Praxis tidak hanya berisi definisi untuk class Lapisan, tetapi juga sebagian besar komponen pendukungnya, termasuk:

input data
library konfigurasi (HParam dan Fiddle)
pengoptimal

Praxis menyediakan definisi untuk class Model.

presisi

#Metric

Metrik untuk model klasifikasi yang menjawab pertanyaan berikut:

Saat model memprediksi kelas positif, berapa persentase prediksi yang benar?

Berikut adalah formulanya:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dalam hal ini:

positif benar berarti model dengan benar memprediksi kelas positif.
positif palsu berarti model salah memprediksi kelas positif.

Misalnya, model membuat 200 prediksi positif. Dari 200 prediksi positif ini:

150 adalah positif benar.
50 di antaranya adalah positif palsu.

Dalam hal ini:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Berbeda dengan akurasi dan recall.

Lihat Klasifikasi: Akurasi, recall, presisi, dan metrik terkait di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

presisi pada k (precision@k)

#language

#Metric

Metrik untuk mengevaluasi daftar item yang diberi peringkat (diurutkan). Presisi pada k mengidentifikasi fraksi item k pertama dalam daftar tersebut yang "relevan". Definisinya yaitu:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Nilai k harus kurang dari atau sama dengan panjang daftar yang ditampilkan. Perhatikan bahwa panjang daftar yang ditampilkan bukan bagian dari penghitungan.

Relevansi sering kali bersifat subjektif; bahkan evaluator manusia pakar sering kali tidak setuju tentang item mana yang relevan.

Bandingkan dengan:

presisi rata-rata pada k
presisi rata-rata pada k

Klik ikon untuk melihat contoh.

Misalkan model bahasa besar diberi kueri berikut:

List the 6 funniest movies of all time in order.

Dan model bahasa besar menampilkan daftar yang ditampilkan di dua kolom pertama tabel berikut:

Posisi	Film	Relevan?
1	Jenderal	Ya
2	Mean Girls	Ya
3	Platoon	Tidak
4	Bridesmaids	Ya
5	Citizen Kane	Tidak
6	Ini adalah Spinal Tap	Ya

Dua dari tiga film pertama relevan, sehingga presisi pada 3 adalah:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

Empat dari lima film pertama sangat lucu, sehingga presisi pada 5 adalah:

$$\text{precision at 5} = \frac{\text{4}} {\text{5}} = 0.8$$

kurva presisi-recall

#Metric

Kurva presisi versus recall pada berbagai batas klasifikasi.

prediksi

#fundamentals

Output model. Contoh:

Prediksi model klasifikasi biner adalah class positif atau class negatif.
Prediksi model klasifikasi multi-class adalah satu class.
Prediksi model regresi linear adalah angka.

bias prediksi

#Metric

Nilai yang menunjukkan seberapa jauh rata-rata prediksi dari rata-rata label dalam set data.

Harap bedakan dengan istilah bias dalam model machine learning atau dengan bias dalam etika dan keadilan.

ML prediktif

Sistem machine learning standar ("klasik") apa pun.

Istilah ML prediktif tidak memiliki definisi formal. Sebaliknya, istilah ini membedakan kategori sistem ML yang tidak didasarkan pada AI generatif.

paritas prediktif

#fairness

#Metric

Metrik keadilan yang memeriksa apakah, untuk pengklasifikasi tertentu, rasio presisi setara untuk subgrup yang sedang dipertimbangkan.

Misalnya, model yang memprediksi penerimaan perguruan tinggi akan memenuhi paritas prediktif untuk kewarganegaraan jika rasio presisinya sama untuk Lilliputians dan Brobdingnagians.

Paritas prediktif terkadang juga disebut paritas tarif prediktif.

Lihat "Penjelasan Definisi Keadilan" (bagian 3.2.1) untuk diskusi yang lebih mendetail tentang paritas prediktif.

paritas tarif prediktif

#fairness

#Metric

Nama lain untuk paritas prediktif.

prapemrosesan

#fairness

Memproses data sebelum digunakan untuk melatih model. Prapemrosesan dapat sederhana menghapus kata dari korpus teks bahasa Inggris yang tidak terdapat dalam kamus bahasa Inggris, atau dapat sesederhana mengekspresikan ulang titik data dengan cara yang menghilangkan sebanyak mungkin atribut yang berkorelasi dengan atribut sensitif. Prapemrosesan dapat membantu memenuhi batasan keadilan.

model terlatih

#language

#image

#generativeAI

Biasanya, model yang telah dilatih. Istilah ini juga dapat berarti vektor penyematan yang telah dilatih sebelumnya.

Istilah model bahasa terlatih biasanya mengacu pada model bahasa besar yang telah dilatih.

pra-pelatihan

#language

#image

#generativeAI

Pelatihan awal model pada set data besar. Beberapa model terlatih adalah model besar yang canggung dan biasanya harus ditingkatkan melalui pelatihan tambahan. Misalnya, pakar ML mungkin melakukan pra-pelatihan model bahasa besar pada set data teks yang luas, seperti semua halaman bahasa Inggris di Wikipedia. Setelah pra-pelatihan, model yang dihasilkan dapat lebih ditingkatkan lagi melalui salah satu teknik berikut:

distilasi
penyesuaian
instruction tuning
parameter-efficient tuning
prompt-tuning

keyakinan awal

Hal yang Anda yakini terkait data sebelum Anda mulai melatih data tersebut. Misalnya, regulasi L₂ bergantung pada keyakinan sebelumnya bahwa bobot harus kecil dan umumnya didistribusikan dengan nilai sekitar nol.

model regresi probabilistik

Model regresi yang tidak hanya menggunakan bobot untuk setiap fitur, tetapi juga ketidakpastian bobot tersebut. Model regresi probabilistik menghasilkan prediksi dan ketidakpastian prediksi tersebut. Misalnya, model regresi probabilistik mungkin menghasilkan prediksi 325 dengan deviasi standar 12. Untuk mengetahui informasi selengkapnya tentang model regresi probabilistik, lihat Colab di tensorflow.org ini.

fungsi kepadatan probabilitas

#Metric

Fungsi yang mengidentifikasi frekuensi sampel data yang memiliki nilai tertentu persis. Jika nilai set data adalah bilangan floating point kontinu, kecocokan persis jarang terjadi. Namun, mengintegrasikan fungsi kepadatan probabilitas dari nilai x ke nilai y akan menghasilkan frekuensi sampel data yang diharapkan antara x dan y.

Misalnya, pertimbangkan distribusi normal yang memiliki mean 200 dan deviasi standar 30. Untuk menentukan frekuensi yang diharapkan dari sampel data yang berada dalam rentang 211,4 hingga 218,7, Anda dapat mengintegrasikan fungsi kepadatan probabilitas untuk distribusi normal dari 211,4 hingga 218,7.

perintah

#language

#generativeAI

Setiap teks yang dimasukkan sebagai input ke model bahasa besar untuk mengkondisikan model agar berperilaku dengan cara tertentu. Perintah dapat berupa frasa yang singkat atau panjang secara arbitrer (misalnya, seluruh teks novel). Perintah tercakup dalam beberapa kategori, termasuk yang ditampilkan dalam tabel berikut:

Kategori perintah	Contoh	Catatan
Pertanyaan	`Seberapa cepat merpati dapat terbang?`
Petunjuk	`Tulis puisi lucu tentang arbitrase.`	Perintah yang meminta model bahasa besar untuk melakukan sesuatu.
Contoh	`Menerjemahkan kode Markdown ke HTML. Misalnya: Markdown: * item daftar HTML: <ul> <li>item daftar</li> </ul>`	Kalimat pertama dalam contoh perintah ini adalah petunjuk. Sisa perintah adalah contohnya.
Peran	`Jelaskan alasan penurunan gradien digunakan dalam pelatihan machine learning kepada seorang PhD dalam Fisika.`	Bagian pertama kalimat adalah petunjuk; frasa "ke PhD dalam Fisika" adalah bagian peran.
Input parsial untuk diselesaikan model	`Perdana Menteri Inggris Raya tinggal di`	Perintah input parsial dapat berakhir tiba-tiba (seperti contoh ini) atau diakhiri dengan garis bawah.

Model AI generatif dapat merespons perintah dengan teks, kode, gambar, embedding, video…hampir semuanya.

pembelajaran berbasis perintah

#language

#generativeAI

Kemampuan model tertentu yang memungkinkannya menyesuaikan perilakunya sebagai respons terhadap input teks arbitrer (perintah). Dalam paradigma pembelajaran berbasis perintah umum, model bahasa besar merespons perintah dengan menghasilkan teks. Misalnya, pengguna memasukkan perintah berikut:

Meringkas Hukum Ketiga Newton tentang Gerak.

Model yang mampu melakukan pembelajaran berbasis perintah tidak dilatih secara khusus untuk menjawab perintah sebelumnya. Sebaliknya, model "mengetahui" banyak fakta tentang fisika, banyak tentang aturan bahasa umum, dan banyak tentang apa yang membentuk jawaban yang umumnya berguna. Pengetahuan tersebut cukup untuk memberikan jawaban yang (semoga) berguna. Masukan tambahan dari manusia ("Jawaban itu terlalu rumit" atau "Apa reaksinya?") memungkinkan beberapa sistem pembelajaran berbasis perintah untuk secara bertahap meningkatkan kegunaan jawabannya.

desain perintah

#language

#generativeAI

Sinonim dari rekayasa perintah.

rekayasa perintah

#language

#generativeAI

Seni membuat perintah yang mendapatkan respons yang diinginkan dari model bahasa besar. Manusia melakukan prompt engineering. Menulis dialog yang terstruktur dengan baik adalah bagian penting untuk memastikan respons yang berguna dari model bahasa besar. Rekayasa perintah bergantung pada banyak faktor, termasuk:

Set data yang digunakan untuk prapelatihan dan mungkin penyesuaian model bahasa besar.
Suhu dan parameter decoding lainnya yang digunakan model untuk menghasilkan respons.

Desain perintah adalah sinonim untuk rekayasa perintah.

Lihat Pengantar desain perintah untuk mengetahui detail selengkapnya tentang cara menulis perintah yang bermanfaat.

penyesuaian perintah

#language

#generativeAI

Mekanisme parameter-efficient tuning yang mempelajari "awalan" yang ditambahkan sistem ke perintah yang sebenarnya.

Salah satu variasi penyesuaian perintah—terkadang disebut penyesuaian awalan—adalah menambahkan awalan di setiap lapisan. Sebaliknya, sebagian besar penyesuaian perintah hanya menambahkan awalan ke lapisan input.

Klik ikon untuk mempelajari awalan lebih lanjut.

Untuk penyesuaian perintah, "awalan" (juga dikenal sebagai "perintah lembut") adalah segelintir vektor khusus tugas yang dipelajari dan ditambahkan ke penyematan token teks dari perintah yang sebenarnya. Sistem mempelajari perintah soft dengan membekukan semua parameter model lainnya dan melakukan penyesuaian pada tugas tertentu.

proxy (atribut sensitif)

#fairness

Atribut yang digunakan sebagai pengganti atribut sensitif. Misalnya, kode pos individu dapat digunakan sebagai proxy untuk pendapatan, ras, atau etnisnya.

label proxy

#fundamentals

Data yang digunakan untuk memperkirakan label yang tidak tersedia secara langsung dalam set data.

Misalnya, Anda harus melatih model untuk memprediksi tingkat stres karyawan. Set data Anda berisi banyak fitur prediktif, tetapi tidak berisi label bernama tingkat stres. Anda tidak ragu untuk memilih "kecelakaan di tempat kerja" sebagai label proxy untuk tingkat stres. Lagipula, karyawan yang mengalami stres tinggi lebih sering mengalami kecelakaan daripada karyawan yang tenang. Atau apakah mereka melakukannya? Mungkin kecelakaan di tempat kerja sebenarnya naik dan turun karena beberapa alasan.

Sebagai contoh kedua, misalkan Anda ingin apakah sedang hujan? menjadi label Boolean untuk set data Anda, tetapi set data tersebut tidak berisi data hujan. Jika foto tersedia, Anda mungkin membuat foto orang yang membawa payung sebagai label proxy untuk apakah hujan? Apakah itu label proxy yang baik? Mungkin saja, tetapi orang-orang di beberapa budaya mungkin lebih cenderung membawa payung untuk melindungi dari sinar matahari daripada hujan.

Label proxy sering kali tidak sempurna. Jika memungkinkan, pilih label sebenarnya, bukan label proxy. Namun, jika label sebenarnya tidak ada, pilih label proxy dengan sangat hati-hati, pilih kandidat label proxy yang paling tidak buruk.

Lihat Set Data: Label di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fungsi murni

Fungsi yang output-nya hanya didasarkan pada input-nya, dan tidak memiliki efek samping. Secara khusus, fungsi murni tidak menggunakan atau mengubah status global apa pun, seperti konten file atau nilai variabel di luar fungsi.

Fungsi murni dapat digunakan untuk membuat kode thread-safe, yang bermanfaat saat melakukan sharding kode model di beberapa chip akselerator.

Metode transformasi fungsi JAX mengharuskan fungsi input berupa fungsi murni.

T

Fungsi Q

#rl

Dalam pembelajaran penguatan, fungsi yang memprediksi hasil yang diharapkan dari mengambil tindakan dalam status, lalu mengikuti kebijakan tertentu.

Fungsi Q juga dikenal sebagai fungsi nilai status-tindakan.

Pemelajaran Q

#rl

Dalam reinforcement learning, algoritma yang memungkinkan agen mempelajari fungsi Q optimal dari proses keputusan Markov dengan menerapkan persamaan Bellman. Proses keputusan Markov membuat model lingkungan.

kuantil

Setiap bucket dalam distribusi kuantil.

pengelompokan kuantil

Mendistribusikan nilai fitur ke dalam bucket sehingga setiap bucket berisi jumlah contoh yang sama (atau hampir sama). Misalnya, gambar berikut membagi 44 titik menjadi 4 bucket, yang masing-masing berisi 11 titik. Agar setiap bucket dalam gambar berisi jumlah titik yang sama, beberapa bucket memiliki lebar nilai x yang berbeda.

44 titik data dibagi menjadi 4 bucket yang masing-masing berisi 11 titik.
Meskipun setiap bucket berisi jumlah titik data yang sama, beberapa bucket berisi rentang nilai fitur yang lebih luas daripada bucket lainnya.

Lihat Data numerik: Pengelompokan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kuantisasi

Istilah yang memiliki lebih dari satu makna yang dapat digunakan dengan salah satu cara berikut:

Menerapkan distribusi kuantil pada fitur tertentu.
Mengubah data menjadi nol dan satu untuk penyimpanan, pelatihan, dan inferensi yang lebih cepat. Karena data Boolean lebih tahan terhadap derau dan error daripada format lainnya, kuantisasi dapat meningkatkan akurasi model. Teknik kuantisasi mencakup pembulatan, pemotongan, dan pengelompokan.
Mengurangi jumlah bit yang digunakan untuk menyimpan parameter model. Misalnya, parameter model disimpan sebagai bilangan floating point 32-bit. Kuantifikasi mengonversi parameter tersebut dari 32 bit menjadi 4, 8, atau 16 bit. Kuantifikasi mengurangi hal berikut:
- Penggunaan komputasi, memori, disk, dan jaringan
- Waktu untuk menyimpulkan predikasi
- Konsumsi daya
Namun, kuantisasi terkadang mengurangi ketepatan prediksi model.

antrean

#TensorFlow

Operasi TensorFlow yang menerapkan struktur data antrean. Biasanya digunakan di I/O.

R

RAG

#fundamentals

Singkatan dari retrieval-augmented generation.

hutan acak

#df

Ensemble dari pohon keputusan yang setiap pohon keputusannya dilatih dengan derau acak tertentu, seperti bagging.

Random forest adalah jenis forest keputusan.

Lihat Random Forest di kursus Decision Forests untuk mengetahui informasi selengkapnya.

kebijakan acak

#rl

Dalam pembelajaran penguatan, kebijakan yang memilih tindakan secara acak.

peringkat (ordinalitas)

Posisi ordinal class dalam masalah machine learning yang mengategorikan class dari yang tertinggi ke terendah. Misalnya, sistem peringkat perilaku dapat memberi peringkat pada reward dari yang tertinggi (steak) hingga yang terendah (kangkung layu).

rank (Tensor)

#TensorFlow

Jumlah dimensi dalam Tensor. Misalnya, skalar memiliki peringkat 0, vektor memiliki peringkat 1, dan matriks memiliki peringkat 2.

Jangan sampai tertukar dengan urutan (ordinalitas).

peringkat

Jenis supervised learning yang tujuannya adalah mengurutkan daftar item.

pelabel

#fundamentals

Manusia yang memberikan label untuk contoh. "Anotator" adalah nama lain untuk penilai.

Lihat Data kategoris: Masalah umum di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

recall

#Metric

Metrik untuk model klasifikasi yang menjawab pertanyaan berikut:

Jika kebenaran dasar adalah kelas positif, berapa persentase prediksi yang diidentifikasi model dengan benar sebagai kelas positif?

Berikut adalah formulanya:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dalam hal ini:

positif benar berarti model dengan benar memprediksi kelas positif.
negatif palsu berarti model salah memprediksi kelas negatif.

Misalnya, model Anda membuat 200 prediksi pada contoh yang kebenaran sebenarnya adalah class positif. Dari 200 prediksi ini:

180 adalah positif benar.
20 adalah negatif palsu.

Dalam hal ini:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Klik ikon untuk melihat catatan tentang set data kelas tidak seimbang.

Perolehan sangat berguna untuk menentukan kekuatan prediktif model klasifikasi yang kelas positifnya jarang. Misalnya, pertimbangkan set data dengan ketidakseimbangan kelas yang kelas positifnya untuk penyakit tertentu hanya terjadi pada 10 pasien dari sejuta pasien. Misalkan model Anda membuat lima juta prediksi yang menghasilkan hasil berikut:

30 Positif Benar
20 Negatif Palsu
4.999.000 Negatif Benar
950 Positif Palsu

Oleh karena itu, recall model ini adalah:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Sebaliknya, akurasi model ini adalah:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Nilai akurasi yang tinggi tersebut terlihat mengesankan, tetapi pada dasarnya tidak berarti apa-apa. Recall adalah metrik yang jauh lebih berguna untuk set data kelas tidak seimbang daripada akurasi.

Lihat Klasifikasi: Akurasi, recall, presisi, dan metrik terkait untuk mengetahui informasi selengkapnya.

recall pada k (recall@k)

#language

#Metric

Metrik untuk mengevaluasi sistem yang menghasilkan daftar item yang diberi peringkat (diurutkan). Recall pada k mengidentifikasi fraksi item yang relevan dalam item k pertama dalam daftar tersebut dari total jumlah item relevan yang ditampilkan.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Berbeda dengan presisi pada k.

Klik ikon untuk melihat contoh.

Misalkan model bahasa besar diberi kueri berikut:

List the 10 funniest movies of all time in order.

Dan model bahasa besar menampilkan daftar yang ditampilkan di dua kolom pertama:

Posisi	Film	Relevan?
1	Jenderal	Ya
2	Mean Girls	Ya
3	Platoon	Tidak
4	Bridesmaids	Ya
5	Ini adalah Spinal Tap	Ya
6	Pesawat!	Ya
7	Groundhog Day	Ya
8	Monty Python and the Holy Grail	Ya
9	Oppenheimer	Tidak
10	Tidak tahu apa-apa	Ya

Delapan film dalam daftar sebelumnya sangat lucu, sehingga merupakan "item yang relevan dalam daftar". Oleh karena itu, 8 akan menjadi denominator dalam semua penghitungan recall pada k. Bagaimana dengan pembilangnya? Nah, 3 dari 4 item pertama relevan, jadi recall pada 4 adalah:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 dari 8 film pertama sangat lucu, jadi recall pada 8 adalah:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

sistem rekomendasi

#recsystems

Sistem yang memilih set yang relatif kecil untuk item yang diinginkan dari korpus besar untuk setiap pengguna. Misalnya, sistem rekomendasi video mungkin merekomendasikan dua video dari korpus yang berisi 100.000 video, dengan memilih Casablanca dan The Philadelphia Story untuk satu pengguna, dan Wonder Woman dan Black Panther untuk pengguna lainnya. Sistem rekomendasi video mungkin mendasari rekomendasinya pada faktor-faktor seperti:

Film yang telah diberi rating atau ditonton oleh pengguna serupa.
Genre, sutradara, aktor, target demografi...

Lihat kursus Sistem Rekomendasi untuk mengetahui informasi selengkapnya.

Unit Linear Terarah (ReLU)

#fundamentals

Fungsi aktivasi dengan perilaku berikut:

Jika input negatif atau nol, outputnya adalah 0.
Jika input positif, output akan sama dengan input.

Contoh:

Jika inputnya adalah -3, outputnya adalah 0.
Jika inputnya adalah +3, outputnya adalah 3,0.

Berikut adalah plot ReLU:

ReLU adalah fungsi aktivasi yang sangat populer. Meskipun memiliki perilaku yang sederhana, ReLU tetap memungkinkan jaringan saraf mempelajari hubungan nonlinear antara fitur dan label.

jaringan saraf berulang

#seq

Jaringan neural yang sengaja dijalankan beberapa kali, yang mana bagian dari setiap proses dimasukkan ke proses berikutnya. Secara khusus, lapisan tersembunyi dari operasi sebelumnya memberikan sebagian input ke lapisan tersembunyi yang sama pada operasi berikutnya. Jaringan saraf berulang sangat berguna untuk mengevaluasi urutan, sehingga lapisan tersembunyi dapat belajar dari operasi jaringan saraf sebelumnya pada bagian awal urutan.

Misalnya, gambar berikut menunjukkan jaringan saraf berulang yang berjalan empat kali. Perhatikan bahwa nilai yang dipelajari di lapisan tersembunyi dari eksekusi pertama menjadi bagian dari input ke lapisan tersembunyi yang sama dalam eksekusi kedua. Demikian pula, nilai yang dipelajari di lapisan tersembunyi pada eksekusi kedua menjadi bagian dari input ke lapisan tersembunyi yang sama dalam eksekusi ketiga. Dengan cara ini, jaringan saraf berulang secara bertahap melatih dan memprediksi makna seluruh urutan, bukan hanya makna setiap kata.

RNN yang berjalan empat kali untuk memproses empat kata input.

teks referensi

#language

#generativeAI

Respons pakar terhadap perintah. Misalnya, dengan perintah berikut:

Terjemahkan pertanyaan "Siapa nama Anda?" dari bahasa Inggris ke bahasa Prancis.

Respons pakar mungkin:

Comment vous appelez-vous?

Berbagai metrik (seperti ROUGE) mengukur tingkat kecocokan teks referensi dengan teks yang dihasilkan model ML.

model regresi

#fundamentals

Secara informal, model yang menghasilkan prediksi numerik. (Sebaliknya, model klasifikasi menghasilkan prediksi class.) Misalnya, berikut adalah semua model regresi:

Model yang memprediksi nilai rumah tertentu dalam Euro, seperti 423.000.
Model yang memprediksi harapan hidup pohon tertentu dalam tahun, seperti 23,2.
Model yang memprediksi jumlah hujan dalam inci yang akan turun di kota tertentu selama enam jam ke depan, seperti 0,18.

Dua jenis model regresi yang umum adalah:

Regresi linear, yang menemukan garis yang paling cocok dengan nilai label untuk fitur.
Regresi logistik, yang menghasilkan probabilitas antara 0,0 dan 1,0 yang biasanya dipetakan oleh sistem ke prediksi class.

Tidak semua model yang menghasilkan prediksi numerik adalah model regresi. Dalam beberapa kasus, prediksi numerik sebenarnya hanyalah model klasifikasi yang kebetulan memiliki nama kelas numerik. Misalnya, model yang memprediksi kode pos numerik adalah model klasifikasi, bukan model regresi.

regularisasi

#fundamentals

Setiap mekanisme yang mengurangi overfitting. Jenis regularisasi yang populer meliputi:

Regulasi L₁
Regulasi L₂
regularisasi dropout
penghentian awal (ini bukan metode regularisasi formal, tetapi dapat membatasi overfitting secara efektif)

Regularisasi juga dapat didefinisikan sebagai penalti pada kompleksitas model.

Klik ikon untuk melihat catatan tambahan.

Regularisasi berlawanan dengan intuisi. Meningkatkan regularisasi biasanya meningkatkan loss pelatihan, yang membingungkan karena, bukankah tujuannya adalah meminimalkan loss pelatihan?

Sebenarnya tidak. Tujuannya bukan untuk meminimalkan kerugian pelatihan. Tujuannya adalah membuat prediksi yang sangat baik pada contoh dunia nyata. Hebatnya, meskipun peningkatan regularisasi meningkatkan kerugian pelatihan, hal ini biasanya membantu model membuat prediksi yang lebih baik pada contoh dunia nyata.

Lihat Overfitting: Kompleksitas model di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

derajat regularisasi

#fundamentals

Angka yang menentukan tingkat kepentingan relatif regulasi selama pelatihan. Meningkatkan tingkat regularisasi akan mengurangi overfitting, tetapi dapat mengurangi kemampuan prediktif model. Sebaliknya, mengurangi atau menghapus rasio regularisasi akan meningkatkan overfitting.

Klik ikon untuk melihat matematika.

Rasio regularisasi biasanya direpresentasikan sebagai huruf Yunani lambda. Persamaan loss yang disederhanakan berikut menunjukkan pengaruh lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

dengan regularisasi adalah mekanisme regularisasi apa pun, termasuk;

Regulasi L₁
Regulasi L₂

Lihat Overfitting: Regularisasi L2 di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

reinforcement learning (RL)

#rl

Sekumpulan algoritma yang mempelajari kebijakan yang optimal, yang tujuannya adalah memaksimalkan hasil saat berinteraksi dengan lingkungan. Misalnya, imbalan akhir dari kebanyakan game adalah kemenangan. Sistem pembelajaran berbasis imbalan dapat menjadi pakar dalam bermain game kompleks, dengan mengevaluasi urutan gerakan dari game sebelumnya yang akhirnya mengakibatkan kemenangan dan urutan yang akhirnya mengakibatkan kekalahan.

Reinforcement Learning from Human Feedback (RLHF)

#generativeAI

#rl

Menggunakan masukan dari penilai manual untuk meningkatkan kualitas respons model. Misalnya, mekanisme RLHF dapat meminta pengguna untuk menilai kualitas respons model dengan emoji 👍 atau 👎. Sistem kemudian dapat menyesuaikan responsnya di masa mendatang berdasarkan masukan tersebut.

ReLU

#fundamentals

Singkatan dari Rectified Linear Unit.

replay buffer

#rl

Dalam algoritma seperti DQN, memori yang digunakan oleh agen untuk menyimpan transisi status untuk digunakan dalam reka ulang pengalaman.

replika

Salinan set pelatihan atau model, biasanya di komputer lain. Misalnya, sistem dapat menggunakan strategi berikut untuk menerapkan paralelisme data:

Menempatkan replika model yang ada di beberapa mesin.
Kirim subkumpulan set pelatihan yang berbeda ke setiap replika.
Gabungkan update parameter.

bias pelaporan

#fairness

Fakta bahwa frekuensi orang menulis tentang tindakan, hasil, atau properti bukanlah cerminan frekuensi di dunia nyata atau tingkat properti yang merupakan karakteristik dari suatu kelompok individu. Bias pelaporan dapat memengaruhi komposisi data yang dipelajari oleh sistem machine learning.

Misalnya, dalam buku, kata tertawa lebih umum daripada menghembuskan napas. Model machine learning yang memperkirakan frekuensi relatif tertawa dan bernapas dari korpus buku mungkin akan menentukan bahwa tertawa lebih umum daripada bernapas.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

vektor yang sama

Proses memetakan data ke fitur yang berguna.

pemeringkatan ulang

#recsystems

Tahap akhir dari sistem rekomendasi, yang mana item yang diberi skor dapat dinilai ulang menurut beberapa algoritma (biasanya, non-ML) lainnya. Pemeringkatan ulang mengevaluasi daftar item yang dihasilkan berdasarkan fase penskoran, dengan mengambil tindakan seperti:

Menghapus item yang telah dibeli pengguna.
Menaikkan skor item yang lebih baru.

Lihat Pemberian peringkat ulang dalam kursus Sistem Rekomendasi untuk mengetahui informasi selengkapnya.

retrieval-augmented generation (RAG)

#fundamentals

Teknik untuk meningkatkan kualitas output model bahasa besar (LLM) dengan mendasarkannya pada sumber pengetahuan yang diambil setelah model dilatih. RAG meningkatkan akurasi respons LLM dengan memberikan akses ke informasi yang diambil dari dokumen atau pusat informasi tepercaya kepada LLM yang dilatih.

Motivasi umum untuk menggunakan retrieval-augmented generation meliputi:

Meningkatkan akurasi faktual respons yang dihasilkan model.
Memberi model akses ke pengetahuan yang tidak dilatih.
Mengubah pengetahuan yang digunakan model.
Mengaktifkan model untuk mengutip sumber.

Misalnya, aplikasi kimia menggunakan PaLM API untuk membuat ringkasan terkait kueri pengguna. Saat backend aplikasi menerima kueri, backend akan:

Menelusuri ("mengambil") data yang relevan dengan kueri pengguna.
Menambahkan ("memperkaya") data kimia yang relevan ke kueri pengguna.
Memberi petunjuk kepada LLM untuk membuat ringkasan berdasarkan data yang ditambahkan.

pengembalian

#rl

Dalam reinforcement learning, dengan kebijakan tertentu dan status tertentu, return adalah jumlah dari semua reward yang diharapkan agen untuk menerima saat mengikuti kebijakan dari status hingga akhir episode. Agen mempertimbangkan sifat reward yang diharapkan yang tertunda dengan memberikan diskon reward sesuai dengan transisi status yang diperlukan untuk mendapatkan reward.

Oleh karena itu, jika faktor diskonnya adalah $\gamma$, dan $r_0, \ldots, r_{N}$ menunjukkan reward hingga akhir episode, penghitungan pengembalian adalah sebagai berikut:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

reward

#rl

Dalam reinforcement learning, hasil numerik dari mengambil tindakan dalam status, seperti yang ditentukan oleh lingkungan.

regularisasi batas

Sinonim dari regularisasi ₂. Istilah regularisasi ridge lebih sering digunakan dalam konteks statistika murni, sedangkan regularisasi L₂ lebih sering digunakan dalam machine learning.

RNN

#seq

Singkatan dari jaringan saraf berulang.

Kurva ROC (Karakteristik Operasi Penerima)

#fundamentals

#Metric

Grafik rasio positif benar versus rasio positif palsu untuk berbagai batas klasifikasi dalam klasifikasi biner.

Bentuk kurva ROC menunjukkan kemampuan model klasifikasi biner untuk memisahkan class positif dari class negatif. Misalnya, model klasifikasi biner memisahkan semua class negatif dari semua class positif dengan sempurna:

Garis bilangan dengan 8 contoh positif di sisi kanan dan
7 contoh negatif di sebelah kiri.

Kurva ROC untuk model sebelumnya terlihat seperti berikut:

Kurva ROC. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva memiliki bentuk L terbalik. Kurva
dimulai dari (0,0,0) dan langsung naik ke (0,0,1). Kemudian, kurva
akan berubah dari (0,0,1,0) menjadi (1,0,1,0).

Sebaliknya, ilustrasi berikut memetakan nilai regresi logistik mentah untuk model yang buruk yang sama sekali tidak dapat memisahkan class negatif dari class positif:

Garis bilangan dengan contoh positif dan kelas negatif
yang benar-benar tercampur.

Kurva ROC untuk model ini terlihat seperti berikut:

Kurva ROC, yang sebenarnya adalah garis lurus dari (0,0,0)
ke (1,0,1).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan class positif dan negatif sampai batas tertentu, tetapi biasanya tidak sempurna. Jadi, kurva ROC standar berada di antara dua ekstrem:

Kurva ROC. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva ROC mendekati busur yang goyah
yang melintasi titik kompas dari Barat ke Utara.

Titik pada kurva ROC yang paling dekat dengan (0,0,1,0) secara teori mengidentifikasi nilai minimum klasifikasi yang ideal. Namun, beberapa masalah dunia nyata lainnya memengaruhi pemilihan nilai minimum klasifikasi yang ideal. Misalnya, mungkin negatif palsu menyebabkan masalah yang jauh lebih besar daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva ROC menjadi satu nilai floating point.

perintah peran

#language

#generativeAI

Bagian opsional dari perintah yang mengidentifikasi audiens target untuk respons model AI generatif. Tanpa perintah peran, model bahasa besar memberikan jawaban yang mungkin atau mungkin tidak berguna bagi orang yang mengajukan pertanyaan. Dengan perintah peran, model bahasa besar dapat menjawab dengan cara yang lebih sesuai dan lebih bermanfaat untuk target audiens tertentu. Misalnya, bagian perintah peran dari perintah berikut dicetak tebal:

Ringkas dokumen ini untuk gelar PhD dalam ekonomi.
Jelaskan cara kerja pasang surut untuk anak berusia sepuluh tahun.
Jelaskan krisis keuangan tahun 2008. Bicaralah seperti yang Anda lakukan kepada anak kecil, atau golden retriever.

root

#df

Node awal (kondisi pertama) dalam pohon keputusan. Secara umum, diagram menempatkan root di bagian atas hierarki keputusan. Contoh:

Pohon keputusan dengan dua kondisi dan tiga daun. Kondisi
awal (x > 2) adalah root.

direktori root

#TensorFlow

Direktori yang Anda tentukan untuk menghosting subdirektori file peristiwa dan titik kontrol TensorFlow dari beberapa model.

Error Akar Rataan Kuadrat (RMSE)

#fundamentals

#Metric

Akar kuadrat dari Rataan Kuadrat Galat (RKG).

invariansi rotasional

#image

Dalam masalah klasifikasi gambar, kemampuan algoritma untuk berhasil mengklasifikasikan gambar meskipun orientasi gambar berubah. Misalnya, algoritme tetap dapat mengidentifikasi raket tenis, baik yang mengarah ke atas, ke samping, maupun ke bawah. Perhatikan bahwa invariansi rotasional tidak selalu diinginkan; misalnya, 9 terbalik seharusnya tidak diklasifikasikan sebagai 9.

Lihat juga invariansi translasi dan invariansi ukuran.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language

#Metric

Kumpulan metrik yang mengevaluasi model ringkasan otomatis dan terjemahan mesin. Metrik ROUGE menentukan tingkat tumpang-tindih teks referensi dengan teks yang dihasilkan model ML. Setiap anggota keluarga ROUGE mengukur tumpang-tindih dengan cara yang berbeda. Skor ROUGE yang lebih tinggi menunjukkan kesamaan yang lebih besar antara teks referensi dan teks yang dihasilkan daripada skor ROUGE yang lebih rendah.

Setiap anggota keluarga ROUGE biasanya menghasilkan metrik berikut:

Presisi
Recall
F₁

Untuk mengetahui detail dan contohnya, lihat:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#language

#Metric

Anggota dari keluarga ROUGE berfokus pada panjang suburutan umum terpanjang dalam teks referensi dan teks yang dihasilkan. Rumus berikut menghitung recall dan presisi untuk ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Kemudian, Anda dapat menggunakan F₁ untuk menggabungkan recall ROUGE-L dan presisi ROUGE-L menjadi satu metrik:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Klik ikon untuk melihat contoh penghitungan ROUGE-L.

Pertimbangkan teks referensi dan teks yang dihasilkan berikut.

Kategori	Siapa yang memproduksi?	Teks
Teks referensi	Penerjemah manusia	Saya ingin memahami berbagai hal.
Teks yang dihasilkan	Model ML	Saya ingin mempelajari banyak hal.

Oleh karena itu:

Suburutan umum terpanjang adalah 5 (I want to of things)
Jumlah kata dalam teks referensi adalah 9.
Jumlah kata dalam teks yang dihasilkan adalah 7.

Akibatnya:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L mengabaikan baris baru dalam teks referensi dan teks yang dihasilkan, sehingga suburutan umum terpanjang dapat melintasi beberapa kalimat. Jika teks referensi dan teks yang dihasilkan melibatkan beberapa kalimat, variasi ROUGE-L yang disebut ROUGE-Lsum umumnya merupakan metrik yang lebih baik. ROUGE-Lsum menentukan suburutan umum terpanjang untuk setiap kalimat dalam sebuah bagian, lalu menghitung rata-rata suburutan umum terpanjang tersebut.

Klik ikon untuk melihat contoh penghitungan ROUGE-Lsum.

Pertimbangkan teks referensi dan teks yang dihasilkan berikut.

Kategori	Siapa yang memproduksi?	Teks
Teks referensi	Penerjemah manusia	Permukaan Mars kering. Hampir semua air berada jauh di bawah tanah.
Teks yang dihasilkan	Model ML	Mars memiliki permukaan yang kering. Namun, sebagian besar air berada di bawah tanah.

Jadi:

	Kalimat pertama	Kalimat kedua
Urutan umum terpanjang	2 (Mars dry)	3 (air berada di bawah tanah)
Panjang kalimat teks referensi	6	7
Panjang kalimat teks yang dihasilkan	5	8

Akibatnya:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#language

#Metric

Kumpulan metrik dalam keluarga ROUGE yang membandingkan N-gram bersama dengan ukuran tertentu dalam teks referensi dan teks yang dihasilkan. Contoh:

ROUGE-1 mengukur jumlah token yang dibagikan dalam teks referensi dan teks yang dihasilkan.
ROUGE-2 mengukur jumlah bigram (2-gram) bersama dalam teks referensi dan teks yang dihasilkan.
ROUGE-3 mengukur jumlah trigram (3-gram) bersama dalam teks referensi dan teks yang dihasilkan.

Anda dapat menggunakan formula berikut untuk menghitung recall ROUGE-N dan presisi ROUGE-N untuk setiap anggota keluarga ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Kemudian, Anda dapat menggunakan F₁ untuk menggabungkan recall ROUGE-N dan presisi ROUGE-N menjadi satu metrik:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Klik ikon untuk melihat contoh.

Misalkan Anda memutuskan untuk menggunakan ROUGE-2 untuk mengukur efektivitas terjemahan model ML dibandingkan dengan terjemahan penerjemah manusia.

Kategori	Siapa yang memproduksi?	Teks	Bigram
Teks referensi	Penerjemah manusia	Saya ingin memahami berbagai hal.	Saya ingin, ingin, untuk memahami, memahami, berbagai, berbagai macam, ragam hal
Teks yang dihasilkan	Model ML	Saya ingin mempelajari banyak hal.	Saya ingin, ingin, untuk belajar, belajar banyak, banyak, hal

Oleh karena itu:

Jumlah 2-gram yang cocok adalah 3 (I want, want to, dan of things).
Jumlah 2-gram dalam teks referensi adalah 8.
Jumlah 2-gram dalam teks yang dihasilkan adalah 6.

Akibatnya:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#language

#Metric

Bentuk ROUGE-N yang toleran yang memungkinkan pencocokan skip-gram. Artinya, ROUGE-N hanya menghitung N-gram yang cocok persis, tetapi ROUGE-S juga menghitung N-gram yang dipisahkan oleh satu atau beberapa kata. Misalnya, perhatikan kode berikut:

reference text: Awan putih
generated text: Awan putih yang membumbung

Saat menghitung ROUGE-N, 2-gram, Awan putih tidak cocok dengan Awan putih yang membumbung. Namun, saat menghitung ROUGE-S, Awan putih cocok dengan Awan putih yang membumbung.

R-persegi

#Metric

Metrik regresi yang menunjukkan jumlah variasi dalam label yang disebabkan oleh setiap fitur atau kumpulan fitur. R-kuadrat adalah nilai antara 0 dan 1, yang dapat Anda tafsirkan sebagai berikut:

R-kuadrat 0 berarti tidak ada variasi label yang disebabkan oleh kumpulan fitur.
R-kuadrat 1 berarti semua variasi label disebabkan oleh kumpulan fitur.
R-kuadrat antara 0 dan 1 menunjukkan sejauh mana variasi label dapat diprediksi dari fitur tertentu atau kumpulan fitur. Misalnya, R-kuadrat 0,10 berarti bahwa 10 persen varian dalam label disebabkan oleh kumpulan fitur, R-kuadrat 0,20 berarti bahwa 20 persen disebabkan oleh kumpulan fitur, dan seterusnya.

R-kuadrat adalah kuadrat dari koefisien korelasi Pearson antara nilai yang diprediksi model dan kebenaran dasar.

S

bias sampling

#fairness

Lihat bias seleksi.

sampling dengan penggantian

#df

Metode memilih item dari kumpulan item kandidat tempat item yang sama dapat dipilih beberapa kali. Frasa "dengan penggantian" berarti setelah setiap pilihan, item yang dipilih akan dikembalikan ke kumpulan item kandidat. Metode invers, sampling tanpa penggantian, berarti item kandidat hanya dapat dipilih satu kali.

Misalnya, pertimbangkan kumpulan buah berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Misalkan sistem memilih fig secara acak sebagai item pertama. Jika menggunakan sampling dengan penggantian, sistem akan memilih item kedua dari kumpulan berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ya, set ini sama seperti sebelumnya, sehingga sistem berpotensi memilih fig lagi.

Jika menggunakan sampling tanpa penggantian, setelah dipilih, sampel tidak dapat dipilih lagi. Misalnya, jika sistem memilih fig secara acak sebagai contoh pertama, fig tidak dapat dipilih lagi. Oleh karena itu, sistem memilih sampel kedua dari kumpulan (dikurangi) berikut:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Klik ikon untuk melihat catatan tambahan.

Kata penggantian dalam sampling dengan penggantian membingungkan banyak orang. Dalam bahasa Inggris, replacement berarti "penggantian". Namun, sampling dengan penggantian sebenarnya menggunakan definisi bahasa Prancis untuk penggantian, yang berarti "menempatkan kembali sesuatu".

Kata bahasa Inggris replacement diterjemahkan sebagai kata bahasa Prancis remplacement.

SavedModel

#TensorFlow

Format yang direkomendasikan untuk menyimpan dan memulihkan model TensorFlow. SavedModel adalah format serialisasi yang dapat dipulihkan dengan bahasa netral, yang memungkinkan sistem dan fitur berlevel tinggi untuk memproduksi, mengonsumsi, dan mengubah model TensorFlow.

Lihat bagian Menyimpan dan Memulihkan di Panduan Pemrogram TensorFlow untuk mengetahui detail selengkapnya.

Hemat

#TensorFlow

Objek TensorFlow yang bertanggung jawab untuk menyimpan titik pemeriksaan model.

skalar

Satu angka atau satu string yang dapat direpresentasikan sebagai tensor dengan rank 0. Misalnya, baris kode berikut masing-masing membuat satu skalar di TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

penskalaan

Setiap transformasi atau teknik matematika yang menggeser rentang label, nilai fitur, atau keduanya. Beberapa bentuk penskalaan sangat berguna untuk transformasi seperti normalisasi.

Bentuk penskalaan umum yang berguna dalam Machine Learning meliputi:

penskalaan linear, yang biasanya menggunakan kombinasi pengurangan dan pembagian untuk mengganti nilai asli dengan angka antara -1 dan +1 atau antara 0 dan 1.
penskalaan logaritmik, yang mengganti nilai asli dengan logaritmanya.
Normalisasi skor z, yang mengganti nilai asli dengan nilai floating point yang mewakili jumlah deviasi standar dari rata-rata fitur tersebut.

scikit-learn

Platform machine learning open source yang populer. Lihat scikit-learn.org.

penskoran

#recsystems

#Metric

Bagian dari sistem rekomendasi yang memberikan nilai atau peringkat untuk setiap item yang dihasilkan oleh fase pemilihan kandidat.

bias seleksi

#fairness

Error dalam kesimpulan yang diambil dari data sampel karena proses pemilihan yang menghasilkan perbedaan sistematis antara sampel yang diamati dalam data dan yang tidak diamati. Berikut ini beberapa bentuk bias seleksi:

bias cakupan: Populasi yang direpresentasikan dalam set data tidak sesuai dengan populasi yang digunakan model machine learning untuk membuat prediksi.
bias sampling: Data tidak dikumpulkan secara acak dari grup target.
bias non-respons (juga disebut bias partisipasi): Pengguna dari grup tertentu memilih untuk tidak mengikuti survei dengan tingkat yang berbeda dari pengguna dari grup lain.

Misalnya, Anda membuat model machine learning yang memprediksi kesenangan orang terhadap film. Untuk mengumpulkan data pelatihan, Anda membagikan survei kepada semua orang di barisan depan teater yang menayangkan film. Secara spontan, hal ini mungkin terdengar seperti cara yang wajar untuk mengumpulkan set data; namun, bentuk pengumpulan data semacam ini dapat memperkenalkan bentuk-bentuk bias seleksi berikut:

bias cakupan: Dengan mengambil sampel dari populasi yang memilih untuk menonton film, prediksi model Anda tidak dapat digeneralisasikan kepada orang-orang yang belum mengekspresikan minat terhadap film tersebut.
bias sampling: Daripada mengambil sampel secara acak dari populasi yang diinginkan (semua orang di bioskop), Anda hanya mengambil sampel orang-orang di barisan depan. Mungkin saja orang-orang yang duduk di baris depan lebih tertarik dengan film daripada orang-orang di baris lain.
bias non-respons: Secara umum, orang dengan pendapat yang kuat cenderung lebih sering merespons survei opsional daripada orang dengan pendapat yang lemah. Karena survei film bersifat opsional, respons lebih cenderung membentuk distribusi bimodal daripada distribusi normal (berbentuk lonceng).

self-attention (juga disebut lapisan self-attention)

#language

Lapisan jaringan neural yang mengubah urutan embedding (misalnya, embedding token) menjadi urutan embedding lain. Setiap penyematan dalam urutan output dibuat dengan mengintegrasikan informasi dari elemen urutan input melalui mekanisme perhatian.

Bagian self dari self-attention mengacu pada urutan yang memperhatikan dirinya sendiri, bukan konteks lainnya. Self-attention adalah salah satu blok utama untuk Transformer dan menggunakan terminologi pencarian kamus, seperti "kueri", "kunci", dan "nilai".

Lapisan self-attention dimulai dengan urutan representasi input, satu untuk setiap kata. Representasi input untuk kata dapat berupa penyematan sederhana. Untuk setiap kata dalam urutan input, jaringan akan menilai relevansi kata dengan setiap elemen dalam seluruh urutan kata. Skor relevansi menentukan seberapa banyak representasi akhir kata menggabungkan representasi kata lain.

Misalnya, pertimbangkan kalimat berikut:

Hewan itu tidak menyeberang jalan karena terlalu lelah.

Ilustrasi berikut (dari Transformer: A Novel Neural Network Architecture for Language Understanding) menunjukkan pola perhatian lapisan perhatian mandiri untuk kata ganti it, dengan keterangkasan setiap baris menunjukkan seberapa banyak setiap kata berkontribusi pada representasi:

Kalimat berikut muncul dua kali: Hewan tidak menyeberang jalan
karena terlalu lelah. Baris menghubungkan kata ganti it dalam
satu kalimat ke lima token (The, animal, street, it, dan
the period) dalam kalimat lain. Garis antara kata ganti it
dan kata animal paling kuat.

Lapisan self-attention menandai kata-kata yang relevan dengan "it". Dalam hal ini, lapisan perhatian telah belajar untuk menandai kata yang mungkin dirujuk oleh lapisan perhatian, dengan menetapkan bobot tertinggi ke hewan.

Untuk urutan token n, perhatian mandiri mengubah urutan penyematan n secara terpisah, satu kali di setiap posisi dalam urutan.

Lihat juga perhatian dan perhatian mandiri multi-head.

pembelajaran yang diawasi secara mandiri

Serangkaian teknik untuk mengonversi masalah machine learning tidak terpantau menjadi masalah machine learning terpantau dengan membuat label pengganti dari contoh tanpa label.

Beberapa model berbasis Transformer seperti BERT menggunakan pemelajaran dengan pengawasan mandiri.

Pelatihan mandiri adalah pendekatan semi-supervised learning.

pelatihan mandiri

Varian pembelajaran dengan pengawasan mandiri yang sangat berguna jika semua kondisi berikut terpenuhi:

Rasio contoh tanpa label terhadap contoh berlabel dalam set data tinggi.
Ini adalah masalah klasifikasi.

Pelatihan mandiri berfungsi dengan melakukan iterasi pada dua langkah berikut hingga model berhenti meningkat:

Gunakan machine learning dengan pengawasan untuk melatih model pada contoh berlabel.
Gunakan model yang dibuat pada Langkah 1 untuk membuat prediksi (label) pada contoh yang tidak berlabel, dengan memindahkan contoh yang memiliki keyakinan tinggi ke contoh berlabel dengan label yang diprediksi.

Perhatikan bahwa setiap iterasi Langkah 2 menambahkan lebih banyak contoh berlabel untuk dilatih oleh Langkah 1.

semi-supervised learning

Melatih model pada data yang beberapa contoh pelatihannya memiliki label, tetapi contoh lainnya tidak. Salah satu teknik untuk semi-supervised learning adalah menyimpulkan label untuk contoh yang tidak berlabel, lalu melatih label yang disimpulkan untuk membuat model baru. Semi-supervised learning dapat berguna jika label sulit diperoleh, tetapi contoh yang tidak berlabel berlimpah.

Pelatihan mandiri adalah salah satu teknik untuk semi-supervised learning.

atribut sensitif

#fairness

Atribut manusia yang dapat diberi pertimbangan khusus karena alasan hukum, etika, sosial, atau personal.

analisis sentimen

#language

Menggunakan algoritma statistik atau machine learning untuk menentukan sikap keseluruhan grup—positif atau negatif—terhadap layanan, produk, organisasi, atau topik. Misalnya, menggunakan natural language understanding, algoritma dapat melakukan analisis sentimen terkait masukan tekstual dari mata kuliah universitas untuk menentukan sejauh mana mahasiswa umumnya menyukai atau tidak menyukai mata kuliah tersebut.

Lihat panduan Klasifikasi teks untuk mengetahui informasi selengkapnya.

model urutan

#seq

Model yang inputnya memiliki dependensi berurutan. Misalnya, memprediksi video berikutnya yang ditonton dari urutan video yang ditonton sebelumnya.

tugas urutan ke urutan

#language

Tugas yang mengonversi urutan input token menjadi urutan token output. Misalnya, dua jenis tugas urutan ke urutan yang populer adalah:

Penerjemah:
- Contoh urutan input: "Aku cinta kamu".
- Contoh urutan output: "Je t'aime".
Penjawaban pertanyaan:
- Contoh urutan input: "Apakah saya memerlukan mobil di New York City?"
- Contoh urutan output: "Tidak. Biarkan mobil Anda di rumah."

porsi

Proses penyediaan model terlatih untuk memberikan prediksi melalui inferensi online atau inferensi offline.

shape (Tensor)

Jumlah elemen dalam setiap dimensi tensor. Bentuk direpresentasikan sebagai daftar bilangan bulat. Misalnya, tensor dua dimensi berikut memiliki bentuk [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow menggunakan format baris utama (gaya C) untuk merepresentasikan urutan dimensi, itulah sebabnya bentuk di TensorFlow adalah [3,4], bukan [4,3]. Dengan kata lain, dalam Tensor TensorFlow dua dimensi, bentuknya adalah [jumlah baris, jumlah kolom].

Bentuk statis adalah bentuk tensor yang diketahui pada waktu kompilasi.

Bentuk dinamis tidak diketahui pada waktu kompilasi dan karenanya bergantung pada data runtime. Tensor ini mungkin direpresentasikan dengan dimensi placeholder di TensorFlow, seperti dalam [3, ?].

shard

#TensorFlow

#GoogleCloud

Pembagian logis dari set pelatihan atau model. Biasanya, beberapa proses membuat shard dengan membagi contoh atau parameter menjadi (biasanya) bagian berukuran sama. Setiap shard kemudian ditetapkan ke mesin yang berbeda.

Pembagian model disebut paralelisme model; pembagian data disebut paralelisme data.

penyusutan

#df

Hyperparameter dalam gradient boosting yang mengontrol overfitting. Pengecilan dalam boosting gradien analog dengan kecepatan pembelajaran dalam penurunan gradien. Penyusutan adalah nilai desimal antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah mengurangi overfitting lebih dari nilai penyusutan yang lebih besar.

fungsi sigmoid

#fundamentals

Fungsi matematika yang "memampatkan" nilai input ke dalam rentang yang dibatasi, biasanya 0 hingga 1 atau -1 hingga +1. Artinya, Anda dapat meneruskan angka apa pun (dua, satu juta, miliar negatif, apa pun) ke sigmoid dan outputnya akan tetap berada dalam rentang yang dibatasi. Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Fungsi sigmoid memiliki beberapa kegunaan dalam machine learning, termasuk:

Mengonversi output mentah dari model regresi logistik atau regresi multinomial menjadi probabilitas.
Berfungsi sebagai fungsi aktivasi di beberapa jaringan saraf.

Klik ikon untuk melihat matematika.

Fungsi sigmoid pada angka input x memiliki formula berikut:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Dalam machine learning, x umumnya merupakan jumlah berbobot.

ukuran kesamaan

#clustering

#Metric

Dalam algoritma pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip (seberapa serupa) dua contoh yang diberikan.

satu program / beberapa data (SPMD)

Teknik paralelisme saat komputasi yang sama dijalankan pada data input yang berbeda secara paralel di perangkat yang berbeda. Sasaran SPMD adalah mendapatkan hasil dengan lebih cepat. Ini adalah gaya pemrograman paralel yang paling umum.

invariansi ukuran

#image

Dalam masalah klasifikasi gambar, kemampuan algoritma untuk berhasil mengklasifikasikan gambar meskipun ukuran gambar berubah. Misalnya, algoritme tetap dapat mengidentifikasi kucing, baik yang menggunakan 2 juta piksel maupun 200 ribu piksel. Perhatikan bahwa bahkan algoritma klasifikasi gambar terbaik masih memiliki batas praktis pada invarian ukuran. Misalnya, algoritme (atau manusia) tidak mungkin mengklasifikasikan gambar kucing yang hanya menggunakan 20 piksel dengan benar.

Lihat juga invariansi translasi dan invariansi rotasi.

Lihat Materi Clustering untuk mengetahui informasi selengkapnya.

sketching

#clustering

Dalam unsupervised machine learning, kategori algoritma yang melakukan analisis kesamaan awal pada contoh. Algoritme sketching menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi titik-titik yang mungkin mirip, lalu mengelompokkannya ke dalam bucket.

Sketching mengurangi komputasi yang diperlukan untuk penghitungan kesamaan pada set data besar. Bukannya menghitung kesamaan untuk setiap pasangan contoh dalam set data, kita menghitung kesamaan hanya untuk setiap pasangan titik dalam setiap bucket.

skip-gram

#language

N-gram yang dapat menghilangkan (atau "melewati") kata dari konteks asli, yang berarti kata N mungkin awalnya tidak berdekatan. Lebih tepatnya, "k-skip-n-gram" adalah n-gram yang mungkin telah mengabaikan hingga k kata.

Misalnya, "the quick brown fox" memiliki kemungkinan 2-gram berikut:

"the quick"
"quick brown"
"brown fox"

"1-skip-2-gram" adalah sepasang kata yang memiliki maksimal 1 kata di antaranya. Oleh karena itu, "the quick brown fox" memiliki 2-gram 1-lewati berikut:

"the brown"
"quick fox"

Selain itu, semua 2-gram juga merupakan 1-skip-2-gram, karena kurang dari satu kata dapat dilewati.

Skip-gram berguna untuk lebih memahami konteks di sekitar kata. Dalam contoh, "fox" dikaitkan langsung dengan "quick" dalam kumpulan 1-skip-2-gram, tetapi tidak dalam kumpulan 2-gram.

Skip-gram membantu melatih model embedding kata.

softmax

#fundamentals

Fungsi yang menentukan probabilitas untuk setiap kemungkinan class dalam model klasifikasi multi-class. Probabilitasnya berjumlah persis 1,0. Misalnya, tabel berikut menunjukkan cara softmax mendistribusikan berbagai probabilitas:

Gambar adalah...	Probability
anjing	0,85
kucing	.13
kuda	.02

Softmax juga disebut softmax penuh.

Berbeda dengan sampling kandidat.

Klik ikon untuk melihat matematika.

Persamaan softmax adalah sebagai berikut:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

dengan:

$\sigma_i$ adalah vektor output. Setiap elemen vektor output menentukan probabilitas elemen ini. Jumlah semua elemen dalam vektor output adalah 1,0. Vektor output berisi jumlah elemen yang sama dengan vektor input, $z$.
$z$ adalah vektor input. Setiap elemen vektor input berisi nilai floating point.
$K$ adalah jumlah elemen dalam vektor input (dan vektor output).

Misalnya, anggap vektor input adalah:

[1.2, 2.5, 1.8]

Oleh karena itu, softmax menghitung penyebut sebagai berikut:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Oleh karena itu, probabilitas softmax dari setiap elemen adalah:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Jadi, vektor outputnya adalah:

$$\sigma = [0.154, 0.565, 0.281]$$

Jumlah tiga elemen dalam $\sigma$ adalah 1,0. Fiuh!

Lihat Jaringan neural: Klasifikasi multi-class di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

penyesuaian perintah lunak

#language

#generativeAI

Teknik untuk menyesuaikan model bahasa besar untuk tugas tertentu, tanpa penyesuaian terperinci yang membutuhkan banyak resource. Daripada melatih ulang semua bobot dalam model, penyesuaian perintah lunak otomatis menyesuaikan perintah untuk mencapai sasaran yang sama.

Dengan perintah tekstual, penyesuaian perintah lunak biasanya menambahkan penyematan token tambahan ke perintah dan menggunakan backpropagation untuk mengoptimalkan input.

Perintah "hard" berisi token sebenarnya, bukan penyematan token.

fitur renggang

#language

#fundamentals

Fitur yang sebagian besar nilainya nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 bersifat renggang. Sebaliknya, fitur padat memiliki nilai yang sebagian besar bukan nol atau kosong.

Dalam machine learning, banyak fitur yang merupakan fitur jarang. Fitur kategoris biasanya merupakan fitur yang jarang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan video yang mungkin ada di koleksi video, satu contoh mungkin hanya mengidentifikasi "Casablanca".

Dalam model, Anda biasanya merepresentasikan fitur jarang dengan enkode one-hot. Jika enkode one-hot berukuran besar, Anda dapat menempatkan lapisan penyematan di atas enkode one-hot untuk efisiensi yang lebih besar.

representasi renggang

#language

#fundamentals

Hanya menyimpan posisi elemen non-nol dalam fitur jarang.

Misalnya, fitur kategoris bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Selanjutnya, asumsikan bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk merepresentasikan spesies pohon dalam setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0 (untuk mewakili 35 spesies pohon yang tidak ada dalam contoh tersebut). Jadi, representasi one-hot maple mungkin terlihat seperti berikut:

Vektor dengan posisi 0 hingga 23 menyimpan nilai 0, posisi
24 menyimpan nilai 1, dan posisi 25 hingga 35 menyimpan nilai 0.

Atau, representasi jarang hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada di posisi 24, representasi jarang maple akan menjadi:

Perhatikan bahwa representasi jarang jauh lebih ringkas daripada representasi one-hot.

Klik ikon untuk melihat contoh yang sedikit lebih kompleks.

Misalnya, setiap contoh dalam model Anda harus mewakili kata-kata—tetapi bukan urutan kata-kata tersebut—dalam kalimat bahasa Inggris. Bahasa Inggris terdiri dari sekitar 170.000 kata, sehingga bahasa Inggris adalah fitur kategoris dengan sekitar 170.000 elemen. Sebagian besar kalimat bahasa Inggris menggunakan sebagian kecil dari 170.000 kata tersebut, sehingga kumpulan kata dalam satu contoh hampir pasti akan menjadi data yang jarang.

Pertimbangkan kalimat berikut:

My dog is a great dog

Anda dapat menggunakan varian vektor one-hot untuk merepresentasikan kata-kata dalam kalimat ini. Dalam varian ini, beberapa sel dalam vektor dapat berisi nilai non-nol. Selain itu, dalam varian ini, sel dapat berisi bilangan bulat selain satu. Meskipun kata "my", "is", "a", dan "great" hanya muncul satu kali dalam kalimat, kata "dog" muncul dua kali. Menggunakan varian vektor one-hot ini untuk merepresentasikan kata-kata dalam kalimat ini akan menghasilkan vektor 170.000 elemen berikut:

Representasi jarang dari kalimat yang sama adalah:

Klik ikon tersebut jika Anda bingung.

Istilah "representasi jarang" membingungkan banyak orang karena representasi jarang itu sendiri bukan vektor jarang. Sebaliknya, representasi renggang sebenarnya adalah representasi padat dari vektor renggang. Sinonim representasi indeks sedikit lebih jelas daripada "representasi jarang".

Lihat Bekerja dengan data kategoris di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

vektor renggang

#fundamentals

Vektor yang sebagian besar nilainya adalah nol. Lihat juga fitur renggang dan renggang.

ketersebaran

#Metric

Jumlah elemen yang ditetapkan ke nol (atau null) dalam vektor atau matriks dibagi dengan jumlah total entri dalam vektor atau matriks tersebut. Misalnya, pertimbangkan matriks 100 elemen yang 98 selnya berisi nol. Penghitungan kepadatan adalah sebagai berikut:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Kesenjangan fitur mengacu pada kesenjangan vektor fitur; kesenjangan model mengacu pada kesenjangan bobot model.

penggabungan spasial

#image

Lihat penggabungan.

bagian

#df

Dalam pohon keputusan, nama lain untuk kondisi.

pemisah

#df

Saat melatih pohon keputusan, rutinitas (dan algoritma) yang bertanggung jawab untuk menemukan kondisi terbaik di setiap node.

SPMD

Singkatan dari single program / multiple data.

kerugian engsel kuadrat

#Metric

Kuadrat dari kerugian engsel. Kerugian engsel kuadrat menghukum pencilan lebih keras daripada kerugian engsel biasa.

kerugian kuadrat

#fundamentals

#Metric

Sinonim dari Kerugian ₂.

pelatihan bertahap

#language

Taktik pelatihan model dalam urutan tahap terpisah. Sasarannya dapat mempercepat proses pelatihan, atau untuk mencapai kualitas model yang lebih baik.

Ilustrasi pendekatan penumpukan progresif ditampilkan di bawah ini:

Tahap 1 berisi 3 lapisan tersembunyi, tahap 2 berisi 6 lapisan tersembunyi, dan tahap 3 berisi 12 lapisan tersembunyi.
Tahap 2 memulai pelatihan dengan bobot yang dipelajari di 3 lapisan tersembunyi Tahap 1. Tahap 3 memulai pelatihan dengan bobot yang dipelajari di 6 lapisan tersembunyi Tahap 2.

Tiga tahap, yang diberi label Tahap 1, Tahap 2, dan Tahap 3.
Setiap tahap berisi jumlah lapisan yang berbeda: Tahap 1 berisi
3 lapisan, Tahap 2 berisi 6 lapisan, dan Tahap 3 berisi 12 lapisan.
3 lapisan dari Tahap 1 menjadi 3 lapisan pertama Tahap 2.
Demikian pula, 6 lapisan dari Tahap 2 menjadi 6 lapisan pertama
Tahap 3.

Lihat juga pipeline.

dengan status tersembunyi akhir

#rl

Dalam reinforcement learning, parameter value yang menjelaskan konfigurasi lingkungan saat ini, yang digunakan agen untuk memilih tindakan.

fungsi nilai status-tindakan

#rl

Sinonim dari fungsi Q.

static

#fundamentals

Sesuatu yang dilakukan satu kali, bukan secara terus-menerus. Istilah statis dan offline adalah sinonim. Berikut adalah penggunaan umum statis dan offline dalam pemelajaran mesin:

Model statis (atau model offline) adalah model yang dilatih satu kali, lalu digunakan untuk sementara waktu.
Pelatihan statis (atau pelatihan offline) adalah proses pelatihan model statis.
inferensi statis (atau inferensi offline) adalah proses saat model menghasilkan batch prediksi sekaligus.

Berbeda dengan dinamis.

inferensi statis

#fundamentals

Sinonim dari inferensi offline.

stasioneritas

#fundamentals

Fitur yang nilainya tidak berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, fitur yang nilainya terlihat hampir sama pada tahun 2021 dan 2023 menunjukkan stationaritas.

Di dunia nyata, sangat sedikit fitur yang menunjukkan stationaritas. Bahkan fitur yang identik dengan stabilitas (seperti permukaan laut) berubah seiring waktu.

Berbeda dengan non-stabilitas.

langkah

Penerusan maju dan penerusan mundur dari satu batch.

Lihat backpropagation untuk mengetahui informasi selengkapnya tentang forward pass dan backward pass.

ukuran langkah

Sinonim dari learning rate.

penurunan gradien stokastik (SGD)

#fundamentals

Algoritme penurunan gradien yang mana ukuran batch adalah satu. Dengan kata lain, SGD dilatih pada satu contoh yang dipilih secara seragam dan acak dari set pelatihan.

Lihat Regresi linear: Hiperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

langkah

#image

Dalam operasi konvolusi atau penggabungan, delta di setiap dimensi rangkaian berikutnya dari slice input. Misalnya, animasi berikut menunjukkan langkah (1,1) selama operasi konvolusi. Oleh karena itu, slice input berikutnya dimulai satu posisi di sebelah kanan slice input sebelumnya. Saat operasi mencapai tepi kanan, slice berikutnya akan berada di sebelah kiri, tetapi satu posisi ke bawah.

Contoh sebelumnya menunjukkan langkah dua dimensi. Jika matriks input tiga dimensi, stride juga akan tiga dimensi.

minimalisasi risiko struktural (SRM)

Algoritme yang menyeimbangkan dua sasaran:

Kebutuhan untuk membuat model yang paling prediktif (misalnya, kerugian terendah).
Kebutuhan untuk menjaga model sesederhana mungkin (misalnya, regularisasi yang kuat).

Misalnya, fungsi yang meminimalkan kerugian+regularisasi pada set pelatihan adalah algoritme minimalisasi risiko struktural.

Berbeda dengan minimalisasi risiko empiris.

subsampling

#image

Lihat penggabungan.

token subword

#language

Dalam model bahasa, token adalah substring kata, yang mungkin merupakan seluruh kata.

Misalnya, kata seperti "itemize" dapat dibagi menjadi bagian-bagian "item" (kata dasar) dan "ize" (akhiran), yang masing-masing diwakili oleh tokennya sendiri. Membagi kata yang tidak umum menjadi bagian-bagian seperti itu, yang disebut subword, memungkinkan model bahasa beroperasi pada bagian penyusun kata yang lebih umum, seperti awalan dan akhiran.

Sebaliknya, kata umum seperti "going" mungkin tidak dipecah dan mungkin diwakili oleh satu token.

ringkasan

#TensorFlow

Di TensorFlow, nilai atau kumpulan nilai yang dihitung pada langkah tertentu, biasanya digunakan untuk melacak metrik model selama pelatihan.

supervised machine learning

#fundamentals

Melatih model dari fitur dan label yang sesuai. Supervised machine learning dianalogikan dengan mempelajari subjek dengan mempelajari serangkaian pertanyaan dan jawabannya yang sesuai. Setelah menguasai pemetaan antara pertanyaan dan jawaban, siswa dapat memberikan jawaban untuk pertanyaan baru (belum pernah dilihat) tentang topik yang sama.

Bandingkan dengan unsupervised machine learning.

Lihat Pembelajaran dengan Pengawasan dalam kursus Pengantar ML untuk mengetahui informasi selengkapnya.

fitur sintetis

#fundamentals

Fitur yang tidak ada di antara fitur input, tetapi dirakit dari satu atau beberapa fitur input. Metode untuk membuat fitur sintetis meliputi hal berikut:

Mengelompokkan fitur berkelanjutan ke dalam bin rentang.
Membuat persilangan fitur.
Mengalikan (atau membagi) satu nilai fitur dengan nilai fitur lainnya atau dengan nilai itu sendiri. Misalnya, jika a dan b adalah fitur input, berikut contoh fitur sintetis:
- ab
- a²
Menerapkan fungsi transendental ke nilai fitur. Misalnya, jika c adalah fitur input, berikut adalah contoh fitur sintetis:
- sin(c)
- ln(c)

Fitur yang dibuat dengan menormalisasi atau melakukan penskalaan saja tidak dianggap sebagai fitur sintetis.

S

T5

#language

Model pembelajaran transfer teks ke teks yang diperkenalkan oleh Google AI pada tahun 2020. T5 adalah model encoder-decoder, berdasarkan arsitektur Transformer, yang dilatih pada set data yang sangat besar. Model ini efektif dalam berbagai tugas natural language processing, seperti membuat teks, menerjemahkan bahasa, dan menjawab pertanyaan dengan cara percakapan.

T5 mendapatkan namanya dari lima huruf T dalam "Text-to-Text Transfer Transformer".

T5X

#language

Framework machine learning open source yang dirancang untuk membuat dan melatih model natural language processing (NLP) skala besar. T5 diterapkan pada codebase T5X (yang di-build di JAX dan Flax).

pembelajaran Q tabulasi

#rl

Dalam reinforcement learning, menerapkan Q-learning dengan menggunakan tabel untuk menyimpan fungsi Q untuk setiap kombinasi status dan tindakan.

target

Sinonim dari label.

jaringan target

#rl

Dalam Deep Q-learning, jaringan neural yang merupakan aproksimasi stabil dari jaringan neural utama, dengan jaringan neural utama menerapkan fungsi Q atau kebijakan. Kemudian, Anda dapat melatih jaringan utama pada nilai Q yang diprediksi oleh jaringan target. Oleh karena itu, Anda mencegah loop masukan yang terjadi saat jaringan utama dilatih pada nilai Q yang diprediksi oleh dirinya sendiri. Dengan menghindari masukan ini, stabilitas pelatihan akan meningkat.

tugas

Masalah yang dapat diselesaikan menggunakan teknik machine learning, seperti:

classification
regresi
clustering
deteksi anomali

suhu

#language

#image

#generativeAI

Hyperparameter yang mengontrol tingkat keacakan output model. Suhu yang lebih tinggi menghasilkan output yang lebih acak, sedangkan suhu yang lebih rendah menghasilkan output yang lebih tidak acak.

Memilih suhu terbaik bergantung pada aplikasi tertentu dan properti yang diinginkan dari output model. Misalnya, Anda mungkin akan menaikkan suhu saat membuat aplikasi yang menghasilkan output materi iklan. Sebaliknya, Anda mungkin akan menurunkan suhu saat membuat model yang mengklasifikasikan gambar atau teks untuk meningkatkan akurasi dan konsistensi model.

Suhu sering digunakan dengan softmax.

data temporal

Data yang dicatat pada titik waktu yang berbeda. Misalnya, penjualan mantel musim dingin yang dicatat untuk setiap hari dalam setahun akan menjadi data temporal.

Tensor

#TensorFlow

Struktur data utama dalam program TensorFlow. Tensor adalah struktur data berdimensi N (dengan N bisa sangat besar), yang paling umum adalah skalar, vektor, atau matriks. Elemen Tensor dapat menyimpan nilai bilangan bulat, floating point, atau string.

TensorBoard

#TensorFlow

Dasbor yang menampilkan ringkasan yang disimpan selama eksekusi satu atau beberapa program TensorFlow.

TensorFlow

#TensorFlow

Platform machine learning terdistribusi berskala besar. Istilah ini juga mengacu pada lapisan API dasar dalam stack TensorFlow, yang mendukung komputasi umum pada grafik alur data.

Meskipun TensorFlow terutama digunakan untuk machine learning, Anda juga dapat menggunakan TensorFlow untuk tugas non-ML yang memerlukan komputasi numerik menggunakan grafik alur data.

TensorFlow Playground

#TensorFlow

Program yang memvisualisasikan pengaruh hyperparameter yang berbeda terhadap pelatihan (terutama jaringan neural) model. Buka http://playground.tensorflow.org untuk melakukan eksperimen dengan TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Platform untuk men-deploy model terlatih dalam produksi.

Tensor Processing Unit (TPU)

#TensorFlow

#GoogleCloud

Application-specific integrated circuit (ASIC) yang mengoptimalkan performa workload machine learning. ASIC ini di-deploy sebagai beberapa chip TPU di perangkat TPU.

Urutan tensor

#TensorFlow

Lihat urutan (Tensor).

Bentuk tensor

#TensorFlow

Jumlah elemen yang dimiliki oleh Tensor dalam berbagai dimensi. Misalnya, Tensor [5, 10] memiliki bentuk 5 dalam satu dimensi dan 10 dalam dimensi lainnya.

Ukuran tensor

#TensorFlow

Jumlah total skalar yang dimiliki oleh Tensor. Misalnya, Tensor [5, 10] memiliki ukuran 50.

TensorStore

Library untuk membaca dan menulis array multidimensi besar secara efisien.

kondisi penghentian

#rl

Dalam pembelajaran penguatan, kondisi yang menentukan kapan episode berakhir, seperti saat agen mencapai status tertentu atau melebihi jumlah minimum transisi status. Misalnya, dalam tic-tac-toe (juga dikenal sebagai noughts and crosses), episode berakhir saat pemain menandai tiga ruang berturut-turut atau saat semua ruang ditandai.

uji

#df

Dalam pohon keputusan, nama lain untuk kondisi.

kerugian pengujian

#fundamentals

#Metric

Metrik yang mewakili loss model terhadap set pengujian. Saat membuat model, Anda biasanya mencoba meminimalkan kerugian pengujian. Hal ini karena kerugian pengujian yang rendah adalah sinyal kualitas yang lebih kuat daripada kerugian pelatihan yang rendah atau kerugian validasi yang rendah.

Kesenjangan yang besar antara kerugian pengujian dan kerugian pelatihan atau kerugian validasi terkadang menunjukkan bahwa Anda perlu meningkatkan tingkat regularisasi.

set pengujian

Subset dari set data yang dicadangkan untuk menguji model terlatih.

Secara tradisional, Anda membagi contoh dalam set data menjadi tiga subset berbeda berikut:

set pelatihan
set validasi
set pengujian

Setiap contoh dalam set data hanya boleh berasal dari salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set pengujian.

Set pelatihan dan set validasi sangat terkait dengan pelatihan model. Karena set pengujian hanya terkait secara tidak langsung dengan pelatihan, kerugian pengujian adalah metrik berkualitas lebih tinggi dan kurang bias daripada kerugian pelatihan atau kerugian validasi.

Lihat Set data: Membagi set data asli di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

span teks

#language

Rentang indeks array yang dikaitkan dengan subbagian string teks tertentu. Misalnya, kata good dalam string Python s="Be good now" menempati rentang teks dari 3 hingga 6.

tf.Example

#TensorFlow

Buffer protokol standar yang digunakan untuk mendeskripsikan data input untuk pelatihan atau inferensi model machine learning.

tf.keras

#TensorFlow

Implementasi Keras yang terintegrasi ke dalam TensorFlow.

nilai minimum (untuk pohon keputusan)

#df

Dalam kondisi yang sejajar dengan sumbu, nilai yang dibandingkan dengan fitur. Misalnya, 75 adalah nilai minimum dalam kondisi berikut:

grade >= 75

Lihat Pemisah persis untuk klasifikasi biner dengan fitur numerik di kursus Decision Forests untuk mengetahui informasi selengkapnya.

analisis deret waktu

#clustering

Subbidang machine learning dan statistik yang menganalisis data temporal. Banyak jenis masalah machine learning memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda dapat menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin pada masa mendatang berdasarkan data penjualan historis.

timestep

#seq

Satu sel "yang tidak di-roll" dalam jaringan saraf berulang. Misalnya, gambar berikut menunjukkan tiga langkah waktu (diberi label dengan subskrip t-1, t, dan t+1):

Tiga langkah waktu dalam jaringan saraf berulang. Output timestep pertama menjadi input untuk timestep kedua. Output
langkah waktu kedua menjadi input untuk langkah waktu ketiga.

token

#language

Dalam model bahasa, unit atomik yang digunakan untuk melatih dan membuat prediksi model. Token biasanya berupa salah satu dari hal berikut:

kata—misalnya, frasa " suka kucing" terdiri dari tiga token kata: "", "suka", dan "kucing".
karakter—misalnya, frasa "ikan sepeda" terdiri dari sembilan token karakter. (Perhatikan bahwa spasi kosong dihitung sebagai salah satu token.)
subkata—di mana satu kata dapat berupa satu token atau beberapa token. Subword terdiri dari kata akar, awalan, atau akhiran. Misalnya, model bahasa yang menggunakan subword sebagai token mungkin melihat kata "dogs" sebagai dua token (kata root "dog" dan akhiran jamak "s"). Model bahasa yang sama mungkin melihat satu kata "taller" sebagai dua subkata (kata akar "tall" dan akhiran "er").

Di domain di luar model bahasa, token dapat mewakili jenis unit atomik lainnya. Misalnya, dalam computer vision, token mungkin merupakan subset gambar.

Lihat Model bahasa besar di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

akurasi top-k

#language

#Metric

Persentase frekuensi kemunculan "label target" dalam posisi k pertama dari daftar yang dihasilkan. Daftar tersebut dapat berupa rekomendasi yang dipersonalisasi atau daftar item yang diurutkan menurut softmax.

Akurasi top-k juga dikenal sebagai akurasi pada k.

Klik ikon untuk melihat contoh.

Pertimbangkan sistem machine learning yang menggunakan softmax untuk mengidentifikasi probabilitas pohon berdasarkan gambar daun pohon. Tabel berikut menunjukkan daftar output yang dihasilkan dari lima gambar hierarki input. Setiap baris berisi label target dan lima kemungkinan pohon yang paling besar. Misalnya, jika label targetnya adalah maple, model machine learning akan mengidentifikasi elm sebagai pohon yang paling mungkin, oak sebagai pohon yang paling mungkin kedua, dan seterusnya.

Label target	1	2	3	4	5
maple	elm	ek	maple	beech	poplar
dogwood	ek	dogwood	poplar	Hickory	maple
ek	oak	basswood	belalang	alder	Linden
Linden	maple	paw-paw	ek	basswood	poplar
ek	belalang	Linden	oak	maple	paw-paw

Label target hanya muncul satu kali di posisi pertama, sehingga akurasi top-1 adalah:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

Label target muncul di salah satu dari tiga posisi teratas empat kali, sehingga akurasi 3 teratas adalah:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

menara

Komponen jaringan neural dalam yang merupakan jaringan neural dalam itu sendiri. Dalam beberapa kasus, setiap menara membaca dari sumber data independen, dan menara tersebut tetap independen hingga output-nya digabungkan di lapisan akhir. Dalam kasus lain, (misalnya, di menara encoder dan decoder dari banyak Transformer), menara memiliki koneksi silang satu sama lain.

perilaku negatif

#language

#Metric

Tingkat konten yang menyinggung, mengancam, atau kasar. Banyak model machine learning yang dapat mengidentifikasi dan mengukur toksisitas. Sebagian besar model ini mengidentifikasi toksisitas berdasarkan beberapa parameter, seperti tingkat bahasa kasar dan tingkat bahasa yang mengancam.

TPU

#TensorFlow

#GoogleCloud

Singkatan dari Tensor Processing Unit.

Chip TPU

#TensorFlow

#GoogleCloud

Akselerator aljabar linear yang dapat diprogram dengan memori bandwidth tinggi di chip yang dioptimalkan untuk beban kerja machine learning. Beberapa chip TPU di-deploy di perangkat TPU.

Perangkat TPU

#TensorFlow

#GoogleCloud

Printed circuit board (PCB) dengan beberapa chip TPU, antarmuka jaringan bandwidth tinggi, dan hardware pendingin sistem.

Node TPU

#TensorFlow

#GoogleCloud

Resource TPU di Google Cloud dengan jenis TPU tertentu. Node TPU terhubung ke Jaringan VPC Anda dari jaringan VPC peer. Node TPU adalah resource yang ditentukan dalam Cloud TPU API.

Pod TPU

#TensorFlow

#GoogleCloud

Konfigurasi tertentu dari perangkat TPU di pusat data Google. Semua perangkat dalam Pod TPU terhubung satu sama lain melalui jaringan khusus berkecepatan tinggi. Pod TPU adalah konfigurasi terbesar dari perangkat TPU yang tersedia untuk versi TPU tertentu.

Resource TPU

#TensorFlow

#GoogleCloud

Entity TPU di Google Cloud yang Anda buat, kelola, atau gunakan. Misalnya, node TPU dan jenis TPU adalah resource TPU.

Slice TPU

#TensorFlow

#GoogleCloud

Slice TPU adalah bagian pecahan dari perangkat TPU dalam Pod TPU. Semua perangkat dalam slice TPU terhubung satu sama lain melalui jaringan khusus berkecepatan tinggi.

Jenis TPU

#TensorFlow

#GoogleCloud

Konfigurasi satu atau beberapa perangkat TPU dengan versi hardware TPU tertentu. Anda memilih jenis TPU saat membuat node TPU di Google Cloud. Misalnya, jenis TPU v2-8 adalah satu perangkat TPU v2 dengan 8 core. Jenis TPU v3-2048 memiliki 256 perangkat TPU v3 yang terhubung ke jaringan dan total 2048 core. Jenis TPU adalah resource yang ditentukan di Cloud TPU API.

TPU worker

#TensorFlow

#GoogleCloud

Proses yang berjalan di mesin host dan menjalankan program machine learning di perangkat TPU.

training

#fundamentals

Proses penentuan parameter ideal (bobot dan bias) yang membentuk model. Selama pelatihan, sistem membaca contoh dan secara bertahap menyesuaikan parameter. Pelatihan menggunakan setiap contoh dari beberapa kali hingga miliaran kali.

Lihat Pembelajaran dengan Pengawasan dalam kursus Pengantar ML untuk mengetahui informasi selengkapnya.

kerugian pelatihan

#fundamentals

#Metric

Metrik yang mewakili kerugian model selama iterasi pelatihan tertentu. Misalnya, anggap fungsi rugi adalah Mean Squared Error. Mungkin kerugian pelatihan (Mean Squared Error) untuk iterasi ke-10 adalah 2,2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1,9.

Kurva kerugian memetakan kerugian pelatihan terhadap jumlah iterasi. Kurva kerugian memberikan petunjuk berikut tentang pelatihan:

Kemiringan menurun menyiratkan bahwa model tersebut meningkat.
Kemiringan ke atas menyiratkan bahwa model semakin buruk.
Kemiringan datar menyiratkan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian yang agak ideal berikut menunjukkan:

Kemiringan menurun yang curam selama iterasi awal, yang menyiratkan peningkatan model yang cepat.
Kemiringan yang secara bertahap mendatar (tetapi masih menurun) hingga mendekati akhir pelatihan, yang menyiratkan peningkatan model yang berkelanjutan dengan kecepatan yang agak lebih lambat daripada selama iterasi awal.
Kemiringan datar menjelang akhir pelatihan, yang menunjukkan konvergensi.

Plot kerugian pelatihan versus iterasi. Kurva kerugian ini dimulai
dengan kemiringan menurun yang curam. Kemiringan secara bertahap menjadi datar hingga kemiringan menjadi nol.

Meskipun kerugian pelatihan penting, lihat juga generalisasi.

diferensiasi performa pelatihan dan penayangan

#fundamentals

Perbedaan antara performa model selama pelatihan dan performa model yang sama selama penayangan.

set pelatihan

#fundamentals

Subset dari set data yang digunakan untuk melatih model.

Secara tradisional, contoh dalam set data dibagi menjadi tiga subset berbeda berikut:

set pelatihan
set validasi
set pengujian

Idealnya, setiap contoh dalam set data hanya boleh berasal dari salah satu subkumpulan sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set validasi.

Lihat Set data: Membagi set data asli di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

lintasan

#rl

Dalam pembelajaran penguatan, urutan tuple yang mewakili urutan transisi status agen, dengan setiap tuple sesuai dengan status, tindakan, reward, dan status berikutnya untuk transisi status tertentu.

pemelajaran transfer

Mentransfer informasi dari satu tugas machine learning ke tugas lainnya. Misalnya, dalam pemelajaran tugas jamak, satu model menyelesaikan banyak tugas, seperti model dalam yang memiliki node output yang berbeda untuk tugas yang berbeda. Pemelajaran transfer mungkin melibatkan transfer pengetahuan dari solusi tugas yang lebih sederhana ke tugas yang lebih kompleks, atau melibatkan transfer pengetahuan dari tugas yang memiliki lebih banyak data ke tugas yang memiliki lebih sedikit data.

Sebagian besar sistem machine learning menyelesaikan satu tugas. Pemelajaran transfer adalah langkah awal menuju kecerdasan buatan, yaitu satu program dapat menyelesaikan beberapa tugas.

Transformator

#language

Arsitektur jaringan saraf yang dikembangkan di Google yang mengandalkan mekanisme self-attention untuk mengubah urutan penyematan input menjadi urutan penyematan output tanpa mengandalkan konvolusi atau jaringan saraf berulang. Transformer dapat dilihat sebagai tumpukan lapisan self-attention.

Transformer dapat menyertakan salah satu dari hal berikut:

encoder
decoder
encoder dan decoder

Encoder mengubah urutan penyematan menjadi urutan baru dengan panjang yang sama. Encoder menyertakan N lapisan identik, yang masing-masing berisi dua sub-lapisan. Kedua sublapisan ini diterapkan di setiap posisi urutan penyematan input, yang mengubah setiap elemen urutan menjadi penyematan baru. Sublapisan encoder pertama menggabungkan informasi dari seluruh urutan input. Sublapisan encoder kedua mengubah informasi agregasi menjadi penyematan output.

Decoder mengubah urutan penyematan input menjadi urutan penyematan output, mungkin dengan panjang yang berbeda. Decoder juga menyertakan N lapisan identik dengan tiga sublapisan, dua di antaranya mirip dengan sublapisan encoder. Sublapisan decoder ketiga mengambil output encoder dan menerapkan mekanisme self-attention untuk mengumpulkan informasi darinya.

Postingan blog Transformer: A Novel Neural Network Architecture for Language Understanding memberikan pengantar yang baik tentang Transformer.

Lihat LLM: Apa itu model bahasa besar? di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

invariansi translasi

#image

Dalam masalah klasifikasi gambar, kemampuan algoritma untuk berhasil mengklasifikasikan gambar meskipun posisi objek dalam gambar berubah. Misalnya, algoritme tetap dapat mengidentifikasi gambar, meskipun tersebut berada di tengah bingkai atau di ujung kiri bingkai.

Lihat juga invariansi ukuran dan invariansi rotasi.

trigram

#seq

#language

N-gram yang mana N=3.

negatif benar (NB)

#fundamentals

#Metric

Contoh yang mana model dengan benar memprediksi kelas negatif. Misalnya, model menyimpulkan bahwa pesan email tertentu bukan spam, dan pesan email tersebut benar-benar bukan spam.

positif benar (TP)

#fundamentals

#Metric

Contoh yang mana model dengan benar memprediksi kelas positif. Misalnya, model menyimpulkan bahwa pesan email tertentu adalah spam, dan pesan email tersebut memang spam.

rasio positif benar (TPR)

#fundamentals

#Metric

Sinonim dari recall. Definisinya yaitu:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Rasio positif benar adalah sumbu y dalam kurva ROC.

U

ketidaktahuan (terhadap atribut sensitif)

#fairness

Situasi saat atribut sensitif ada, tetapi tidak disertakan dalam data pelatihan. Karena atribut sensitif sering kali berkorelasi dengan atribut lain dari data seseorang, model yang dilatih tanpa mengetahui atribut sensitif masih dapat memiliki dampak yang berbeda sehubungan dengan atribut tersebut, atau melanggar batasan keadilan lainnya.

underfitting

#fundamentals

Menghasilkan model dengan kemampuan prediktif yang buruk karena model belum sepenuhnya menangkap kompleksitas data pelatihan. Banyak masalah yang dapat menyebabkan underfitting, termasuk:

Pelatihan pada kumpulan fitur yang salah.
Pelatihan untuk terlalu sedikit epoch atau pada kecepatan pembelajaran yang terlalu rendah.
Pelatihan dengan rasio regularisasi yang terlalu tinggi.
Menyediakan terlalu sedikit lapisan tersembunyi dalam jaringan neural dalam.

Lihat Overfitting di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

undersampling

Menghapus contoh dari class mayoritas dalam set data kelas tidak seimbang untuk membuat set pelatihan yang lebih seimbang.

Misalnya, pertimbangkan set data dengan rasio class mayoritas terhadap class minoritas adalah 20:1. Untuk mengatasi ketidakseimbangan class ini, Anda dapat membuat set pelatihan yang terdiri dari semua contoh class minoritas, tetapi hanya sepuluh contoh class mayoritas, yang akan membuat rasio class set pelatihan 2:1. Berkat undersampling, set pelatihan yang lebih berimbang ini dapat menghasilkan model yang lebih baik. Atau, set pelatihan yang lebih seimbang ini mungkin berisi contoh yang tidak memadai untuk melatih model yang efektif.

Berbeda dengan oversampling.

searah

#language

Sistem yang hanya mengevaluasi teks yang mendahului bagian teks target. Sebaliknya, sistem dua arah mengevaluasi teks yang mendahului dan mengikuti bagian teks target. Lihat dua arah untuk mengetahui detail selengkapnya.

model bahasa searah

#language

Model bahasa yang mendasarkan probabilitasnya hanya pada token yang muncul sebelum, bukan setelah, token target. Berbeda dengan model bahasa dua arah.

contoh tak berlabel

#fundamentals

Contoh yang berisi fitur, tetapi tidak ada label. Misalnya, tabel berikut menunjukkan tiga contoh tanpa label dari model penilaian rumah, masing-masing dengan tiga fitur, tetapi tidak ada nilai rumah:

Jumlah kamar	Jumlah kamar mandi	Usia rumah
3	2	15
2	1	72
4	2	34

Dalam machine learning dengan pengawasan, model dilatih pada contoh berlabel dan membuat prediksi pada contoh tanpa label.

Dalam pembelajaran semi-supervised dan unsupervised, contoh tak berlabel digunakan selama pelatihan.

Bandingkan contoh tanpa label dengan contoh berlabel.

unsupervised machine learning

#clustering

#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.

Penggunaan unsupervised machine learning yang paling umum adalah mengelompokkan data ke dalam beberapa kelompok contoh yang serupa. Misalnya, algoritma machine learning tanpa pengawasan dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritma machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Clustering dapat membantu jika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, kluster dapat membantu manusia untuk lebih memahami data.

Berbeda dengan supervised machine learning.

Klik ikon untuk melihat catatan tambahan.

Contoh lain dari unsupervised machine learning adalah analisis komponen utama (PCA). Misalnya, penerapan PCA pada set data yang berupa isi dari jutaan keranjang belanja mungkin mengungkapkan bahwa keranjang belanja yang berisi lemon biasanya juga berisi antasida.

Lihat Apa yang dimaksud dengan Machine Learning? di kursus Pengantar ML untuk mengetahui informasi selengkapnya.

pemodelan peningkatan

Teknik pemodelan, yang biasa digunakan dalam pemasaran, yang membuat model "efek kausal" (juga dikenal sebagai "dampak inkremental") dari "pengobatan" pada "individu". Berikut ini dua contoh:

Dokter mungkin menggunakan pemodelan peningkatan untuk memprediksi penurunan mortalitas (efek kausal) dari prosedur medis (pengobatan) bergantung pada usia dan riwayat medis pasien (individu).
Pemasar dapat menggunakan pemodelan peningkatan untuk memprediksi peningkatan probabilitas pembelian (efek kausal) karena iklan (perlakuan) pada seseorang (individu).

Pemodelan peningkatan berbeda dengan klasifikasi atau regresi karena beberapa label (misalnya, setengah label dalam perlakuan biner) selalu tidak ada dalam pemodelan peningkatan. Misalnya, pasien dapat menerima atau tidak menerima pengobatan; karena itu, kita hanya dapat mengamati apakah pasien akan sembuh atau tidak sembuh hanya dalam salah satu dari dua situasi ini (tetapi tidak keduanya). Keuntungan utama model peningkatan adalah model ini dapat menghasilkan prediksi untuk situasi yang tidak diamati (kontrafaktual) dan menggunakannya untuk menghitung efek kausal.

penambahan bobot

Menerapkan bobot ke class downsampled yang sama dengan faktor yang digunakan ketika melakukan pengurangan sampel.

matriks pengguna

#recsystems

Dalam sistem rekomendasi, vektor penyematan yang dihasilkan oleh faktorisasi matriks yang menyimpan sinyal laten tentang preferensi pengguna. Setiap baris dari matriks pengguna memiliki informasi tentang kekuatan relatif dari berbagai sinyal laten untuk satu pengguna. Misalnya, pertimbangkan sistem rekomendasi film. Dalam sistem ini, sinyal laten dalam matriks pengguna mungkin mewakili minat setiap pengguna dalam genre tertentu, atau mungkin sinyal yang lebih sulit ditafsirkan yang melibatkan interaksi kompleks di beberapa faktor.

Matriks pengguna memiliki kolom untuk setiap fitur laten dan baris untuk setiap pengguna. Artinya, matriks pengguna memiliki jumlah baris yang sama dengan matriks target yang sedang difaktorkan. Misalnya, dengan sistem rekomendasi film untuk 1.000.000 pengguna, matriks pengguna akan memiliki 1.000.000 baris.

V

validasi

#fundamentals

Evaluasi awal kualitas model. Validasi memeriksa kualitas prediksi model terhadap set validasi.

Karena set validasi berbeda dengan set pelatihan, validasi membantu mencegah overfitting.

Anda dapat menganggap evaluasi model terhadap set validasi sebagai putaran pertama pengujian dan mengevaluasi model terhadap set pengujian sebagai putaran kedua pengujian.

kerugian validasi

#fundamentals

#Metric

Metrik yang mewakili kerugian model pada set validasi selama iterasi pelatihan tertentu.

Lihat juga kurva generalisasi.

set validasi

#fundamentals

Subset dari set data yang melakukan evaluasi awal terhadap model terlatih. Biasanya, Anda mengevaluasi model yang dilatih terhadap set validasi beberapa kali sebelum mengevaluasi model terhadap set pengujian.

Secara tradisional, Anda membagi contoh dalam set data menjadi tiga subset berbeda berikut:

set pelatihan
set validasi
set pengujian

Idealnya, setiap contoh dalam set data hanya boleh berasal dari salah satu subkumpulan sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set validasi.

Lihat Set data: Membagi set data asli di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

imputasi nilai

Proses penggantian nilai yang hilang dengan pengganti yang dapat diterima. Jika nilai tidak ada, Anda dapat menghapus seluruh contoh atau menggunakan imputasi nilai untuk menyelamatkan contoh.

Misalnya, pertimbangkan set data yang berisi fitur temperature yang seharusnya dicatat setiap jam. Namun, pembacaan suhu tidak tersedia selama satu jam tertentu. Berikut adalah bagian set data:

Stempel waktu	Suhu
1680561000	10
1680564600	12
1680568200	tidak ada
1680571800	20
1680575400	21
1680579000	21

Sistem dapat menghapus contoh yang tidak ada atau mengimputasikan suhu yang tidak ada sebagai 12, 16, 18, atau 20, bergantung pada algoritma imputasi.

masalah gradien yang menghilang

#seq

Kecenderungan gradien lapisan tersembunyi awal dari beberapa jaringan neural dalam menjadi sangat datar (rendah). Gradien yang semakin rendah akan menghasilkan perubahan yang semakin kecil pada bobot pada node di jaringan neural dalam, sehingga menyebabkan sedikit atau tidak ada pembelajaran. Model yang mengalami masalah gradien yang menghilang menjadi sulit atau tidak dapat dilatih. Sel Long Short-Term Memory mengatasi masalah ini.

Bandingkan dengan masalah gradien meledak.

kepentingan variabel

#df

#Metric

Kumpulan skor yang menunjukkan nilai penting relatif dari setiap fitur terhadap model.

Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika serangkaian nilai penting variabel untuk ketiga fitur dihitung menjadi {size=5.8, age=2.5, style=4.7}, maka ukuran lebih penting bagi pohon keputusan daripada usia atau gaya.

Ada berbagai metrik tingkat kepentingan variabel, yang dapat memberi tahu ahli ML tentang berbagai aspek model.

autoencoder variasional (VAE)

#language

Jenis autoencoder yang memanfaatkan perbedaan antara input dan output untuk menghasilkan versi input yang dimodifikasi. Autoencoder variasional berguna untuk AI generatif.

VAE didasarkan pada inferensi variasional: teknik untuk memperkirakan parameter model probabilitas.

vektor

Istilah yang sangat berlebihan yang maknanya bervariasi di berbagai bidang matematika dan ilmiah. Dalam machine learning, vektor memiliki dua properti:

Jenis data: Vektor dalam machine learning biasanya menyimpan angka floating point.
Jumlah elemen: Ini adalah panjang vektor atau dimensinya.

Misalnya, pertimbangkan vektor fitur yang menyimpan delapan bilangan floating point. Vektor fitur ini memiliki panjang atau dimensi delapan. Perhatikan bahwa vektor machine learning sering kali memiliki dimensi dalam jumlah besar.

Anda dapat merepresentasikan berbagai jenis informasi sebagai vektor. Contoh:

Setiap posisi di permukaan Bumi dapat direpresentasikan sebagai vektor 2 dimensi, dengan satu dimensi adalah lintang dan dimensi lainnya adalah bujur.
Harga saat ini dari masing-masing 500 saham dapat direpresentasikan sebagai vektor 500 dimensi.
Distribusi probabilitas pada sejumlah kelas yang terbatas dapat direpresentasikan sebagai vektor. Misalnya, sistem klasifikasi multiclass yang memprediksi salah satu dari tiga warna output (merah, hijau, atau kuning) dapat menghasilkan vektor (0.3, 0.2, 0.5) yang berarti P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Vektor dapat digabungkan; oleh karena itu, berbagai media dapat direpresentasikan sebagai satu vektor. Beberapa model beroperasi langsung pada penggabungan banyak enkode one-hot.

Prosesor khusus seperti TPU dioptimalkan untuk melakukan operasi matematika pada vektor.

Vektor adalah tensor dengan urutan 1.

W

Kerugian Wasserstein

#Metric

Salah satu fungsi kerugian yang umum digunakan dalam generative adversarial networks, berdasarkan earth mover's distance antara distribusi data yang dihasilkan dan data sebenarnya.

bobot

#fundamentals

Nilai yang dikalikan model dengan nilai lain. Pelatihan adalah proses penentuan bobot ideal model; inferensi adalah proses penggunaan bobot yang dipelajari tersebut untuk membuat prediksi.

Klik ikon untuk melihat contoh bobot dalam model linear.

Bayangkan model linear dengan dua fitur. Misalkan pelatihan menentukan bobot berikut (dan bias):

Bias, b, memiliki nilai 2,2
Bobot, w₁ yang terkait dengan satu fitur adalah 1,5.
Bobot, w₂ yang terkait dengan fitur lain adalah 0,4.

Sekarang bayangkan contoh dengan nilai fitur berikut:

Nilai satu fitur, x₁, adalah 6.
Nilai fitur lainnya, x₂, adalah 10.

Model linear ini menggunakan formula berikut untuk menghasilkan prediksi, y':

$$y' = b + w_1x_1 + w_2x_2$$

Oleh karena itu, prediksinya adalah:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Jika bobot suatu fitur bernilai 0, fitur tersebut tidak akan berkontribusi pada model. Misalnya, jika w₁ adalah 0, nilai x₁ tidak relevan.

Lihat Regresi linear di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Weighted Alternating Least Squares (WALS)

#recsystems

Algoritma untuk meminimalkan fungsi objektif selama faktorisasi matriks di sistem rekomendasi, yang memungkinkan penurunan bobot dari contoh yang hilang. WALS meminimalkan bobot error kuadrat antara matriks asli dan rekonstruksi dengan beralih antara memperbaiki faktorisasi baris dan faktorisasi kolom. Masing-masing pengoptimalan ini dapat diselesaikan dengan pengoptimalan konveks kuadrat terkecil. Untuk mengetahui detailnya, lihat kursus Sistem Rekomendasi.

jumlah tertimbang

#fundamentals

Jumlah semua nilai input yang relevan dikalikan dengan bobotnya yang sesuai. Misalnya, input yang relevan terdiri dari hal berikut:

nilai input	bobot input
2	-1,3
-1	0,6
3	0,4

Oleh karena itu, jumlah tertimbang adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Jumlah berbobot adalah argumen input ke fungsi aktivasi.

model lebar

Model linear yang biasanya memiliki banyak fitur input jarang. Kita menyebutnya sebagai "lebar" karena model semacam itu adalah jenis khusus jaringan neural dengan sejumlah besar input yang terhubung langsung ke node output. Model lebar sering kali lebih mudah di-debug dan diperiksa daripada model dalam. Meskipun model lebar tidak dapat mengekspresikan non-linearitas melalui lapisan tersembunyi, model lebar dapat menggunakan transformasi seperti feature crossing dan bucketization untuk memodelkan non-linearitas dengan cara yang berbeda.

Berbeda dengan model dalam.

lebar

Jumlah neuron di lapisan jaringan neural tertentu.

kebijaksanaan massa

#df

Gagasan bahwa rata-rata pendapat atau estimasi dari sekelompok besar orang ("kerumunan") sering kali menghasilkan hasil yang sangat baik. Misalnya, pertimbangkan game yang mengharuskan orang menebak jumlah jelly bean yang dikemas dalam toples besar. Meskipun sebagian besar tebakan individu tidak akurat, rata-rata dari semua tebakan telah ditunjukkan secara empiris ternyata mendekati jumlah sebenarnya jelly bean dalam toples.

Ensembel adalah analog software dari kebijaksanaan massa. Meskipun setiap model membuat prediksi yang sangat tidak akurat, rata-rata prediksi dari banyak model sering kali menghasilkan prediksi yang sangat baik. Misalnya, meskipun setiap pohon keputusan mungkin membuat prediksi yang buruk, hutan keputusan sering kali membuat prediksi yang sangat baik.

embedding kata

#language

Merepresentasikan setiap kata dalam kumpulan kata dalam vektor penyematan; yaitu, merepresentasikan setiap kata sebagai vektor nilai floating point antara 0,0 dan 1,0. Kata dengan makna yang serupa memiliki representasi yang lebih mirip daripada kata dengan makna yang berbeda. Misalnya, wortel, seledri, dan mentimun akan memiliki representasi yang relatif mirip, yang akan sangat berbeda dengan representasi pesawat, kacamata hitam, dan pasta gigi.

X

XLA (Accelerated Linear Algebra)

Compiler machine learning open source untuk GPU, CPU, dan akselerator ML.

Compiler XLA mengambil model dari framework ML populer seperti PyTorch, TensorFlow, dan JAX, serta mengoptimalkannya untuk eksekusi berperforma tinggi di berbagai platform hardware, termasuk GPU, CPU, dan akselerator ML.

Z

zero-shot learning

Jenis pelatihan machine learning dengan model menyimpulkan prediksi untuk tugas yang belum dilatih secara khusus. Dengan kata lain, model tidak diberi contoh pelatihan khusus tugas, tetapi diminta untuk melakukan inferensi untuk tugas tersebut.

zero-shot prompting

#language

#generativeAI

Perintah yang tidak memberikan contoh bagaimana Anda ingin model bahasa besar merespons. Contoh:

Bagian dari satu perintah	Catatan
`Apa mata uang resmi negara yang ditentukan?`	Pertanyaan yang ingin Anda jawab dengan LLM.
`India:`	Kueri sebenarnya.

Model bahasa besar mungkin merespons dengan salah satu dari hal berikut:

Rupee
INR
Rs
Rupee India
Rupee
Rupee India

Semua jawaban benar, meskipun Anda mungkin lebih menyukai format tertentu.

Bandingkan dan bedakan perintah zero-shot dengan istilah berikut:

one-shot prompting
few-shot prompting

Normalisasi skor Z

#fundamentals

Teknik penskalaan yang mengganti nilai fitur mentah dengan nilai floating point yang mewakili jumlah deviasi standar dari rata-rata fitur tersebut. Misalnya, pertimbangkan fitur yang rata-ratanya 800 dan deviasi standarnya 100. Tabel berikut menunjukkan cara normalisasi skor Z akan memetakan nilai mentah ke skor Z-nya:

Nilai mentah	Skor Z
800	0
950	+1,5
575	-2,25

Model machine learning kemudian dilatih pada skor Z untuk fitur tersebut, bukan pada nilai mentah.

Lihat Data numerik: Normalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.