Glosarium Machine Learning

Glosarium ini menjelaskan istilah machine learning umum, serta istilah khusus untuk TensorFlow.

J

ablasi

Teknik untuk mengevaluasi pentingnya fitur atau komponen dengan menghapusnya untuk sementara dari model. Kemudian, Anda melatih ulang model tanpa fitur atau komponen tersebut, dan jika model yang dilatih ulang berperforma sangat buruk, fitur atau komponen yang dihapus kemungkinan akan penting.

Misalnya, Anda melatih model klasifikasi pada 10 fitur dan mencapai presisi sebesar 88% pada set pengujian. Untuk memeriksa nilai penting fitur pertama, Anda dapat melatih ulang model hanya menggunakan sembilan fitur lainnya. Jika model yang dilatih ulang memiliki performa yang jauh lebih buruk (misalnya, presisi 55%), fitur yang dihapus mungkin penting. Sebaliknya, jika model yang dilatih ulang berperforma sama baik, fitur itu mungkin tidak begitu penting.

Ablasi juga dapat membantu menentukan pentingnya:

  • Komponen yang lebih besar, seperti seluruh subsistem dari sistem ML yang lebih besar
  • Proses atau teknik, seperti langkah pra-pemrosesan data

Dalam kedua kasus tersebut, Anda akan mengamati bagaimana performa sistem berubah (atau tidak berubah) setelah Anda menghapus komponen.

Pengujian A/B

Cara statistik untuk membandingkan dua (atau lebih) teknik—A dan B. Biasanya, A adalah teknik yang sudah ada, dan B adalah teknik baru. Pengujian A/B tidak hanya menentukan teknik mana yang berperforma lebih baik, tetapi juga apakah perbedaannya signifikan secara statistik.

Pengujian A/B biasanya membandingkan satu metrik pada dua teknik. Misalnya, bagaimana perbandingan akurasi model untuk dua teknik? Namun, pengujian A/B juga dapat membandingkan jumlah metrik yang terbatas.

chip akselerator

#GoogleCloud

Kategori komponen hardware khusus yang dirancang untuk menjalankan komputasi utama yang diperlukan untuk algoritma deep learning.

Chip akselerator (atau disingkat akselerator) dapat secara signifikan meningkatkan kecepatan dan efisiensi tugas pelatihan dan inferensi dibandingkan dengan CPU serbaguna. Ini ideal untuk melatih jaringan neural dan tugas intensif komputasi serupa.

Contoh chip akselerator mencakup:

  • Tensor Processing Unit (TPU) Google dengan hardware khusus untuk deep learning.
  • GPU NVIDIA yang, meskipun awalnya didesain untuk pemrosesan grafis, dirancang untuk mengaktifkan pemrosesan paralel, yang dapat meningkatkan kecepatan pemrosesan secara signifikan.

akurasi

#fundamentals

Jumlah prediksi klasifikasi yang benar dibagi dengan jumlah total prediksi. Definisinya yaitu:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Misalnya, model yang membuat 40 prediksi benar dan 10 prediksi yang salah akan memiliki akurasi:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasifikasi biner memberikan nama tertentu untuk berbagai kategori prediksi yang benar dan prediksi yang salah. Jadi, formula akurasi untuk klasifikasi biner adalah sebagai berikut:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dalam hal ini:

Membandingkan dan membedakan akurasi dengan presisi dan perolehan.

action

#rl

Dalam pembelajaran penguatan, mekanisme yang digunakan agen untuk bertransisi antar-status di lingkungan. Agen memilih tindakan menggunakan kebijakan.

fungsi aktivasi

#fundamentals

Fungsi yang memungkinkan jaringan neural untuk mempelajari hubungan nonlinear (kompleks) antara fitur dan label.

Fungsi aktivasi yang populer mencakup:

Plot fungsi aktivasi tidak pernah berupa garis lurus tunggal. Misalnya, plot fungsi aktivasi ULT terdiri dari dua garis lurus:

Plot kartesius dua baris. Baris pertama memiliki konstanta
          y nilai 0, yang membentang di sepanjang sumbu x dari -tak terhingga,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, sehingga garisnya dimulai dari 0,0 hingga +tak terbatas,+tak terhingga.

Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain - tak terhingga hingga +positif, sedangkan nilai y menjangkau rentang hampir 0 hingga hampir 1. Ketika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi pada 0,0,5 dan secara bertahap menurun seiring meningkatnya nilai absolut x.

pembelajaran aktif

Pendekatan pelatihan yang mana algoritma memilih beberapa data yang dipelajarinya. Pembelajaran aktif sangat berguna jika contoh berlabel langka atau mahal untuk diperoleh. Alih-alih begitu saja mencari beragam rentang contoh berlabel, algoritma pembelajaran aktif secara selektif mencari rentang contoh tertentu yang diperlukan untuk pembelajaran.

AdaGrad

Algoritma penurunan gradien canggih yang menskalakan ulang gradien dari setiap parameter, yang secara efektif memberikan kecepatan pembelajaran independen ke setiap parameter. Untuk mengetahui penjelasan lengkapnya, lihat makalah AdaGrad ini.

agen

#rl

Dalam pembelajaran penguatan, entitas yang menggunakan kebijakan untuk memaksimalkan laba yang diharapkan yang diperoleh dari transisi antara status lingkungan.

Secara lebih umum, agen adalah software yang secara mandiri merencanakan dan menjalankan serangkaian tindakan untuk mencapai tujuan, dengan kemampuan untuk beradaptasi dengan perubahan di lingkungannya. Misalnya, agen yang berbasis LLM dapat menggunakan LLM untuk membuat rencana, bukan menerapkan kebijakan reinforcement learning.

pengklasteran aglomeratif

#clustering

Lihat pengelompokan hierarkis.

deteksi anomali

Proses mengidentifikasi outlier. Misalnya, jika rata-rata untuk fitur tertentu adalah 100 dengan standar deviasi 10, deteksi anomali harus menandai nilai 200 sebagai mencurigakan.

AR

Singkatan dari augmented reality.

area di bawah kurva PR

Lihat PR AUC (Area di bawah Kurva PR).

area di bawah kurva KOP

Lihat AUC (Area di bawah kurva KOP).

{i>artificial intelligence <i}(AI)

Mekanisme non-manusia yang menunjukkan berbagai pemecahan masalah, kreativitas, dan kemampuan adaptasi. Misalnya, program yang mendemonstrasikan kecerdasan umum buatan dapat menerjemahkan teks, merangkai simfoni, dan unggul dalam game yang belum ditemukan.

kecerdasan buatan

#fundamentals

Program atau model nonmanusia yang dapat menyelesaikan tugas-tugas rumit. Misalnya, program atau model yang menerjemahkan teks, atau program/model yang mengidentifikasi penyakit dari gambar radiologi, keduanya menunjukkan kecerdasan buatan.

Secara formal, machine learning adalah sub-bidang dari kecerdasan buatan. Namun, dalam beberapa tahun terakhir, beberapa organisasi mulai menggunakan istilah kecerdasan buatan dan machine learning secara bergantian.

Attention,

#language

Mekanisme yang digunakan dalam jaringan neural yang menunjukkan pentingnya kata atau bagian tertentu dari sebuah kata. Attention mengompresi jumlah informasi yang diperlukan model untuk memprediksi token/kata berikutnya. Mekanisme atensi umum mungkin terdiri dari jumlah berbobot pada sekumpulan input dengan bobot untuk setiap input dihitung oleh bagian lain dari jaringan neural.

Lihat juga self-attention dan multi-head self-attention, yang merupakan elemen penyusun Transformer.

atribut

#fairness

Sinonim dari fitur.

Dalam keadilan machine learning, atribut sering kali mengacu pada karakteristik yang berkaitan dengan individu.

pengambilan sampel atribut

#df

Taktik untuk melatih hutan keputusan yang mana setiap pohon keputusan hanya mempertimbangkan subset acak dari fitur yang mungkin saat mempelajari kondisi. Umumnya, subset fitur yang berbeda diambil sampelnya untuk setiap node. Sebaliknya, saat melatih pohon keputusan tanpa pengambilan sampel atribut, semua fitur yang memungkinkan dipertimbangkan untuk setiap node.

ABK (Area di bawah kurva KOP)

#fundamentals

Angka antara 0,0 dan 1,0 yang mewakili kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Makin dekat AUC ke 1,0, makin baik kemampuan model untuk memisahkan class satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model pengklasifikasi yang memisahkan class positif (oval hijau) dari class negatif (kotak ungu) secara sempurna. Model yang tidak realistis ini memiliki ABK 1,0:

Garis bilangan dengan 8 contoh positif di satu sisi dan 9 contoh negatif di sisi lainnya.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk model pengklasifikasi yang memberikan hasil acak. Model ini memiliki ABK 0,5:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contoh tersebut adalah positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif, negatif.

Ya, model sebelumnya memiliki ABK 0,5, bukan 0,0.

Sebagian besar model berada di antara dua ekstrem tersebut. Misalnya, model berikut agak memisahkan positif dari negatif, sehingga memiliki ABK antara 0,5 dan 1,0:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contoh tersebut adalah negatif, negatif, negatif, negatif,
          positif, negatif, positif, positif, negatif, positif, positif,
          positif.

ABK mengabaikan nilai apa pun yang Anda tetapkan untuk nilai minimum klasifikasi. Sebaliknya, ABK mempertimbangkan semua batas klasifikasi yang memungkinkan.

augmented reality

#image

Teknologi yang menempatkan gambar buatan komputer pada pandangan pengguna tentang dunia nyata, sehingga memberikan tampilan gabungan.

autoencoder

#language
#image

Sistem yang mempelajari cara mengekstrak informasi yang paling penting dari input. Autoencoder adalah kombinasi dari encoder dan decoder. Autoencoder mengandalkan proses dua langkah berikut:

  1. Encoder memetakan input ke format dimensi rendah (biasanya) lossy (biasanya) lossy (sedang).
  2. Decoder membuat versi lossy dari input asli dengan memetakan format dimensi rendah ke format input asli yang berdimensi lebih tinggi.

Autoencoder dilatih secara menyeluruh dengan meminta decoder mencoba merekonstruksi input asli dari format perantara encoder sedekat mungkin. Karena format perantara lebih kecil (dimensi lebih rendah) daripada format aslinya, autoencoder terpaksa mempelajari informasi apa yang penting dalam input, dan output tidak akan sama persis dengan input.

Contoh:

  • Jika data input berupa grafis, salinan yang tidak tepat akan serupa dengan grafik asli, tetapi sedikit dimodifikasi. Mungkin teks yang tidak tepat menghilangkan derau dari grafis asli atau mengisi beberapa piksel yang hilang.
  • Jika data input berupa teks, autoencoder akan membuat teks baru yang meniru (tetapi tidak identik) dengan teks asli.

Lihat juga autoencoder bervariasi.

bias otomatisasi

#fairness

Ketika pengambil keputusan otomatis lebih memilih rekomendasi yang dibuat oleh sistem pengambilan keputusan otomatis daripada informasi yang dibuat tanpa otomatisasi, bahkan saat sistem pengambilan keputusan otomatis membuat kesalahan.

AutoML

Semua proses otomatis untuk membangun model machine learning. AutoML dapat otomatis melakukan tugas-tugas seperti berikut:

  • Cari model yang paling sesuai.
  • Sesuaikan hyperparameter.
  • Menyiapkan data (termasuk menjalankan rekayasa fitur).
  • Deploy model yang dihasilkan.

AutoML berguna bagi data scientist karena dapat menghemat waktu dan tenaga mereka dalam mengembangkan pipeline machine learning dan meningkatkan akurasi prediksi. Non-pakar juga berguna bagi non-pakar, dengan membuat tugas machine learning yang rumit lebih mudah diakses oleh mereka.

model auto-regresif

#language
#image
#AI generatif

model yang menyimpulkan prediksi berdasarkan prediksinya sendiri sebelumnya. Misalnya, model bahasa auto-regresif memprediksi token berikutnya berdasarkan token yang diprediksi sebelumnya. Semua model bahasa besar berbasis Transformer bersifat auto-regresif.

Sebaliknya, model gambar berbasis GAN biasanya tidak regresi otomatis karena menghasilkan gambar dalam satu penerusan maju dan tidak secara berulang dalam langkah. Namun, model pembuatan gambar tertentu bersifat autoregresif karena model tersebut menghasilkan gambar secara bertahap.

kerugian tambahan

Fungsi kerugian—digunakan bersama dengan fungsi kerugian utama jaringan neural model—yang membantu mempercepat pelatihan selama iterasi awal saat bobot diinisialisasi secara acak.

Fungsi kerugian tambahan mendorong gradien yang efektif ke lapisan sebelumnya. Hal ini memfasilitasi konvergensi selama pelatihan dengan mengatasi masalah gradien yang menghilang.

presisi rata-rata

Metrik untuk meringkas performa urutan hasil yang diberi peringkat. Presisi rata-rata dihitung dengan mengambil rata-rata nilai presisi untuk setiap hasil yang relevan (setiap hasil dalam daftar berperingkat tempat perolehan meningkat relatif terhadap hasil sebelumnya).

Lihat juga Area di Bawah Kurva PR.

kondisi rata sumbu

#df

Dalam hierarki keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, maka yang berikut adalah kondisi yang disejajarkan dengan sumbu:

area > 200

Berbeda dengan kondisi miring.

B

propagasi mundur

#fundamentals

Algoritma yang menerapkan penurunan gradien dalam jaringan neural.

Melatih jaringan neural melibatkan banyak iterasi dari siklus dua tahap berikut:

  1. Selama forward pass, sistem memproses batch dari contoh untuk menghasilkan prediksi. Sistem membandingkan setiap prediksi dengan setiap nilai label. Perbedaan antara prediksi dan nilai label adalah kerugian untuk contoh tersebut. Sistem menggabungkan kerugian untuk semua contoh guna menghitung total kerugian untuk batch saat ini.
  2. Selama lintasan mundur (propagasi mundur), sistem akan mengurangi kerugian dengan menyesuaikan bobot semua neuron di semua lapisan tersembunyi.

Jaringan neural biasanya memiliki banyak neuron di banyak lapisan tersembunyi. Masing-masing neuron tersebut berkontribusi pada kehilangan keseluruhan dengan cara yang berbeda. Propagasi mundur menentukan apakah akan menambah atau mengurangi bobot yang diterapkan pada neuron tertentu.

Kecepatan pembelajaran adalah pengganda yang mengontrol tingkat peningkatan atau penurunan setiap bobot mundur. Kecepatan pemelajaran yang besar akan meningkatkan atau menurunkan setiap bobot lebih dari kecepatan pemelajaran yang kecil.

Dalam istilah kalkulus, propagasi mundur menerapkan aturan rantai. dari kalkulus. Artinya, propagasi mundur menghitung turunan parsial dari error terkait dengan setiap parameter.

Bertahun-tahun yang lalu, praktisi ML harus menulis kode untuk menerapkan propagasi mundur. API ML modern seperti TensorFlow sekarang mengimplementasikan propagasi mundur untuk Anda. Fiuh!

kantong

#df

Metode untuk melatih ansemble tempat setiap model konstituen dilatih pada subset acak dari contoh pelatihan yang diambil sampelnya dengan penggantian. Misalnya, hutan acak adalah kumpulan pohon keputusan yang dilatih dengan bag.

Istilah bagging adalah singkatan dari bootstrap aggregating.

kantong data

#language

Representasi kata-kata dalam frasa atau teks, terlepas dari urutannya. Misalnya, kumpulan kata-kata mewakili tiga frasa berikut secara identik:

  • anjingnya melompat
  • anjingnya melompat
  • {i>dog jumping<i}

Setiap kata dipetakan ke indeks dalam vektor renggang, dengan vektor memiliki indeks untuk setiap kata dalam kosakata. Misalnya, frasa the dog jumps dipetakan ke dalam vektor fitur dengan nilai bukan nol pada tiga indeks yang sesuai dengan kata the, dog, dan jumps. Nilai bukan nol dapat berupa salah satu dari hal berikut:

  • A 1 untuk menunjukkan adanya sebuah kata.
  • Hitungan berapa kali kata muncul dalam tas. Misalnya, jika frasanya adalah merah marun adalah berbulu merah marun, maka marun dan akan direpresentasikan sebagai 2, sementara kata lainnya akan direpresentasikan sebagai 1.
  • Beberapa nilai lainnya, seperti logaritma jumlah berapa kali kata muncul dalam tas.

dasar

model yang digunakan sebagai titik referensi untuk membandingkan seberapa baik performa model lain (biasanya, model yang lebih kompleks). Misalnya, model regresi logistik dapat berfungsi sebagai dasar pengukuran yang baik untuk model dalam.

Untuk masalah tertentu, dasar pengukuran membantu developer model mengukur performa minimal yang diharapkan yang harus dicapai model baru agar model baru dapat berguna.

batch

#fundamentals

Kumpulan contoh yang digunakan dalam satu iterasi pelatihan. Ukuran tumpukan menentukan jumlah contoh dalam suatu tumpukan.

Lihat epoch untuk mendapatkan penjelasan tentang hubungan batch dengan epoch.

inferensi batch

#TensorFlow
#GoogleCloud

Proses menyimpulkan prediksi pada beberapa contoh tak berlabel yang dibagi menjadi subset yang lebih kecil ("batch").

Inferensi batch dapat memanfaatkan fitur paralelisasi dari chip akselerator. Artinya, beberapa akselerator dapat secara bersamaan menyimpulkan prediksi pada berbagai batch contoh tak berlabel, yang secara drastis meningkatkan jumlah inferensi per detik.

normalisasi batch

Normalisasi input atau output fungsi aktivasi di lapisan tersembunyi. Normalisasi batch dapat memberikan manfaat berikut:

ukuran tumpukan

#fundamentals

Jumlah contoh dalam kumpulan. Misalnya, jika ukuran batch adalah 100, model akan memproses 100 contoh per iterasi.

Berikut adalah strategi ukuran tumpukan yang populer:

  • Penurunan Gradien Stokastik (SGD), dengan ukuran tumpukan 1.
  • Batch penuh, dengan ukuran tumpukan merupakan jumlah contoh di seluruh set pelatihan. Misalnya, jika set pelatihan berisi satu juta contoh, ukuran batch akan menjadi satu juta contoh. Batch penuh biasanya merupakan strategi yang tidak efisien.
  • tumpukan mini yang ukuran tumpukannya biasanya antara 10 dan 1.000. Tumpukan mini biasanya merupakan strategi yang paling efisien.

jaringan neural Bayesian

Jaringan neural probabilistik yang memperhitungkan ketidakpastian dalam bobot dan output. Model regresi jaringan neural standar biasanya memprediksi nilai skalar; misalnya, model standar memprediksi harga rumah senilai 853.000. Sebaliknya, jaringan neural Bayesian memprediksi distribusi nilai; misalnya, model Bayesian memprediksi harga rumah sebesar 853.000 dengan deviasi standar 67.200.

Jaringan neural Bayesian mengandalkan Teorema Bayes untuk menghitung ketidakpastian dalam bobot dan prediksi. Jaringan neural Bayesian dapat berguna jika mengukur ketidakpastian, seperti dalam model yang terkait dengan obat-obatan, merupakan hal yang penting. Jaringan neural Bayesian juga dapat membantu mencegah overfitting.

Pengoptimalan Bayesian

Teknik model regresi probabilistik untuk mengoptimalkan fungsi objektif yang mahal secara komputasi dengan mengoptimalkan pengganti yang menghitung ketidakpastian menggunakan teknik pembelajaran Bayesian. Karena pengoptimalan Bayesian sendiri sangat mahal, pengoptimalan ini biasanya digunakan untuk mengoptimalkan tugas yang mahal untuk dievaluasi yang memiliki sedikit parameter, seperti memilih hyperparameter.

Persamaan Bellman

#rl

Dalam reinforcement learning, identitas berikut dipenuhi oleh Q-function yang optimal:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algoritma Reinforcement learning menerapkan identitas ini untuk membuat Q-learning melalui aturan pembaruan berikut:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Selain reinforcement learning, persamaan Bellman juga memiliki penerapan untuk pemrograman dinamis. Lihat entri Wikipedia untuk persamaan Bellman.

BERT (Representasi Encoder Dua Arah dari Transformer)

#language

Arsitektur model untuk representasi teks. Model BERT terlatih dapat bertindak sebagai bagian dari model yang lebih besar untuk klasifikasi teks atau tugas ML lainnya.

BERT memiliki karakteristik berikut:

Varian BERT meliputi:

  • ALBERT, yang merupakan akronim dari A Light BERT.
  • LaBSE.

Lihat Open Sourcing BERT: Pra-pelatihan Tercanggih untuk Natural Language Processing untuk mengetahui ringkasan BERT.

bias (etika/keadilan)

#fairness
#fundamentals

1. Stereotip, prasangka atau favoritisme terhadap beberapa hal, orang, atau kelompok dibandingkan yang lain. Bias ini dapat memengaruhi pengumpulan dan penafsiran data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk-bentuk jenis bias ini meliputi:

2. Error sistematis yang diperkenalkan melalui prosedur pengambilan sampel atau pelaporan. Bentuk-bentuk jenis bias ini meliputi:

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

bias (matematis) atau istilah bias

#fundamentals

Intersep atau offset dari asal. Bias adalah parameter dalam model machine learning, yang dilambangkan dengan salah satu hal berikut:

  • b
  • w0

Misalnya, bias bernilai b dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dalam garis dua dimensi sederhana, bias hanya berarti "perpotongan y". Misalnya, bias garis dalam ilustrasi berikut adalah 2.

Plot garis dengan kemiringan 0,5 dan bias (perpotongan y) sebesar 2.

Bias ada karena tidak semua model dimulai dari asal (0,0). Misalnya, anggaplah sebuah taman hiburan berbiaya 2 Euro untuk masuk dan tambahan 0,5 Euro untuk setiap jam seorang pelanggan menginap. Oleh karena itu, model yang memetakan total biaya memiliki bias 2 karena biaya terendah adalah 2 Euro.

Bias jangan disamakan dengan bias dalam etika dan keadilan atau bias prediksi.

dua arah

#language

Istilah yang digunakan untuk mendeskripsikan sistem yang mengevaluasi teks yang mendahului dan mengikuti bagian target teks. Sebaliknya, sistem searah hanya mengevaluasi teks yang mendahului bagian teks target.

Misalnya, pertimbangkan model bahasa yang disamarkan yang harus menentukan probabilitas kata atau kata-kata yang mewakili garis bawah dalam pertanyaan berikut:

Apa _____ dengan Anda?

Model bahasa searah harus mendasarkan probabilitasnya hanya pada konteks yang disediakan oleh kata "Apa", "adalah", dan "the". Sebaliknya, model bahasa dua arah juga bisa mendapatkan konteks dari "dengan" dan "Anda", yang mungkin membantu model tersebut menghasilkan prediksi yang lebih baik.

model bahasa dua arah

#language

Model bahasa yang menentukan probabilitas bahwa token tertentu ada di lokasi tertentu dalam kutipan teks berdasarkan teks sebelumnya dan berikut.

Bigram

#seq
#language

N-gram yang mana N=2.

klasifikasi biner

#fundamentals

Jenis tugas klasifikasi yang memprediksi salah satu dari dua class yang saling eksklusif:

Misalnya, dua model machine learning berikut masing-masing melakukan klasifikasi biner:

  • Model yang menentukan apakah pesan email adalah spam (kelas positif) atau bukan spam (kelas negatif).
  • Model yang mengevaluasi gejala medis untuk menentukan apakah seseorang memiliki penyakit tertentu (kelas positif) atau tidak memiliki penyakit tersebut (kelas negatif).

Berbeda dengan klasifikasi kelas multi-kelas.

Lihat juga regresi logistik dan batas klasifikasi.

kondisi biner

#df

Dalam hierarki keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya yes atau no. Misalnya, berikut ini adalah kondisi biner:

temperature >= 100

Berbeda dengan kondisi non-biner.

pengelompokan

Sinonim dari bucketing.

BLEU (Studi Evaluasi Bilingual)

#language

Skor antara 0,0 dan 1,0, inklusif, yang menunjukkan kualitas terjemahan antara dua bahasa manusia (misalnya, antara Inggris dan Rusia). Skor BLEU 1,0 menunjukkan terjemahan yang sempurna; skor BLEU 0,0 menunjukkan terjemahan yang buruk.

peningkatan

Teknik machine learning yang secara berulang menggabungkan sekumpulan pengklasifikasi sederhana yang tidak terlalu akurat (disebut sebagai pengklasifikasi "lemah") ke dalam pengklasifikasi dengan akurasi tinggi (pengklasifikasi "kuat") dengan upweighting adalah contoh-contoh yang saat ini salah diklasifikasikan oleh model.

kotak pembatas

#image

Dalam gambar, koordinat (x, y) persegi panjang di sekitar area menarik, seperti pada gambar di bawah.

Foto duduk di sofa. Kotak pembatas hijau dengan koordinat kiri atas (275, 1271) dan koordinat kanan bawah (2954, 2761) membatasi tubuh

penyiaran

Memperluas bentuk operand dalam operasi matematika matriks ke dimensi yang kompatibel untuk operasi tersebut. Misalnya, aljabar linear mengharuskan dua operand dalam operasi penambahan matriks harus memiliki dimensi yang sama. Akibatnya, Anda tidak dapat menambahkan matriks bentuk (m, n) ke vektor yang panjangnya n. Penyiaran memungkinkan operasi ini dengan memperluas vektor panjang n secara virtual ke matriks bentuk (m, n) dengan mereplikasi nilai yang sama di setiap kolom.

Misalnya, dengan definisi berikut, aljabar linear melarang A+B karena A dan B memiliki dimensi yang berbeda:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Namun, penyiaran memungkinkan operasi A+B dengan memperluas B secara virtual ke:

 [[2, 2, 2],
  [2, 2, 2]]

Dengan demikian, sekarang A+B merupakan operasi yang valid:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Lihat deskripsi penyiaran di NumPy berikut untuk detail selengkapnya.

pengelompokan

#fundamentals

Mengonversi satu fitur menjadi beberapa fitur biner yang disebut bucket atau bins, biasanya berdasarkan rentang nilai. Fitur yang terpotong biasanya merupakan fitur berkelanjutan.

Misalnya, daripada merepresentasikan suhu sebagai satu fitur floating point berkelanjutan, Anda dapat membagi rentang suhu menjadi bucket terpisah, seperti:

  • <= 10 derajat Celsius akan menjadi bucket "cold".
  • 11 - 24 derajat Celsius akan menjadi ember "sedang".
  • >= 25 derajat Celsius akan menjadi suhu "hangat".

Model tersebut akan memperlakukan setiap nilai dalam bucket yang sama secara identik. Misalnya, nilai 13 dan 22 berada di bucket sedang, sehingga model memperlakukan kedua nilai tersebut secara identik.

C

lapisan kalibrasi

Penyesuaian pascaprediksi, biasanya untuk memperhitungkan bias prediksi. Prediksi dan probabilitas yang disesuaikan harus cocok dengan distribusi sekumpulan label yang diamati.

pembuatan kandidat

#recsystems

Kumpulan rekomendasi awal yang dipilih oleh sistem rekomendasi. Misalnya, pertimbangkan toko buku yang menawarkan 100.000 judul. Fase pembuatan kandidat membuat daftar buku yang sesuai untuk pengguna tertentu, misalnya 500, dengan jumlah lebih sedikit. Tetapi bahkan 500 buku terlalu banyak untuk direkomendasikan kepada pengguna. Fase-fase sistem rekomendasi berikutnya yang lebih mahal (seperti penskoran dan pemeringkatan ulang) mengurangi 500 rekomendasi tersebut menjadi kumpulan rekomendasi yang jauh lebih kecil dan lebih berguna.

sampling kandidat

Pengoptimalan waktu pelatihan yang menghitung probabilitas untuk semua label positif, menggunakan, misalnya, softmax, tetapi hanya untuk sampel label negatif acak. Misalnya, dengan contoh berlabel beagle dan dog, sampling kandidat menghitung probabilitas yang diprediksi dan istilah kerugian yang sesuai untuk:

  • kumbang
  • subset acak dari kelas negatif yang tersisa (misalnya, cat, lollipop, fence).

Idenya adalah bahwa kelas negatif dapat belajar dari penguatan negatif yang lebih jarang selama kelas positif selalu mendapatkan penguatan positif yang tepat, dan ini memang diamati secara empiris.

Pengambilan sampel kandidat lebih efisien secara komputasi daripada algoritma pelatihan yang menghitung prediksi untuk semua kelas negatif, terutama jika jumlah kelas negatif sangat besar.

data kategoris

#fundamentals

Fitur yang memiliki kumpulan spesifik nilai yang memungkinkan. Misalnya, pertimbangkan fitur kategori bernama traffic-light-state, yang hanya dapat memiliki salah satu dari tiga kemungkinan nilai berikut:

  • red
  • yellow
  • green

Dengan merepresentasikan traffic-light-state sebagai fitur kategoris, model dapat mempelajari dampak yang berbeda dari red, green, dan yellow terhadap perilaku pengemudi.

Fitur kategoris terkadang disebut fitur diskrit.

Berbeda dengan data numerik.

model bahasa kausal

#language

Sinonim dari model bahasa searah.

Lihat model bahasa dua arah untuk mengontraskan pendekatan terarah yang berbeda dalam pemodelan bahasa.

sentroid

#clustering

Pusat cluster sebagaimana ditentukan oleh algoritma k-means atau k-median. Misalnya, jika k bernilai 3, maka algoritme k-means atau k-median akan menemukan 3 sentroid.

pengklasteran berbasis sentroid

#clustering

Kategori algoritma pengelompokan yang mengatur data menjadi cluster yang tidak hierarkis. k-means adalah algoritme pengelompokan berbasis sentroid yang paling banyak digunakan.

Berbeda dengan algoritma pengelompokan hierarkis.

prompting chain-of-thought

#language
#AI generatif

Teknik rekayasa perintah yang mendorong model bahasa besar (LLM) untuk menjelaskan alasannya, langkah demi langkah. Misalnya, perhatikan perintah berikut, dengan memberi perhatian khusus pada kalimat kedua:

Berapa banyak gaya g yang dialami pengemudi dalam mobil yang melaju dari 0 hingga 60 mil per jam dalam 7 detik? Pada jawaban, tampilkan semua penghitungan yang relevan.

Respons LLM kemungkinan akan:

  • Tampilkan urutan rumus fisika, dengan memasukkan nilai 0, 60, dan 7 di tempat yang sesuai.
  • Jelaskan mengapa ia memilih formula-formula tersebut dan apa arti berbagai variabel tersebut.

Permintaan rantai pemikiran memaksa LLM untuk melakukan semua penghitungan, yang dapat menghasilkan jawaban yang lebih benar. Selain itu, prompting chain-of-pemikiran memungkinkan pengguna memeriksa langkah-langkah LLM untuk menentukan apakah jawabannya masuk akal atau tidak.

chat

#language
#AI generatif

Isi dialog dua arah dengan sistem ML, biasanya model bahasa besar. Interaksi sebelumnya dalam chat (apa yang Anda ketik dan respons model bahasa besar) menjadi konteks untuk bagian chat berikutnya.

chatbot adalah penerapan model bahasa besar.

pos pemeriksaan

Data yang menangkap status parameter model pada iterasi pelatihan tertentu. Checkpoint memungkinkan ekspor bobot model, atau melakukan pelatihan di beberapa sesi. Checkpoint juga memungkinkan pelatihan melanjutkan error yang lalu (misalnya, preemption tugas).

Saat melakukan peningkatan kualitas, titik awal untuk pelatihan model baru akan menjadi checkpoint spesifik untuk model yang telah dilatih sebelumnya.

class

#fundamentals

Suatu kategori yang dapat mencakup label. Contoh:

  • Pada model klasifikasi biner yang mendeteksi spam, dua kelas tersebut mungkin adalah spam dan bukan spam.
  • Dalam model klasifikasi kelas multi-kelas yang mengidentifikasi jenis, kelasnya bisa jadi pudel, beagle, pug, dan sebagainya.

Model klasifikasi memprediksi class. Sebaliknya, model regresi memprediksi angka, bukan class.

model klasifikasi

#fundamentals

model yang prediksinya adalah model. Misalnya, berikut adalah semua model klasifikasi:

  • Model yang memprediksi bahasa kalimat input (bahasa Prancis? Spanyol? Italia?).
  • Model yang memprediksi spesies pohon (Maple? Oak? Baobab?).
  • Model yang memprediksi kelas positif atau negatif untuk kondisi medis tertentu.

Sebaliknya, model regresi memprediksi angka, bukan class.

Dua jenis model klasifikasi yang umum adalah:

batas klasifikasi

#fundamentals

Dalam klasifikasi biner, angka antara 0 dan 1 yang mengonversi output mentah dari model regresi logistik menjadi prediksi kelas positif atau kelas negatif. Perhatikan bahwa batas klasifikasi adalah nilai yang dipilih manusia, bukan nilai yang dipilih oleh pelatihan model.

Model regresi logistik menghasilkan nilai mentah antara 0 dan 1. Lalu:

  • Jika nilai mentah ini lebih besar dari batas klasifikasi, maka kelas positif akan diprediksi.
  • Jika nilai mentah ini kurang dari batas klasifikasi, maka kelas negatif akan diprediksi.

Misalnya, batas klasifikasi adalah 0,8. Jika nilai mentah adalah 0,9, model akan memprediksi kelas positif. Jika nilai mentahnya 0,7, model akan memprediksi kelas negatif.

Pilihan batas klasifikasi sangat memengaruhi jumlah positif palsu dan negatif palsu.

set data kelas tidak seimbang

#fundamentals

Set data untuk masalah klasifikasi dengan jumlah total label setiap kelas berbeda secara signifikan. Misalnya, pertimbangkan set data klasifikasi biner yang dua labelnya dibagi sebagai berikut:

  • 1.000.000 label negatif
  • 10 label positif

Rasio label negatif ke positif adalah 100.000 berbanding 1, jadi ini adalah set data kelas tidak seimbang.

Sebaliknya, set data berikut tidak seimbang karena rasio label negatif terhadap label positif relatif mendekati 1:

  • 517 label negatif
  • 483 label positif

Set data multi-class juga bisa menjadi tidak seimbang di kelasnya. Misalnya, set data klasifikasi kelas jamak berikut juga tidak seimbang kelasnya karena satu label memiliki lebih banyak contoh daripada dua label lainnya:

  • 1.000.000 label dengan kelas "hijau"
  • 200 label dengan kelas "ungu"
  • 350 label dengan kelas "oranye"

Lihat juga entropi, kelas mayoritas, dan kelas minoritas.

penyesuaian nilai

#fundamentals

Teknik untuk menangani outlier dengan melakukan salah satu atau kedua hal berikut:

  • Mengurangi nilai feature yang lebih besar dari nilai minimum maksimum ke nilai minimum tersebut.
  • Meningkatkan nilai fitur yang kurang dari nilai minimum hingga nilai minimum tersebut.

Misalnya, anggap saja <0,5% nilai untuk fitur tertentu berada di luar rentang 40–60. Dalam hal ini, Anda dapat melakukan hal berikut:

  • Potong semua nilai di atas 60 (batas maksimum) menjadi tepat 60.
  • Potong semua nilai di bawah 40 (nilai minimum) menjadi tepat 40.

Pencilan dapat merusak model, yang terkadang menyebabkan bobot melimpah selama pelatihan. Beberapa pencilan juga dapat merusak metrik seperti akurasi secara drastis. {i>Clipping<i} adalah teknik umum untuk membatasi kerusakan.

Pemotongan gradien memaksa nilai gradien dalam rentang yang ditentukan selama pelatihan.

Cloud TPU

#TensorFlow
#GoogleCloud

Akselerator hardware khusus yang dirancang untuk mempercepat workload machine learning di Google Cloud.

pengelompokan

#clustering

Mengelompokkan contoh terkait, terutama selama unsupervised learning. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan arti pada setiap cluster.

Ada banyak algoritma pengklasteran. Misalnya, contoh cluster algoritma k-means berdasarkan kedekatannya dengan sentroid, seperti dalam diagram berikut:

Grafik dua dimensi yang sumbu x diberi label lebar pohon,
          dan sumbu y diberi label tinggi pohon. Grafik berisi dua sentroid dan beberapa belas titik data. Titik data dikategorikan berdasarkan kedekatannya. Artinya, titik data yang terdekat dengan satu sentroid dikategorikan sebagai cluster 1, sedangkan yang terdekat dengan sentroid lainnya dikategorikan sebagai cluster 2.

Kemudian, peneliti manusia dapat meninjau cluster dan, misalnya, memberi label cluster 1 sebagai "pohon kerdil" dan cluster 2 sebagai "pohon berukuran penuh".

Sebagai contoh lain, pertimbangkan algoritma pengelompokan berdasarkan jarak contoh dari titik tengah, yang diilustrasikan sebagai berikut:

Puluhan titik data disusun dalam lingkaran konsentris, hampir seperti lubang di tengah papan panah. Lingkaran terdalam dari titik data dikategorikan sebagai cluster 1, cincin tengah dikategorikan sebagai cluster 2, dan cincin terluar sebagai cluster 3.

adaptasi bersama

Saat neuron memprediksi pola dalam data pelatihan dengan mengandalkan hampir secara eksklusif pada output neuron tertentu lain, bukan mengandalkan perilaku jaringan secara keseluruhan. Jika pola yang menyebabkan adaptasi bersama tidak ada dalam data validasi, adaptasi bersama akan menyebabkan overfitting. Regularisasi dengan pelolosan mengurangi adaptasi bersama karena pelolosan memastikan bahwa neuron tidak dapat hanya mengandalkan neuron spesifik lain.

penyaringan kolaboratif

#recsystems

Membuat prediksi tentang minat satu pengguna berdasarkan minat banyak pengguna lainnya. Pemfilteran kolaboratif sering digunakan dalam sistem rekomendasi.

penyimpangan konsep

Pergeseran hubungan antara fitur dan label. Seiring waktu, penyimpangan konsep mengurangi kualitas model.

Selama pelatihan, model akan mempelajari hubungan antara fitur dan labelnya dalam set pelatihan. Jika label dalam set pelatihan adalah proxy yang baik untuk dunia nyata, model harus membuat prediksi dunia nyata yang baik. Namun, karena penyimpangan konsep, prediksi model cenderung menurun seiring waktu.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah model mobil tertentu "hemat bahan bakar" atau tidak. Fiturnya dapat berupa:

  • berat mobil
  • kompresi mesin
  • jenis transmisi

sedangkan labelnya adalah:

  • hemat bahan bakar
  • tidak hemat bahan bakar

Namun, konsep "mobil hemat bahan bakar" terus berubah. Model mobil berlabel hemat bahan bakar pada 1994 hampir bisa dipastikan akan diberi label tidak hemat bahan bakar pada 2024. Model yang mengalami penyimpangan konsep cenderung membuat prediksi yang kurang berguna dari waktu ke waktu.

Bandingkan dan buat perbedaan dengan nonstasioneritas.

kondisi

#df

Pada hierarki keputusan, setiap node yang mengevaluasi ekspresi. Misalnya, bagian pohon keputusan berikut berisi dua kondisi:

Pohon keputusan yang terdiri dari dua kondisi: (x > 0) dan (y > 0).

Kondisi juga disebut pemisahan atau pengujian.

Bandingkan kondisi dengan leaf.

Lihat juga:

konfabulasi

#language

Sinonim dari halusinasi.

Konfabulasi mungkin merupakan istilah yang lebih akurat secara teknis daripada halusinasi. Namun, halusinasi menjadi populer terlebih dahulu.

konfigurasi

Proses penetapan nilai properti awal yang digunakan untuk melatih model, termasuk:

Dalam project machine learning, konfigurasi dapat dilakukan melalui file konfigurasi khusus atau menggunakan library konfigurasi seperti berikut:

bias konfirmasi

#fairness

Kecenderungan untuk mencari, menafsirkan, mendukung, dan mengingat informasi dengan cara yang mengkonfirmasi keyakinan atau hipotesis yang sudah ada sebelumnya. Developer machine learning mungkin secara tidak sengaja mengumpulkan atau melabeli data dengan cara yang memengaruhi hasil yang mendukung keyakinan mereka yang sudah ada. Bias konfirmasi merupakan bentuk dari bias implisit.

Bias pelaku eksperimen adalah bentuk bias konfirmasi yang mana pelaku eksperimen terus melatih model hingga hipotesis yang sudah ada sebelumnya dikonfirmasi.

matriks konfusi

#fundamentals

Tabel NxN yang merangkum jumlah prediksi benar dan salah yang dibuat oleh model klasifikasi. Misalnya, perhatikan matriks konfusi berikut untuk model klasifikasi biner:

Tumor (diprediksi) Bukan Tumor (diprediksi)
Tumor (kebenaran dasar) 18 (PB) 1 (NP)
Non-Tumor (kebenaran dasar) 6 (PP) 452 (NB)

Matriks konfusi sebelumnya menunjukkan hal berikut:

  • Dari 19 prediksi yang mana kebenaran dasar adalah Tumor, model tersebut mengklasifikasikan 18 prediksi dengan benar dan salah mengklasifikasikan 1.
  • Dari 458 prediksi yang mana kebenaran dasar adalah Non-Tumor, model tersebut mengklasifikasikan 452 dengan benar dan salah mengklasifikasikan 6.

Matriks konfusi untuk masalah klasifikasi kelas jamak dapat membantu Anda mengidentifikasi pola kesalahan. Misalnya, pertimbangkan matriks konfusi berikut untuk model klasifikasi multikelas 3 kelas yang mengategorikan tiga jenis iris yang berbeda (Virginica, Versicolor, dan Setosa). Saat kebenaran dasar adalah Virginica, matriks konfusi menunjukkan bahwa model jauh lebih mungkin untuk salah memprediksi Versicolor daripada Setosa:

  Setosa (diprediksi) Versicolor (diprediksi) Virginica (diprediksi)
Setosa (kebenaran dasar) 88 12 0
Versicolor (kebenaran dasar) 6 141 7
Virginica (kebenaran dasar) 2 27 109

Contoh lainnya, matriks konfusi dapat mengungkapkan bahwa model yang dilatih untuk mengenali digit yang ditulis tangan cenderung salah memprediksi 9, bukan 4, atau keliru memprediksi 1, bukan 7.

Matriks konfusi berisi informasi yang memadai untuk menghitung berbagai metrik performa, termasuk presisi dan perolehan.

penguraian konstituen

#language

Membagi kalimat menjadi struktur gramatikal yang lebih kecil ("konstituen"). Bagian selanjutnya dari sistem ML, seperti model natural language understanding, dapat mengurai konstituen dengan lebih mudah daripada kalimat aslinya. Misalnya, perhatikan kalimat berikut:

Teman saya mengadopsi dua kucing.

Parser konstituensi dapat membagi kalimat ini menjadi dua konstituen berikut:

  • Teman saya adalah frasa kata benda.
  • adopted two cats adalah frasa kata kerja.

Konstituen ini dapat dibagi lagi menjadi konstituen yang lebih kecil. Misalnya, frasa kata kerja

mengadopsi dua kucing

dapat dibagi lagi menjadi:

  • adopted adalah kata kerja.
  • two cats (dua kucing) adalah frasa kata benda lainnya.

embedding bahasa yang kontekstual

#language
#AI generatif

Penyematan yang mendekati cara "memahami" kata-kata dan frasa dengan cara yang dapat dilakukan oleh penutur asli manusia. Penyematan bahasa yang kontekstual dapat memahami sintaksis, semantik, dan konteks yang kompleks.

Misalnya, pertimbangkan embedding dari kata bahasa Inggris cow. Embedding lama seperti word2vec dapat merepresentasikan kata bahasa Inggris sehingga jarak dalam ruang penyematan dari sapi ke bull mirip dengan jarak dari sapi betina (domba betina) ke ram (domba jantan) atau dari perempuan ke jantan. Penyematan bahasa yang kontekstual dapat berkembang lebih jauh dengan mengenali bahwa penutur bahasa Inggris terkadang menggunakan kata cow untuk berarti sapi atau banteng.

jendela konteks

#language
#AI generatif

Jumlah token yang dapat diproses oleh model pada perintah tertentu. Makin besar jendela konteks, makin banyak informasi yang dapat digunakan model untuk memberikan respons yang koheren dan konsisten terhadap prompt.

fitur berkelanjutan

#fundamentals

Fitur floating point dengan rentang nilai yang memungkinkan, seperti suhu atau berat.

Berbeda dengan fitur diskret.

sampling praktis

Menggunakan set data yang tidak dikumpulkan secara ilmiah untuk menjalankan eksperimen dengan cepat. Selanjutnya, penting untuk beralih ke set data yang dikumpulkan secara ilmiah.

konvergensi

#fundamentals

Status yang dicapai saat nilai loss berubah sangat sedikit atau tidak berubah sama sekali dengan setiap iterasi. Misalnya, kurva kerugian berikut menunjukkan konvergensi pada sekitar 700 iterasi:

{i>Cartesian plot<i}. Sumbu X adalah kerugian. Sumbu Y adalah jumlah iterasi
          pelatihan. Kerugian sangat tinggi selama beberapa iterasi pertama, tetapi menurun tajam. Setelah sekitar 100 iterasi, kerugian masih tetap menurun, tetapi jauh lebih bertahap. Setelah sekitar 700 iterasi, kerugian tetap datar.

Model dikonvergensi saat pelatihan tambahan tidak akan meningkatkan kualitas model.

Di deep learning, nilai kerugian terkadang tetap konstan atau hampir sama untuk banyak iterasi sebelum akhirnya menurun. Selama jangka panjang nilai kerugian konstan, untuk sementara Anda mungkin merasakan konvergensi palsu.

Lihat juga penghentian awal.

fungsi konveks

Fungsi dengan region di atas grafik fungsi yang berupa kumpulan konveks. Fungsi konveks prototipikal berbentuk seperti huruf U. Misalnya, semua fungsi berikut adalah fungsi konveks:

Kurva berbentuk U, masing-masing dengan satu titik minimum.

Sebaliknya, fungsi berikut bukan konveks. Perhatikan bahwa wilayah di atas grafik bukan himpunan konveks:

Kurva berbentuk W dengan dua titik minimum lokal yang berbeda.

Fungsi konveks tegas memiliki tepat satu titik minimum lokal, yang juga merupakan titik minimum global. Fungsi klasik berbentuk U adalah fungsi konveks tegas. Namun, beberapa fungsi konveks (misalnya, garis lurus) tidak berbentuk U.

pengoptimalan konveks

Proses penggunaan teknik matematika seperti penurunan gradien untuk menemukan fungsi konveks minimum. Banyak penelitian dalam machine learning telah berfokus pada perumusan berbagai masalah sebagai masalah pengoptimalan konveks dan dalam pemecahan masalah tersebut secara lebih efisien.

Untuk mengetahui detail selengkapnya, lihat Boyd dan Vandenberghe, Pengoptimalan Konveks.

himpunan konveks

Subset ruang Euclidean sehingga garis yang digambar di antara dua titik dalam subset tetap sepenuhnya dalam subset. Misalnya, dua bentuk berikut adalah himpunan konveks:

Salah satu ilustrasi persegi panjang. Ilustrasi lain tentang oval.

Sebaliknya, dua bentuk berikut bukan himpunan konveks:

Satu ilustrasi diagram lingkaran dengan irisan yang hilang.
          Ilustrasi lain dari poligon yang sangat tidak teratur.

konvolusi

#image

Dalam matematika, berbicara santai adalah campuran dua fungsi. Dalam machine learning, konvolusi menggabungkan filter konvolusional dan matriks input untuk melatih bobot.

Istilah "konvolusi" dalam machine learning sering kali merupakan cara singkat untuk merujuk ke operasi konvolusional atau lapisan konvolusional.

Tanpa konvolusi, algoritma machine learning harus mempelajari bobot terpisah untuk setiap sel dalam tensor besar. Misalnya, pelatihan algoritma machine learning pada gambar 2K x 2K akan dipaksa untuk menemukan 4 juta bobot terpisah. Berkat konvolusi, algoritma machine learning hanya perlu menemukan bobot untuk setiap sel dalam saringan konvolusional, yang secara drastis mengurangi memori yang diperlukan untuk melatih model. Saat diterapkan, filter konvolusional hanya direplikasi ke seluruh sel sehingga setiap sel dikalikan dengan filter.

filter konvolusional

#image

Salah satu dari dua aktor dalam operasi konvolusional. (Aktor lainnya adalah potongan dari matriks input.) Saringan konvolusional adalah matriks yang memiliki peringkat yang sama dengan matriks input, tetapi bentuknya lebih kecil. Misalnya, dengan matriks input 28x28, filter dapat berupa matriks 2D yang lebih kecil dari 28x28.

Dalam manipulasi fotografi, semua sel dalam filter konvolusional biasanya ditetapkan ke pola konstan satu dan nol. Dalam machine learning, filter konvolusional biasanya diisi dengan angka acak, lalu jaringan melatih nilai yang ideal.

lapisan konvolusional

#image

Lapisan jaringan neural dalam tempat filter konvolusional meneruskan matriks input. Misalnya, pertimbangkan saringan konvolusional 3x3 berikut:

Matriks 3x3 dengan nilai berikut: [[0,1,0], [1,0,1], [0,1,0]]

Animasi berikut menunjukkan lapisan konvolusional yang terdiri dari 9 operasi konvolusional yang melibatkan matriks input 5x5. Perhatikan bahwa setiap operasi konvolusional bekerja pada potongan matriks input 3x3 yang berbeda. Matriks 3x3 yang dihasilkan (di sebelah kanan) terdiri dari hasil 9 operasi konvolusional:

Animasi yang menunjukkan dua matriks. Matriks pertama adalah matriks 5x5: [[128,97,53,201,198], [35,22,25,200,195],
 [37,24,28,197,182], [33,28,92,195,179], [31,4]
          Matriks kedua adalah matriks 3x3: [[181,303,618], [115,338,605], [169,351,560]].
          Matriks kedua dihitung dengan menerapkan filter konvolusional [[0, 1, 0], [1, 0, 1], [0, 1, 0]] di berbagai subset 3x3 dari matriks 5x5.

jaringan neural konvolusional

#image

Jaringan neural yang setidaknya satu lapisannya adalah lapisan konvolusional. Jaringan neural konvolusional umum terdiri dari beberapa kombinasi lapisan berikut:

Jaringan neural konvolusional telah meraih sukses besar dalam jenis masalah tertentu, seperti pengenalan gambar.

operasi konvolusional

#image

Operasi matematika dua langkah berikut:

  1. Perkalian berbasis elemen dari filter konvolusional dan potongan dari matriks input. (Potongan matriks input memiliki peringkat dan ukuran yang sama dengan filter konvolusional.)
  2. Penjumlahan semua nilai dalam matriks produk yang dihasilkan.

Misalnya, pertimbangkan matriks input 5x5 berikut:

Matriks 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100], [31,40,100]

Sekarang bayangkan filter konvolusional 2x2 berikut:

Matriks 2x2: [[1, 0], [0, 1]]

Setiap operasi konvolusional melibatkan potongan 2x2 tunggal dari matriks input. Misalnya, kita menggunakan potongan 2x2 di kiri atas matriks input. Jadi, operasi konvolusi pada potongan ini akan terlihat seperti berikut:

Menerapkan filter konvolusional [[1, 0], [0, 1]] ke bagian kiri atas
          2x2 dari matriks input, yaitu [[128,97], [35,22]].
          Saringan konvolusional membiarkan 128 dan 22 tetap utuh, tetapi 97 dan 35 menjadi nol. Akibatnya, operasi konvolusi menghasilkan nilai 150 (128+22).

Lapisan konvolusional terdiri dari serangkaian operasi konvolusional, masing-masing bekerja pada potongan matriks input yang berbeda.

cost

Sinonim dari kerugian.

pelatihan bersama

Pendekatan semi-supervised learning sangat berguna ketika semua kondisi berikut terpenuhi:

Pelatihan bersama pada dasarnya memperkuat sinyal independen menjadi sinyal yang lebih kuat. Misalnya, pertimbangkan model klasifikasi yang mengkategorikan setiap mobil bekas sebagai Baik atau Buruk. Satu kumpulan fitur prediktif mungkin berfokus pada karakteristik agregat seperti tahun, produsen, dan model mobil; kumpulan fitur prediktif lainnya mungkin berfokus pada catatan mengemudi pemilik sebelumnya dan histori perawatan mobil.

Makalah seminal tentang pelatihan bersama adalah Menggabungkan Data Berlabel dan Tidak Berlabel dengan Pelatihan Bersama oleh Blum dan Mitchell.

keadilan kontrafaktual

#fairness

Metrik keadilan yang memeriksa apakah pengklasifikasi memberikan hasil yang sama untuk satu individu seperti yang dilakukan untuk individu lain yang identik dengan yang pertama, kecuali dalam kaitannya dengan satu atau beberapa atribut sensitif. Mengevaluasi pengklasifikasi untuk keadilan kontrafaktual adalah salah satu metode untuk memunculkan sumber bias yang potensial dalam sebuah model.

Lihat "When Worlds Collide: Mengintegrasikan Different Counterfaktual Asumptions in Fairness" untuk diskusi yang lebih mendetail tentang keadilan kontrafaktual.

bias cakupan

#fairness

Lihat bias seleksi.

frasa ambigu

#language

Kalimat atau frasa dengan makna ambigu. Frasa ambigu menghadirkan masalah yang signifikan dalam natural language understanding. Misalnya, judul Red Tape Holds Up Skyscraper adalah frasa ambigu karena model NLU dapat menafsirkan judul secara harfiah atau figuratif.

kritikus

#rl

Sinonim dari Deep Q-Network.

entropi silang

Generalisasi Kerugian Log ke masalah klasifikasi kelas jamak. Entropi silang mengukur perbedaan antara dua distribusi probabilitas. Lihat juga perpleksitas.

validasi silang

Mekanisme untuk memperkirakan seberapa baik model akan melakukan generalisasi ke data baru dengan menguji model terhadap satu atau beberapa subset data yang tidak tumpang-tindih yang diambil dari set pelatihan.

fungsi distribusi kumulatif (CDF)

Fungsi yang menentukan frekuensi sampel kurang dari atau sama dengan nilai target. Misalnya, pertimbangkan distribusi normal dari nilai kontinu. CDF memberi tahu Anda bahwa sekitar 50% sampel harus kurang dari atau sama dengan rata-rata, dan sekitar 84% sampel harus kurang dari atau sama dengan satu deviasi standar di atas rata-rata.

D

analisis data

Memperoleh pemahaman tentang data dengan mempertimbangkan sampel, pengukuran, dan visualisasi. Analisis data dapat sangat berguna saat set data pertama kali diterima, sebelum membuat model pertama. Hal ini juga penting untuk memahami eksperimen dan proses debug masalah pada sistem.

pengayaan data

#image

Secara artifisial, meningkatkan rentang dan jumlah contoh pelatihan dengan mengubah contoh yang sudah ada untuk membuat contoh tambahan. Misalnya, anggaplah gambar adalah salah satu fitur Anda, tetapi set data tidak berisi contoh gambar yang memadai bagi model untuk mempelajari keterkaitan yang berguna. Idealnya, tambahkan cukup gambar berlabel ke set data agar model Anda dapat dilatih dengan benar. Jika hal itu tidak memungkinkan, pengayaan data dapat merotasi, melebarkan, dan merefleksikan setiap gambar untuk menghasilkan banyak varian dari gambar asli, yang mungkin menghasilkan data berlabel yang cukup untuk memungkinkan pelatihan yang sangat baik.

DataFrame

#fundamentals

Jenis data pandas populer untuk merepresentasikan set data di memori.

DataFrame dapat dianalogikan dengan tabel atau {i>spreadsheet<i}. Setiap kolom DataFrame memiliki nama (header), dan setiap baris diidentifikasi dengan nomor unik.

Setiap kolom dalam DataFrame disusun seperti array 2D, dengan pengecualian bahwa setiap kolom dapat diberi jenis datanya sendiri.

Lihat juga halaman referensi pandas.DataFrame resmi.

paralelisme data

Cara penskalaan pelatihan atau inferensi yang mereplikasi seluruh model ke beberapa perangkat, lalu meneruskan subset data input ke setiap perangkat. Paralelisme data dapat memungkinkan pelatihan dan inferensi pada ukuran tumpukan yang sangat besar; namun, paralelisme data mengharuskan agar model tersebut cukup kecil agar muat di semua perangkat.

Paralelisme data biasanya mempercepat pelatihan dan inferensi.

Lihat juga paralelisme model.

set data atau set data

#fundamentals

Kumpulan data mentah, umumnya (tetapi tidak secara eksklusif) diatur dalam salah satu format berikut:

  • {i>spreadsheet<i}
  • file dalam format CSV ({i>comma-separated values<i})

Dataset API (tf.data)

#TensorFlow

TensorFlow API tingkat tinggi untuk membaca data dan mentransformasinya menjadi bentuk yang diperlukan oleh algoritma machine learning. Objek tf.data.Dataset mewakili urutan elemen, yang mana setiap elemen berisi satu atau beberapa Tensor. Objek tf.data.Iterator memberikan akses ke elemen Dataset.

Untuk mengetahui detail tentang Dataset API, lihat tf.data: Membangun pipeline input TensorFlow di Panduan Programmer TensorFlow.

batas keputusan

Pemisah antara class yang dipelajari oleh model dalam class biner atau masalah klasifikasi kelas jamak. Misalnya, dalam gambar berikut yang merepresentasikan masalah klasifikasi biner, batas keputusan adalah batas antara class oranye dan class biru:

Batas yang jelas antara satu class dan class lainnya.

{i>decision forest<i}

#df

Model yang dibuat dari beberapa pohon keputusan. Forest keputusan membuat prediksi dengan menggabungkan prediksi pohon keputusannya. Jenis forest keputusan yang populer mencakup forest acak dan pohon yang ditingkatkan gradien.

nilai minimum keputusan

Sinonim dari batas klasifikasi.

pohon keputusan (decision tree)

#df

Model supervised learning yang terdiri dari serangkaian conditions dan conditions yang disusun secara hierarkis. Misalnya, berikut ini adalah pohon keputusan:

Pohon keputusan yang terdiri dari empat kondisi yang disusun secara hierarkis, yang menghasilkan lima daun.

decoder

#language

Secara umum, semua sistem ML yang melakukan konversi dari representasi yang diproses, padat, atau internal menjadi representasi yang lebih mentah, renggang, atau eksternal.

Decoder sering kali merupakan komponen dari model yang lebih besar, yang sering dipasangkan dengan encoder.

Pada tugas urutan ke urutan, decoder dimulai dengan status internal yang dihasilkan oleh encoder untuk memprediksi urutan berikutnya.

Lihat Transformer untuk mengetahui definisi decoder dalam arsitektur Transformer.

model dalam

#fundamentals

Jaringan neural yang berisi lebih dari satu lapisan tersembunyi.

Model dalam juga disebut jaringan neural dalam.

Berbeda dengan model lebar.

yang sangat populer

Sinonim dari model dalam.

Deep Q-Network (DQN)

#rl

Dalam Q-learning, jaringan neural mendalam yang memprediksi fungsi Q.

Critic adalah sinonim dari Deep Q-Network.

kesetaraan demografis

#fairness

Metrik keadilan yang terpenuhi jika hasil klasifikasi model tidak bergantung pada atribut sensitif tertentu.

Misalnya, jika Liliput dan Brobdingnagian mendaftar ke Universitas Glubbdubdrib, paritas demografis tercapai jika persentase Liliput yang diterima sama dengan persentase yang diterima Brobdingnagian, terlepas dari apakah satu grup rata-rata lebih memenuhi syarat daripada yang lain.

Berbeda dengan peluang yang sama dan kesamaan peluang, yang memungkinkan klasifikasi menghasilkan secara agregat untuk bergantung pada atribut sensitif, tetapi tidak mengizinkan hasil klasifikasi untuk label kebenaran dasar tertentu yang ditentukan untuk bergantung pada atribut sensitif. Lihat "Menyerang diskriminasi dengan machine learning yang lebih cerdas" untuk mendapatkan visualisasi yang mencari konsekuensi saat mengoptimalkan paritas demografis.

mengurangi derau

#language

Pendekatan umum untuk pembelajaran mandiri yang:

  1. Noise ditambahkan secara artifisial ke set data.
  2. model mencoba menghapus derau.

Pengurangan noise memungkinkan pembelajaran dari contoh tak berlabel. Set data asli berfungsi sebagai target atau label dan data derau sebagai input.

Beberapa model bahasa yang disamarkan menggunakan peredam bising sebagai berikut:

  1. Derau ditambahkan secara artifisial ke kalimat tanpa label dengan menyamarkan beberapa token.
  2. Model ini mencoba memprediksi token awal.

fitur padat

#fundamentals

Fitur yang sebagian besar atau semua nilai-nya bukan nol, biasanya Tensor dari nilai floating point. Misalnya, Tensor 10 elemen berikut padat karena 9 nilainya bukan nol:

8 3 7 5 2 4 0 4 9 6

Berbeda dengan fitur renggang.

lapisan padat

Sinonim dari lapisan terhubung sepenuhnya.

kedalaman

#fundamentals

Jumlah hal berikut dalam jaringan neural:

Misalnya, jaringan neural dengan lima lapisan tersembunyi dan satu lapisan output memiliki kedalaman 6.

Perhatikan bahwa lapisan input tidak memengaruhi kedalaman.

jaringan neural konvolusional yang dapat dipisahkan secara mendalam (sepCNN)

#image

Arsitektur jaringan neural konvolusional berdasarkan Inception, tetapi di mana modul Inception diganti dengan konvolusi yang dapat dipisahkan secara mendalam. Juga dikenal sebagai Xception.

Konvolusi yang dapat dipisahkan secara mendalam (juga disingkat sebagai konvolusi yang dapat dipisahkan) memfaktorkan konvolusi 3D standar menjadi dua operasi konvolusi terpisah yang lebih efisien secara komputasi: pertama, konvolusi yang dalam kedalaman, dengan kedalaman 1 (n ✕ n ✕ 1), lalu 1, 1, dengan panjang kolom

Untuk mempelajari lebih lanjut, lihat Xception: Deep Learning dengan Depthwise Separable Convolution.

label turunan

Sinonim dari proxy label.

perangkat

#TensorFlow
#GoogleCloud

Istilah yang berlebihan dengan dua kemungkinan definisi berikut:

  1. Kategori hardware yang dapat menjalankan sesi TensorFlow, termasuk CPU, GPU, dan TPU.
  2. Saat melatih model ML pada chip akselerator (GPU atau TPU), bagian dari sistem yang benar-benar memanipulasi tensor dan embeddings. Perangkat berjalan pada chip akselerator. Sebaliknya, host biasanya berjalan pada CPU.

privasi diferensial

Dalam machine learning, pendekatan anonimisasi untuk melindungi semua data sensitif (misalnya, informasi pribadi individu) yang disertakan dalam set pelatihan model agar tidak terekspos. Pendekatan ini memastikan bahwa model tidak mempelajari atau mengingat banyak tentang individu tertentu. Hal ini dilakukan dengan mengambil sampel dan menambahkan derau selama pelatihan model untuk menyamarkan titik data individual, sehingga mengurangi risiko mengekspos data pelatihan yang sensitif.

Privasi diferensial juga digunakan di luar machine learning. Misalnya, data scientist terkadang menggunakan privasi diferensial untuk melindungi privasi individual saat menghitung statistik penggunaan produk untuk demografi yang berbeda.

pengurangan dimensi

Menurunkan jumlah dimensi yang digunakan untuk merepresentasikan fitur tertentu dalam vektor fitur, biasanya dengan mengonversi menjadi vektor embedding.

dimensi

Istilah yang berlebihan yang memiliki salah satu definisi berikut:

  • Jumlah tingkat koordinat dalam Tensor. Contoh:

    • Skalar memiliki nol dimensi; misalnya, ["Hello"].
    • Vektor memiliki satu dimensi; misalnya, [3, 5, 7, 11].
    • Matriks memiliki dua dimensi; misalnya, [[2, 4, 18], [5, 7, 14]].

    Anda dapat menetapkan sel tertentu secara unik dalam vektor satu dimensi dengan satu koordinat; Anda memerlukan dua koordinat untuk menetapkan sebuah sel tertentu secara unik dalam matriks dua dimensi.

  • Jumlah entri dalam vektor fitur.

  • Jumlah elemen dalam lapisan embedding.

prompting langsung

#language
#AI generatif

Sinonim untuk zero-shot prompting.

fitur diskret

#fundamentals

Fitur dengan serangkaian kemungkinan nilai yang terbatas. Misalnya, fitur yang nilainya hanya dapat berupa hewan, nabati, atau mineral adalah fitur diskrit (atau kategoris).

Berbeda dengan fitur berkelanjutan.

model diskriminatif

model yang memprediksi model dari satu atau beberapa model. Secara lebih formal, model diskriminatif menentukan probabilitas kondisional dari suatu output berdasarkan fitur dan bobot; yaitu:

p(output | features, weights)

Misalnya, model yang memprediksi apakah email merupakan spam dari fitur dan bobot adalah model diskriminatif.

Sebagian besar model supervised learning, termasuk model klasifikasi dan regresi, adalah model diskriminatif.

Berbeda dengan model generatif.

diskriminator

Sistem yang menentukan apakah contoh itu nyata atau palsu.

Atau, subsistem dalam jaringan serangan generatif yang menentukan apakah contoh yang dibuat oleh generator itu nyata atau palsu.

dampak yang berbeda

#fairness

Membuat keputusan tentang orang-orang yang berdampak secara tidak proporsional terhadap subkelompok populasi yang berbeda. Hal ini biasanya mengacu pada situasi ketika proses pengambilan keputusan berbasis algoritma merugikan atau menguntungkan beberapa subgrup dibandingkan dengan subgrup lainnya.

Misalnya, algoritma yang menentukan kelayakan Lilliput untuk mendapatkan pinjaman rumah miniatur cenderung mengklasifikasikannya sebagai "tidak memenuhi syarat" jika alamat suratnya berisi kode pos tertentu. Jika Lilliputian Big-Endian lebih cenderung memiliki alamat surat dengan kode pos ini dibandingkan Lilliputian Little-Endian, algoritma ini dapat menghasilkan dampak yang berbeda.

Berbeda dengan perlakuan berbeda, yang berfokus pada perbedaan yang terjadi jika karakteristik subgrup adalah input eksplisit untuk proses pengambilan keputusan berbasis algoritma.

perlakuan yang berbeda

#fairness

Memfaktorkan atribut sensitif subjek ke dalam proses pengambilan keputusan berbasis algoritma sehingga subgrup orang yang berbeda diperlakukan secara berbeda.

Misalnya, pertimbangkan algoritma yang menentukan kelayakan Lilliput untuk mendapatkan kredit pemilikan rumah mini berdasarkan data yang mereka berikan dalam permohonan pinjaman. Jika algoritma menggunakan afiliasi Lilliputian sebagai Big-Endian atau Little-Endian sebagai input, algoritma tersebut akan menerapkan perlakuan yang berbeda di sepanjang dimensi tersebut.

Berbeda dengan dampak yang berbeda, yang berfokus pada perbedaan dampak sosial dari keputusan algoritma pada subgrup, terlepas dari apakah subgrup tersebut merupakan input untuk model atau tidak.

distilasi

#AI generatif

Proses mengurangi ukuran satu model (dikenal sebagai pengajar) menjadi model yang lebih kecil (dikenal sebagai siswa) yang mengemulasi prediksi model asli dengan setia mungkin. Distilasi berguna karena model yang lebih kecil memiliki dua manfaat utama dibandingkan model yang lebih besar (pengajar):

  • Waktu inferensi lebih cepat
  • Pengurangan penggunaan memori dan energi

Namun, prediksi siswa biasanya tidak sebaik prediksi pengajar.

Distilasi melatih model siswa untuk meminimalkan fungsi kerugian berdasarkan perbedaan antara output prediksi model siswa dan pengajar.

Bandingkan dan bedakan distilasi dengan istilah berikut:

distribusi

Frekuensi dan rentang nilai yang berbeda untuk fitur atau label tertentu. Distribusi menggambarkan seberapa besar kemungkinan nilai tertentu.

Gambar berikut menunjukkan histogram dari dua distribusi yang berbeda:

  • Di sebelah kiri, distribusi hukum kekuasaan atas kekayaan versus jumlah orang yang memiliki kekayaan tersebut.
  • Di sebelah kanan, distribusi normal tinggi versus jumlah orang yang memiliki tinggi tersebut.

Dua histogram. Satu histogram menunjukkan distribusi hukum kekuasaan dengan kekayaan pada sumbu x dan jumlah orang yang memiliki kekayaan itu pada sumbu y. Kebanyakan orang memiliki kekayaan yang sangat sedikit, dan sedikit orang yang memiliki banyak kekayaan. Histogram lainnya menunjukkan distribusi normal
          dengan tinggi pada sumbu x dan jumlah orang yang memiliki tinggi
          itu pada sumbu y. Kebanyakan orang dikelompokkan di suatu tempat yang dekat dengan rata-rata.

Memahami setiap distribusi fitur dan label dapat membantu Anda menentukan cara menormalisasi nilai dan mendeteksi outlier.

Frasa out of distribution mengacu pada nilai yang tidak muncul dalam set data atau sangat jarang. Misalnya, gambar planet Saturnus akan dianggap dari distribusi untuk set data yang terdiri dari gambar kucing.

pengelompokan divisif

#clustering

Lihat pengelompokan hierarkis.

pengurangan sampel

#image

Istilah yang kelebihan beban yang dapat berarti salah satu dari hal berikut:

  • Mengurangi jumlah informasi dalam suatu fitur untuk melatih model dengan lebih efisien. Misalnya, sebelum melatih model pengenalan citra, lakukan downsampling pada gambar beresolusi tinggi ke format resolusi yang lebih rendah.
  • Melatih contoh kelas dengan persentase rendah yang tidak proporsional untuk meningkatkan pelatihan model pada kelas yang kurang terwakili. Misalnya, dalam set data kelas tidak seimbang, model cenderung belajar banyak tentang kelas mayoritas dan tidak cukup tentang kelas minoritas. Penurunan/pengurangan sampel membantu menyeimbangkan jumlah pelatihan pada kelas mayoritas dan minoritas.

DQN

#rl

Singkatan dari Deep Q-Network.

regularisasi dengan pelampauan (dropout)

Bentuk regularisasi yang berguna dalam melatih jaringan neural. Regularisasi dengan dropout menghapus pilihan acak dengan jumlah unit tetap dalam lapisan jaringan untuk satu langkah gradien. Semakin banyak unit yang keluar, semakin kuat regularisasinya. Hal ini serupa dengan melatih jaringan untuk mengemulasi ansembel yang besar secara eksponensial dari jaringan yang lebih kecil. Untuk mengetahui detail selengkapnya, lihat Pelolosan: Cara Sederhana untuk Mencegah Overfitting pada Jaringan Neural.

dinamis

#fundamentals

Sesuatu yang sering dilakukan atau dilakukan secara terus-menerus. Istilah dinamis dan online adalah sinonim dalam machine learning. Berikut adalah penggunaan umum dinamis dan online dalam machine learning:

  • Model dinamis (atau model online) adalah model yang sering atau terus-menerus dilatih ulang.
  • Pelatihan dinamis (atau pelatihan online) adalah proses pelatihan yang sering atau berkelanjutan.
  • Inferensi dinamis (atau inferensi online) adalah proses menghasilkan prediksi sesuai permintaan.

model dinamis

#fundamentals

model yang sering (bahkan mungkin terus menerus) dilatih ulang. Model dinamis adalah "pembelajar sepanjang hayat" yang terus-menerus beradaptasi dengan data yang berkembang. Model dinamis juga dikenal sebagai model online.

Berbeda dengan model statis.

E

eksekusi segera

#TensorFlow

Lingkungan pemrograman TensorFlow tempat operations dijalankan secara langsung. Sebaliknya, operasi yang disebut eksekusi grafik tidak dijalankan sampai dievaluasi secara eksplisit. Eksekusi segera adalah antarmuka imperatif, seperti kode dalam sebagian besar bahasa pemrograman. Program eksekusi segera umumnya jauh lebih mudah di-debug daripada program eksekusi grafik.

penghentian awal

#fundamentals

Metode untuk regularisasi yang melibatkan penghentian pelatihan sebelum kerugian pelatihan selesai berkurang. Pada penghentian awal, Anda sengaja menghentikan pelatihan model saat kerugian pada set data validasi mulai meningkat; yaitu ketika performa generalisasi memburuk.

jarak penggerak bumi (EMD)

Ukuran kesamaan relatif dari dua distribusi. Semakin rendah jarak penggerak bumi, semakin mirip distribusinya.

edit jarak

#language

Pengukuran tentang kemiripan dua {i>string<i} teks satu sama lain. Dalam machine learning, edit jarak berguna karena mudah untuk dihitung, serta cara yang efektif untuk membandingkan dua string yang diketahui mirip atau untuk menemukan string yang mirip dengan string tertentu.

Ada beberapa definisi untuk jarak edit, masing-masing menggunakan operasi string yang berbeda. Misalnya, Jarak Levenshtein mempertimbangkan operasi hapus, penyisipan, dan pengganti yang paling sedikit.

Misalnya, jarak Levenshtein antara kata "hati" dan "anak panah" adalah 3 karena 3 pengeditan berikut adalah perubahan paling sedikit untuk mengubah satu kata menjadi kata lainnya:

  1. hati → deart (ganti "h" dengan "d")
  2. deart → dart (hapus "e")
  3. dart → dart (insert "s")

Notasi Einsum

Notasi yang efisien untuk menjelaskan cara menggabungkan dua tensor. Tensor digabungkan dengan mengalikan elemen dari satu tensor dengan elemen tensor lainnya, lalu menjumlahkan hasilnya. Notasi Einsum menggunakan simbol untuk mengidentifikasi sumbu setiap tensor, dan simbol yang sama tersebut disusun ulang untuk menentukan bentuk tensor baru yang dihasilkan.

NumPy menyediakan implementasi Einsum yang umum.

lapisan embedding

#language
#fundamentals

lapisan tersembunyi khusus yang melatih fitur kategoris berdimensi tinggi untuk mempelajari vektor embedding dengan dimensi yang lebih rendah secara bertahap. Lapisan embedding memungkinkan jaringan neural untuk berlatih jauh lebih efisien daripada melatih fitur kategoris berdimensi tinggi saja.

Misalnya, Bumi saat ini mendukung sekitar 73.000 spesies pohon. Misalkan spesies pohon adalah fitur dalam model Anda, jadi lapisan input model Anda mencakup vektor one-hot dengan panjang 73.000 elemen. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array berisi 73.000 elemen. 6.232 elemen pertama berisi nilai
     0. Elemen berikutnya berisi nilai 1. 66.767 elemen terakhir memiliki
     nilai nol.

Array berisi 73.000 elemen sangat panjang. Jika lapisan embedding tidak ditambahkan ke model, pelatihan akan sangat memakan waktu karena mengalikan 72.999 angka nol. Mungkin Anda memilih lapisan embedding terdiri dari 12 dimensi. Akibatnya, lapisan embedding secara bertahap akan mempelajari vektor embedding baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar untuk lapisan embedding.

ruang sematan

#language

Ruang vektor d dimensi yang ditampilkan dari ruang vektor berdimensi lebih tinggi akan dipetakan. Idealnya, ruang embedding berisi struktur yang menghasilkan hasil matematika yang bermakna; misalnya, dalam ruang embedding yang ideal, penjumlahan dan pengurangan embedding dapat menyelesaikan tugas analogi kata.

Produk titik dari dua embeddings adalah ukuran kesamaan dari embedding tersebut.

vektor embedding

#language

Secara umum, array bilangan floating point yang diambil dari setiap lapisan tersembunyi yang menjelaskan input ke lapisan tersembunyi tersebut. Sering kali, vektor embedding adalah array bilangan floating point yang dilatih dalam lapisan embedding. Misalnya, lapisan embedding harus mempelajari vektor embedding untuk masing-masing dari 73.000 spesies pohon di Bumi. Mungkin array berikut adalah vektor embedding untuk pohon baobab:

Array yang terdiri dari 12 elemen, yang masing-masing berisi angka floating point
          antara 0,0 dan 1,0.

Vektor embedding bukanlah sekelompok angka acak. Lapisan embedding menentukan nilai ini melalui pelatihan, mirip dengan cara jaringan neural mempelajari bobot lain selama pelatihan. Setiap elemen array merupakan rating bersama beberapa karakteristik spesies pohon. Elemen mana yang mewakili karakteristik spesies pohon mana? Sangat sulit bagi manusia untuk menentukannya.

Bagian yang luar biasa secara matematis dari vektor embedding adalah item serupa memiliki kumpulan bilangan floating point yang serupa. Misalnya, spesies pohon yang serupa memiliki kumpulan bilangan floating point yang lebih mirip daripada spesies pohon yang berbeda. Redwood dan sequoia adalah spesies pohon yang terkait, sehingga mereka akan memiliki kumpulan bilangan floating yang lebih mirip daripada kayu redwood dan pohon kelapa. Angka dalam vektor embedding akan berubah setiap kali Anda melatih ulang model, meskipun Anda melatih ulang model dengan input yang identik.

fungsi distribusi kumulatif empiris (eCDF atau EDF)

Fungsi distribusi kumulatif berdasarkan pengukuran empiris dari set data nyata. Nilai fungsi pada titik mana pun di sepanjang sumbu x adalah fraksi pengamatan dalam set data yang kurang dari atau sama dengan nilai yang ditentukan.

minimalisasi risiko empiris (ERM)

Memilih fungsi yang meminimalkan kerugian pada set pelatihan. Berbeda dengan minimalisasi risiko struktural.

pembuat enkode

#language

Secara umum, semua sistem ML yang melakukan konversi dari representasi mentah, renggang, atau eksternal menjadi representasi internal yang lebih terproses, padat, atau lebih.

Encoder sering kali merupakan komponen dari model yang lebih besar dan sering disambungkan dengan decoder. Beberapa Transformer memasangkan encoder dengan decoder, meskipun Transformer lain hanya menggunakan encoder atau hanya decoder.

Beberapa sistem menggunakan output encoder sebagai input untuk jaringan klasifikasi atau regresi.

Dalam tugas urutan ke urutan, encoder mengambil urutan input dan menampilkan status internal (vektor). Kemudian, decoder menggunakan status internal tersebut untuk memprediksi urutan berikutnya.

Lihat Transformer untuk mengetahui definisi encoder dalam arsitektur Transformer.

ansambel

Kumpulan model yang dilatih secara independen yang prediksinya dirata-ratakan atau digabungkan. Dalam banyak kasus, satu ansambel menghasilkan prediksi yang lebih baik daripada model tunggal. Misalnya, hutan acak adalah ansambel yang dibangun dari beberapa pohon keputusan. Perhatikan bahwa tidak semua hutan keputusan merupakan ansambel.

entropi

#df

Dalam teori informasi, deskripsi tentang distribusi probabilitas yang tidak dapat diprediksi. Atau, entropi juga didefinisikan sebagai jumlah informasi yang terdapat dalam setiap contoh. Distribusi memiliki entropi tertinggi yang memungkinkan jika semua nilai variabel acak memiliki kemungkinan yang sama.

Entropi kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) memiliki rumus berikut:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dalam hal ini:

  • H adalah entropi.
  • p adalah pecahan dari contoh "1".
  • q adalah pecahan dari contoh "0". Perhatikan bahwa q = (1 - p)
  • log umumnya log2. Dalam hal ini, satuan entropinya adalah bit.

Misalnya, anggap saja hal berikut:

  • 100 contoh berisi nilai "1"
  • 300 contoh berisi nilai "0"

Oleh karena itu, nilai entropinya adalah:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per contoh

Set yang seimbang secara sempurna (misalnya, 200 “0” dan 200 “1”) akan memiliki entropi 1,0 bit per contoh. Saat set menjadi lebih tidak seimbang, entropinya bergerak menuju 0,0.

Dalam pohon keputusan, entropi membantu merumuskan perolehan informasi untuk membantu pemisah memilih kondisi selama pertumbuhan pohon keputusan klasifikasi.

Bandingkan entropi dengan:

Entropi sering disebut entropi Shannon.

environment

#rl

Dalam reinforcement learning, dunia berisi agen dan memungkinkan agen mengamati status dunia tersebut. Misalnya, dunia yang diwakili dapat berupa game seperti catur, atau dunia fisik seperti labirin. Saat agen menerapkan tindakan ke lingkungan, lingkungan akan beralih antar-status.

episode

#rl

Dalam reinforcement learning, setiap percobaan berulang oleh agen untuk mempelajari lingkungan.

epoch

#fundamentals

Pass pelatihan penuh pada seluruh set pelatihan sehingga setiap contoh telah diproses satu kali.

Epoch mewakili N/ukuran tumpukan pelatihan iterasi, dengan N adalah jumlah total contoh.

Misalnya, anggaplah hal berikut:

  • Set data ini terdiri dari 1.000 contoh.
  • Ukuran tumpukan adalah 50 contoh.

Oleh karena itu, satu epoch memerlukan 20 iterasi:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

kebijakan epsilon greedy

#rl

Dalam reinforcement learning, kebijakan yang mengikuti kebijakan acak dengan probabilitas epsilon atau kebijakan rakus jika tidak. Misalnya, jika epsilon bernilai 0,9, maka kebijakan akan mengikuti kebijakan acak 90% dan kebijakan serakah 10% dari waktu tersebut.

Selama episode yang berurutan, algoritme akan mengurangi nilai epsilon untuk beralih dari mengikuti kebijakan acak menjadi mengikuti kebijakan yang berlebihan. Dengan mengalihkan kebijakan, agen pertama-tama akan menjelajahi lingkungan secara acak, lalu dengan serakah mengeksploitasi hasil eksplorasi acak.

kesetaraan peluang

#fairness

Metrik keadilan untuk menilai apakah model memprediksi hasil yang diinginkan dengan sama baiknya untuk semua nilai atribut sensitif. Dengan kata lain, jika hasil yang diinginkan untuk suatu model adalah kelas positif, tujuannya adalah memiliki rasio positif benar yang sama untuk semua grup.

Kesetaraan peluang terkait dengan peluang yang sama, yang mengharuskan kedua rasio positif benar dan rasio positif palsu sama untuk semua grup.

Misalnya Universitas Glubbdubdrib mengizinkan Lilliput dan Brobdingnagians untuk mengikuti program matematika yang ketat. Sekolah menengah di Lilliput menawarkan kurikulum kelas matematika yang andal, dan sebagian besar siswanya memenuhi kualifikasi untuk program universitas. Sekolah menengah Brobdingnagians tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswa yang memenuhi syarat. Kesetaraan peluang akan terpenuhi untuk label "diterima" yang dipilih sehubungan dengan kewarganegaraan (Lilliputian atau Brobdingnagian) jika siswa yang memenuhi syarat sama-sama cenderung diterima terlepas dari apakah mereka Lilliputian atau Brobdingnagian.

Misalnya, 100 Liliputian dan 100 Brobdingnagians mendaftar ke Glubbdubdrib University, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 1. Pelamar Liliput (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 3
Ditolak 45 7
Total 90 10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 7/10 = 70%
Persentase total siswa Liliput yang diterima: (45+3)/100 = 48%

 

Tabel 2. Pelamar pekerjaan brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 9
Ditolak 5 81
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 81/90 = 90%
Persentase total siswa Brobdingnagian yang diterima: (5+9)/100 = 14%

Contoh sebelumnya memenuhi kesetaraan peluang untuk diterima oleh siswa yang memenuhi syarat karena Lilliputian dan Brobdingnagians yang memenuhi syarat memiliki peluang 50% untuk diterima.

Meskipun kesetaraan peluang terpenuhi, dua metrik keadilan berikut tidak terpenuhi:

  • paritas demografis: Liliput dan Brobdingnagian diterima di universitas dengan tarif yang berbeda-beda; 48% mahasiswa Liliput diterima, tetapi hanya 14% mahasiswa Brobdingnagian yang diterima.
  • peluang disetarakan: Meskipun siswa Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang yang sama untuk diterima, batasan tambahan bahwa Lilliputian dan Brobdingnagian yang tidak memenuhi syarat sama-sama memiliki peluang ditolak yang sama tidaklah terpenuhi. Lilliput yang tidak memenuhi syarat memiliki rasio penolakan 70%, sedangkan Brobdingnagian yang tidak memenuhi syarat memiliki rasio penolakan 90%.

Lihat "Kesetaraan Peluang dalam Pembelajaran yang Diawasi" untuk diskusi yang lebih mendetail tentang kesetaraan peluang. Lihat juga "Menyerang diskriminasi dengan machine learning yang lebih cerdas" untuk mendapatkan visualisasi yang mencari konsekuensi saat mengoptimalkan kesetaraan peluang.

peluang yang disamakan

#fairness

Metrik keadilan untuk menilai apakah model memprediksi hasil dengan cara yang sama untuk semua nilai atribut sensitif dengan memperhatikan kelas positif dan kelas negatif—bukan hanya satu kelas atau yang lainnya secara eksklusif. Dengan kata lain, rasio positif benar dan rasio negatif palsu harus sama untuk semua grup.

Peluang yang disamakan terkait dengan kesamaan peluang, yang hanya berfokus pada rasio error untuk satu kelas (positif atau negatif).

Misalnya, Glubbdubdrib University menerima orang Lilliput dan Brobdingnagians untuk mengikuti program matematika yang ketat. Sekolah menengah di Lilliput menawarkan kurikulum kelas matematika yang andal, dan sebagian besar siswanya memenuhi syarat untuk program universitas. Sekolah menengah Brobdingnagians tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswanya yang memenuhi syarat. Peluang yang disamakan akan terpenuhi, apa pun pemohon adalah Liliput atau Brobdingnagian, jika memenuhi syarat, mereka memiliki kemungkinan sama untuk diterima di program, dan jika tidak memenuhi syarat, mereka sama-sama berpotensi ditolak.

Misalkan 100 Liliput dan 100 Brobdingnagian mendaftar ke Glubbdubdrib University, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 3. Pelamar Liliput (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 2
Ditolak 45 8
Total 90 10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 8/10 = 80%
Persentase total siswa Liliput yang diterima: (45+2)/100 = 47%

 

Tabel 4. Pelamar pekerjaan brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 18
Ditolak 5 72
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 72/90 = 80%
Persentase total siswa Brobdingnagian yang diterima: (5+18)/100 = 23%

Peluang yang disetarakan terpenuhi karena siswa Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima, dan Lilliputian dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang 80% untuk ditolak.

Peluang yang disamakan secara formal didefinisikan dalam "Kesetaraan Peluang dalam Pembelajaran yang Diawasi" sebagai berikut: "predator ringkasan memenuhi peluang yang disamakan sehubungan dengan atribut yang dilindungi dan hasil Y jika ? dan A independen, bersyarat pada Y."

Penghitung

#TensorFlow

TensorFlow API yang tidak digunakan lagi. Gunakan tf.keras, bukan Assessment.

evaluasi

Proses pengukuran kualitas prediksi model machine learning. Saat mengembangkan model, Anda biasanya menerapkan metrik evaluasi tidak hanya pada set pelatihan, tetapi juga pada set validasi dan set pengujian. Anda juga dapat menggunakan metrik evaluasi untuk membandingkan berbagai model satu sama lain.

contoh

#fundamentals

Nilai satu baris fitur dan mungkin label. Contoh dalam supervised learning termasuk dalam dua kategori umum:

  • Contoh berlabel terdiri dari satu atau beberapa fitur dan sebuah label. Contoh berlabel digunakan selama pelatihan.
  • Contoh tak berlabel terdiri dari satu atau beberapa fitur, tetapi tanpa label. Contoh tak berlabel digunakan selama inferensi.

Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Berikut adalah tiga contoh berlabel:

Fitur Label
Temperature (suhu) Kelembapan Tekanan Skor tes
15 47 998 Baik
19 34 1020 Sangat baik
18 92 1012 Buruk

Berikut adalah tiga contoh tak berlabel:

Temperature (suhu) Kelembapan Tekanan  
12 62 1014  
21 47 1017  
19 41 1021  

Baris set data biasanya merupakan sumber mentah untuk contoh. Artinya, sebuah contoh biasanya terdiri dari subset kolom dalam set data. Selain itu, fitur dalam contoh juga dapat mencakup fitur sintetis, seperti persilangan fitur.

putar ulang pengalaman

#rl

Dalam reinforcement learning, teknik DQN digunakan untuk mengurangi korelasi sementara dalam data pelatihan. Agen menyimpan transisi status dalam buffer replay, lalu contoh transisi dari buffer replay untuk membuat data pelatihan.

bias pelaku eksperimen

#fairness

Lihat bias konfirmasi.

masalah gradien yang meledak

#seq

Kecenderungan untuk gradien di jaringan neural dalam (terutama jaringan saraf berulang) menjadi sangat curam (tinggi). Gradien curam sering menyebabkan pembaruan yang sangat besar pada bobot dari setiap node dalam jaringan neural dalam.

Model yang mengalami masalah gradien yang meledak menjadi sulit atau tidak mungkin untuk dilatih. Pemangkasan gradien dapat mengurangi masalah ini.

Bandingkan dengan masalah gradien yang hilang.

F

F1

Metrik klasifikasi biner "roll-up" yang mengandalkan presisi dan penarikan. Berikut formulanya:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Misalnya, dengan kondisi berikut:

  • presisi = 0,6
  • recall = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Jika presisi dan perolehan cukup mirip (seperti dalam contoh sebelumnya), F1 mendekati rata-ratanya. Jika presisi dan perolehan berbeda secara signifikan, F1 akan lebih dekat ke nilai yang lebih rendah. Contoh:

  • presisi = 0,9
  • recall = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

batasan keadilan

#fairness
Menerapkan batasan ke algoritma untuk memastikan satu atau beberapa definisi keadilan terpenuhi. Contoh batasan keadilan meliputi:

metrik keadilan

#fairness

Definisi matematis tentang "keadilan" yang dapat diukur. Beberapa metrik keadilan yang umum digunakan mencakup:

Banyak metrik keadilan yang saling eksklusif; lihat inkompatibilitas metrik keadilan.

negatif palsu (NP)

#fundamentals

Contoh yang mana model salah memprediksi kelas negatif. Misalnya, model memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email tersebut sebenarnya adalah spam.

rasio negatif palsu

Proporsi contoh positif aktual yang mana model salah memprediksi class negatif. Formula berikut menghitung rasio negatif palsu:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

positif palsu (PP)

#fundamentals

Contoh yang mana model salah memprediksi kelas positif. Misalnya, model memprediksi bahwa pesan email tertentu adalah spam (kelas positif), tetapi pesan email tersebut sebenarnya bukan spam.

rasio positif palsu (FPR)

#fundamentals

Proporsi contoh negatif aktual yang mana model salah memprediksi class positif. Formula berikut menghitung rasio positif palsu:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Rasio positif palsu adalah sumbu x dalam kurva KOP.

fitur

#fundamentals

Variabel input ke model machine learning. Contoh terdiri dari satu atau beberapa fitur. Misalnya, Anda melatih sebuah model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Tabel berikut menunjukkan tiga contoh, yang masing-masing berisi tiga fitur dan satu label:

Fitur Label
Temperature (suhu) Kelembapan Tekanan Skor tes
15 47 998 92
19 34 1020 84
18 92 1012 87

Berbeda dengan label.

persilangan fitur (feature cross)

#fundamentals

Fitur sintetis yang dibentuk oleh fitur kategoris atau dikelompokkan "persilangan".

Misalnya, pertimbangkan model "perkiraan suasana hati" yang mewakili suhu di salah satu dari empat bucket berikut:

  • freezing
  • chilly
  • temperate
  • warm

Dan mewakili kecepatan angin di salah satu dari tiga kategori berikut:

  • still
  • light
  • windy

Tanpa persilangan fitur, model linear berlatih secara independen pada masing-masing dari tujuh bucket berbeda sebelumnya. Dengan demikian, model dilatih di, misalnya, freezing secara terpisah dari pelatihan pada, misalnya, windy.

Atau, Anda dapat membuat persilangan fitur suhu dan kecepatan angin. Fitur sintetis ini akan memiliki 12 kemungkinan nilai berikut:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Berkat persilangan fitur, model ini dapat mempelajari perbedaan mood antara freezing-windy hari dan freezing-still hari.

Jika Anda membuat fitur sintetis dari dua fitur yang masing-masing memiliki banyak bucket berbeda, persilangan fitur yang dihasilkan akan memiliki banyak kemungkinan kombinasi. Misalnya, jika satu fitur memiliki 1.000 bucket dan fitur lainnya memiliki 2.000 bucket, persilangan fitur yang dihasilkan memiliki 2.000.000 bucket.

Secara formal, persilangan adalah produk Kartesius.

Persilangan fitur sebagian besar digunakan dengan model linear dan jarang digunakan dengan jaringan neural.

rekayasa fitur

#fundamentals
#TensorFlow

Proses yang melibatkan langkah-langkah berikut:

  1. Menentukan fitur mana yang mungkin berguna dalam melatih model.
  2. Mengonversi data mentah dari set data menjadi versi yang efisien dari fitur-fitur tersebut.

Misalnya, Anda dapat menentukan bahwa temperature mungkin merupakan fitur yang berguna. Kemudian, Anda dapat bereksperimen dengan pengelompokan untuk mengoptimalkan apa yang dapat dipelajari model dari berbagai rentang temperature.

Rekayasa fitur terkadang disebut ekstraksi fitur atau featurisasi.

ekstraksi fitur

Istilah yang kelebihan muatan yang memiliki salah satu definisi berikut:

tingkat kepentingan fitur

#df

Sinonim dari nilai penting variabel.

set fitur

#fundamentals

Grup fitur yang dilatih oleh model machine learning Anda. Misalnya, kode pos, ukuran properti, dan kondisi properti mungkin terdiri dari set fitur sederhana untuk model yang memprediksi harga perumahan.

spesifikasi fitur

#TensorFlow

Menjelaskan informasi yang diperlukan untuk mengekstrak data fitur dari buffering protokol tf.Example. Karena buffering protokol tf.Example hanyalah penampung untuk data, Anda harus menentukan hal berikut:

  • Data yang akan diekstrak (yaitu, kunci untuk fitur)
  • Tipe data (misalnya, float atau int)
  • Panjang (tetap atau variabel)

vektor fitur

#fundamentals

Array nilai fitur yang terdiri dari contoh. Vektor fitur adalah input selama pelatihan dan selama inferensi. Misalnya, vektor fitur untuk model dengan dua fitur terpisah mungkin:

[0.92, 0.56]

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan satu lapisan output.
          Lapisan input berisi dua node, satu berisi nilai 0,92 dan satu lagi berisi nilai 0,56.

Setiap contoh menyediakan nilai yang berbeda untuk vektor fitur, sehingga vektor fitur untuk contoh berikutnya dapat berupa:

[0.73, 0.49]

Rekayasa fitur menentukan cara merepresentasikan fitur dalam vektor fitur. Misalnya, fitur kategori biner dengan lima kemungkinan nilai dapat direpresentasikan dengan encoding one-hot. Dalam hal ini, bagian dari vektor fitur untuk contoh tertentu akan terdiri dari empat angka nol dan satu angka 1,0 di posisi ketiga, sebagai berikut:

[0.0, 0.0, 1.0, 0.0, 0.0]

Sebagai contoh lainnya, anggaplah model Anda terdiri dari tiga fitur:

  • fitur kategori biner dengan lima kemungkinan nilai yang direpresentasikan dengan encoding one-hot; misalnya: [0.0, 1.0, 0.0, 0.0, 0.0]
  • fitur kategoris biner lainnya dengan tiga kemungkinan nilai yang diwakili oleh encoding one-hot; misalnya: [0.0, 0.0, 1.0]
  • fitur floating point; misalnya: 8.3.

Dalam hal ini, vektor fitur untuk setiap contoh akan direpresentasikan oleh sembilan nilai. Dengan nilai contoh dalam daftar sebelumnya, vektor fiturnya adalah:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

featurisasi

Proses pengekstrakan fitur dari sumber input, seperti dokumen atau video, dan memetakan fitur tersebut ke dalam vektor fitur.

Beberapa pakar ML menggunakan featurisasi sebagai sinonim dari rekayasa fitur atau ekstraksi fitur.

federated learning

Pendekatan machine learning terdistribusi yang melatih model machine learning menggunakan contoh terdesentralisasi yang berada di perangkat seperti smartphone. Dalam pembelajaran federasi, subset perangkat mendownload model saat ini dari server koordinasi pusat. Perangkat menggunakan contoh yang disimpan di perangkat untuk meningkatkan kualitas model. Perangkat kemudian mengupload peningkatan model (tetapi bukan contoh pelatihan) ke server yang berkoordinasi, tempat mereka digabungkan dengan update lain untuk menghasilkan model global yang lebih baik. Setelah agregasi, update model yang dihitung oleh perangkat tidak lagi diperlukan, dan dapat dihapus.

Karena contoh pelatihan tidak pernah diupload, federated learning mengikuti prinsip privasi, seperti pengumpulan data yang terfokus dan minimalisasi data.

Untuk mengetahui informasi selengkapnya tentang federated learning, lihat tutorial ini.

siklus masukan

#fundamentals

Dalam machine learning, situasi ketika prediksi model memengaruhi data pelatihan untuk model yang sama atau model lain. Misalnya, model yang merekomendasikan film akan memengaruhi film yang ditonton orang, yang kemudian akan memengaruhi model rekomendasi film berikutnya.

jaringan saraf alur maju (FFN)

Jaringan neural tanpa koneksi siklis atau rekursif. Misalnya, jaringan neural dalam tradisional merupakan jaringan saraf alur maju. Berbeda dengan jaringan saraf berulang, yang bersifat siklis.

pemelajaran beberapa tahap

Pendekatan machine learning, sering digunakan untuk klasifikasi objek, yang dirancang untuk melatih pengklasifikasi yang efektif hanya dari sejumlah kecil contoh pelatihan.

Lihat juga pembelajaran satu kali dan pembelajaran zero-shot.

few-shot prompting

#language
#AI generatif

Prompt yang berisi lebih dari satu ("beberapa") contoh yang menunjukkan cara model bahasa besar merespons. Misalnya, perintah panjang berikut berisi dua contoh yang menunjukkan model bahasa besar cara menjawab kueri.

Bagian dari satu perintah Catatan
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang Anda inginkan untuk dijawab oleh LLM.
Prancis: EUR Salah satu contohnya.
Inggris Raya: GBP Contoh lainnya.
India: Kueri yang sebenarnya.

Few-shot prompting umumnya memberikan hasil yang lebih diinginkan daripada zero-shot prompting dan one-shot prompting. Namun, few-shot prompting memerlukan prompt yang lebih panjang.

Few-shot prompting adalah bentuk pembelajaran few-shot yang diterapkan pada pembelajaran berbasis prompt.

Biola

#language

Library konfigurasi yang mengutamakan Python yang menetapkan nilai fungsi dan class tanpa kode atau infrastruktur invasif. Dalam kasus Pax—dan codebase ML lainnya—fungsi dan class ini mewakili model dan pelatihan hyperparameter.

Fiddle mengasumsikan bahwa codebase machine learning biasanya dibagi menjadi:

  • Kode library, yang menentukan lapisan dan pengoptimal.
  • Kode "glue" set data, yang memanggil library dan menggabungkan semuanya.

Fiddle merekam struktur panggilan kode glue dalam bentuk yang tidak dievaluasi dan dapat diubah.

fine tuning

#language
#image
#AI generatif

Penerusan pelatihan khusus tugas kedua yang dilakukan pada model yang telah dilatih sebelumnya guna meningkatkan kualitas parameternya untuk kasus penggunaan tertentu. Misalnya, urutan pelatihan lengkap untuk beberapa model bahasa besar adalah sebagai berikut:

  1. Pra-pelatihan: Latih model bahasa besar pada set data umum yang luas, seperti semua halaman Wikipedia berbahasa Inggris.
  2. Fine-tuning: Latih model yang telah dilatih sebelumnya untuk melakukan tugas tertentu, seperti merespons kueri medis. Fine-tuning biasanya melibatkan ratusan atau ribuan contoh yang berfokus pada tugas tertentu.

Sebagai contoh lainnya, urutan pelatihan lengkap untuk model gambar besar adalah sebagai berikut:

  1. Pra-pelatihan: Latih model gambar besar pada set data gambar umum yang luas, seperti semua gambar di Wikimedia commons.
  2. Fine-tuning: Latih model yang telah dilatih sebelumnya untuk melakukan tugas tertentu, seperti membuat gambar orca.

Fine-tuning dapat memerlukan kombinasi apa pun dari strategi berikut:

  • Memodifikasi semua parameter model terlatih yang ada. Hal ini terkadang disebut penyempurnaan penuh.
  • Hanya memodifikasi beberapa parameter terlatih yang ada dari model terlatih (biasanya, lapisan yang paling dekat dengan lapisan output), sekaligus mempertahankan parameter lain yang sudah ada (biasanya, lapisan yang paling dekat dengan lapisan input). Lihat parameter-efficient tuning.
  • Menambahkan lebih banyak lapisan, biasanya di atas lapisan yang ada yang terdekat dengan lapisan output.

Penyesuaian adalah salah satu bentuk pembelajaran transfer. Dengan demikian, fine-tuning mungkin menggunakan fungsi kerugian yang berbeda atau jenis model yang berbeda dengan yang digunakan untuk melatih model terlatih. Misalnya, Anda dapat menyesuaikan model gambar besar yang dilatih sebelumnya untuk menghasilkan model regresi yang menampilkan jumlah burung dalam gambar input.

Bandingkan dan kontraskan fine-tuning dengan istilah berikut:

Flax

#language

Library open source berperforma tinggi untuk deep learning yang dibangun di atas JAX. Flax menyediakan fungsi untuk melatih jaringan neural, serta metode untuk mengevaluasi performanya.

Flaxformer

#language

Library Transformer open source, yang dibangun di Flax, dirancang khusus untuk natural language processing dan riset multimodal.

lupakan gerbang

#seq

Bagian dari sel Long Short-Term Memory yang mengatur aliran informasi melalui sel. Lupakan gate untuk mempertahankan konteks dengan menentukan informasi mana yang akan dihapus dari status sel.

softmax penuh

Sinonim dari softmax.

Berbeda dengan sampling kandidat.

lapisan terhubung seluruhnya

Lapisan tersembunyi tempat setiap node terhubung ke setiap node dalam lapisan tersembunyi berikutnya.

Lapisan yang terhubung sepenuhnya juga dikenal sebagai lapisan padat.

transformasi fungsi

Fungsi yang menggunakan fungsi sebagai input dan menampilkan fungsi yang telah diubah sebagai output. JAX menggunakan transformasi fungsi.

G

GAN

Singkatan dari generative adversarial network.

generalisasi

#fundamentals

Kemampuan model untuk membuat prediksi yang benar pada data baru yang sebelumnya tidak terlihat. Model yang dapat melakukan generalisasi adalah kebalikan dari model yang overfitting.

kurva generalisasi

#fundamentals

Plot kerugian pelatihan dan kerugian validasi sebagai fungsi dari jumlah iterasi.

Kurva generalisasi dapat membantu Anda mendeteksi kemungkinan overfitting. Misalnya, kurva generalisasi berikut menunjukkan overfitting karena kerugian validasi pada akhirnya menjadi jauh lebih tinggi daripada kerugian pelatihan.

Grafik Kartesius yang mana sumbu y diberi label kerugian dan sumbu x diberi label iterasi. Dua plot muncul. Satu plot menunjukkan kerugian pelatihan dan yang lain menunjukkan kerugian validasi.
          Awalnya kedua plot tersebut serupa, tetapi kerugian pelatihan pada akhirnya turun jauh lebih rendah daripada kerugian validasi.

model linear tergeneralisasi

Generalisasi model regresi kuadrat terkecil, yang didasarkan pada derau Gaussian, ke jenis model lain berdasarkan jenis derau lainnya, seperti derau Poisson atau derau kategorik. Contoh model linear umum meliputi:

Parameter dari model linear umum dapat ditemukan melalui pengoptimalan konveks.

Model linear umum menunjukkan properti berikut:

  • Prediksi rata-rata dari model regresi kuadrat terkecil yang optimal sama dengan label rata-rata pada data pelatihan.
  • Probabilitas rata-rata yang diprediksi oleh model regresi logistik yang optimal sama dengan label rata-rata pada data pelatihan.

Kemampuan model linear tergeneralisasi dibatasi oleh fiturnya. Tidak seperti model dalam, model linear tergeneralisasi tidak dapat "mempelajari fitur baru".

jaringan saraf generatif berlawanan (generative adversarial network (GAN))

Sistem untuk membuat data baru tempat generator membuat data dan diskriminator menentukan apakah data yang dibuat valid atau tidak valid.

AI generatif

#language
#image
#AI generatif

Sebuah bidang transformatif yang sedang berkembang tanpa definisi formal. Meskipun demikian, sebagian besar pakar sependapat bahwa model AI generatif dapat membuat konten ("membuat") yang berupa hal-hal berikut:

  • kompleks
  • koheren
  • asli

Misalnya, model AI generatif dapat membuat esai atau gambar yang canggih.

Beberapa teknologi sebelumnya, termasuk LSTM dan RNN, juga dapat menghasilkan konten asli dan koheren. Beberapa pakar menganggap teknologi lama ini sebagai AI generatif, sementara pakar lain merasa bahwa AI generatif yang sesungguhnya memerlukan output yang lebih kompleks daripada yang dapat dihasilkan oleh teknologi sebelumnya.

Berbeda dengan ML prediktif.

model generatif

Secara praktis, model yang melakukan salah satu hal berikut:

  • Membuat (menghasilkan) contoh baru dari set data pelatihan. Misalnya, model generatif dapat membuat puisi setelah dilatih pada set data yang terdiri dari beberapa puisi. Bagian generator dari jaringan saraf generatif berlawanan termasuk dalam kategori ini.
  • Menentukan probabilitas bahwa contoh baru berasal dari set pelatihan, atau dibuat dari mekanisme yang sama yang membuat set pelatihan. Misalnya, setelah melatih set data yang terdiri dari kalimat bahasa Inggris, model generatif dapat menentukan probabilitas bahwa input baru adalah kalimat bahasa Inggris yang valid.

Model generatif dapat secara teoretis memahami distribusi contoh atau fitur tertentu dalam set data. Definisinya yaitu:

p(examples)

Model unsupervised learning bersifat generatif.

Berbeda dengan model diskriminatif.

generator

Subsistem dalam jaringan saraf generatif yang berlawanan yang membuat contoh baru.

Berbeda dengan model diskriminatif.

kotoran gini

#df

Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari pengotoran gini atau entropi untuk menyusun kondisi untuk klasifikasi hierarki keputusan. Perolehan informasi berasal dari entropi. Tidak ada istilah padanan yang diterima secara universal untuk metrik yang berasal dari pengotoran gini; namun, metrik tanpa nama ini sama pentingnya dengan perolehan informasi.

Kotoran gini juga disebut indeks gini, atau cukup gini.

set data emas

Kumpulan data yang diseleksi secara manual yang mencatat kebenaran dasar. Tim dapat menggunakan satu atau beberapa set data emas untuk mengevaluasi kualitas model.

Beberapa set data emas menangkap subdomain kebenaran dasar yang berbeda. Misalnya, set data emas untuk klasifikasi gambar mungkin menangkap kondisi pencahayaan dan resolusi gambar.

GPT (Transformer terlatih Generatif)

#language

Keluarga Transformer model bahasa besar berbasis OpenAI.

Varian GPT dapat diterapkan ke beberapa modalitas, termasuk:

  • pembuatan gambar (misalnya, ImageGPT)
  • pembuatan teks ke gambar (misalnya DALL-E).

gradien

Vektor turunan parsial terhadap semua variabel independen. Dalam machine learning, gradien adalah vektor turunan parsial dari fungsi model. Gradien menunjuk ke arah pendakian yang paling curam.

akumulasi gradien

Teknik propagasi mundur yang memperbarui parameter hanya sekali per epoch, bukan sekali per iterasi. Setelah memproses setiap tumpukan mini, akumulasi gradien akan memperbarui total gradien yang berjalan. Kemudian, setelah memproses tumpukan mini terakhir dalam epoch, sistem akhirnya akan memperbarui parameter berdasarkan total semua perubahan gradien.

Akumulasi gradien berguna jika ukuran tumpukan sangat besar dibandingkan dengan jumlah memori yang tersedia untuk pelatihan. Ketika memori menjadi masalah, kecenderungan alami adalah mengurangi ukuran tumpukan. Namun, mengurangi ukuran batch dalam propagasi back normal akan meningkatkan jumlah update parameter. Akumulasi gradien memungkinkan model menghindari masalah memori, tetapi tetap berlatih secara efisien.

pohon yang didorong gradien (keputusan) (GBT)

#df

Jenis hutan keputusan tempat:

peningkatan gradien

#df

Algoritma pelatihan di mana model lemah dilatih untuk secara iteratif meningkatkan kualitas (mengurangi kerugian) dari model yang kuat. Misalnya, model yang lemah dapat berupa model pohon keputusan kecil atau linear. Model kuat menjadi jumlah dari semua model lemah yang dilatih sebelumnya.

Dalam bentuk peningkatan gradien yang paling sederhana, pada setiap iterasi, model yang lemah dilatih untuk memprediksi gradien kerugian dari model yang kuat. Kemudian, output model yang kuat akan diperbarui dengan mengurangi gradien yang diprediksi, mirip dengan penurunan gradien.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dalam hal ini:

  • $F_{0}$ adalah model awal yang kuat.
  • $F_{i+1}$ adalah model kuat berikutnya.
  • $F_{i}$ adalah model terbaik saat ini.
  • $\xi$ adalah nilai antara 0,0 dan 1,0 yang disebut penyusutan, yang setara dengan kecepatan pembelajaran dalam penurunan gradien.
  • $f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian sebesar $F_{i}$.

Variasi modern peningkatan gradien juga menyertakan turunan kedua (Hessian) dari kerugian dalam komputasinya.

Pohon keputusan biasanya digunakan sebagai model yang lemah dalam peningkatan gradien. Lihat pohon yang ditingkatkan (keputusan) gradien.

pemotongan gradien

#seq

Mekanisme yang biasa digunakan untuk mengurangi masalah gradien yang meledak dengan membatasi (memotong) nilai maksimum gradien secara artifisial saat menggunakan penurunan gradien untuk melatih model.

penurunan gradien

#fundamentals

Teknik matematis untuk meminimalkan kerugian. Penurunan gradien secara berulang menyesuaikan bobot dan bias, yang secara bertahap menemukan kombinasi terbaik untuk meminimalkan kerugian.

Penurunan gradien lebih tua—jauh, jauh lebih tua—daripada machine learning.

grafik

#TensorFlow

Di TensorFlow, spesifikasi komputasi. Node dalam grafik mewakili operasi. Edge diarahkan dan merepresentasikan penerusan hasil operasi (Tensor) sebagai operand ke operasi lain. Gunakan TensorBoard untuk memvisualisasikan grafik.

eksekusi grafik

#TensorFlow

Lingkungan pemrograman TensorFlow tempat program terlebih dahulu membuat grafik, lalu menjalankan semua atau sebagian grafik tersebut. Eksekusi grafik adalah mode eksekusi default di TensorFlow 1.x.

Berbeda dengan eksekusi segera.

kebijakan serakah

#rl

Dalam reinforcement learning, kebijakan yang selalu memilih tindakan dengan laba tertinggi yang diharapkan.

kebenaran nyata

#fundamentals

Realitas.

Hal yang benar-benar terjadi.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah seorang siswa di tahun pertama universitas akan lulus dalam waktu enam tahun. Kebenaran dasar untuk model ini adalah apakah siswa tersebut benar-benar lulus dalam enam tahun atau tidak.

bias atribusi golongan

#fairness

Dengan asumsi bahwa hal yang benar bagi seseorang juga benar bagi semua orang dalam kelompok itu. Efek dari bias atribusi kelompok dapat diperburuk jika pengambilan sampel praktis digunakan untuk pengumpulan data. Dalam sampel yang tidak representatif, atribusi dapat dibuat yang tidak mencerminkan realitas.

Lihat juga bias kehomogenan luar golongan dan bias dalam golongan.

H

halusinasi

#language

Produksi output yang tampak masuk akal tetapi tidak benar secara faktual oleh model AI generatif yang dimaksudkan untuk membuat pernyataan tentang dunia nyata. Misalnya, model AI generatif yang mengklaim bahwa Barack Obama meninggal pada tahun 1865 adalah halusinasi.

hashing

Dalam machine learning, mekanisme untuk mengelompokkan data kategorik, terutama jika jumlah kategorinya besar, tetapi jumlah kategori yang benar-benar muncul dalam set data relatif kecil.

Misalnya, Bumi adalah rumah bagi sekitar 73.000 spesies pohon. Anda dapat mewakili 73.000 spesies pohon masing-masing dalam 73.000 bucket kategori yang terpisah. Atau, jika hanya 200 dari spesies pohon tersebut yang benar-benar muncul dalam set data, Anda dapat menggunakan hashing untuk membagi spesies pohon menjadi mungkin 500 bucket.

Satu bucket dapat berisi beberapa spesies pohon. Misalnya, hashing dapat menempatkan baobab dan maple merah—dua spesies yang berbeda secara genetik—ke dalam bucket yang sama. Terlepas dari itu, hashing masih merupakan cara yang baik untuk memetakan kumpulan kategoris yang besar ke dalam jumlah bucket yang dipilih. Hashing mengubah fitur kategoris yang memiliki kemungkinan nilai dalam jumlah besar menjadi jumlah nilai yang jauh lebih kecil dengan mengelompokkan nilai secara deterministik.

heuristik

Solusi sederhana dan cepat diterapkan untuk masalah. Misalnya, "Dengan heuristik, kami mencapai akurasi 86%. Saat beralih ke jaringan neural dalam, akurasi meningkat hingga 98%."

lapisan tersembunyi

#fundamentals

Lapisan dalam jaringan neural antara lapisan input (fitur) dan lapisan output (prediksi). Setiap lapisan tersembunyi terdiri dari satu atau beberapa neuron. Misalnya, jaringan neural berikut berisi dua lapisan tersembunyi, lapisan pertama dengan tiga neuron dan lapisan kedua dengan dua neuron:

Empat lapisan. Lapisan pertama adalah lapisan input yang berisi dua fitur. Lapisan kedua adalah lapisan tersembunyi yang berisi tiga
 neuron. Lapisan ketiga adalah lapisan tersembunyi yang berisi dua
 neuron. Lapisan keempat adalah lapisan output. Setiap fitur berisi tiga tepi, yang masing-masing mengarah ke neuron yang berbeda di lapisan kedua. Masing-masing neuron di lapisan kedua
          berisi dua tepi, yang masing-masing mengarah ke neuron yang berbeda
          di lapisan ketiga. Setiap neuron di lapisan ketiga berisi
          satu tepi, masing-masing mengarah ke lapisan output.

Jaringan neural dalam berisi lebih dari satu lapisan tersembunyi. Misalnya, ilustrasi sebelumnya adalah jaringan neural dalam karena model berisi dua lapisan tersembunyi.

pengelompokan hierarkis

#clustering

Kategori algoritma pengelompokan yang membuat pohon cluster. Pengelompokan hierarki sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis algoritma pengelompokan hierarkis:

  • Pengelompokan aglomeratif menetapkan setiap contoh ke clusternya sendiri terlebih dahulu, dan secara berulang menggabungkan cluster terdekat untuk membuat pohon hierarki.
  • Pengelompokan divisif mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, lalu secara berulang membagi cluster ke dalam pohon hierarki.

Berbeda dengan pengelompokan berbasis sentroid.

kerugian engsel

Kelompok fungsi kerugian untuk klasifikasi yang dirancang untuk menemukan batas keputusan sejauh mungkin dari setiap contoh pelatihan, sehingga memaksimalkan margin antara contoh dan batas. KSVMs menggunakan kerugian engsel (atau fungsi terkait, seperti kerugian engsel kuadrat). Untuk klasifikasi biner, fungsi kerugian engsel ditentukan sebagai berikut:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

dengan y adalah label sebenarnya, -1 atau +1, dan y' adalah output mentah dari model pengklasifikasi:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Akibatnya, plot kerugian engsel versus (y * y') terlihat seperti berikut:

Sebuah plot Kartesius yang terdiri dari dua ruas garis gabungan. Segmen garis pertama dimulai pada (-3, 4) dan berakhir pada (1, 0). Segmen baris kedua dimulai pada (1, 0) dan berlanjut tanpa batas dengan kemiringan 0.

bias historis

#fairness

Jenis bias yang sudah ada di dunia dan telah masuk ke dalam set data. Bias ini cenderung mencerminkan stereotip budaya, ketidaksetaraan demografi, dan prasangka terhadap kelompok sosial tertentu.

Misalnya, pertimbangkan model klasifikasi yang memprediksi apakah pemohon pinjaman akan gagal membayar pinjamannya atau tidak, yang dilatih dengan data historis default pinjaman dari tahun 1980-an dari bank lokal di dua komunitas yang berbeda. Jika pemohon lama dari Komunitas A memiliki kemungkinan enam kali lebih besar untuk gagal membayar pinjamannya dibandingkan pemohon dari Komunitas B, model ini mungkin mempelajari bias historis yang menyebabkan model cenderung tidak menyetujui pinjaman di Komunitas A, meskipun kondisi historis yang menyebabkan tingkat default yang lebih tinggi di komunitas tersebut sudah tidak relevan lagi.

data pisahan

Contoh sengaja tidak digunakan ("dipisah") selama pelatihan. Set data validasi dan set data pengujian adalah contoh data pisahan. Data pisahan membantu mengevaluasi kemampuan model Anda dalam menggeneralisasi data selain data yang digunakan untuk melatih model tersebut. Kerugian pada set pisahan memberikan perkiraan kerugian yang lebih baik pada set data yang tidak terlihat daripada kerugian pada set pelatihan.

host

#TensorFlow
#GoogleCloud

Saat melatih model ML pada chip akselerator (GPU atau TPU), bagian dari sistem yang mengontrol kedua hal berikut:

  • Keseluruhan alur kode.
  • Ekstraksi dan transformasi pipeline input.

Host biasanya berjalan pada CPU, bukan pada chip akselerator; perangkat memanipulasi tensor pada chip akselerator.

hyperparameter

#fundamentals

Variabel yang Anda atau layanan penyesuaian hyperparameteryang disesuaikan selama pelatihan model secara berturut-turut. Misalnya, kecepatan pembelajaran adalah hyperparameter. Anda dapat menetapkan kecepatan pembelajaran ke 0,01 sebelum satu sesi pelatihan. Jika Anda menetapkan bahwa 0,01 terlalu tinggi, Anda mungkin dapat menetapkan kecepatan pembelajaran ke 0,003 untuk sesi pelatihan berikutnya.

Sebaliknya, parameter adalah berbagai bobot dan bias yang dipelajari oleh model selama pelatihan.

bidang-hiper

Batas yang memisahkan ruang menjadi dua subruang. Misalnya, garis adalah bidang hiper dalam dua dimensi dan bidang adalah bidang-hiper dalam tiga dimensi. Biasanya dalam machine learning, bidang-hiper adalah batas yang memisahkan ruang dimensi tinggi. Kernel Support Vector Machines menggunakan bidang-hiper untuk memisahkan kelas positif dari kelas negatif, biasanya dalam ruang yang berdimensi sangat tinggi.

I

terdistribusi secara independen dan identik

Singkatan dari terdistribusi secara independen dan identik.

pengenalan gambar

#image

Sebuah proses yang mengklasifikasikan objek, pola, atau konsep dalam sebuah gambar. Pengenalan citra juga dikenal sebagai klasifikasi gambar.

Untuk mengetahui informasi selengkapnya, lihat Praktik ML: Klasifikasi Gambar.

set data tidak seimbang

Sinonim dari set data kelas tidak seimbang.

bias implisit

#fairness

Secara otomatis membuat asosiasi atau asumsi berdasarkan model pikiran dan ingatan seseorang. Bias implisit dapat memengaruhi hal-hal berikut:

  • Cara data dikumpulkan dan diklasifikasikan.
  • Cara sistem machine learning dirancang dan dikembangkan.

Misalnya, saat membuat pengklasifikasi untuk mengidentifikasi foto pernikahan, insinyur dapat menggunakan keberadaan gaun putih di foto sebagai fitur. Namun, gaun putih telah menjadi kebiasaan hanya selama era tertentu dan di budaya tertentu.

Lihat juga bias konfirmasi.

imputasi

Bentuk singkat dari imputasi nilai.

ketidakcocokan metrik keadilan

#fairness

Gagasan bahwa beberapa gagasan keadilan tidak kompatibel satu sama lain dan tidak dapat dipenuhi secara bersamaan. Akibatnya, tidak ada metrik universal tunggal untuk mengukur keadilan yang dapat diterapkan ke semua masalah ML.

Meskipun hal ini mungkin tampak mengecewakan, ketidaksesuaian metrik keadilan tidak berarti bahwa upaya keadilan tidak membuahkan hasil. Sebaliknya, hal ini menyarankan bahwa keadilan harus didefinisikan secara kontekstual untuk masalah ML tertentu, dengan tujuan untuk mencegah bahaya khusus untuk kasus penggunaannya.

Lihat "Tentang kemungkinan keadilan" untuk diskusi yang lebih mendetail tentang topik ini.

pembelajaran dalam konteks

#language
#AI generatif

Sinonim dari few-shot prompting.

terdistribusi secara independen dan identik (d.i.d)

#fundamentals

Data diambil dari distribusi yang tidak berubah, dan setiap nilai yang diambil tidak bergantung pada nilai yang telah digambar sebelumnya. i.i.d. adalah sumber ideal machine learning—suatu konstruksi matematis yang berguna, tetapi hampir tidak pernah ditemukan di dunia nyata. Misalnya, distribusi pengunjung ke halaman web mungkin berbasis pada periode waktu yang singkat; yaitu, distribusi tidak berubah selama periode singkat tersebut dan kunjungan satu orang umumnya tidak bergantung pada kunjungan orang lain. Namun, jika Anda memperluas periode waktu tersebut, perbedaan musiman pada pengunjung halaman web dapat muncul.

Lihat juga nonstasioneritas.

keadilan individu

#fairness

Metrik keadilan yang memeriksa apakah individu yang serupa diklasifikasikan secara serupa atau tidak. Misalnya, Brobdingnagian Academy mungkin ingin memuaskan keadilan individu dengan memastikan bahwa dua siswa dengan nilai identik dan skor ujian standar sama-sama berpotensi untuk diterima di sekolah.

Perhatikan bahwa keadilan individual sepenuhnya bergantung pada cara Anda mendefinisikan "kesamaan" (dalam hal ini, nilai dan skor ujian), dan Anda dapat berisiko memperkenalkan masalah keadilan yang baru jika metrik kesamaan Anda melewatkan informasi penting (seperti ketelitian kurikulum siswa).

Lihat "Keadilan Melalui Awareness" untuk diskusi yang lebih mendetail tentang keadilan individu.

inferensi

#fundamentals

Dalam machine learning, proses pembuatan prediksi dengan menerapkan model terlatih ke contoh tak berlabel.

Inferensi memiliki arti yang sedikit berbeda dalam statistik. Lihat artikel Wikipedia tentang inferensi statistik untuk mengetahui detailnya.

jalur inferensi

#df

Dalam pohon keputusan, selama inferensi, rute yang contoh tertentu mengambil dari root ke kondisi lainnya, yang diakhiri dengan leaf. Misalnya, dalam pohon keputusan berikut, panah tebal menunjukkan jalur inferensi untuk contoh dengan nilai fitur berikut:

  • x = 7
  • y = 12
  • z = -3

Jalur inferensi dalam ilustrasi berikut berjalan melalui tiga kondisi sebelum mencapai leaf (Zeta).

Pohon keputusan yang terdiri dari empat kondisi dan lima daun.
          Kondisi akarnya adalah (x > 0). Karena jawabannya adalah Ya, jalur inferensi berjalan dari root ke kondisi berikutnya (y > 0).
          Karena jawabannya adalah Ya, jalur inferensi kemudian menuju ke kondisi berikutnya (z > 0). Karena jawabannya adalah Tidak, jalur inferensi akan berpindah ke node terminalnya, yang merupakan leaf (Zeta).

Tiga panah tebal menunjukkan jalur inferensi.

perolehan informasi

#df

Di hutan keputusan, perbedaan antara entropi node dan tertimbang (berdasarkan jumlah contoh) jumlah entropi node turunannya. Entropi node adalah entropi dari contoh dalam node tersebut.

Misalnya, perhatikan nilai entropi berikut:

  • entropi node induk = 0,6
  • entropi satu simpul turunan dengan 16 contoh yang relevan = 0,2
  • entropi simpul anak lain dengan 24 contoh yang relevan = 0,1

Jadi, 40% contoh berada di satu node turunan dan 60% berada di node turunan lainnya. Jadi:

  • jumlah entropi tertimbang node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Jadi, perolehan informasinya adalah:

  • perolehan informasi = entropi node induk - jumlah entropi bobot node turunan
  • perolehan informasi = 0,6 - 0,14 = 0,46

Sebagian besar pemisah berusaha membuat kondisi yang memaksimalkan perolehan informasi.

bias dalam golongan

#fairness

Menunjukkan keberpihakan terhadap kelompok atau karakteristik seseorang. Jika penguji atau pelabel terdiri dari teman, keluarga, atau kolega developer machine learning, bias dalam kelompok dapat membatalkan pengujian produk atau set data.

Bias dalam golongan adalah bentuk bias atribusi golongan. Lihat juga bias homogenitas di luar golongan.

generator input

Mekanisme yang digunakan untuk memuat data ke dalam jaringan neural.

Generator input dapat dianggap sebagai komponen yang bertanggung jawab untuk memproses data mentah menjadi tensor yang diiterasi untuk menghasilkan batch untuk pelatihan, evaluasi, dan inferensi.

lapisan input

#fundamentals

Lapisan dari jaringan neural yang menyimpan vektor fitur. Artinya, lapisan input memberikan contoh untuk pelatihan atau inferensi. Misalnya, lapisan input dalam jaringan neural berikut terdiri dari dua fitur:

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan lapisan output.

kondisi dalam set

#df

Pada hierarki keputusan, kondisi yang menguji keberadaan satu item dalam kumpulan item. Misalnya, berikut ini adalah kondisi in-set:

  house-style in [tudor, colonial, cape]

Selama inferensi, jika nilai feature gaya rumah adalah tudor atau colonial atau cape, kondisi ini bernilai Ya. Jika nilai fitur gaya rumah adalah sesuatu yang lain (misalnya, ranch), kondisi ini bernilai Tidak.

Kondisi dalam set biasanya menghasilkan pohon keputusan yang lebih efisien daripada kondisi yang menguji fitur yang dienkode one-hot.

instance

Sinonim dari example.

penyesuaian instruksi

#AI generatif

Bentuk penyesuaian yang meningkatkan kemampuan model AI generatif untuk mengikuti petunjuk. Penyesuaian instruksi melibatkan pelatihan model pada serangkaian perintah instruksi, yang biasanya mencakup berbagai tugas. Model yang disesuaikan dengan instruksi yang dihasilkan kemudian cenderung menghasilkan respons yang berguna terhadap perintah zero-shot di berbagai tugas.

Bandingkan dan kontraskan dengan:

penafsiran

#fundamentals

Kemampuan untuk menjelaskan atau menyajikan alasan model ML dalam istilah yang dapat dipahami kepada manusia.

Sebagian besar model regresi linear, misalnya, sangat dapat diinterpretasikan. (Anda hanya perlu melihat bobot terlatih untuk setiap fitur.) Hutan keputusan juga sangat dapat ditafsirkan. Namun, beberapa model memerlukan visualisasi yang canggih agar dapat ditafsirkan.

Anda dapat menggunakan Learning Interpretability Tool (LIT) untuk menafsirkan model ML.

kesepakatan antar-penilai

Pengukuran terkait seberapa sering pelabel manusia setuju dalam melakukan suatu tugas. Jika pelabel tidak setuju, petunjuk tugas mungkin perlu ditingkatkan. Terkadang disebut juga kesepakatan antar-anotator atau reliabilitas antar-pelabel. Lihat juga kappa Cohen, yang merupakan salah satu pengukuran kecocokan antar-pelabel yang paling populer.

persimpangan akibat union (IoU)

#image

Perpotongan dua himpunan yang dibagi berdasarkan gabungannya. Dalam tugas deteksi gambar machine learning, IoU digunakan untuk mengukur akurasi kotak pembatas prediksi model sehubungan dengan kotak pembatas ground-truth. Dalam hal ini, IoU untuk dua kotak adalah rasio antara area tumpang-tindih dan luas total, dan nilainya berkisar dari 0 (tidak ada tumpang-tindih yang diprediksi kotak pembatas dan kotak pembatas kebenaran ground) hingga 1 (kotak pembatas yang diprediksi dan kotak pembatas kebenaran ground memiliki koordinat yang sama persis).

Misalnya, pada gambar di bawah ini:

  • Prediksi kotak pembatas (koordinat yang membatasi tempat model memprediksi meja malam dalam lukisan berada) digarisbawahi dengan warna ungu.
  • Kotak pembatas kebenaran nyata (koordinat yang membatasi lokasi tabel malam dalam lukisan sebenarnya) ditandai dengan warna hijau.

Gambar Van Gogh melukis Kamar Tidur Vincent di Arles, dengan dua kotak pembatas berbeda di sekeliling meja malam di samping tempat tidur. Kotak pembatas kebenaran dasar (berwarna hijau) membatasi meja malam dengan sempurna. Kotak
          pembatas yang diprediksi (berwarna ungu) di-offset 50% ke bawah dan di sebelah kanan
          kotak pembatas kebenaran dasar; kotak ini menutupi seperempat kanan bawah
          tabel malam, tetapi meleset dari sisa tabel.

Di sini, perpotongan kotak pembatas untuk prediksi dan kebenaran dasar (di bawah kiri) adalah 1, dan gabungan kotak pembatas untuk prediksi dan kebenaran dasar (di bawah kanan) adalah 7, sehingga IoU adalah \(\frac{1}{7}\).

Gambar yang sama seperti di atas, tetapi dengan setiap kotak pembatas dibagi menjadi empat
          kuadran. Ada total tujuh kuadran, karena kuadran kanan bawah kotak pembatas kebenaran dasar dan kuadran kiri atas kotak pembatas yang diprediksi saling tumpang tindih. Bagian
          yang tumpang-tindih ini (ditandai dengan warna hijau) merepresentasikan
          persimpangan, dan memiliki area 1. Gambar yang sama seperti di atas, tetapi dengan setiap kotak pembatas dibagi menjadi empat
          kuadran. Ada total tujuh kuadran, karena kuadran kanan bawah kotak pembatas kebenaran dasar dan kuadran kiri atas kotak pembatas yang diprediksi saling tumpang tindih.
          Seluruh bagian dalam yang diapit oleh kotak pembatas (ditandai dengan warna hijau) merepresentasikan gabungan, dan memiliki luas 7.

IoU

Singkatan dari intersection over union.

matriks item

#recsystems

Dalam sistem rekomendasi, matriks vektor embedding yang dihasilkan oleh faktorisasi matriks yang menyimpan sinyal laten tentang setiap item. Setiap baris matriks item memiliki nilai fitur laten tunggal untuk semua item. Misalnya, pertimbangkan sebuah sistem rekomendasi film. Setiap kolom dalam matriks item mewakili satu film. Sinyal laten mungkin merepresentasikan genre, atau mungkin merupakan sinyal yang lebih sulit diinterpretasikan yang melibatkan interaksi kompleks antara genre, bintang, usia film, atau faktor lainnya.

Matriks item memiliki jumlah kolom yang sama dengan matriks target yang sedang difaktorkan. Misalnya, dalam sistem rekomendasi film yang mengevaluasi 10.000 judul film, matriks item akan memiliki 10.000 kolom.

items

#recsystems

Dalam sistem rekomendasi, entitas yang direkomendasikan oleh sistem. Misalnya, video adalah item yang direkomendasikan oleh toko video, sedangkan buku adalah item yang direkomendasikan oleh toko buku.

iterasi

#fundamentals

Satu pembaruan parameter modelbobot dan bias model—selama pelatihan. Ukuran tumpukan menentukan jumlah contoh yang diproses model dalam satu iterasi. Misalnya, jika ukuran tumpukan adalah 20, model akan memproses 20 contoh sebelum menyesuaikan parameternya.

Saat melatih jaringan neural, satu iterasi memerlukan dua tahap berikut:

  1. Langkah maju untuk mengevaluasi kerugian di satu batch.
  2. Tahap mundur (propagasi mundur) untuk menyesuaikan parameter model berdasarkan kerugian dan kecepatan pemelajaran.

J

JAX

Library komputasi array, yang menyatukan XLA (Accelerated Linear Algebra) dan diferensiasi otomatis untuk komputasi numerik berperforma tinggi. JAX menyediakan API yang sederhana dan canggih untuk menulis kode numerik yang dipercepat dengan transformasi composable. JAX menyediakan fitur seperti:

  • grad (diferensiasi otomatis)
  • jit (kompilasi tepat waktu)
  • vmap (vektorisasi atau pengelompokan otomatis)
  • pmap (paralelisasi)

JAX adalah bahasa untuk mengekspresikan dan menyusun transformasi kode numerik, analog—tetapi cakupannya jauh lebih besar—ke library NumPy Python. (Bahkan, library .numpy di JAX adalah versi fungsional yang setara, tetapi sepenuhnya ditulis ulang dari library Python NumPy.)

JAX sangat cocok untuk mempercepat banyak tugas machine learning dengan mengubah model dan data menjadi bentuk yang sesuai untuk paralelisme di seluruh GPU dan TPU chip akselerator.

Flax, Optax, Pax, dan banyak library lainnya di-build di infrastruktur JAX.

K

Keras

API machine learning Python yang populer. Keras berjalan di beberapa framework deep learning, termasuk TensorFlow, yang tersedia sebagai tf.keras.

Mesin Vektor Dukungan Kernel (KSVM)

Algoritma klasifikasi yang berupaya memaksimalkan margin antara kelas negatif dan kelas negatif dengan memetakan vektor data input ke ruang dimensi yang lebih tinggi. Misalnya, pertimbangkan masalah klasifikasi yang mana set data input memiliki seratus fitur. Untuk memaksimalkan margin antara kelas positif dan negatif, KSVM dapat secara internal memetakan fitur tersebut ke dalam ruang sejuta dimensi. KSVM menggunakan fungsi kerugian yang disebut kerugian engsel.

keypoint

#image

Koordinat fitur tertentu pada gambar. Misalnya, untuk model pengenalan gambar yang membedakan spesies bunga, keypoint dapat menjadi pusat setiap kelopak, batang, benang sari, dan seterusnya.

validasi silang k-fold

Algoritma untuk memprediksi kemampuan model dalam generalisasi ke data baru. k pada k-fold mengacu pada jumlah grup sama yang Anda gunakan untuk membagi contoh set data; yaitu, Anda melatih dan menguji model sebanyak k kali. Untuk setiap putaran pelatihan dan pengujian, grup yang berbeda adalah set pengujian, dan semua grup yang tersisa akan menjadi set pelatihan. Setelah k putaran pelatihan dan pengujian, Anda menghitung rata-rata dan deviasi standar dari metrik pengujian yang dipilih.

Misalnya, {i>dataset<i} Anda berisi 120 contoh. Selanjutnya misalkan, Anda memutuskan untuk menetapkan k ke 4. Oleh karena itu, setelah mengacak contoh, Anda membagi set data menjadi empat kelompok yang sama dengan 30 contoh, lalu melakukan empat sesi pelatihan/pengujian:

Sebuah {i>dataset<i} dipecah menjadi empat kelompok contoh yang sama. Pada Tahap 1, tiga grup pertama digunakan untuk pelatihan dan grup terakhir digunakan untuk pengujian. Pada Tahap 2, dua grup pertama dan grup terakhir digunakan untuk pelatihan, sedangkan grup ketiga digunakan untuk pengujian. Pada Putaran 3, grup pertama dan dua grup terakhir digunakan untuk pelatihan, sedangkan grup kedua digunakan untuk pengujian.
          Pada Tahap 4, grup pertama digunakan untuk pengujian, sedangkan tiga grup terakhir digunakan untuk pelatihan.

Misalnya, Rata-rata Kuadrat Galat (RKG) mungkin menjadi metrik yang paling bermakna untuk model regresi linear. Oleh karena itu, Anda akan menemukan rata-rata dan standar deviasi RKG di keempat putaran.

k-mean

#clustering

Algoritma pengelompokan populer yang mengelompokkan contoh dalam unsupervised learning. Algoritma k-means pada dasarnya melakukan hal berikut:

  • Secara berulang menentukan titik tengah k terbaik (dikenal sebagai sentroid).
  • Menetapkan setiap contoh ke sentroid terdekat. Contoh tersebut yang terdekat dengan sentroid yang sama akan berada di grup yang sama.

Algoritma k-means memilih lokasi sentroid untuk meminimalkan kuadrat kumulatif jarak dari setiap contoh ke sentroid terdekatnya.

Misalnya, pertimbangkan plot tinggi dan lebar berikut:

Sebuah plot Kartesius dengan beberapa puluh titik data.

Jika k=3, algoritma k-means akan menentukan tiga sentroid. Setiap contoh ditetapkan ke sentroid terdekatnya, sehingga menghasilkan tiga kelompok:

Plot Kartesius yang sama seperti pada ilustrasi sebelumnya, kecuali dengan tambahan tiga sentroid.
          Titik data sebelumnya dikelompokkan ke dalam tiga grup yang berbeda, di mana setiap grup mewakili titik data yang terdekat dengan sentroid tertentu.

Bayangkan bahwa produsen ingin menentukan ukuran yang ideal untuk olahraga kecil, sedang, dan besar untuk. Tiga sentroid mengidentifikasi tinggi rata-rata dan lebar rata-rata setiap di gugus tersebut. Jadi, produsen mungkin harus mendasarkan ukuran sweter pada tiga sentroid tersebut. Perhatikan bahwa sentroid cluster biasanya bukan merupakan contoh dalam cluster.

Ilustrasi sebelumnya menunjukkan k-means untuk contoh dengan dua fitur saja (tinggi dan lebar). Perhatikan bahwa k-means dapat mengelompokkan contoh di banyak fitur.

k-median

#clustering

Algoritma pengelompokan yang terkait erat dengan k-means. Perbedaan praktis antara keduanya adalah sebagai berikut:

  • Dalam k-means, sentroid ditentukan dengan meminimalkan jumlah kuadrat jarak antara kandidat sentroid dan setiap contohnya.
  • Dalam k-median, sentroid ditentukan dengan meminimalkan jumlah jarak antara kandidat sentroid dan setiap contohnya.

Perhatikan bahwa definisi jarak juga berbeda:

  • k-means bergantung pada jarak Euclidean dari sentroid ke contoh. (Dalam dua dimensi, jarak Euclidean berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-means antara (2,2) dan (5,-2) adalah:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah delta absolut di setiap dimensi. Misalnya, jarak k-median antara (2,2) dan (5,-2) adalah:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularisasi L0

#fundamentals

Jenis regularisasi yang menghukum jumlah total bobot bukan nol dalam model. Misalnya, model yang memiliki 11 bobot bukan nol akan dikenai sanksi lebih besar daripada model serupa yang memiliki 10 bobot bukan nol.

Regularisasi L0 terkadang disebut regularisasi L0-norm.

Kerugian L1

#fundamentals

Fungsi kerugian yang menghitung nilai absolut perbedaan antara nilai label aktual dan nilai yang diprediksi oleh model. Misalnya, berikut adalah perhitungan kerugian L1 untuk tumpukan yang terdiri dari lima contoh:

Nilai contoh sebenarnya Nilai prediksi model Nilai absolut delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = kerugian L1

Kerugian L1 kurang sensitif terhadap outlier daripada kerugian L2.

Rataan Error Absolut adalah kerugian L1 rata-rata per contoh.

Regularisasi L1

#fundamentals

Jenis regularisasi yang menghukum bobot secara proporsional dengan jumlah nilai absolut bobot. Regularisasi L1 membantu mendorong bobot fitur yang tidak relevan atau hampir tidak relevan menjadi persis 0. Fitur dengan bobot 0 dihapus secara efektif dari model.

Berbeda dengan regularisasi L2.

Kerugian L2

#fundamentals

Fungsi kerugian yang menghitung kuadrat perbedaan antara nilai label aktual dan nilai yang diprediksi oleh model. Misalnya, berikut adalah kalkulasi kerugian L2 untuk tumpukan yang terdiri dari lima contoh:

Nilai contoh sebenarnya Nilai prediksi model Persegi delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = kerugian L2

Karena kuadrat, kerugian L2 memperkuat pengaruh outlier. Artinya, kerugian L2 bereaksi lebih kuat terhadap prediksi buruk daripada kerugian L1. Misalnya, loss L1 untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu {i>outlier <i}akan memperhitungkan 9 dari 16 kasus.

Model regresi biasanya menggunakan kerugian L2 sebagai fungsi kerugian.

Rataan Kuadrat Error adalah kerugian L2 rata-rata per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L2.

Regularisasi L2

#fundamentals

Jenis regularisasi yang menghukum bobot sebanding dengan jumlah kotak bobot. Regularisasi L2 membantu mendorong bobot outlier (dengan nilai positif tinggi atau negatif rendah) lebih dekat ke 0 tetapi tidak cukup ke 0. Fitur dengan nilai yang sangat mendekati 0 akan tetap ada dalam model, tetapi tidak terlalu memengaruhi prediksi model.

Regularisasi L2 selalu meningkatkan generalisasi dalam model linear.

Berbeda dengan regularisasi L1.

label

#fundamentals

Di supervised machine learning, bagian "jawaban" atau "hasil" dari contoh.

Setiap contoh berlabel terdiri dari satu atau beberapa fitur dan sebuah label. Misalnya, dalam set data deteksi spam, labelnya mungkin berupa "spam" atau "bukan spam". Dalam set data curah hujan, labelnya mungkin berupa jumlah hujan yang turun selama periode tertentu.

contoh berlabel

#fundamentals

Contoh yang berisi satu atau beberapa fitur dan label. Misalnya, tabel berikut menunjukkan tiga contoh berlabel dari model penilaian rumah, masing-masing dengan tiga fitur dan satu label:

Jumlah kamar Jumlah kamar mandi Usia rumah Harga rumah (label)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Bandingkan contoh berlabel dengan contoh tak berlabel.

kebocoran label

Cacat desain model di mana fitur adalah proxy untuk label. Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah calon pelanggan akan membeli produk tertentu atau tidak. Misalkan salah satu fitur untuk model adalah Boolean bernama SpokeToCustomerAgent. Selanjutnya, anggaplah agen pelanggan hanya ditetapkan setelah calon pelanggan benar-benar membeli produk. Selama pelatihan, model akan dengan cepat mempelajari pengaitan antara SpokeToCustomerAgent dan label.

lambda

#fundamentals

Sinonim dari derajat regularisasi.

Lambda adalah istilah yang kelebihan beban. Di sini kita berfokus pada definisi istilah dalam regularisasi.

LaMDA (Language Model for Dialogue Applications/Model Bahasa untuk Aplikasi Dialog)

#language

Model bahasa besar berbasis Transformer yang dikembangkan oleh Google dilatih menggunakan set data dialog berukuran besar yang dapat menghasilkan respons percakapan yang realistis.

LaMDA: terobosan teknologi percakapan kami memberikan ringkasan.

tempat terkenal

#image

Sinonim dari keypoint.

model bahasa

#language

model yang memperkirakan probabilitas model atau urutan token yang terjadi dalam urutan token yang lebih panjang.

model bahasa besar

#language

Istilah informal tanpa definisi ketat yang biasanya berarti model bahasa yang memiliki banyak parameter. Beberapa model bahasa besar berisi lebih dari 100 miliar parameter.

ruang laten

#language

Sinonim untuk menyematkan ruang.

lapisan

#fundamentals

Serangkaian neuron dalam jaringan neural. Tiga jenis lapisan umum adalah sebagai berikut:

Misalnya, ilustrasi berikut menunjukkan jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
          lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua terdiri dari dua neuron. Lapisan output terdiri dari satu node.

Di TensorFlow, layer juga merupakan fungsi Python yang menggunakan Tensor dan opsi konfigurasi sebagai input serta menghasilkan tensor lain sebagai output.

Layers API (tf.layers)

#TensorFlow

TensorFlow API untuk membangun jaringan neural dalam sebagai komposisi lapisan. Layers API memungkinkan Anda membuat berbagai jenis lapisan, seperti:

Layers API mengikuti konvensi API lapisan Keras. Artinya, selain awalan yang berbeda, semua fungsi dalam Layers API memiliki nama dan tanda tangan yang sama dengan pasangannya di Keras Layer API.

daun

#df

Semua endpoint di hierarki keputusan. Tidak seperti kondisi, leaf tidak melakukan pengujian. Sebaliknya, leaf adalah prediksi yang memungkinkan. Sebuah leaf juga merupakan node terminal dari jalur inferensi.

Misalnya, pohon keputusan berikut berisi tiga daun:

Pohon keputusan dengan dua kondisi yang mengarah ke tiga daun.

Alat Penafsiran Pembelajaran (LIT)

Alat pemahaman model yang visual dan interaktif.

Anda dapat menggunakan LIT open source untuk menafsirkan model atau memvisualisasikan teks, gambar, dan data tabel.

kecepatan pembelajaran

#fundamentals

Bilangan floating point yang memberi tahu algoritma penurunan gradien seberapa kuat penyesuaian bobot dan bias pada setiap iterasi. Misalnya, kecepatan pembelajaran 0,3 akan menyesuaikan bobot dan bias tiga kali lebih kuat daripada kecepatan pembelajaran 0,1.

Kecepatan pembelajaran adalah hyperparameter utama. Jika Anda menetapkan kecepatan pembelajaran terlalu rendah, pelatihan akan memakan waktu terlalu lama. Jika Anda menetapkan kecepatan pemelajaran terlalu tinggi, penurunan gradien sering kali mengalami kesulitan mencapai konvergensi.

regresi kuadrat terkecil

Model regresi linear dilatih dengan meminimalkan Kerugian L2.

linier

#fundamentals

Hubungan antara dua atau lebih variabel yang hanya dapat direpresentasikan melalui penjumlahan dan perkalian.

Plot hubungan linear adalah sebuah garis.

Berbeda dengan nonlinear.

model linear

#fundamentals

model yang menetapkan satu model per model untuk membuat model. (Model linear juga menggabungkan bias.) Sebaliknya, hubungan fitur dengan prediksi dalam model dalam umumnya nonlinear.

Model linear biasanya lebih mudah dilatih dan lebih dapat diinterpretasikan daripada model dalam. Namun, model dalam dapat mempelajari hubungan yang kompleks antar fitur.

Regresi linear dan regresi logistik adalah dua jenis model linear.

regresi linear

#fundamentals

Jenis model machine learning yang memenuhi kedua hal berikut:

  • Model tersebut adalah model linear.
  • Prediksinya adalah nilai floating point. (Ini adalah bagian regresi dari regresi linear.)

Bandingkan regresi linear dengan regresi logistik. Selain itu, bandingkan regresi dengan klasifikasi.

LIT

Singkatan dari Learning Interpretability Tool (LIT), yang sebelumnya dikenal sebagai Alat Penafsiran Bahasa.

LLM

#language

Singkatan dari model bahasa besar.

regresi logistik

#fundamentals

Jenis model regresi yang memprediksi probabilitas. Model regresi logistik memiliki karakteristik berikut:

  • Labelnya berupa kategoris. Istilah regresi logistik biasanya mengacu pada regresi logistik biner, yaitu model yang menghitung probabilitas untuk label dengan dua kemungkinan nilai. Varian yang kurang umum, regresi logistik multinomial, menghitung probabilitas untuk label dengan lebih dari dua kemungkinan nilai.
  • Fungsi kerugian selama pelatihan adalah Kerugian Log. (Beberapa unit Kerugian Log dapat ditempatkan secara paralel untuk label yang memiliki lebih dari dua kemungkinan nilai.)
  • Model tersebut memiliki arsitektur linear, bukan jaringan neural dalam. Namun, sisa definisi ini juga berlaku untuk model dalam yang memprediksi probabilitas untuk label kategori.

Misalnya, pertimbangkan model regresi logistik yang menghitung probabilitas email input sebagai spam atau bukan spam. Selama inferensi, anggaplah model memprediksi 0,72. Oleh karena itu, model ini memperkirakan:

  • Email kemungkinan merupakan spam sebesar 72%.
  • Kemungkinan email bukan spam adalah 28%.

Model regresi logistik menggunakan arsitektur dua langkah berikut:

  1. Model ini menghasilkan prediksi mentah (y') dengan menerapkan fungsi linear fitur input.
  2. Model ini menggunakan prediksi mentah tersebut sebagai input ke fungsi sigmoid, yang mengonversi prediksi mentah menjadi nilai antara 0 dan 1, secara eksklusif.

Seperti model regresi lainnya, model regresi logistik memprediksi angka. Namun, angka ini biasanya menjadi bagian dari model klasifikasi biner sebagai berikut:

  • Jika jumlah yang diprediksi lebih besar daripada batas klasifikasi, model klasifikasi biner akan memprediksi kelas positif.
  • Jika jumlah yang diprediksi kurang dari batas klasifikasi, model klasifikasi biner akan memprediksi kelas negatif.

logit

Vektor prediksi mentah (tidak dinormalisasi) yang dihasilkan model klasifikasi, yang biasanya kemudian diteruskan ke fungsi normalisasi. Jika model menyelesaikan masalah klasifikasi kelas multi-kelas, logits biasanya menjadi input untuk fungsi softmax. Fungsi softmax kemudian menghasilkan vektor probabilitas (dinormalisasi) dengan satu nilai untuk setiap kemungkinan class.

Kerugian Log

#fundamentals

Fungsi kerugian yang digunakan dalam regresi logistik biner.

log-peluang

#fundamentals

Logaritma dari peluang beberapa peristiwa.

Memori Jangka Pendek (LSTM)

#seq

Jenis sel dalam jaringan neural berulang yang digunakan untuk memproses urutan data dalam aplikasi seperti pengenalan tulis tangan, terjemahan mesin, dan keterangan gambar. LSTM mengatasi masalah gradien yang menghilang yang terjadi saat melatih RNN karena urutan data yang panjang dengan mempertahankan histori dalam status memori internal berdasarkan input baru dan konteks dari sel sebelumnya dalam RNN.

LoRA

#language
#AI generatif

Singkatan dari Low-Rank Adaptability.

kalah

#fundamentals

Selama pelatihan model yang diawasi, ukuran seberapa jauh prediksi model dari label-nya.

Fungsi kerugian menghitung kerugian.

agregator kerugian

Jenis algoritma machine learning yang meningkatkan performa model dengan menggabungkan prediksi dari beberapa model dan menggunakan prediksi tersebut untuk membuat satu prediksi. Hasilnya, agregator kerugian dapat mengurangi varians prediksi dan meningkatkan akurasi prediksi.

kurva penyimpangan

#fundamentals

Plot kerugian sebagai fungsi dari jumlah iterasi pelatihan. Plot berikut menunjukkan kurva kerugian yang umum:

Grafik Kartesius tentang kerugian versus iterasi pelatihan, yang menunjukkan penurunan yang cepat dalam kerugian untuk iterasi awal, diikuti oleh penurunan bertahap, dan kemudian kemiringan datar selama iterasi akhir.

Kurva kerugian dapat membantu Anda menentukan kapan model Anda konvergensi atau overfitting.

Kurva kerugian dapat memetakan semua jenis kerugian berikut:

Lihat juga kurva generalisasi.

fungsi loss

#fundamentals

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada batch contoh. Fungsi kerugian menampilkan kerugian yang lebih rendah untuk model yang membuat prediksi yang baik daripada untuk model yang membuat prediksi buruk.

Tujuan pelatihan biasanya untuk meminimalkan kerugian yang ditampilkan oleh fungsi kerugian.

Ada berbagai jenis fungsi kerugian. Pilih fungsi loss yang sesuai untuk jenis model yang Anda bangun. Contoh:

permukaan penyimpangan

Grafik berat versus penurunan. Penurunan gradien bertujuan untuk menemukan bobot saat permukaan penyimpangan berada di minimum lokal.

Kemampuan Adaptasi Tingkat Rendah (LoRA)

#language
#AI generatif

Algoritma untuk melakukan penyesuaian parameter yang menyesuaikan hanya subset parameter model bahasa besar. LoRA memberikan manfaat berikut:

  • Menyesuaikan lebih cepat daripada teknik yang memerlukan penyempurnaan semua parameter model.
  • Mengurangi biaya komputasi inferensi dalam model yang disesuaikan.

Model yang disesuaikan dengan LoRA mempertahankan atau meningkatkan kualitas prediksinya.

LoRA memungkinkan beberapa versi khusus dari sebuah model.

LSTM

#seq

Singkatan dari Long Short-Term Memory.

S

machine learning

#fundamentals

Program atau sistem yang melatih model dari data input. Model yang dilatih dapat membuat prediksi yang berguna dari data baru (yang belum pernah dilihat sebelumnya) yang diambil dari distribusi yang sama dengan yang digunakan untuk melatih model.

Machine learning juga mengacu pada bidang studi yang berkaitan dengan program atau sistem ini.

kelas mayoritas

#fundamentals

Label yang lebih umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi 99% label negatif dan 1% label positif, label negatif adalah kelas mayoritas.

Berbeda dengan kelas minoritas.

Proses keputusan Markov (MDP)

#rl

Grafik yang merepresentasikan model pengambilan keputusan saat keputusan (atau tindakan) diambil untuk menavigasi urutan status dengan asumsi bahwa properti Markov berlaku. Dalam reinforcement learning, transisi antarstatus ini menampilkan reward numerik.

Properti Markov

#rl

Properti lingkungan tertentu, dengan transisi status sepenuhnya ditentukan oleh informasi yang implisit dalam status saat ini dan tindakan agen.

model bahasa yang disamarkan

#language

Model bahasa yang memprediksi probabilitas token kandidat untuk mengisi bagian yang kosong secara berurutan. Misalnya, model bahasa yang disamarkan dapat menghitung probabilitas kata kandidat untuk mengganti garis bawah dalam kalimat berikut:

____ di dalam topi kembali muncul.

Literatur biasanya menggunakan string "MASK" bukan garis bawah. Contoh:

"MASK" di topi kembali muncul.

Sebagian besar model bahasa modern yang disamarkan bersifat dua arah.

matplotlib

Library plot 2D Python open source. matplotlib membantu Anda memvisualisasikan berbagai aspek machine learning.

faktorisasi matriks

#recsystems

Dalam matematika, mekanisme untuk menemukan matriks yang produk titiknya mendekati matriks target.

Dalam sistem rekomendasi, matriks target sering kali mempertahankan rating pengguna untuk item. Misalnya, matriks target untuk sistem rekomendasi film mungkin terlihat seperti berikut, dengan bilangan bulat positif adalah rating pengguna dan 0 berarti pengguna tidak memberi rating film:

  Casablanca Kisah Philadelphia Black Panther Perempuan Wonder Fiksi Bulir Buah
Pengguna.1 5,0 3.0 0.0 2.0 0.0
Pengguna 2 4.0 0.0 0.0 1.0 5,0
Pengguna 3 3.0 1.0 4.0 5,0 0.0

Sistem rekomendasi film bertujuan memprediksi rating pengguna untuk film yang tidak diberi rating. Misalnya, apakah Pengguna 1 akan menyukai Black Panther?

Salah satu pendekatan untuk sistem rekomendasi adalah menggunakan faktorisasi matriks untuk menghasilkan dua matriks berikut:

  • Matriks pengguna, dibentuk dari jumlah pengguna X jumlah dimensi embedding.
  • Matriks item, dibentuk sebagai jumlah dimensi embedding X jumlah item.

Misalnya, menggunakan faktorisasi matriks pada tiga pengguna dan lima item kita dapat menghasilkan matriks pengguna dan matriks item berikut:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Produk titik dari matriks pengguna dan matriks item menghasilkan matriks rekomendasi yang tidak hanya berisi rating pengguna asli, tetapi juga prediksi untuk film yang belum ditonton oleh setiap pengguna. Misalnya, pertimbangkan rating Pengguna 1 untuk Casablanca, yaitu 5,0. Produk titik yang sesuai dengan sel dalam matriks rekomendasi diharapkan bernilai sekitar 5,0, dan hasilnya adalah:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Yang lebih penting, apakah Pengguna 1 akan menyukai Black Panther? Mengambil produk titik yang sesuai dengan baris pertama dan kolom ketiga menghasilkan nilai prediksi 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Faktorisasi matriks biasanya menghasilkan matriks pengguna dan matriks item yang, secara bersama-sama, jauh lebih ringkas daripada matriks target.

Error Rata-Rata Absolut (MAE)

Kerugian rata-rata per contoh saat kerugian L1 digunakan. Hitung Kesalahan Rata-Rata Absolut sebagai berikut:

  1. Hitung kerugian L1 untuk sebuah batch.
  2. Bagi kerugian L1 dengan jumlah contoh dalam batch.

Misalnya, pertimbangkan penghitungan kerugian L1 pada batch berikut yang berisi lima contoh:

Nilai contoh sebenarnya Nilai prediksi model Kerugian (selisih antara aktual dan prediksi)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = kerugian L1

Jadi, kerugian L1 adalah 8 dan jumlah contoh adalah 5. Oleh karena itu, Kesalahan Rata-Rata Absolut adalah:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Menemukan Error Rata-Rata Absolut dengan Rataan Kuadrat Error dan Error Akar Rataan Kuadrat.

Rataan Kuadrat Galat (RKG)

Kerugian rata-rata per contoh saat kerugian L2 digunakan. Hitung Rataan Kuadrat Galat sebagai berikut:

  1. Hitung kerugian L2 untuk sebuah batch.
  2. Bagi kerugian L2 dengan jumlah contoh dalam batch.

Misalnya, pertimbangkan kerugian pada batch berikut yang berisi lima contoh:

Nilai sebenarnya Prediksi model Kalah Kerugian kuadrat
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = kerugian L2

Oleh karena itu, Rataan Kuadrat Galat adalah:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Rata-rata Error Kuadrat adalah pengoptimal pelatihan yang populer, khususnya untuk regresi linear.

Kontras Rataan Kuadrat Error dengan Error Absolut Rata-Rata dan Error Akar Rataan Kuadrat.

TensorFlow Playground menggunakan Rataan Kuadrat Galat untuk menghitung nilai kerugian.

mesh

#TensorFlow
#GoogleCloud

Dalam pemrograman paralel ML, istilah yang terkait dengan penetapan data dan model ke chip TPU, serta menentukan cara sharding atau replikasi nilai ini.

Mesh adalah istilah yang kelebihan beban yang dapat berarti salah satu dari hal berikut:

  • Tata letak fisik chip TPU.
  • Konstruksi logis abstrak untuk memetakan data dan model ke chip TPU.

Dalam kedua kasus tersebut, mesh ditentukan sebagai bentuk.

pembelajaran meta

#language

Bagian dari machine learning yang menemukan atau meningkatkan algoritma pembelajaran. Sistem pembelajaran meta juga dapat bertujuan untuk melatih model agar dapat dengan cepat mempelajari tugas baru dari sejumlah kecil data atau dari pengalaman yang diperoleh pada tugas sebelumnya. Algoritma pembelajaran meta umumnya mencoba mencapai hal berikut:

  • Meningkatkan atau mempelajari fitur buatan tangan (seperti penginisialisasi atau pengoptimal).
  • Lebih hemat data dan hemat komputasi.
  • Meningkatkan generalisasi.

Meta-learning berkaitan dengan pembelajaran beberapa tahap.

metrik

#TensorFlow

Statistik yang penting bagi Anda.

Tujuan adalah metrik yang dicoba dioptimalkan oleh sistem machine learning.

Metrics API (tf.metrics)

TensorFlow API untuk mengevaluasi model. Misalnya, tf.metrics.accuracy menentukan seberapa sering prediksi model cocok dengan label.

tumpukan mini

#fundamentals

Subset kecil yang dipilih secara acak dari batch yang diproses dalam satu iterasi. Ukuran tumpukan dari tumpukan mini biasanya antara 10 hingga 1.000 contoh.

Misalnya, seluruh set pelatihan (kumpulan lengkap) terdiri dari 1.000 contoh. Selanjutnya, Anda menetapkan ukuran tumpukan untuk setiap tumpukan mini ke 20. Oleh karena itu, setiap iterasi menentukan kerugian pada 20 secara acak dari 1.000 contoh,lalu menyesuaikan bobot dan bias sebagaimana mestinya.

Jauh lebih efisien untuk menghitung kerugian pada tumpukan mini daripada kerugian pada semua contoh dalam tumpukan penuh.

penurunan gradien stokastik mini-batch

Algoritma penurunan gradien yang menggunakan tumpukan mini. Dengan kata lain, penurunan gradien stokastik tumpukan mini memperkirakan gradien berdasarkan sebagian kecil data pelatihan. penurunan gradien stokastik reguler menggunakan tumpukan mini ukuran 1.

kerugian minimax

Fungsi kerugian untuk jaringan saraf generatif berlawanan, berdasarkan entropi silang antara distribusi data yang dihasilkan dan data nyata.

Kerugian minimax digunakan dalam makalah pertama untuk menjelaskan jaringan saraf generatif berlawanan.

kelas minoritas

#fundamentals

Label yang kurang umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi 99% label negatif dan 1% label positif, label positif adalah kelas minoritas.

Berbeda dengan kelas mayoritas.

ML

Singkatan dari machine learning.

MNIST

#image

Set data domain publik yang dikompilasi oleh LeCun, Cortes, dan Burges yang berisi 60.000 gambar, setiap gambar menunjukkan cara manusia menulis digit tertentu dari 0–9 secara manual. Setiap gambar disimpan sebagai array bilangan bulat berukuran 28x28, dengan setiap bilangan bulat adalah nilai hitam putih antara 0 dan 255, inklusif.

MNIST adalah set data kanonis untuk machine learning, yang sering digunakan untuk menguji pendekatan machine learning baru. Untuk mengetahui detailnya, lihat Database MNIST untuk Digit Tulis Tangan.

modalitas

#language

Kategori data tingkat tinggi. Misalnya, angka, teks, gambar, video, dan audio adalah lima modalitas yang berbeda.

model

#fundamentals

Secara umum, setiap konstruksi matematis yang memproses data input dan menampilkan output. Dengan kata lain, model adalah sekumpulan parameter dan struktur yang diperlukan sistem untuk membuat prediksi. Di supervised machine learning, model mengambil contoh sebagai input dan menyimpulkan prediksi sebagai output. Dalam supervised machine learning, modelnya agak berbeda. Contoh:

  • Model regresi linear terdiri dari kumpulan bobot dan bias.
  • Model jaringan neural terdiri dari:
    • Kumpulan lapisan tersembunyi, yang masing-masing berisi satu atau beberapa neuron.
    • Bobot dan bias yang terkait dengan setiap neuron.
  • Model pohon keputusan terdiri dari:
    • Bentuk pohon; yaitu, pola yang menghubungkan kondisi dan daun.
    • Kondisi dan keluar.

Anda dapat menyimpan, memulihkan, atau membuat salinan model.

Unsupervised machine learning juga menghasilkan model, biasanya fungsi yang dapat memetakan contoh input ke cluster yang paling sesuai.

kapasitas model

Kompleksitas masalah yang dapat dipelajari oleh model. Makin kompleks masalah yang dapat dipelajari model, makin tinggi kapasitas model. Kapasitas model biasanya meningkat seiring dengan jumlah parameter model. Untuk definisi formal kapasitas pengklasifikasi, lihat dimensi VC.

model cascading

#AI generatif

Sistem yang memilih model yang ideal untuk kueri inferensi tertentu.

Bayangkan sekelompok model, mulai dari yang sangat besar (banyak parameter) hingga yang jauh lebih kecil (parameter yang jauh lebih sedikit). Model yang sangat besar mengonsumsi lebih banyak resource komputasi pada waktu inferensi daripada model yang lebih kecil. Namun, model yang sangat besar biasanya dapat menyimpulkan permintaan yang lebih kompleks daripada model yang lebih kecil. Cascading model menentukan kompleksitas kueri inferensi, lalu memilih model yang sesuai untuk melakukan inferensi. Motivasi utama untuk penurunan model adalah mengurangi biaya inferensi dengan memilih model yang lebih kecil secara umum, dan hanya memilih model yang lebih besar untuk kueri yang lebih kompleks.

Bayangkan model kecil berjalan di ponsel dan versi yang lebih besar dari model tersebut berjalan di server jarak jauh. Cascading model yang baik mengurangi biaya dan latensi dengan memungkinkan model yang lebih kecil menangani permintaan sederhana dan hanya memanggil model jarak jauh untuk menangani permintaan yang kompleks.

Lihat juga router model.

paralelisme model

#language

Cara penskalaan pelatihan atau inferensi yang menempatkan berbagai bagian dari satu model di berbagai perangkat. Paralelisme model memungkinkan model yang terlalu besar untuk dimuat di satu perangkat.

Untuk menerapkan paralelisme model, sistem biasanya melakukan hal berikut:

  1. Membagi (membagi) model menjadi bagian-bagian yang lebih kecil.
  2. Mendistribusikan pelatihan bagian yang lebih kecil ke beberapa prosesor. Setiap prosesor melatih bagian modelnya sendiri.
  3. Menggabungkan hasilnya untuk membuat satu model.

Paralelisme model memperlambat pelatihan.

Lihat juga paralelisme data.

router model

#AI generatif

Algoritma yang menentukan model ideal untuk inferensi dalam penambahan model. Router model itu sendiri biasanya merupakan model machine learning yang secara bertahap mempelajari cara memilih model terbaik untuk input tertentu. Namun, router model terkadang dapat menjadi algoritma non-machine learning yang lebih sederhana.

pelatihan model

Proses penentuan model terbaik.

Momentum

Algoritma penurunan gradien yang canggih yang tidak hanya bergantung pada turunan dalam langkah saat ini, tetapi juga pada turunan dari langkah yang segera mendahuluinya. Momentum melibatkan penghitungan rata-rata pergerakan gradien yang diberi bobot secara eksponensial dari waktu ke waktu, yang dianalogikan dengan momentum dalam fisika. Momentum terkadang mencegah pemelajaran terjebak dalam minimum lokal.

klasifikasi multi-class

#fundamentals

Dalam supervised learning, masalah klasifikasi ketika set data berisi lebih dari dua kelas label. Misalnya, label dalam set data Iris harus merupakan salah satu dari tiga class berikut:

  • Iris Setosa
  • Bunga iris Virginica
  • Iris versicolor

Model yang dilatih menggunakan set data Iris yang memprediksi jenis Iris pada contoh baru sedang melakukan klasifikasi multi-class.

Sebaliknya, masalah klasifikasi yang membedakan dua kelas secara persis adalah model klasifikasi biner. Misalnya, model email yang memprediksi spam atau bukan spam adalah model klasifikasi biner.

Dalam masalah pengelompokan, klasifikasi kelas jamak mengacu pada lebih dari dua klaster.

regresi logistik kelas jamak

Menggunakan regresi logistik dalam masalah klasifikasi kelas jamak.

atensi mandiri multi-head

#language

Perluasan self-attention yang menerapkan mekanisme self-attention beberapa kali untuk setiap posisi dalam urutan input.

Transformer memperkenalkan atensi mandiri multi-head.

model multimodal

#language

Model yang input dan/atau outputnya menyertakan lebih dari satu modalitas. Misalnya, pertimbangkan model yang menggunakan gambar dan teks teks (dua modalitas) sebagai fitur, dan menghasilkan skor yang menunjukkan seberapa sesuai teks tersebut untuk gambar. Jadi, {i>input<i} model ini adalah multimodal dan {i>outputnya<i} adalah unimodal.

klasifikasi multinomial

Sinonim dari klasifikasi kelas jamak.

regresi multinomial

Sinonim dari regresi logistik kelas jamak.

multitasking

Teknik machine learning yang mana satu model dilatih untuk melakukan beberapa tugas.

Model multitasking dibuat dengan melatih data yang sesuai untuk setiap tugas yang berbeda. Hal ini memungkinkan model untuk belajar berbagi informasi di seluruh tugas, yang membantu model belajar lebih efektif.

Model yang dilatih untuk beberapa tugas sering kali memiliki kemampuan generalisasi yang lebih baik dan lebih andal dalam menangani berbagai jenis data.

N

perangkap NaN

Ketika satu angka dalam model Anda menjadi NaN selama pelatihan, yang menyebabkan banyak atau semua angka lain dalam model Anda pada akhirnya menjadi NaN.

NaN adalah singkatan dari Not a Number.

natural language understanding

#language

Menentukan niat pengguna berdasarkan apa yang diketik atau dikatakan pengguna. Misalnya, mesin telusur menggunakan natural language understanding untuk menentukan apa yang ditelusuri pengguna berdasarkan apa yang diketik atau dikatakan pengguna.

kelas negatif

#fundamentals

Dalam klasifikasi biner, satu kelas disebut positif dan kelas lainnya disebut negatif. Class positif adalah hal atau peristiwa yang diuji oleh model dan class negatif adalah kemungkinan lainnya. Contoh:

  • Kelas negatif dalam tes medis bisa jadi "bukan tumor".
  • Kelas negatif dalam pengklasifikasi email mungkin adalah "bukan spam".

Berbeda dengan kelas positif.

sampling negatif

Sinonim dari sampling kandidat.

Neural Architecture Search (NAS)

Teknik untuk otomatis mendesain arsitektur jaringan neural. Algoritma NAS dapat mengurangi jumlah waktu dan resource yang diperlukan untuk melatih jaringan neural.

NAS biasanya menggunakan:

  • Ruang pencarian, yang merupakan kumpulan kemungkinan arsitektur.
  • Fungsi kebugaran, yang merupakan ukuran seberapa baik performa arsitektur tertentu pada tugas tertentu.

Algoritma NAS sering kali dimulai dengan serangkaian kecil kemungkinan arsitektur dan secara bertahap memperluas ruang penelusuran seiring algoritma mempelajari lebih lanjut arsitektur apa yang efektif. Fungsi kebugaran biasanya didasarkan pada performa arsitektur di set pelatihan, dan algoritma biasanya dilatih menggunakan teknik pembelajaran penguatan.

Algoritma NAS telah terbukti efektif dalam menemukan arsitektur berperforma tinggi untuk berbagai tugas, termasuk klasifikasi gambar, klasifikasi teks, dan terjemahan mesin.

alur maju

#fundamentals

model yang berisi setidaknya satu model. Jaringan neural dalam adalah jenis jaringan neural yang berisi lebih dari satu lapisan tersembunyi. Misalnya, diagram berikut menunjukkan deep neural network yang berisi dua lapisan tersembunyi.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
          lapisan output.

Setiap neuron dalam jaringan neural terhubung ke semua node di lapisan berikutnya. Misalnya, dalam diagram sebelumnya, perhatikan bahwa masing-masing dari tiga neuron di lapisan tersembunyi pertama secara terpisah terhubung ke kedua dua neuron di lapisan tersembunyi kedua.

Jaringan neural yang diterapkan pada komputer terkadang disebut jaringan neural buatan untuk membedakannya dari jaringan neural yang ditemukan di otak dan sistem saraf lainnya.

Beberapa jaringan neural dapat meniru hubungan nonlinear yang sangat kompleks antara fitur dan label yang berbeda.

Lihat juga jaringan neural konvolusional dan jaringan neural berulang.

neuron

#fundamentals

Dalam machine learning, unit berbeda dalam lapisan tersembunyi dari jaringan neural. Setiap neuron melakukan tindakan dua langkah berikut:

  1. Menghitung jumlah tertimbang nilai input dikalikan dengan bobot yang sesuai.
  2. Meneruskan jumlah tertimbang sebagai input ke fungsi aktivasi.

Neuron di lapisan tersembunyi pertama menerima input dari nilai fitur di lapisan input. Neuron di lapisan tersembunyi selain yang pertama menerima input dari neuron di lapisan tersembunyi sebelumnya. Misalnya, neuron di lapisan tersembunyi kedua menerima input dari neuron di lapisan tersembunyi pertama.

Ilustrasi berikut menyoroti dua neuron dan inputnya.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
          lapisan output. Dua neuron ditandai: satu di lapisan tersembunyi
          pertama dan satu di lapisan tersembunyi kedua. Neuron yang ditandai di lapisan tersembunyi pertama menerima input dari kedua fitur di lapisan input. Neuron yang disorot pada lapisan tersembunyi kedua
          menerima input dari masing-masing dari tiga neuron di lapisan tersembunyi
          pertama.

Neuron di jaringan neural meniru perilaku neuron di otak dan bagian lain dari sistem saraf.

N-gram

#seq
#language

Rangkaian N kata yang berurutan. Misalnya, truly madly bernilai 2 gram. Karena urutan bersifat relevan, nilai 2 gram pada madly true berbeda dengan truly madly.

N Nama untuk jenis N-gram ini Contoh
2 bigram atau 2 gram pergi, pergi, makan siang, makan malam
3 trigram atau 3 gram terlalu banyak makan, tiga tikus buta, suara lonceng
4 4 gram berjalan di taman, berdebu tertiup angin, anak laki-laki itu makan lentil

Banyak model natural language understanding mengandalkan N-gram untuk memprediksi kata berikutnya yang akan diketik atau diucapkan pengguna. Misalnya, anggaplah pengguna mengetik three buta. Model NLU berdasarkan trigram kemungkinan akan memprediksi bahwa pengguna selanjutnya akan mengetik mice.

Bedakan N-gram dengan kantong data, yang merupakan kumpulan kata yang tidak berurutan.

NLU

#language

Singkatan dari natural language understanding.

node (pohon keputusan)

#df

Di pohon keputusan, kondisi atau leaf apa pun.

Pohon keputusan dengan dua kondisi dan tiga daun.

node (jaringan neural)

#fundamentals

neuron di lapisan tersembunyi.

simpul (grafik TensorFlow)

#TensorFlow

Operasi dalam grafik TensorFlow.

kebisingan

Secara umum, segala sesuatu yang mengaburkan sinyal dalam {i>dataset<i}. Derau dapat dimasukkan ke dalam data dengan berbagai cara. Contoh:

  • Pelabel manusia membuat kesalahan dalam pelabelan.
  • Manusia dan instrumen salah mencatat atau menghilangkan nilai fitur.

kondisi non-biner

#df

Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan hasil:

Suatu kondisi (number_of_legs = ?) yang mengarah ke tiga kemungkinan hasil. Satu hasil (number_of_legs = 8) mengarah ke sebuah daun bernama spider. Hasil kedua (number_of_legs = 4) menghasilkan
          daun bernama dog. Hasil ketiga (number_of_legs = 2) menghasilkan
          daun bernama penguin.

nonlinear

#fundamentals

Hubungan antara dua atau lebih variabel yang tidak dapat direpresentasikan hanya melalui penjumlahan dan perkalian. Hubungan linear dapat direpresentasikan sebagai garis; hubungan nonlinear tidak dapat direpresentasikan sebagai garis. Misalnya, pertimbangkan dua model yang masing-masing menghubungkan satu fitur dengan satu label. Model di sebelah kiri adalah linear dan model di sebelah kanan adalah nonlinear:

Dua plot. Satu plot berupa garis, jadi ini hubungan liniernya.
          Plot lainnya adalah kurva, jadi ini adalah hubungan nonlinier.

bias non-respons

#fairness

Lihat bias seleksi.

nonstasioneritas

#fundamentals

Fitur yang nilainya berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, perhatikan contoh nonstasioneritas berikut:

  • Jumlah pakaian renang yang dijual di toko tertentu bervariasi menurut musim.
  • Jumlah buah tertentu yang dipanen dalam wilayah tertentu adalah nol untuk sebagian besar tahun, tetapi besar dalam jangka waktu singkat.
  • Karena perubahan iklim, suhu rata-rata tahunan berubah.

Berbeda dengan stasioneritas.

normalisasi

#fundamentals

Secara garis besar, proses konversi rentang nilai aktual suatu variabel menjadi rentang nilai standar, seperti:

  • -1 hingga +1
  • 0 hingga 1
  • distribusi normal

Misalnya, rentang nilai aktual fitur tertentu adalah 800 hingga 2.400. Sebagai bagian dari rekayasa fitur, Anda dapat menormalisasi nilai aktual hingga ke rentang standar, seperti -1 hingga +1.

Normalisasi adalah tugas umum dalam rekayasa fitur. Model biasanya dilatih lebih cepat (dan menghasilkan prediksi yang lebih baik) ketika setiap fitur numerik dalam vektor fitur memiliki rentang yang kurang lebih sama.

deteksi baru

Proses penentuan apakah contoh baru (baru) berasal dari distribusi yang sama dengan set pelatihan. Dengan kata lain, setelah pelatihan di set pelatihan, deteksi kebaruan menentukan apakah contoh baru (selama inferensi atau selama pelatihan tambahan) merupakan outlier.

Berbeda dengan deteksi pencilan.

data numerik

#fundamentals

Fitur direpresentasikan sebagai bilangan bulat atau bilangan riil. Misalnya, model penilaian rumah mungkin akan mewakili ukuran rumah (dalam kaki persegi atau meter persegi) sebagai data numerik. Merepresentasikan fitur sebagai data numerik menunjukkan bahwa nilai fitur memiliki hubungan matematika dengan label. Artinya, jumlah meter persegi pada rumah mungkin memiliki hubungan matematika dengan nilai rumah.

Tidak semua data bilangan bulat harus direpresentasikan sebagai data numerik. Misalnya, kode pos di beberapa bagian dunia berupa bilangan bulat; namun, kode pos bilangan bulat tidak boleh direpresentasikan sebagai data numerik dalam model. Hal ini karena kode pos 20000 tidak dua kali (atau setengah) sama kuatnya dengan kode pos 10000. Selain itu, meskipun kode pos yang berbeda benar-benar berkorelasi dengan nilai properti yang berbeda, kita tidak dapat berasumsi bahwa nilai real estate pada kode pos 20000 dua kali lebih berharga dibandingkan nilai real estate pada kode pos 10000. Kode pos sebaiknya direpresentasikan sebagai data kategoris.

Fitur numerik terkadang disebut fitur berkelanjutan.

NumPy

Library matematika open source yang menyediakan operasi array yang efisien di Python. pandas dibuat di NumPy.

O

tujuan

Metrik yang coba dioptimalkan oleh algoritma Anda.

fungsi objektif

Formula matematika atau metrik yang ingin dioptimalkan oleh model. Misalnya, fungsi objektif untuk regresi linear biasanya adalah Rataan Kuadrat Kerugian. Oleh karena itu, ketika melatih model regresi linear, pelatihan bertujuan untuk meminimalkan Rataan Kuadrat Kerugian.

Dalam beberapa kasus, tujuannya adalah untuk memaksimalkan fungsi tujuan. Misalnya, jika fungsi objektif adalah akurasi, tujuannya adalah untuk memaksimalkan akurasi.

Lihat juga kerugian.

kondisi miring

#df

Dalam hierarki keputusan, kondisi yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar adalah fitur, maka yang berikut adalah kondisi miring:

  height > width

Berbeda dengan kondisi rata sumbu.

offline

#fundamentals

Sinonim dari statis.

inferensi offline

#fundamentals

Proses model yang menghasilkan batch prediksi, lalu meng-cache (menyimpan) prediksi tersebut. Kemudian, aplikasi dapat mengakses prediksi yang disimpulkan dari cache, bukan menjalankan ulang model.

Misalnya, pertimbangkan model yang menghasilkan perkiraan cuaca lokal (prediksi) sekali setiap empat jam. Setelah setiap model berjalan, sistem akan menyimpan semua prakiraan cuaca lokal ke dalam cache. Aplikasi cuaca mengambil prakiraan dari cache.

Inferensi offline juga disebut inferensi statis.

Berbeda dengan inferensi online.

encoding one-hot

#fundamentals

Merepresentasikan data kategori sebagai vektor di mana:

  • Satu elemen ditetapkan ke 1.
  • Semua elemen lainnya disetel ke 0.

Enkode one-hot biasanya digunakan untuk merepresentasikan string atau ID yang memiliki kemungkinan nilai yang terbatas. Misalnya, fitur kategori tertentu bernama Scandinavia memiliki lima kemungkinan nilai:

  • "Denmark"
  • "Swedia"
  • "Norwegia"
  • "Finlandia"
  • "Islandia"

Enkode one-hot dapat mewakili masing-masing dari lima nilai sebagai berikut:

country Vektor
"Denmark" 1 0 0 0 0
"Swedia" 0 1 0 0 0
"Norwegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islandia" 0 0 0 0 1

Berkat encoding one-hot, model dapat mempelajari koneksi yang berbeda berdasarkan masing-masing dari lima negara.

Merepresentasikan fitur sebagai data numerik adalah alternatif untuk encoding one-hot. Sayangnya, merepresentasikan negara-negara Skandinavia secara numerik bukanlah pilihan yang baik. Misalnya, pertimbangkan representasi numerik berikut:

  • "Denmark" adalah 0
  • "Swedia" adalah 1
  • "Norwegia" adalah 2
  • "Finlandia" adalah 3
  • "Islandia" adalah 4

Dengan encoding numerik, model akan menafsirkan angka mentah secara matematis dan akan mencoba melatih angka tersebut. Namun, jumlah uang Islandia sebenarnya bukan dua kali lipat (atau setengah dari jumlah) yang diperoleh di Norwegia, jadi model ini akan menghasilkan beberapa kesimpulan yang aneh.

pemelajaran satu tahap

Pendekatan machine learning, sering digunakan untuk klasifikasi objek, yang dirancang untuk mempelajari pengklasifikasi yang efektif dari satu contoh pelatihan.

Lihat juga pembelajaranfew-shot dan pembelajaran zero-shot.

metode one-shot prompting

#language
#AI generatif

Perintah yang berisi satu contoh yang menunjukkan cara model bahasa besar akan merespons. Misalnya, perintah berikut berisi satu contoh yang menunjukkan model bahasa besar cara menjawab kueri.

Bagian dari satu perintah Catatan
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang Anda inginkan untuk dijawab oleh LLM.
Prancis: EUR Salah satu contohnya.
India: Kueri yang sebenarnya.

Bandingkan dan bedakan one-shot prompting dengan istilah berikut:

satu vs. semua

#fundamentals

Dalam masalah klasifikasi dengan class N, solusi yang terdiri dari N pengklasifikasi biner terpisah—satu pengklasifikasi biner untuk setiap kemungkinan hasil. Misalnya, jika model yang mengklasifikasikan contoh sebagai hewan, sayuran, atau mineral, solusi satu vs. semua akan memberikan tiga pengklasifikasi biner terpisah berikut:

  • hewan versus bukan hewan
  • sayuran versus bukan sayuran
  • mineral versus bukan mineral

online

#fundamentals

Sinonim dari dinamis.

inferensi online

#fundamentals

Menghasilkan prediksi sesuai permintaan. Misalnya, anggaplah sebuah aplikasi meneruskan input ke sebuah model dan mengeluarkan permintaan untuk sebuah prediksi. Sistem yang menggunakan inferensi online merespons permintaan dengan menjalankan model (dan menampilkan prediksi ke aplikasi).

Berbeda dengan inferensi offline.

operasi (op)

#TensorFlow

Di TensorFlow, prosedur apa pun yang membuat, memanipulasi, atau menghancurkan Tensor. Misalnya, perkalian matriks adalah operasi yang menggunakan dua Tensor sebagai input dan menghasilkan satu Tensor sebagai output.

Optax

Library pemrosesan dan pengoptimalan gradien untuk JAX. Optax memfasilitasi riset dengan menyediakan elemen penyusun yang dapat digabungkan kembali dengan cara kustom untuk mengoptimalkan model parametrik seperti jaringan neural dalam. Sasaran lainnya mencakup:

  • Menyediakan implementasi komponen inti yang dapat dibaca, teruji dengan baik, dan efisien.
  • Meningkatkan produktivitas dengan memungkinkan penggabungan bahan-bahan tingkat rendah menjadi pengoptimal kustom (atau komponen pemrosesan gradien lainnya).
  • Mempercepat penerapan ide-ide baru dengan memudahkan siapa saja untuk berkontribusi.

pengoptimal

Implementasi spesifik dari algoritma penurunan gradien. Pengoptimal populer mencakup:

  • AdaGrad, yang merupakan singkatan dari ADAptive GRADient descent.
  • Adam, yang merupakan singkatan dari ADAptive dengan Momentum.

bias homogenitas di luar golongan

#fairness

Kecenderungan untuk melihat anggota di luar kelompok lebih mirip daripada anggota dalam kelompok ketika membandingkan sikap, nilai, ciri kepribadian, dan karakteristik lainnya. Dalam golongan mengacu pada orang yang berinteraksi dengan Anda secara rutin; luar golongan mengacu pada orang yang tidak berinteraksi dengan Anda secara berkala. Jika Anda membuat set data dengan meminta orang untuk memberikan atribut tentang luar kelompok, atribut tersebut mungkin kurang bernuansa dan lebih stereotip dibandingkan atribut yang dicantumkan peserta untuk orang-orang dalam kelompok mereka.

Misalnya, Liliput mungkin mendeskripsikan rumah Liliput lainnya secara sangat mendetail, dengan mengutip perbedaan kecil dalam gaya arsitektur, jendela, pintu, dan ukuran. Namun, Liliput yang sama mungkin hanya menyatakan bahwa semua Brobdingnagian tinggal di rumah yang identik.

Bias homogenitas luar golongan adalah bentuk bias atribusi golongan.

Lihat juga bias dalam golongan.

deteksi pencilan

Proses mengidentifikasi outlier dalam set pelatihan.

Berbeda dengan deteksi kebaruan.

kekecualian

Nilai yang jauh dari sebagian besar nilai lainnya. Dalam machine learning, salah satu dari hal berikut adalah pencilan:

  • Data input yang nilainya lebih dari sekitar 3 deviasi standar dari nilai rata-rata.
  • Bobot dengan nilai absolut yang tinggi.
  • Nilai yang diprediksi relatif jauh dari nilai sebenarnya.

Misalnya, anggaplah widget-price adalah fitur dari model tertentu. Asumsikan bahwa rata-rata widget-price adalah 7 Euro dengan deviasi standar 1 Euro. Oleh karena itu, contoh yang berisi widget-price sebesar 12 Euro atau 2 Euro akan dianggap sebagai pencilan karena masing-masing harga tersebut merupakan lima deviasi standar dari rata-rata.

Pencilan sering kali disebabkan oleh salah ketik atau kesalahan masukan lainnya. Dalam kasus lain, pencilan bukanlah kesalahan. Lagi pula, nilai lima deviasi standar jauh dari nilai rata-rata jarang terjadi, tetapi hampir tidak mungkin.

Pencilan sering menyebabkan masalah dalam pelatihan model. Penyesuaian nilai adalah salah satu cara untuk mengelola pencilan.

evaluasi bawaan (evaluasi OOB)

#df

Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan berdasarkan contoh yang tidak digunakan selama pelatihan pohon keputusan tersebut. Misalnya, dalam diagram berikut, perhatikan bahwa sistem melatih setiap pohon keputusan pada sekitar dua pertiga contoh, lalu mengevaluasi sepertiga contoh lainnya.

Hutan keputusan yang terdiri dari tiga pohon keputusan.
          Satu pohon keputusan dilatih pada dua pertiga dari contoh, lalu menggunakan sepertiga sisanya untuk evaluasi OOB.
          Pohon keputusan kedua dilatih pada dua pertiga contoh yang berbeda
          dari pohon keputusan sebelumnya, lalu
          menggunakan sepertiga yang berbeda untuk evaluasi OOB dibandingkan
          pohon keputusan sebelumnya.

Evaluasi bawaan adalah pendekatan konservatif dan efisien secara komputasi untuk mekanisme validasi silang. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, satu model dilatih. Karena bagging menahan beberapa data dari setiap pohon selama pelatihan, evaluasi OOB dapat menggunakan data tersebut untuk memperkirakan validasi silang.

lapisan output

#fundamentals

Lapisan "akhir" dari jaringan neural. Lapisan output berisi prediksi.

Ilustrasi berikut menunjukkan jaringan neural dalam yang kecil dengan lapisan input, dua lapisan tersembunyi, dan lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
          lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua terdiri dari dua neuron. Lapisan output terdiri dari satu node.

overfitting

#fundamentals

Membuat model yang sangat cocok dengan data pelatihan sehingga model gagal membuat prediksi yang benar pada data baru.

Regularisasi dapat mengurangi overfitting. Pelatihan dengan set pelatihan yang besar dan beragam juga dapat mengurangi overfitting.

pengambilan sampel yang berlebihan

Menggunakan kembali contoh dari kelas minoritas dalam set data kelas tidak seimbang untuk membuat set pelatihan yang lebih seimbang.

Misalnya, pertimbangkan masalah klasifikasi biner dengan rasio kelas mayoritas terhadap kelas minoritas adalah 5.000:1. Jika set data berisi satu juta contoh, set data hanya berisi sekitar 200 contoh kelas minoritas, yang mungkin terlalu sedikit contoh untuk pelatihan yang efektif. Untuk mengatasi kekurangan ini, Anda mungkin mengambil sampel berlebih (menggunakan kembali) 200 contoh tersebut beberapa kali, sehingga mungkin menghasilkan contoh yang memadai untuk pelatihan yang berguna.

Anda harus berhati-hati terkait overfitting saat terjadi oversampling.

Berbeda dengan undersampling.

P

paket data

Pendekatan untuk menyimpan data secara lebih efisien.

Data yang dikemas menyimpan data, baik menggunakan format terkompresi maupun dengan cara lain yang memungkinkannya diakses secara lebih efisien. Data paket meminimalkan jumlah memori dan komputasi yang diperlukan untuk mengaksesnya, sehingga menghasilkan pelatihan yang lebih cepat dan inferensi model yang lebih efisien.

Data yang dikemas sering digunakan dengan teknik lain, seperti pengayaan data dan regularisasi, yang akan makin meningkatkan performa model.

pandas

#fundamentals

API analisis data berorientasi kolom yang di-build di atas numpy. Banyak framework machine learning, termasuk TensorFlow, mendukung struktur data pandas sebagai input. Untuk mengetahui detailnya, lihat dokumentasi pandas.

parameter

#fundamentals

Bobot dan bias yang dipelajari model selama pelatihan. Misalnya, dalam model regresi linear, parameternya terdiri dari bias (b) dan semua bobot (w1, w2, dan seterusnya) dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sebaliknya, hyperparameter adalah nilai yang diberikan Anda (atau layanan konversi hyperparameter) ke model. Misalnya, kecepatan pembelajaran adalah hyperparameter.

parameter-efficient tuning

#language
#AI generatif

Serangkaian teknik untuk menyesuaikan model bahasa terlatih (PLM) besar yang lebih efisien daripada penyesuaian sepenuhnya. Penyesuaian yang hemat parameter biasanya meningkatkan parameter yang jauh lebih sedikit daripada penyempurnaan penuh, tetapi umumnya menghasilkan model bahasa besar yang berperforma juga (atau hampir sama)nya dengan model bahasa besar yang dibuat dari penyempurnaan penuh.

Membandingkan dan membedakan parameter-efficient tuning dengan:

Parameter-efficient tuning juga dikenal sebagai parameter-efficient fine-tuning.

Server Parameter (PS)

#TensorFlow

Pekerjaan yang melacak parameter model dalam setelan terdistribusi.

pembaruan parameter

Operasi penyesuaian parameter model selama pelatihan, biasanya dalam satu iterasi penurunan gradien.

turunan parsial

Turunan yang mana semua kecuali satu variabel dianggap sebagai konstanta. Misalnya, turunan parsial f(x, y) yang terkait dengan x adalah turunan dari f yang dianggap sebagai fungsi x saja (yaitu, mempertahankan konstanta y). Turunan parsial f yang terkait dengan x hanya berfokus pada bagaimana x berubah dan mengabaikan semua variabel lain dalam persamaan.

bias partisipasi

#fairness

Sinonim untuk bias non-respons. Lihat bias seleksi.

strategi partisi

Algoritma yang digunakan untuk membagi variabel di seluruh server parameter.

Paket

Framework pemrograman yang dirancang untuk melatih jaringan neural model skala besar yang sangat besar sehingga mencakup beberapa TPU chip akselerator slice atau pod.

Pax dibuat di Flax, yang dibuat di JAX.

Diagram yang menunjukkan posisi Pax dalam stack software.
          Pax dibuat di atas JAX. Pax sendiri terdiri dari tiga lapisan. Lapisan bawah berisi TensorStore dan Flax.
          Lapisan tengah berisi Optax dan Flaxformer. Lapisan atas berisi Library Pemodelan Praxis. Fiddle dibuat di atas Pax.

perseptron

Sistem (hardware atau software) yang menggunakan satu atau beberapa nilai input, menjalankan fungsi pada jumlah input terbobot, dan menghitung satu nilai output. Dalam machine learning, fungsinya biasanya nonlinear, seperti ReLU, ReLU, atau tanh. Misalnya, perseptron berikut bergantung pada fungsi sigmoid untuk memproses tiga nilai input:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Dalam ilustrasi berikut, perseptron menggunakan tiga input, yang masing-masing dimodifikasi sendiri oleh bobot sebelum memasuki perseptron:

Perseptron yang menerima 3 input, masing-masing dikalikan dengan bobot
          yang terpisah. Perceptron menghasilkan satu nilai.

Perseptron adalah neuron dalam jaringan neural.

performa

Istilah yang berlebihan dengan arti berikut:

  • Makna standar dalam rekayasa perangkat lunak. Yaitu: Seberapa cepat (atau efisien) software ini berjalan?
  • Makna dalam machine learning. Di sini, performa menjawab pertanyaan berikut: Seberapa benar model ini? Artinya, seberapa bagus prediksi modelnya?

tingkat kepentingan variabel permutasi

#df

Jenis nilai penting variabel yang mengevaluasi peningkatan error prediksi model setelah mengubah nilai fitur. Nilai penting variabel permutasi adalah metrik yang tidak bergantung pada model.

perpleksitas

Salah satu ukuran terkait seberapa baik model menyelesaikan tugasnya. Misalnya, tugas Anda adalah membaca beberapa huruf pertama dari kata yang diketik pengguna di keyboard ponsel, dan menawarkan daftar kemungkinan kata penyelesaian. Perpleksitas, P, untuk tugas ini adalah perkiraan jumlah tebakan yang perlu Anda tawarkan agar daftar berisi kata sebenarnya yang ingin diketik pengguna.

Perpleksitas terkait dengan entropi silang sebagai berikut:

$$P= 2^{-\text{cross entropy}}$$

pipeline

Infrastruktur yang berkaitan dengan algoritma machine learning. Pipeline meliputi pengumpulan data, memasukkan data ke dalam file data pelatihan, melatih satu atau beberapa model, dan mengekspor model ke produksi.

pipeline

#language

Bentuk paralelisme model di mana pemrosesan model dibagi menjadi beberapa tahap yang berurutan dan setiap tahap dijalankan di perangkat yang berbeda. Saat suatu tahap memproses satu batch, tahap sebelumnya dapat diterapkan pada batch berikutnya.

Lihat juga pelatihan bertahap.

Pjit

Fungsi JAX yang memisahkan kode untuk dijalankan di beberapa chip akselerator. Pengguna meneruskan fungsi ke pjit, yang menampilkan fungsi yang memiliki semantik setara, tetapi dikompilasi ke dalam komputasi XLA yang berjalan di beberapa perangkat (seperti GPU atau inti TPU).

pjit memungkinkan pengguna untuk melakukan sharding komputasi tanpa perlu menulis ulang komputasi tersebut menggunakan partisi SPMD.

Mulai Maret 2023, pjit telah digabungkan dengan jit. Lihat Array terdistribusi dan paralelisasi otomatis untuk detail selengkapnya.

PLM

#language
#AI generatif

Singkatan dari model bahasa terlatih.

pmap

Fungsi JAX yang mengeksekusi salinan fungsi input di beberapa perangkat hardware yang mendasarinya (CPU, GPU, atau TPU), dengan nilai input yang berbeda. pmap bergantung pada SPMD.

kebijakan

#rl

Dalam reinforcement learning, pemetaan probabilistik agen dari status ke tindakan.

penggabungan

#image

Mengurangi matriks (atau matriks) yang dibuat oleh lapisan konvolusional sebelumnya ke matriks yang lebih kecil. Penggabungan biasanya melibatkan penggunaan nilai maksimum atau rata-rata di seluruh area gabungan. Misalnya, kita memiliki matriks 3x3 berikut:

Matriks 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Operasi penggabungan, seperti operasi konvolusional, membagi matriks tersebut menjadi beberapa bagian, lalu menggeser operasi konvolusional tersebut dengan jangka. Misalnya, operasi penggabungan membagi matriks konvolusional menjadi irisan 2x2 dengan jangka 1x1. Seperti yang digambarkan oleh diagram berikut, terjadi empat operasi penggabungan. Bayangkan bahwa setiap operasi penggabungan memilih nilai maksimum dari empat operasi tersebut dalam potongan tersebut:

Matriks input adalah 3x3 dengan nilai-nilai: [[5,3,1], [8,2,5], [9,4,3]].
          Submatriks 2x2 kiri atas dari matriks input adalah [[5,3], [8,2]], sehingga operasi penggabungan di kiri atas menghasilkan nilai 8 (yang merupakan maksimum 5, 3, 8, dan 2). Submatriks 2x2 kanan atas dari matriks input adalah [[3,1], [2,5]], sehingga operasi penggabungan kanan atas menghasilkan nilai 5. Submatriks 2x2 kiri bawah dari matriks input adalah
          [[8,2], [9,4]], sehingga operasi penggabungan kiri bawah menghasilkan nilai
          9. Submatriks 2x2 kanan bawah dari matriks input adalah [[2,5], [4,3]], sehingga operasi penggabungan kanan bawah menghasilkan nilai 5. Singkatnya, operasi penggabungan menghasilkan matriks 2x2 [[8,5], [9,5]].

Penggabungan membantu menerapkan invariansi translasi dalam matriks input.

Penggabungan untuk aplikasi visi dikenal lebih formal sebagai penggabungan spasial. Penerapan deret waktu biasanya mengacu pada penggabungan sebagai penggabungan sementara. Secara kurang formal, penggabungan sering disebut subsampling atau downsampling.

encoding posisi

#language

Teknik untuk menambahkan informasi tentang posisi token dalam suatu urutan ke embedding token. Model transformer menggunakan encoding posisi untuk lebih memahami hubungan antara berbagai bagian urutan.

Implementasi umum dari encoding posisi menggunakan fungsi sinusoidal. (Secara khusus, frekuensi dan amplitudo fungsi sinusoidal ditentukan oleh posisi token dalam urutan.) Teknik ini memungkinkan model Transformer belajar menghadiri berbagai bagian urutan berdasarkan posisinya.

kelas positif

#fundamentals

Kelas yang sedang Anda uji.

Misalnya, kelas positif pada model kanker mungkin adalah "tumor". Kelas positif dalam pengklasifikasi email mungkin adalah "spam".

Berbeda dengan kelas negatif.

pascapemrosesan

#fairness
#fundamentals

Menyesuaikan output model setelah model dijalankan. Pasca-pemrosesan dapat digunakan untuk menerapkan batasan keadilan tanpa mengubah model itu sendiri.

Misalnya, seseorang dapat menerapkan pascapemrosesan ke pengklasifikasi biner dengan menetapkan batas klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa bahwa rasio positif benar sama untuk semua nilai atribut tersebut.

PR AUC (area di bawah kurva PR)

Area di bawah kurva presisi-recall terinterpolasi, yang diperoleh dengan memetakan titik (penarikan, presisi) untuk berbagai nilai batas klasifikasi. Bergantung pada cara penghitungannya, PR AUC mungkin setara dengan presisi rata-rata model.

Praaksi

Library ML inti berperforma tinggi dari Pax. Praxis sering disebut sebagai "Layer library".

Praxis tidak hanya berisi definisi untuk class Layer, tetapi juga sebagian besar komponen pendukungnya, termasuk:

Praxis menyediakan definisi untuk class Model.

presisi

Metrik untuk model klasifikasi yang menjawab pertanyaan berikut:

Ketika model memprediksi kelas positif, berapa persentase prediksi yang benar?

Berikut formulanya:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dalam hal ini:

  • positif benar berarti model dengan benar memprediksi class positif.
  • positif palsu berarti model salah memprediksi class positif.

Misalnya, model membuat 200 prediksi positif. Dari 200 prediksi positif ini:

  • 150 adalah positif benar.
  • 50 adalah positif palsu.

Dalam kasus ini:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Berbeda dengan akurasi dan perolehan.

kurva presisi-perolehan

Kurva presisi versus penarikan pada batas klasifikasi yang berbeda.

prediksi

#fundamentals

Output model. Contoh:

  • Prediksi model klasifikasi biner adalah kelas positif atau negatif.
  • Prediksi model klasifikasi multi-class adalah satu class.
  • Prediksi model regresi linear adalah angka.

bias prediksi

Nilai yang menunjukkan seberapa jauh jarak rata-rata prediksi dari rata-rata label dalam set data.

Harap bedakan dengan istilah bias dalam model machine learning atau dengan bias dalam etika dan keadilan.

ML prediktif

Semua sistem machine learning standar ("klasik").

Istilah ML prediktif tidak memiliki definisi formal. Namun, istilah tersebut membedakan kategori sistem ML yang bukan didasarkan pada AI generatif.

paritas prediktif

#fairness

Metrik keadilan yang memeriksa apakah, untuk pengklasifikasi tertentu, tarif presisi setara untuk subgrup yang sedang dipertimbangkan.

Misalnya, model yang memprediksi penerimaan perguruan tinggi akan memenuhi paritas prediktif untuk kewarganegaraan jika tingkat presisinya sama untuk Lilliputians dan Brobdingnagians.

Paritas prediktif kadang juga disebut paritas rasio prediktif.

Lihat "Penjelasan Keadilan" (bagian 3.2.1) untuk diskusi yang lebih mendetail tentang paritas prediktif.

paritas tarif prediktif

#fairness

Nama lain untuk paritas prediktif.

pra-pemrosesan

#fairness
Memproses data sebelum digunakan untuk melatih model. Prapemrosesan dapat sesederhana menghapus kata dari korpus teks bahasa Inggris yang tidak terjadi dalam kamus bahasa Inggris, atau bisa sekompleks mengekspresikan ulang titik data dengan cara menghilangkan sebanyak mungkin atribut yang terkait dengan atribut sensitif. Prapemrosesan dapat membantu memenuhi batasan keadilan.

model terlatih

#language
#image
#AI generatif

Model atau komponen model (seperti vektor embedding) yang telah dilatih. Terkadang, Anda akan memasukkan vektor embedding yang telah dilatih sebelumnya ke dalam jaringan neural. Di lain waktu, model Anda akan melatih vektor embedding itu sendiri, bukan mengandalkan embedding yang telah dilatih sebelumnya.

Istilah model bahasa terlatih mengacu pada model bahasa besar yang telah melalui pra-pelatihan.

latihan awal

#language
#image
#AI generatif

Pelatihan awal model pada set data besar. Beberapa model yang dilatih sebelumnya adalah model yang ceroboh dan biasanya harus ditingkatkan melalui pelatihan tambahan. Misalnya, pakar ML dapat melatih terlebih dahulu model bahasa besar dengan set data teks yang luas, seperti semua halaman berbahasa Inggris di Wikipedia. Setelah melakukan pra-pelatihan, model yang dihasilkan dapat disempurnakan lebih lanjut melalui salah satu teknik berikut:

keyakinan sebelumnya

Apa yang Anda yakini tentang data sebelum Anda mulai melatih data tersebut. Misalnya, regularisasi L2 bergantung pada keyakinan sebelumnya bahwa bobot harus kecil dan biasanya didistribusikan sekitar nol.

model regresi probabilistik

Model regresi yang tidak hanya menggunakan bobot untuk setiap fitur, tetapi juga ketidakpastian bobot tersebut. Model regresi probabilistik menghasilkan sebuah prediksi dan ketidakpastian dari prediksi itu. Misalnya, model regresi probabilistik dapat menghasilkan prediksi 325 dengan deviasi standar 12. Untuk mengetahui informasi selengkapnya tentang model regresi probabilistik, baca Colab di tensorflow.org ini.

fungsi kepadatan probabilitas

Fungsi yang mengidentifikasi frekuensi sampel data yang memiliki nilai tertentu persis. Jika nilai set data adalah bilangan floating point berkelanjutan, pencocokan persis jarang terjadi. Namun, integrating fungsi kepadatan probabilitas dari nilai x ke nilai y akan menghasilkan frekuensi sampel data yang diharapkan antara x dan y.

Misalnya, pertimbangkan distribusi normal yang memiliki rata-rata 200 dan deviasi standar 30. Untuk menentukan frekuensi sampel data yang diharapkan yang berada dalam rentang 211,4 hingga 218,7, Anda dapat mengintegrasikan fungsi kepadatan probabilitas untuk distribusi normal dari 211,4 hingga 218,7.

perintah

#language
#AI generatif

Semua teks yang dimasukkan sebagai input untuk model bahasa besar untuk mengondisikan model agar berperilaku dengan cara tertentu. Perintah dapat sesingkat frasa atau panjangnya bebas (misalnya, seluruh teks novel). Perintah terbagi dalam beberapa kategori, termasuk yang ditampilkan dalam tabel berikut:

Kategori perintah Contoh Catatan
Pertanyaan Seberapa cepat burung dara bisa terbang?
Petunjuk Tulis puisi lucu tentang arbitrase. Perintah yang meminta model bahasa besar untuk melakukan sesuatu.
Contoh Terjemahkan kode Markdown ke HTML. Misalnya:
Markdown: * item daftar
HTML: <ul> <li>daftar item</li> </ul>
Kalimat pertama dalam contoh prompt ini adalah sebuah instruksi. Contohnya adalah bagian selanjutnya dari prompt tersebut.
Peran Jelaskan mengapa penurunan gradien digunakan dalam pelatihan machine learning untuk meraih gelar PhD bidang Fisika. Bagian pertama kalimat adalah petunjuk; frasa "mendapatkan gelar PhD dalam bidang Fisika" adalah bagian peran.
Input parsial untuk diselesaikan model Perdana Menteri Inggris Raya tinggal di Permintaan input parsial dapat diakhiri secara tiba-tiba (seperti dalam contoh ini) atau diakhiri dengan garis bawah.

Model AI generatif dapat merespons prompt dengan teks, kode, gambar, penyematan, video...hampir semua hal.

pembelajaran berbasis prompt

#language
#AI generatif

Kemampuan model tertentu yang memungkinkan mereka menyesuaikan perilakunya sebagai respons terhadap input teks arbitrer (perintah). Dalam paradigma pembelajaran berbasis perintah yang umum, model bahasa besar akan merespons perintah dengan membuat teks. Misalnya, anggaplah pengguna memasukkan perintah berikut:

Rangkum Hukum Ketiga Newton tentang Gerak.

Model yang mampu melakukan pembelajaran berbasis perintah tidak dilatih secara khusus untuk menjawab prompt sebelumnya. Sebaliknya, model "mengetahui" banyak fakta tentang fisika, tentang aturan bahasa umum, dan banyak hal tentang jawaban yang umumnya berguna. Pengetahuan tersebut sudah cukup untuk memberikan jawaban yang (semoga) bermanfaat. Masukan manusia tambahan ("Jawaban itu terlalu rumit" atau "Apa itu reaksi?") memungkinkan beberapa sistem pembelajaran berbasis perintah untuk secara bertahap meningkatkan kegunaan jawaban mereka.

desain prompt

#language
#AI generatif

Sinonim dari engineering prompt.

rekayasa perintah

#language
#AI generatif

Seni membuat prompt yang memunculkan respons yang diinginkan dari model bahasa besar. Manusia melakukan rekayasa perintah. Menulis perintah yang terstruktur dengan baik merupakan bagian penting untuk memastikan respons yang bermanfaat dari model bahasa besar. Prompt Engineering bergantung pada banyak faktor, termasuk:

Lihat Pengantar desain perintah untuk mengetahui detail selengkapnya tentang cara menulis perintah yang bermanfaat.

Prompt design adalah sinonim dari prompt engineering.

prompt tuning

#language
#AI generatif

Mekanisme tuning parameter yang efisien yang mempelajari "awalan" yang ditambahkan oleh sistem ke prompt sebenarnya.

Salah satu variasi prompt tuning—terkadang disebut tuning awalan—adalah dengan menambahkan awalan di setiap lapisan. Sebaliknya, sebagian besar prompt tuning hanya menambahkan awalan ke lapisan input.

label proxy

#fundamentals

Data yang digunakan untuk memperkirakan label yang tidak secara langsung tersedia dalam {i>dataset<i}.

Misalnya, Anda harus melatih sebuah model untuk memprediksi tingkat stres karyawan. Set data Anda berisi banyak fitur prediktif, tetapi tidak berisi label bernama tingkat stres. Tanpa malu, Anda memilih "kecelakaan tempat kerja" sebagai label proxy untuk tingkat stres. Lagi pula, karyawan yang mengalami stres tinggi lebih banyak mengalami kecelakaan daripada menenangkan karyawan. Atau sebaliknya? Mungkin kecelakaan di tempat kerja benar-benar naik dan turun karena berbagai alasan.

Sebagai contoh kedua, misalkan Anda ingin apakah hujan? menjadi label Boolean untuk set data Anda, tetapi set data tidak berisi data hujan. Jika foto tersedia, Anda mungkin membuat foto orang yang membawa payung sebagai label proxy untuk apakah hujan? Apakah itu label {i> proxy<i} yang baik? Mungkin, tetapi orang-orang di beberapa budaya mungkin lebih cenderung membawa payung untuk melindungi dari sinar matahari daripada hujan.

Label {i>proxy<i} sering tidak sempurna. Jika memungkinkan, pilih label sebenarnya daripada label proxy. Meskipun demikian, jika label sebenarnya tidak ada, pilih label proxy dengan hati-hati, dengan memilih kandidat label proxy yang paling tidak buruk.

proxy (atribut sensitif)

#fairness
Atribut yang digunakan sebagai pengganti untuk atribut sensitif. Misalnya, kode pos seseorang dapat digunakan sebagai proxy untuk pendapatan, ras, atau etnis mereka.

fungsi murni

Fungsi yang outputnya hanya didasarkan pada inputnya, dan tidak memiliki efek samping. Secara khusus, fungsi murni tidak menggunakan atau mengubah status global apa pun, seperti konten file atau nilai variabel di luar fungsi.

Fungsi murni dapat digunakan untuk membuat kode yang aman untuk thread, yang bermanfaat saat melakukan sharding kode model di beberapa chip akselerator.

Metode transformasi fungsi JAX mengharuskan fungsi input merupakan fungsi murni.

T

Fungsi Q

#rl

Dalam pembelajaran penguatan, fungsi yang memprediksi hasil yang diharapkan dari melakukan tindakan dalam status lalu mengikuti kebijakan tertentu.

Fungsi Q juga dikenal sebagai fungsi nilai status tindakan.

{i>Q-learning<i}

#rl

Dalam pembelajaran penguatan, algoritma yang memungkinkan agen mempelajari fungsi Q yang optimal dari proses keputusan Markov dengan menerapkan persamaan Bellman. Proses keputusan Markov memodelkan lingkungan.

kuantil

Setiap bucket dalam bucket kuantil.

pengelompokan kuantil

Mendistribusikan nilai fitur ke dalam bucket sehingga setiap bucket berisi jumlah contoh yang sama (atau hampir sama). Misalnya, gambar berikut membagi 44 titik menjadi 4 bucket, yang masing-masing berisi 11 poin. Agar setiap bucket dalam gambar berisi jumlah titik yang sama, beberapa bucket memiliki lebar nilai x yang berbeda.

44 titik data dibagi menjadi 4 bucket yang masing-masing berisi 11 titik.
          Meskipun setiap bucket berisi jumlah titik data yang sama, beberapa bucket berisi rentang nilai fitur yang lebih luas daripada bucket lainnya.

kuantisasi

Istilah yang berlebihan yang dapat digunakan dengan salah satu cara berikut:

  • Menerapkan bucket kuantil pada fitur tertentu.
  • Mengubah data menjadi angka nol dan satu untuk penyimpanan, pelatihan, dan inferensi yang lebih cepat. Karena data Boolean lebih kuat terhadap derau dan error dibandingkan format lain, kuantisasi dapat meningkatkan ketepatan model. Teknik kuantisasi mencakup pembulatan, pemotongan, dan binning.
  • Mengurangi jumlah bit yang digunakan untuk menyimpan parameter model. Misalnya, parameter model disimpan sebagai bilangan floating point 32-bit. Kuantisasi mengonversi parameter tersebut dari 32 bit menjadi 4, 8, atau 16 bit. Kuantisasi mengurangi hal berikut:

    • Penggunaan komputasi, memori, disk, dan jaringan
    • Waktunya menyimpulkan predikasi
    • Konsumsi daya

    Namun, kuantisasi terkadang menurunkan ketepatan prediksi model.

antrean

#TensorFlow

Operasi TensorFlow yang menerapkan struktur data antrean. Biasanya digunakan dalam I/O.

R

RAG

#fundamentals

Singkatan dari retrieval-augmentedgeneration.

hutan acak

#df

Ansambel pohon keputusan yang memungkinkan setiap pohon keputusan dilatih dengan derau acak tertentu, seperti bagging.

Forest acak adalah jenis forest pengambilan keputusan.

kebijakan acak

#rl

Dalam pembelajaran penguatan, kebijakan yang memilih tindakan secara acak.

peringkat

Jenis supervised learning yang tujuannya adalah mengurutkan daftar item.

peringkat (ordinalitas)

Posisi ordinal kelas dalam masalah machine learning yang mengategorikan kelas dari tertinggi ke terendah. Misalnya, sistem peringkat perilaku dapat mengurutkan hadiah dari yang tertinggi (steak) hingga yang terendah (kale layu).

Rank (Tensor)

#TensorFlow

Jumlah dimensi dalam Tensor. Misalnya, skalar memiliki peringkat 0, vektor memiliki peringkat 1, dan matriks memiliki peringkat 2.

Harap bedakan dengan peringkat (ordinalitas).

penilai

#fundamentals

Manusia yang memberikan label untuk contoh. "Annotator" adalah nama lain untuk pemberi rating.

ingatan

Metrik untuk model klasifikasi yang menjawab pertanyaan berikut:

Jika kebenaran dasar ditetapkan sebagai kelas positif, berapa persentase prediksi yang diidentifikasi dengan benar oleh model sebagai kelas positif?

Berikut formulanya:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dalam hal ini:

  • positif benar berarti model dengan benar memprediksi class positif.
  • negatif palsu berarti bahwa model secara keliru memprediksi kelas negatif.

Misalnya, model Anda membuat 200 prediksi tentang contoh yang kebenaran dasarnya adalah kelas positif. Dari 200 prediksi ini:

  • 180 adalah positif benar.
  • 20 adalah negatif palsu.

Dalam kasus ini:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

sistem rekomendasi

#recsystems

Sistem yang memilih set yang relatif kecil untuk item yang diinginkan dari korpus besar untuk setiap pengguna. Misalnya, sistem rekomendasi video mungkin merekomendasikan dua video dari korpus yang berisi 100.000 video, dengan memilih Casablanca dan The Philadelphia Story untuk satu pengguna, serta Wonder Woman dan Black Panther untuk pengguna yang lain. Sistem rekomendasi video mungkin mendasarkan rekomendasinya pada faktor-faktor seperti:

  • Film yang telah dinilai atau ditonton oleh pengguna serupa.
  • Genre, sutradara, aktor, demografi target...

Unit Linear Terarah (ULT)

#fundamentals

Fungsi aktivasi dengan perilaku berikut:

  • Jika input bernilai negatif atau nol, maka output-nya adalah 0.
  • Jika input positif, maka output sama dengan input.

Contoh:

  • Jika inputnya adalah -3, maka output-nya adalah 0.
  • Jika inputnya +3, maka output-nya adalah 3,0.

Berikut adalah plot ULT:

Plot kartesius dua baris. Baris pertama memiliki konstanta
          y nilai 0, yang membentang di sepanjang sumbu x dari -tak terhingga,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, sehingga garisnya dimulai dari 0,0 hingga +tak terbatas,+tak terhingga.

ULT adalah fungsi aktivasi yang sangat populer. Meskipun perilakunya sederhana, ULT masih memungkinkan jaringan neural untuk mempelajari hubungan nonlinear antara fitur dan label.

jaringan saraf berulang

#seq

Jaringan neural yang sengaja dijalankan beberapa kali, yang mana bagian dari setiap proses dimasukkan ke proses berikutnya. Secara khusus, lapisan tersembunyi dari proses sebelumnya memberikan bagian dari input ke lapisan tersembunyi yang sama pada proses berikutnya. Jaringan neural berulang sangat berguna untuk mengevaluasi urutan, sehingga lapisan tersembunyi dapat belajar dari pengoperasian jaringan neural sebelumnya pada bagian awal urutan tersebut.

Misalnya, gambar berikut menunjukkan jaringan neural berulang yang berjalan empat kali. Perhatikan bahwa nilai yang dipelajari di lapisan tersembunyi dari proses pertama menjadi bagian dari input untuk lapisan tersembunyi yang sama pada proses kedua. Demikian pula, nilai yang dipelajari dalam lapisan tersembunyi pada proses kedua menjadi bagian dari input untuk lapisan tersembunyi yang sama pada proses ketiga. Dengan cara ini, jaringan neural berulang secara bertahap melatih dan memprediksi makna seluruh urutan, bukan hanya arti setiap kata.

RNN yang berjalan empat kali untuk memproses empat kata input.

model regresi

#fundamentals

Secara informal, model yang menghasilkan prediksi numerik. (Sebaliknya, model klasifikasi menghasilkan prediksi class.) Misalnya, yang berikut adalah model regresi:

  • Model yang memprediksi nilai rumah tertentu, seperti 423.000 Euro.
  • Model yang memprediksi harapan hidup pohon tertentu, seperti 23,2 tahun.
  • Model yang memprediksi jumlah hujan yang akan turun di suatu kota selama enam jam ke depan, misalnya 0,18 inci.

Dua jenis model regresi umum adalah:

  • Regresi linear, yang menemukan garis yang paling sesuai dengan nilai label dengan fitur.
  • Regresi logistik, yang menghasilkan probabilitas antara 0,0 dan 1,0 yang biasanya dipetakan sistem ke prediksi class.

Tidak semua model yang menghasilkan prediksi numerik merupakan model regresi. Dalam beberapa kasus, prediksi numerik sebenarnya hanyalah model klasifikasi yang memiliki nama class numerik. Misalnya, model yang memprediksi kode pos numerik adalah model klasifikasi, bukan model regresi.

regularisasi

#fundamentals

Mekanisme apa pun yang mengurangi overfitting. Jenis regularisasi yang populer meliputi:

Regularisasi juga dapat didefinisikan sebagai penalti pada kompleksitas model.

derajat regularisasi

#fundamentals

Angka yang menentukan tingkat kepentingan relatif regularisasi selama pelatihan. Menaikkan tingkat regularisasi akan mengurangi overfitting, tetapi dapat mengurangi kemampuan prediktif model. Sebaliknya, mengurangi atau menghilangkan derajat regularisasi akan meningkatkan overfitting.

Reinforcement Learning (RL)

#rl

Sekumpulan algoritma yang mempelajari kebijakan optimal, yang tujuannya adalah memaksimalkan pengembalian saat berinteraksi dengan lingkungan. Misalnya, reward utama dari sebagian besar game adalah kemenangan. Sistem pembelajaran reinforcement dapat menjadi ahli dalam bermain game kompleks dengan mengevaluasi urutan gerakan game sebelumnya yang pada akhirnya menghasilkan kemenangan dan urutan yang pada akhirnya menyebabkan kekalahan.

Pembelajaran Penguatan dari Masukan Manusia (RLHF)

#AI generatif
#rl

Menggunakan masukan dari penilai manusia untuk meningkatkan kualitas respons model. Sebagai contoh, mekanisme RLHF dapat meminta pengguna untuk menilai kualitas respons model dengan emoji 👍 atau 📰. Selanjutnya, sistem dapat menyesuaikan responsnya berdasarkan umpan balik tersebut.

ReLU

#fundamentals

Singkatan dari Rectified Linear Unit.

buffer replay

#rl

Dalam algoritma yang menyerupai DQN, memori yang digunakan oleh agen untuk menyimpan transisi status untuk digunakan dalam replay pengalaman.

replika

Salinan set pelatihan atau model, biasanya di komputer lain. Misalnya, sistem dapat menggunakan strategi berikut untuk menerapkan paralelisme data:

  1. Menempatkan replika dari model yang ada di beberapa mesin.
  2. Kirim subset set pelatihan yang berbeda ke setiap replika.
  3. Gabungkan pembaruan parameter.

bias pelaporan

#fairness

Fakta bahwa frekuensi orang menulis tentang tindakan, hasil, atau properti bukanlah cerminan dari frekuensi mereka di dunia nyata atau sejauh mana properti merupakan karakteristik dari kelas individu. Bias pelaporan dapat memengaruhi komposisi data yang dipelajari oleh sistem machine learning.

Misalnya, dalam buku, kata tertawa lebih umum daripada bernapas. Model machine learning yang memperkirakan frekuensi relatif tertawa dan bernapas dari korpus buku mungkin akan menentukan bahwa tertawa lebih umum daripada bernapas.

vektor yang sama

Proses pemetaan data ke fitur yang berguna.

pemeringkatan ulang

#recsystems

Tahap terakhir dari sistem rekomendasi, yang mana item yang diberi skor dapat dinilai ulang sesuai dengan beberapa algoritme (biasanya, non-ML) lainnya. Pemeringkatan ulang mengevaluasi daftar item yang dihasilkan oleh fase penskoran, dengan mengambil tindakan seperti:

  • Menghapus item yang telah dibeli pengguna.
  • Meningkatkan skor item yang lebih aktual.

pengambilan data generasi (RAG)

#fundamentals

Teknik untuk meningkatkan kualitas output model bahasa besar (LLM) dengan mendasarkannya pada sumber pengetahuan yang diambil setelah model dilatih. RAG meningkatkan akurasi respons LLM dengan menyediakan akses ke informasi yang diambil dari dokumen atau pusat informasi tepercaya kepada LLM yang telah dilatih.

Motivasi umum untuk menggunakan penelusuran yang diperluas meliputi:

  • Meningkatkan akurasi faktual respons yang dihasilkan model.
  • Memberi model akses ke pengetahuan yang tidak digunakan untuk melatih model.
  • Mengubah pengetahuan yang digunakan model.
  • Mengaktifkan model untuk mengutip sumber.

Misalnya, anggaplah aplikasi kimia menggunakan PaLM API untuk membuat ringkasan yang terkait dengan kueri pengguna. Saat backend aplikasi menerima kueri, backend akan:

  1. Menelusuri ("mengambil") data yang relevan dengan kueri pengguna.
  2. Menambahkan ("penambahan") data kimia yang relevan ke kueri pengguna.
  3. Meminta LLM membuat ringkasan berdasarkan data yang ditambahkan.

return

#rl

Dalam reinforcement learning, dengan mempertimbangkan kebijakan dan status tertentu, hasilnya adalah jumlah dari semua reward yang diharapkan akan diterima oleh agen saat mengikuti kebijakan dari status hingga akhir episode. Agen memperhitungkan sifat tertunda reward yang diharapkan dengan memberikan diskon reward sesuai dengan transisi status yang diperlukan untuk mendapatkan reward.

Oleh karena itu, jika faktor diskon adalah \(\gamma\), dan \(r_0, \ldots, r_{N}\) menunjukkan reward hingga akhir episode, penghitungan pengembalian adalah sebagai berikut:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

bonus

#rl

Dalam reinforcement learning, hasil numerik dari pengambilan tindakan dalam status, seperti yang ditentukan oleh lingkungan.

regularisasi batas

Sinonim dari regularisasi L2. Istilah regularisasi batas lebih sering digunakan dalam konteks statistika murni, sedangkan regularisasi L2 lebih sering digunakan dalam machine learning.

RNN

#seq

Singkatan dari recurrent neural network.

Kurva ROC (karakteristik operasi penerima)

#fundamentals

Grafik rasio positif benar versus rasio positif palsu untuk nilai minimum klasifikasi yang berbeda dalam klasifikasi biner.

Bentuk kurva KOP menunjukkan kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Misalkan, model klasifikasi biner secara sempurna memisahkan semua kelas negatif dari semua kelas positif:

Garis bilangan dengan 8 contoh positif di sebelah kanan dan 7 contoh negatif di sebelah kiri.

Kurva KOP untuk model sebelumnya terlihat seperti berikut:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva memiliki bentuk L terbalik. Kurva dimulai pada (0.0,0.0) dan lurus ke atas ke (0.0,1.0). Kemudian, kurvanya
          berubah dari (0.0,1.0) ke (1.0,1.0).

Sebaliknya, ilustrasi berikut menampilkan grafik nilai regresi logistik mentah untuk model buruk yang tidak dapat memisahkan kelas negatif dari kelas positif sama sekali:

Baris angka dengan contoh positif dan class negatif
          bercampur sepenuhnya.

Kurva KOP untuk model ini terlihat seperti berikut:

Kurva KOP, yang sebenarnya merupakan garis lurus dari (0.0,0.0) hingga (1.0,1.0).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan kelas positif dan negatif sampai tingkat tertentu, tetapi biasanya tidak secara sempurna. Jadi, kurva KROC yang khas berada di antara dua ekstrem:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva KOP memperkirakan busur goyang yang melintasi titik kompas dari Barat ke Utara.

Titik pada kurva ROC yang terdekat dengan (0.0,1.0) secara teoritis mengidentifikasi batas klasifikasi ideal. Namun, beberapa masalah dunia nyata lainnya mempengaruhi pemilihan batas klasifikasi yang ideal. Misalnya, mungkin negatif palsu menyebabkan kerugian yang jauh lebih besar daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva ROC menjadi satu nilai floating point.

perintah peran

#language
#AI generatif

Bagian opsional dari perintah yang mengidentifikasi target audiens untuk respons model AI generatif. Tanpa dialog peran, model bahasa besar memberikan jawaban yang mungkin berguna atau tidak berguna bagi orang yang mengajukan pertanyaan. Dengan perintah peran, model bahasa besar dapat menjawab dengan cara yang lebih tepat dan lebih membantu untuk target audiens tertentu. Misalnya, bagian perintah peran dari dialog berikut dicetak tebal:

  • Rangkum artikel ini untuk mendapatkan gelar PhD di bidang ekonomi.
  • Menjelaskan cara kerja pasang surut untuk anak berusia sepuluh tahun.
  • Menjelaskan krisis keuangan 2008. Bicaralah seperti yang biasa Anda lakukan pada anak kecil, atau golden retriever.

root

#df

Node awal (kondisi pertama) dalam hierarki keputusan. Berdasarkan konvensi, diagram menempatkan root di bagian atas pohon keputusan. Contoh:

Pohon keputusan dengan dua kondisi dan tiga daun. Kondisi
          awal (x > 2) adalah root.

direktori root

#TensorFlow

Direktori yang Anda tentukan untuk menghosting subdirektori dari checkpoint TensorFlow dan file peristiwa dari beberapa model.

Akar Rataan Kuadrat Galat (RMSE)

#fundamentals

Akar kuadrat dari Rataan Kuadrat Galat.

invariansi rotasi

#image

Dalam masalah klasifikasi gambar, kemampuan algoritma agar berhasil mengklasifikasikan gambar meskipun orientasi gambar berubah. Misalnya, algoritme masih dapat mengidentifikasi raket tenis apakah mengarah ke atas, ke samping, atau ke bawah. Perhatikan bahwa invariansi rotasional tidak selalu diinginkan; misalnya, 9 terbalik tidak boleh diklasifikasikan sebagai 9.

Lihat juga invariansi translasi dan invariansi ukuran.

R-persegi

Metrik regresi yang menunjukkan seberapa besar variasi dalam label yang disebabkan oleh masing-masing fitur atau kumpulan fitur. R-kuadrat adalah nilai antara 0 dan 1, yang dapat Anda interpretasikan sebagai berikut:

  • R-kuadrat 0 berarti tidak ada variasi label yang disebabkan oleh kumpulan fitur.
  • R-kuadrat 1 berarti bahwa semua variasi label disebabkan oleh kumpulan fitur.
  • R-kuadrat antara 0 dan 1 menunjukkan sejauh mana variasi label dapat diprediksi dari fitur atau set fitur tertentu. Misalnya, R-kuadrat 0,10 berarti bahwa 10 persen varians dalam label adalah karena set fitur, R-kuadrat 0,20 berarti 20 persen adalah karena set fitur, dan seterusnya.

R-square adalah kuadrat dari koefisien korelasi Pearson antara nilai yang diprediksi oleh model dan kebenaran dasar.

S

bias sampling

#fairness

Lihat bias seleksi.

pengambilan sampel dengan penggantian

#df

Metode untuk memilih item dari sekumpulan item kandidat, yang mana item yang sama dapat dipilih beberapa kali. Frasa "dengan penggantian" berarti bahwa setelah setiap pilihan, item yang dipilih akan ditampilkan ke kumpulan item kandidat. Metode terbalik, pengambilan sampel tanpa penggantian, berarti bahwa item kandidat hanya dapat dipilih sekali.

Misalnya, perhatikan kumpulan buah berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Misalkan sistem memilih fig secara acak sebagai item pertama. Jika menggunakan pengambilan sampel dengan penggantian, sistem akan memilih item kedua dari kumpulan berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ya, itu sama dengan sebelumnya, sehingga sistem berpotensi memilih fig lagi.

Jika menggunakan pengambilan sampel tanpa penggantian, setelah diambil, sampel tidak dapat dipilih lagi. Misalnya, jika sistem memilih fig secara acak sebagai sampel pertama, fig tidak dapat dipilih lagi. Oleh karena itu, sistem memilih sampel kedua dari kumpulan (dikurangi) berikut:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Format yang direkomendasikan untuk menyimpan dan memulihkan model TensorFlow. SaveModel adalah format serialisasi yang dapat dipulihkan dengan bahasa netral, yang memungkinkan sistem dan alat dengan tingkat lebih tinggi untuk menghasilkan, menggunakan, dan mengubah model TensorFlow.

Untuk mengetahui detail selengkapnya, lihat bab Menyimpan dan Memulihkan di Panduan Pemrogram TensorFlow.

Hemat

#TensorFlow

Objek TensorFlow yang bertanggung jawab untuk menyimpan checkpoint model.

skalar

Angka tunggal atau string tunggal yang dapat direpresentasikan sebagai tensor peringkat 0. Misalnya, baris kode berikut masing-masing membuat satu skalar di TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

penskalaan

Setiap transformasi atau teknik matematis yang menggeser rentang label dan/atau nilai fitur. Beberapa bentuk penskalaan sangat berguna untuk transformasi seperti normalisasi.

Bentuk umum penskalaan yang berguna dalam Machine Learning meliputi:

  • penskalaan linear, yang biasanya menggunakan kombinasi pengurangan dan pembagian untuk mengganti nilai asli dengan angka antara -1 dan +1, atau antara 0 dan 1.
  • penskalaan logaritmik, yang menggantikan nilai asli dengan logaritmanya.
  • Normalisasi skor Z, yang mengganti nilai asli dengan nilai floating point yang mewakili jumlah deviasi standar dari rata-rata fitur tersebut.

scikit-learn

Platform machine learning open source yang populer. Lihat scikit-learn.org.

penskoran

#recsystems

Bagian dari sistem rekomendasi yang memberikan nilai atau peringkat untuk setiap item yang dihasilkan oleh fase pemilihan kandidat.

bias seleksi

#fairness

Error dalam kesimpulan yang diambil dari sampel data karena proses seleksi yang menghasilkan perbedaan sistematis antara sampel yang diamati dalam data dan yang tidak diamati. Berikut ini bentuk-bentuk bias seleksi:

  • bias cakupan: Populasi yang direpresentasikan dalam set data tidak sesuai dengan populasi yang diprediksi oleh model machine learning.
  • bias sampling: Data tidak dikumpulkan secara acak dari kelompok target.
  • bias non-respons (disebut juga bias partisipasi): Pengguna dari kelompok tertentu memilih untuk tidak mengikuti survei dengan rasio yang berbeda dibandingkan dengan pengguna dari kelompok lain.

Misalnya, Anda membuat model machine learning yang memprediksi tingkat kepuasan orang terhadap film. Untuk mengumpulkan data pelatihan, Anda membagikan survei kepada semua orang di baris depan teater yang menayangkan film. Secara langsung, hal ini mungkin terdengar seperti cara yang wajar untuk mengumpulkan set data; namun, bentuk pengumpulan data ini dapat memperkenalkan bentuk-bentuk bias seleksi berikut:

  • bias cakupan: Dengan mengambil sampel dari populasi yang memilih untuk menonton film, prediksi model Anda mungkin tidak akan digeneralisasi ke orang-orang yang belum mengungkapkan tingkat minat tersebut terhadap film tersebut.
  • bias sampling: Alih-alih mengambil sampel secara acak dari populasi yang diinginkan (semua orang di film), Anda hanya mengambil sampel orang-orang di baris depan. Ada kemungkinan bahwa orang-orang yang duduk di baris depan lebih tertarik dengan film daripada orang-orang di baris lain.
  • bias non-respons: Secara umum, orang dengan opini yang kuat cenderung merespons survei opsional lebih sering daripada orang dengan pendapat ringan. Karena survei film bersifat opsional, responsnya lebih mungkin membentuk distribusi bimodal daripada distribusi normal (berbentuk lonceng).

self-attention (juga disebut lapisan self-attention)

#language

Lapisan jaringan neural yang mengubah urutan embeddings (misalnya, embedding token) menjadi urutan embeddings lain. Setiap embedding dalam urutan output dibuat dengan mengintegrasikan informasi dari elemen urutan input melalui mekanisme attention.

Bagian self dari self-attention mengacu pada urutan yang memperhatikan diri itu sendiri, bukan pada beberapa konteks lain. Self-attention adalah salah satu elemen penyusun utama Transformer dan menggunakan terminologi pencarian kamus, seperti "query", "key", dan "value".

Lapisan self-attention dimulai dengan urutan representasi input, satu untuk setiap kata. Representasi input untuk sebuah kata dapat berupa embedding sederhana. Untuk setiap kata dalam urutan input, jaringan akan menilai relevansi kata ke setiap elemen dalam seluruh urutan kata. Skor relevansi menentukan seberapa besar representasi akhir kata menggabungkan representasi kata lain.

Misalnya, pertimbangkan kalimat berikut:

Hewan itu tidak menyeberang jalan karena terlalu lelah.

Ilustrasi berikut (dari Transformer: Arsitektur Jaringan Neural Baru untuk Pemahaman Bahasa) menunjukkan pola atensi lapisan self-attention untuk sebutan it, dengan kegelapan setiap baris menunjukkan seberapa banyak kontribusi setiap kata terhadap representasi:

Kalimat berikut muncul dua kali: Hewan itu tidak menyeberang
          jalan karena terlalu lelah. Garis menghubungkan sebutan dalam
          satu kalimat hingga lima token (The, animal, street, it, dan
          titik) di kalimat lainnya.  Garis antara sebutan it dan kata hewan paling kuat.

Lapisan self-attention menyoroti kata-kata yang relevan dengan "hal itu". Dalam hal ini, lapisan atensi telah belajar untuk menandai kata-kata yang mungkin merujuk, sehingga menetapkan bobot tertinggi untuk animal.

Untuk urutan n token, self-attention mengubah urutan embedding n waktu yang berbeda, sekali pada setiap posisi dalam urutan tersebut.

Lihat juga attention dan multi-head self-attention.

pembelajaran mandiri

Serangkaian teknik untuk mengonversi masalah unsupervised machine learning menjadi masalah supervised machine learning dengan membuat label pengganti dari contoh tak berlabel.

Beberapa model berbasis Transformer seperti BERT menggunakan pembelajaran mandiri.

Pelatihan yang diawasi mandiri adalah pendekatan semi-supervised learning.

latihan mandiri

Varian self-supervised learning yang sangat berguna ketika semua kondisi berikut terpenuhi:

Pelatihan mandiri berfungsi dengan melakukan iterasi selama dua langkah berikut sampai peningkatan kualitas model berhenti:

  1. Gunakan supervised machine learning untuk melatih model pada contoh berlabel.
  2. Gunakan model yang dibuat pada Langkah 1 untuk menghasilkan prediksi (label) pada contoh tak berlabel, pindahkan model yang memiliki keyakinan tinggi ke dalam contoh berlabel dengan label yang diprediksi.

Perhatikan bahwa setiap iterasi Langkah 2 menambahkan lebih banyak contoh berlabel untuk Langkah 1 yang akan dilatih.

semi-supervised learning

Melatih model pada data yang mana beberapa contoh pelatihan memiliki label, tetapi yang lainnya tidak. Salah satu teknik untuk semi-supervised learning adalah menyimpulkan label untuk contoh tak berlabel, lalu melatih label yang disimpulkan untuk membuat model baru. Semi-supervised learning dapat berguna jika label mahal untuk diperoleh tetapi contoh tidak berlabel banyak.

Pelatihan mandiri adalah salah satu teknik untuk semi-supervised learning.

atribut sensitif

#fairness
Atribut manusia yang mungkin diberi pertimbangan khusus karena alasan hukum, etika, sosial, atau pribadi.

analisis sentimen

#language

Menggunakan algoritma statistik atau machine learning untuk menentukan sikap keseluruhan kelompok—positif atau negatif—terhadap layanan, produk, organisasi, atau topik. Misalnya, dengan menggunakan natural language understanding, algoritme dapat melakukan analisis sentimen terhadap masukan tekstual dari mata kuliah untuk menentukan sejauh mana mahasiswa umumnya menyukai atau tidak menyukai mata kuliah tersebut.

model barisan

#seq

Model yang inputnya memiliki ketergantungan berurutan. Misalnya, memprediksi video berikutnya yang akan ditonton berdasarkan urutan video yang ditonton sebelumnya.

tugas urutan-ke-urutan

#language

Tugas yang mengonversi urutan input token menjadi urutan output token. Misalnya, dua jenis tugas urutan ke urutan yang populer adalah:

  • Penerjemah:
    • Contoh urutan input: "Aku cinta kamu".
    • Contoh urutan output: "Je t'aime".
  • Menjawab pertanyaan:
    • Contoh urutan input: "Apakah saya perlu mobil di New York City?"
    • Contoh urutan output: "Tidak. Simpan mobil Anda di rumah".

porsi

Proses pembuatan model terlatih yang tersedia untuk memberikan prediksi melalui inferensi online atau inferensi offline.

bentuk (Tensor)

Jumlah elemen di setiap dimensi tensor. Bentuk direpresentasikan sebagai daftar bilangan bulat. Misalnya, tensor dua dimensi berikut memiliki bentuk [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow menggunakan format baris utama (gaya C) untuk mewakili urutan dimensi, itulah sebabnya bentuk di TensorFlow adalah [3,4], bukan [4,3]. Dengan kata lain, dalam TensorFlow Tensor dua dimensi, bentuknya adalah [jumlah baris, jumlah kolom].

sharding

#TensorFlow
#GoogleCloud

Pembagian logis dari set pelatihan atau model. Biasanya, beberapa proses membuat shard dengan membagi contoh atau parameter menjadi (biasanya) potongan-potongan yang berukuran sama. Setiap shard kemudian ditetapkan ke mesin yang berbeda.

Sharding model disebut paralelisme model; sharding data disebut paralelisme data.

penyusutan

#df

Hyperparameter dalam peningkatan gradien yang mengontrol overfitting. Penyusutan dalam peningkatan gradien serupa dengan kecepatan pembelajaran dalam penurunan gradien. Penyusutan adalah nilai desimal antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah akan mengurangi overfitting lebih dari nilai penyusutan yang lebih besar.

fungsi sigmoid

#fundamentals

Fungsi matematika yang "menyaring" nilai input ke dalam rentang yang dibatasi, biasanya 0 hingga 1 atau -1 hingga +1. Artinya, Anda dapat meneruskan angka berapa pun (dua, satu juta, miliar negatif, berapa pun) ke sigmoid dan outputnya akan tetap dalam rentang yang dibatasi. Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain - tak terhingga hingga +positif, sedangkan nilai y menjangkau rentang hampir 0 hingga hampir 1. Ketika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi pada 0,0,5 dan secara bertahap menurun seiring meningkatnya nilai absolut x.

Fungsi sigmoid memiliki beberapa kegunaan dalam machine learning, termasuk:

ukuran kesamaan

#clustering

Dalam algoritma pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip dua contoh yang diberikan.

satu program / beberapa data (SPMD)

Teknik paralelisme dengan komputasi yang sama dijalankan pada data input yang berbeda secara paralel di perangkat yang berbeda. Tujuan SPMD adalah untuk mendapatkan hasil dengan lebih cepat. Ini adalah gaya yang paling umum dari pemrograman paralel.

invariansi ukuran

#image

Dalam masalah klasifikasi gambar, kemampuan algoritme agar berhasil mengklasifikasikan gambar meskipun ukuran gambar berubah. Misalnya, algoritma masih dapat mengidentifikasi kucing apakah itu menggunakan 2 juta piksel atau 200 ribu piksel. Perhatikan bahwa algoritma klasifikasi gambar terbaik sekalipun masih memiliki batas praktis terkait invariansi ukuran. Misalnya, algoritma (atau manusia) tidak mungkin mengklasifikasikan dengan benar gambar kucing yang hanya menggunakan 20 piksel.

Lihat juga invariansi translasi dan invariansi rotasional.

membuat sketsa

#clustering

Dalam unsupervised machine learning, kategori algoritma yang melakukan analisis kesamaan awal pada contoh. Algoritma Sketching menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi titik-titik yang mungkin mirip, lalu mengelompokkannya ke dalam bucket.

Sketching mengurangi komputasi yang diperlukan untuk penghitungan kesamaan pada set data besar. Alih-alih menghitung kesamaan untuk setiap pasangan contoh dalam set data, kami menghitung kesamaan hanya untuk setiap pasangan titik dalam setiap bucket.

lewati-gram

#language

n-gram yang dapat menghilangkan (atau "melewati") kata-kata dari konteks aslinya, yang berarti bahwa kata-kata N mungkin awalnya tidak berdekatan. Tepatnya, "k-skip-n-gram" adalah n-gram yang mungkin telah dilewati hingga k kata.

Misalnya, "rubah cokelat cepat" memiliki kemungkinan 2 gram berikut:

  • "yang cepat"
  • "cokelat cepat"
  • "rubah cokelat"

"1-lewat-2-gram" adalah sepasang kata yang memiliki paling banyak 1 kata di antara mereka. Oleh karena itu, "si rubah cokelat cepat" memiliki 1 gram 2 gram berikut:

  • "cokelat"
  • "rubah cepat"

Selain itu, semua 2 gram juga merupakan 1-lewat-2-gram, karena kurang dari satu kata dapat dilewati.

Lewati-gram berguna untuk lebih memahami konteks di sekitar sebuah kata. Dalam contoh, "fox" secara langsung dikaitkan dengan "cepat" dalam kumpulan 1-lewat-2-gram, tetapi tidak dalam kumpulan 2-gram.

Lewati-gram membantu melatih model penyematan kata.

softmax

#fundamentals

Fungsi yang menentukan probabilitas untuk setiap kemungkinan class dalam model klasifikasi kelas jamak. Jumlah probabilitas bertambah hingga tepat 1,0. Misalnya, tabel berikut menunjukkan cara softmax mendistribusikan berbagai probabilitas:

Gambar adalah... Probability
anjing 0,85
cat 0,13
kuda 0,02

Softmax juga disebut full softmax.

Berbeda dengan sampling kandidat.

soft prompt tuning

#language
#AI generatif

Teknik untuk menyesuaikan model bahasa besar untuk tugas tertentu, tanpa penyesuaian resource yang intensif. Alih-alih melatih ulang semua bobot dalam model, penyesuaian soft prompt akan otomatis menyesuaikan perintah untuk mencapai sasaran yang sama.

Mengingat perintah tekstual, soft prompt tuning biasanya menambahkan embedding token tambahan ke prompt dan menggunakan propagasi mundur untuk mengoptimalkan input.

Prompt "hard" berisi token sebenarnya, bukan embedding token.

fitur renggang

#language
#fundamentals

Fitur yang sebagian besar nilainya nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 bersifat jarang. Sebaliknya, fitur padat memiliki nilai yang utamanya bukan nol atau kosong.

Dalam machine learning, fitur yang jumlahnya mengejutkan adalah fitur yang jarang. Fitur kategoris biasanya merupakan fitur renggang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan kemungkinan video dalam pustaka video, satu contoh mungkin hanya mengidentifikasi "Casablanca".

Dalam model, Anda biasanya merepresentasikan fitur renggang dengan encoding one-hot. Jika encoding one-hot berukuran besar, Anda dapat menempatkan lapisan embedding di atas enkode one-hot untuk efisiensi yang lebih besar.

representasi renggang

#language
#fundamentals

Hanya menyimpan posisi elemen bukan nol dalam fitur renggang.

Misalnya, fitur kategoris bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Asumsikan lebih lanjut bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk mewakili spesies pohon pada setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0 (untuk mewakili 35 spesies pohon yang tidak dalam contoh tersebut). Jadi, representasi one-hot maple mungkin terlihat seperti berikut:

Vektor dengan posisi 0 sampai 23 memiliki nilai 0, posisi 24 menyimpan nilai 1, dan posisi 25 sampai 35 menyimpan nilai 0.

Atau, representasi renggang hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada pada posisi 24, representasi renggang maple akan menjadi:

24

Perhatikan bahwa representasi renggang jauh lebih ringkas daripada representasi one-hot.

vektor renggang

#fundamentals

Vektor yang sebagian besar nilainya adalah nol. Lihat juga fitur renggang dan sparsitas.

ketersebaran

Jumlah elemen yang ditetapkan ke nol (atau null) dalam vektor atau matriks dibagi dengan jumlah total entri dalam vektor atau matriks tersebut. Misalnya, pertimbangkan matriks 100 elemen yang mana 98 sel berisi nol. Perhitungan ketersebaran adalah sebagai berikut:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Ketersebaran fitur mengacu pada ketersebaran vektor fitur; ketersebaran model mengacu pada ketersebaran dari bobot model.

penggabungan spasial

#image

Lihat penggabungan.

bagian

#df

Dalam hierarki keputusan, nama lain untuk kondisi.

pemisah

#df

Saat melatih pohon keputusan, rutinitas (dan algoritma) bertanggung jawab untuk menemukan kondisi terbaik di setiap node.

SPMD

Singkatan dari single program / multiple data.

kerugian engsel kuadrat

Kuadrat dari kerugian engsel. Kerugian engsel kuadrat menghukum pencilan lebih keras daripada kerugian engsel reguler.

kerugian kuadrat

#fundamentals

Sinonim dari L2 loss.

pelatihan bertahap

#language

Taktik pelatihan model dalam urutan tahapan terpisah. Tujuannya bisa untuk mempercepat proses pelatihan, atau untuk mencapai kualitas model yang lebih baik.

Ilustrasi tentang pendekatan {i>progressive stacking<i} (susunan progresif) ditampilkan di bawah ini:

  • Tahap 1 berisi 3 lapisan tersembunyi, tahap 2 berisi 6 lapisan tersembunyi, dan tahap 3 berisi 12 lapisan tersembunyi.
  • Tahap 2 memulai pelatihan dengan bobot yang dipelajari di 3 lapisan tersembunyi pada Tahap 1. Tahap 3 memulai pelatihan dengan bobot yang dipelajari dalam 6 lapisan tersembunyi pada Tahap 2.

Tiga tahap, yang diberi label Tahap 1, Tahap 2, dan Tahap 3.
          Setiap tahap berisi jumlah lapisan yang berbeda: Tahap 1 berisi
          3 lapisan, Tahap 2 berisi 6 lapisan, dan Tahap 3 berisi 12 lapisan.
          Tiga lapisan dari Tahap 1 menjadi 3 lapisan pertama pada Tahap 2.
          Demikian juga, 6 lapisan dari Tahap 2 menjadi 6 lapisan pertama
          Tahap 3.

Lihat juga pipeline.

state

#rl

Dalam reinforcement learning, parameter value yang menjelaskan konfigurasi lingkungan saat ini, yang digunakan agen untuk memilih tindakan.

fungsi nilai state-action

#rl

Sinonim dari fungsi Q.

static

#fundamentals

Sesuatu yang dilakukan sekali, bukan berkelanjutan. Istilah statis dan offline adalah sinonim. Berikut adalah penggunaan umum statis dan offline dalam machine learning:

  • model statis (atau model offline) adalah model yang dilatih satu kali, lalu digunakan untuk sementara waktu.
  • pelatihan statis (atau pelatihan offline) adalah proses melatih model statis.
  • inferensi statis (atau inferensi offline) adalah proses di mana model menghasilkan batch prediksi pada satu waktu.

Berbeda dengan dinamis.

inferensi statis

#fundamentals

Sinonim dari inferensi offline.

stasioneritas

#fundamentals

Fitur yang nilainya tidak berubah pada satu atau beberapa dimensi, biasanya waktu. Misalnya, fitur yang nilainya terlihat sama pada tahun 2021 dan 2023 menunjukkan stasioneritas.

Di dunia nyata, sangat sedikit fitur yang menunjukkan stasioneritas. Bahkan fitur yang identik dengan stabilitas (seperti permukaan laut) berubah dari waktu ke waktu.

Berbeda dengan nonstasioneritas.

langkah

Maju dan mundur dari satu batch.

Lihat propagasi mundur untuk informasi selengkapnya tentang penerusan maju dan mundur.

ukuran langkah

Sinonim dari kecepatan pembelajaran.

penurunan gradien stokastik (SGD)

#fundamentals

Algoritma penurunan gradien yang mana ukuran tumpukan adalah satu. Dengan kata lain, PGS melatih satu contoh yang dipilih secara seragam dan acak dari set pelatihan.

langkah

#image

Dalam operasi konvolusional atau penggabungan, delta di setiap dimensi dari rangkaian irisan input berikutnya. Misalnya, animasi berikut menunjukkan jangka (1,1) selama operasi konvolusional. Oleh karena itu, irisan input berikutnya memulai satu posisi di sebelah kanan irisan input sebelumnya. Saat operasi mencapai tepi kanan, irisan berikutnya sepenuhnya ke kiri tetapi satu posisi di bawah.

Matriks input 5x5 dan filter konvolusional 3x3. Karena jangkanya adalah (1,1), filter konvolusional akan diterapkan 9 kali. Irisan konvolusional pertama mengevaluasi submatriks 3x3 di kiri atas dari matriks input. Irisan kedua mengevaluasi submatriks 3x3 bagian tengah atas. Irisan konvolusional ketiga mengevaluasi submatriks 3x3 kanan atas.  Slice keempat mengevaluasi submatriks 3x3 di kiri tengah.
     Slice kelima mengevaluasi submatriks 3x3 tengah. Slice keenam mengevaluasi submatriks 3x3 di kanan tengah. Slice ketujuh mengevaluasi submatriks 3x3 di kiri bawah.  Irisan kedelapan mengevaluasi submatriks 3x3 bagian bawah-tengah. Slice kesembilan mengevaluasi submatriks 3x3
     kanan bawah.

Contoh sebelumnya menunjukkan jangka dua dimensi. Jika matriks masukan memiliki tiga dimensi, jangkanya juga akan memiliki tiga dimensi.

minimalisasi risiko struktural (SRM)

Algoritma yang menyeimbangkan dua sasaran:

  • Kebutuhan untuk membangun model yang paling prediktif (misalnya, kerugian terendah).
  • Kebutuhan untuk menjaga model sesederhana mungkin (misalnya, regularisasi yang kuat).

Misalnya, fungsi yang meminimalkan kerugian+regularisasi pada set pelatihan adalah algoritma minimalisasi risiko struktural.

Berbeda dengan minimalisasi risiko empiris.

subsampling

#image

Lihat penggabungan.

token subkata

#language

Dalam model bahasa, token yang merupakan substring kata, yang dapat berupa seluruh kata.

Misalnya, kata seperti "itemize" dapat dipecah menjadi bagian-bagian "item" (kata root) dan "ize" (akhiran), yang masing-masing diwakili oleh tokennya sendiri. Memisahkan kata-kata yang tidak umum menjadi beberapa bagian yang disebut subkata memungkinkan model bahasa beroperasi pada bagian konstituen yang lebih umum dari kata tersebut, seperti awalan dan akhiran.

Sebaliknya, kata-kata umum seperti "pergi" mungkin tidak dipisah dan mungkin diwakili oleh satu token.

ringkasan

#TensorFlow

Di TensorFlow, nilai atau kumpulan nilai yang dihitung pada langkah tertentu, biasanya digunakan untuk melacak metrik model selama pelatihan.

supervised machine learning

#fundamentals

Melatih model dari fitur dan label yang sesuai. Supervised machine learning dianalogikan dengan mempelajari subjek dengan mempelajari serangkaian pertanyaan dan jawaban yang sesuai. Setelah menguasai pemetaan antara pertanyaan dan jawaban, siswa kemudian dapat memberikan jawaban atas pertanyaan baru (yang tidak pernah dilihat) tentang topik yang sama.

Bandingkan dengan unsupervised machine learning.

fitur sintetis

#fundamentals

Fitur yang tidak ada di antara fitur input, tetapi disusun dari satu atau beberapa fitur input. Metode untuk membuat fitur sintetis mencakup hal berikut:

  • Bucketing fitur berkelanjutan ke dalam bin rentang.
  • Membuat persilangan fitur.
  • Mengalikan (atau membagi) satu nilai fitur dengan nilai fitur lain atau dengan nilai fitur itu sendiri. Misalnya, jika a dan b adalah fitur input, berikut adalah contoh fitur sintetis:
    • ab
    • a2
  • Menerapkan fungsi transendental pada sebuah nilai fitur. Misalnya, jika c adalah fitur input, berikut adalah contoh fitur sintetis:
    • sin(c)
    • ln(c)

Fitur yang dibuat dengan menormalisasi atau penskalaan saja tidak dianggap sebagai fitur sintetis.

T

T5

#language

Model pembelajaran teks ke teks yang diperkenalkan oleh Google AI pada tahun 2020. T5 adalah model encoder-decoder, yang didasarkan pada arsitektur Transformer, yang dilatih pada set data yang sangat besar. API ini efektif pada berbagai tugas natural language processing, seperti membuat teks, menerjemahkan bahasa, dan menjawab pertanyaan seperti percakapan.

T5 mendapatkan namanya dari lima T dalam "{i>Text-to-Text Transfer Transformer<i}."

T5X

#language

Framework machine learning open source yang dirancang untuk membangun dan melatih model natural language processing (NLP) skala besar. T5 diterapkan pada codebase T5X (yang di-build pada JAX dan Flax).

Q-learning tabel

#rl

Dalam reinforcement learning, terapkan Q-learning menggunakan tabel untuk menyimpan Q-functions untuk setiap kombinasi status dan tindakan.

target

Sinonim dari label.

jaringan target

#rl

Di dalam Deep Q-learning, jaringan neural yang merupakan perkiraan stabil dari jaringan neural utama, tempat jaringan neural utama mengimplementasikan Q-function atau kebijakan. Kemudian, Anda dapat melatih jaringan utama pada nilai Q yang diprediksi oleh jaringan target. Oleh karena itu, Anda mencegah feedback loop yang terjadi saat jaringan utama berlatih berdasarkan nilai Q yang diprediksi sendiri. Dengan menghindari masukan ini, stabilitas pelatihan akan meningkat.

tugas

Masalah yang dapat diselesaikan menggunakan teknik machine learning, seperti:

suhu

#language
#image
#AI generatif

hyperparameter yang mengontrol tingkat keacakan output model. Suhu yang lebih tinggi menghasilkan output yang lebih acak, sedangkan suhu yang lebih rendah menghasilkan output yang lebih sedikit acak.

Pemilihan suhu terbaik bergantung pada aplikasi tertentu dan properti pilihan dari output model. Misalnya, Anda mungkin akan menaikkan suhu saat membuat aplikasi yang menghasilkan output materi iklan. Sebaliknya, Anda mungkin akan menurunkan suhu saat membangun model yang mengklasifikasikan gambar atau teks untuk meningkatkan akurasi dan konsistensi model.

Suhu sering digunakan dengan softmax.

data temporal

Data yang dicatat pada waktu yang berbeda-beda. Misalnya, penjualan mantel musim dingin yang dicatat untuk setiap hari dalam setahun adalah data temporal.

Tensor

#TensorFlow

Struktur data utama dalam program TensorFlow. Tensor adalah struktur data N dimensi (dengan N dapat menjadi sangat besar), paling sering berupa skalar, vektor, atau matriks. Elemen Tensor dapat menyimpan nilai bilangan bulat, floating point, atau string.

TensorBoard

#TensorFlow

Dasbor yang menampilkan ringkasan yang disimpan selama satu atau beberapa program TensorFlow dijalankan.

TensorFlow

#TensorFlow

Platform machine learning berskala besar dan terdistribusi. Istilah ini juga mengacu pada lapisan API dasar di stack TensorFlow, yang mendukung komputasi umum pada grafik aliran data.

Meskipun TensorFlow terutama digunakan untuk machine learning, Anda juga dapat menggunakan TensorFlow untuk tugas non-ML yang memerlukan komputasi numerik menggunakan grafik aliran data.

Playground TensorFlow

#TensorFlow

Program yang memvisualisasikan pengaruh hyperparameter yang berbeda terhadap pelatihan model (terutama jaringan neural). Buka http://playground.tensorflow.org untuk melakukan eksperimen dengan TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Platform untuk men-deploy model terlatih dalam produksi.

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Application-specific integrated circuit (ASIC) yang mengoptimalkan performa workload machine learning. ASIC ini di-deploy sebagai beberapa chip TPU pada perangkat TPU.

Peringkat tensor

#TensorFlow

Lihat peringkat (Tensor).

bentuk tensor

#TensorFlow

Jumlah elemen yang dimiliki Tensor dalam berbagai dimensi. Misalnya, Tensor [5, 10] memiliki bentuk 5 dalam satu dimensi dan 10 dalam dimensi lainnya.

Ukuran tensor

#TensorFlow

Jumlah total skalar yang dimiliki Tensor. Misalnya, Tensor [5, 10] memiliki ukuran 50.

TensorStore

Library untuk membaca dan menulis array multi-dimensi besar secara efisien.

ketentuan penghentian

#rl

Dalam pembelajaran penguatan, kondisi yang menentukan kapan sebuah episode berakhir, seperti saat agen mencapai status tertentu atau melebihi batas jumlah transisi status. Misalnya, dalam tic-tac-toe (juga dikenal sebagai noughts dan crosses), episode berakhir saat pemain menandai tiga spasi berturut-turut atau saat semua spasi ditandai.

tes

#df

Dalam hierarki keputusan, nama lain untuk kondisi.

kerugian pengujian

#fundamentals

Metrik yang mewakili kerugian model terhadap set pengujian. Saat membuat model, Anda biasanya mencoba meminimalkan kerugian pengujian. Hal ini karena kekalahan pengujian yang rendah merupakan sinyal dengan kualitas yang lebih kuat daripada kerugian pelatihan yang rendah atau kehilangan validasi yang rendah.

Kesenjangan yang besar antara kekalahan pengujian dan kerugian pelatihan atau kerugian validasi terkadang menunjukkan bahwa Anda perlu meningkatkan tingkat regularisasi.

set pengujian

Subset set data yang dicadangkan untuk menguji model terlatih.

Secara tradisional, Anda membagi contoh dalam set data menjadi tiga subset berbeda berikut:

Setiap contoh dalam {i>dataset<i} seharusnya hanya dimiliki oleh salah satu {i>subset<i} sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set pengujian.

Set pelatihan dan set validasi terkait erat dengan pelatihan model. Karena set pengujian hanya dikaitkan secara tidak langsung dengan pelatihan, kekalahan pengujian adalah metrik yang kurang bias dan berkualitas lebih tinggi daripada kerugian pelatihan atau kekalahan validasi.

rentang teks

#language

Rentang indeks array yang terkait dengan subbagian tertentu dari string teks. Misalnya, kata good dalam string Python s="Be good now" akan menempati rentang teks dari 3 hingga 6.

tf.Example

#TensorFlow

Buffering protokol standar yang digunakan untuk mendeskripsikan data input untuk pelatihan atau inferensi model machine learning.

tf.keras

#TensorFlow

Implementasi Keras yang terintegrasi ke dalam TensorFlow.

ambang batas (untuk pohon keputusan)

#df

Dalam kondisi rata sumbu, nilai yang dibandingkan dengan fitur. Misalnya, 75 adalah nilai batas dalam kondisi berikut:

grade >= 75

analisis deret waktu

#clustering

Subbidang machine learning dan statistik yang menganalisis data sementara. Banyak jenis masalah machine learning memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda dapat menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin di masa mendatang per bulan berdasarkan data penjualan historis.

batas waktu

#seq

Satu sel "unrolled" dalam jaringan neural berulang. Misalnya, gambar berikut menunjukkan tiga langkah waktu (dilabeli dengan subskrip t-1, t, dan t+1):

Tiga langkah waktu dalam jaringan neural berulang. Output
          timestep pertama menjadi input untuk timestep kedua. Output
          dari timestep kedua menjadi input untuk timestep ketiga.

token

#language

Dalam model bahasa, satuan atom tempat model dilatih dan digunakan untuk membuat prediksi. Token biasanya berupa salah satu dari berikut:

  • sebuah kata—misalnya, frasa "dogs like cats" terdiri dari tiga token kata: "dogs", "like", dan "cats".
  • sebuah karakter—misalnya, frasa "bike fish" terdiri dari token sembilan karakter. (Perhatikan bahwa ruang kosong dihitung sebagai salah satu token.)
  • di mana satu kata bisa menjadi satu token atau beberapa token. Subkata terdiri dari kata dasar, awalan, atau akhiran. Misalnya, model bahasa yang menggunakan subkata sebagai token dapat melihat kata "dogs" sebagai dua token (kata root "dog" dan akhiran jamak "s"). Model bahasa yang sama mungkin menganggap satu kata "taller" sebagai dua subkata (kata root "tall" dan akhiran "er").

Dalam domain di luar model bahasa, token dapat mewakili jenis unit atom lainnya. Misalnya, dalam computer vision, token mungkin merupakan subset dari sebuah gambar.

Tower

Komponen deep neural network yang merupakan jaringan neural dalam. Dalam beberapa kasus, setiap menara membaca dari sumber data independen, dan menara tersebut tetap independen hingga output-nya digabungkan pada lapisan akhir. Dalam kasus lain, (misalnya, dalam stack/menara encoder dan decoder dari banyak Transformer), menara memiliki koneksi silang satu sama lain.

TPU

#TensorFlow
#GoogleCloud

Singkatan dari Tensor Processing Unit.

chip TPU

#TensorFlow
#GoogleCloud

Akselerator aljabar linear yang dapat diprogram dengan memori bandwidth tinggi pada chip yang dioptimalkan untuk workload machine learning. Beberapa chip TPU di-deploy di perangkat TPU.

Perangkat TPU

#TensorFlow
#GoogleCloud

Papan sirkuit cetak (PCB) dengan beberapa chip TPU, antarmuka jaringan bandwidth tinggi, dan hardware pendingin sistem.

Master TPU

#TensorFlow
#GoogleCloud

Proses koordinasi terpusat yang berjalan di mesin host yang mengirim dan menerima data, hasil, program, performa, dan informasi kesehatan sistem kepada pekerja TPU. Master TPU juga mengelola penyiapan dan penonaktifan perangkat TPU.

Node TPU

#TensorFlow
#GoogleCloud

Resource TPU di Google Cloud dengan jenis TPU tertentu. TPU node terhubung ke Jaringan VPC Anda dari jaringan VPC peer. Node TPU adalah resource yang ditentukan dalam Cloud TPU API.

Pod TPU

#TensorFlow
#GoogleCloud

Konfigurasi spesifik perangkat TPU di pusat data Google. Semua perangkat dalam Pod TPU terhubung satu sama lain melalui jaringan khusus berkecepatan tinggi. Pod TPU adalah konfigurasi perangkat TPU terbesar yang tersedia untuk versi TPU tertentu.

resource TPU

#TensorFlow
#GoogleCloud

Entitas TPU di Google Cloud yang Anda buat, kelola, atau gunakan. Misalnya, node TPU dan jenis TPU adalah resource TPU.

Slice TPU

#TensorFlow
#GoogleCloud

Slice TPU adalah bagian pecahan dari perangkat TPU dalam Pod TPU. Semua perangkat dalam slice TPU terhubung satu sama lain melalui jaringan khusus berkecepatan tinggi.

Jenis TPU

#TensorFlow
#GoogleCloud

Konfigurasi satu atau beberapa perangkat TPU dengan versi hardware TPU tertentu. Anda memilih jenis TPU saat membuat node TPU di Google Cloud. Misalnya, jenis TPU v2-8 adalah perangkat TPU v2 tunggal dengan 8 core. Jenis TPU v3-2048 memiliki 256 perangkat TPU v3 berjaringan dan total 2.048 core. Jenis TPU adalah resource yang ditentukan di Cloud TPU API.

pekerja TPU

#TensorFlow
#GoogleCloud

Proses yang berjalan pada mesin host dan menjalankan program machine learning di perangkat TPU.

training

#fundamentals

Proses penentuan parameter (bobot dan bias) ideal yang membentuk model. Selama pelatihan, sistem akan membaca contoh dan secara bertahap menyesuaikan parameter. Pelatihan menggunakan setiap contoh di mana saja mulai dari beberapa kali hingga miliaran kali.

kerugian pelatihan

#fundamentals

Metrik yang merepresentasikan kerugian model selama iterasi pelatihan tertentu. Misalnya, fungsi kerugian adalah Rata-rata Kuadrat Galat. Mungkin kerugian pelatihan (Rataan Persegi Error) untuk iterasi ke-10 adalah 2,2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1,9.

Kurva kerugian memetakan kerugian pelatihan versus jumlah iterasi. Kurva kerugian memberikan petunjuk berikut tentang pelatihan:

  • Kemiringan menurun menyiratkan bahwa model mengalami peningkatan.
  • Kemiringan naik menyiratkan bahwa model semakin buruk.
  • Kemiringan datar menyiratkan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian yang telah diidealkan berikut akan menunjukkan:

  • Kemiringan menurun yang curam selama iterasi awal, yang menyiratkan peningkatan model yang cepat.
  • Kemiringan yang datar (tetapi masih ke bawah) secara bertahap hingga mendekati akhir pelatihan, yang menyiratkan peningkatan model yang berkelanjutan dengan kecepatan yang agak lebih lambat daripada selama iterasi awal.
  • Kemiringan datar menjelang akhir pelatihan, yang menunjukkan konvergensi.

Plot kerugian pelatihan versus iterasi. Kurva kerugian ini dimulai dengan kemiringan ke bawah yang curam. Kemiringan akan menyatu secara bertahap hingga
     kemiringan menjadi nol.

Meskipun kerugian pelatihan penting, lihat juga generalisasi.

diferensiasi performa pelatihan dan penayangan

#fundamentals

Perbedaan antara performa model selama pelatihan dan performa model yang sama selama penayangan.

set pelatihan

#fundamentals

Subset set data yang digunakan untuk melatih model.

Secara tradisional, contoh dalam set data dibagi menjadi tiga subset berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh dimiliki set pelatihan dan set validasi.

lintasan

#rl

Dalam reinforcement learning, urutan tuple yang mewakili urutan transisi status agen, dengan setiap tuple sesuai dengan status, tindakan, reward, dan status berikutnya untuk transisi status tertentu.

pemelajaran transfer

Mentransfer informasi dari satu tugas machine learning ke tugas lainnya. Misalnya, dalam pembelajaran multitugas, satu model menyelesaikan beberapa tugas, seperti model dalam yang memiliki node output berbeda untuk tugas yang berbeda. Pemelajaran transfer mungkin melibatkan transfer pengetahuan dari solusi tugas yang lebih sederhana ke tugas yang lebih kompleks, atau melibatkan transfer pengetahuan dari tugas yang memiliki lebih banyak data ke tugas yang datanya lebih sedikit.

Sebagian besar sistem machine learning menyelesaikan satu tugas. Pemelajaran transfer adalah langkah awal menuju kecerdasan buatan yang mana satu program dapat menyelesaikan beberapa tugas.

Transformator

#language

Arsitektur jaringan neural yang dikembangkan di Google yang mengandalkan mekanisme self-attention untuk mengubah urutan embedding input menjadi urutan embedding output tanpa bergantung pada konvolusi atau jaringan neural berulang. Transformer dapat dilihat sebagai tumpukan lapisan self-attention.

Transformer dapat mencakup salah satu dari hal berikut:

Encoder mengubah urutan embedding menjadi urutan baru dengan panjang yang sama. Encoder mencakup N lapisan identik, yang masing-masing berisi dua sub-lapisan. Kedua sub-lapisan ini diterapkan pada setiap posisi urutan penyematan input, sehingga mengubah setiap elemen urutan menjadi embedding baru. Sub-lapisan encoder pertama mengagregasi informasi dari seluruh urutan input. Sub-lapisan encoder kedua mengubah informasi gabungan menjadi embedding output.

Decoder mengubah urutan embedding input menjadi urutan embedding output, yang kemungkinan memiliki panjang yang berbeda. Decoder juga mencakup N lapisan identik dengan tiga sub-lapisan, dua di antaranya mirip dengan sub-lapisan encoder. Sub-lapisan decoder ketiga mengambil output encoder dan menerapkan mekanisme self-attention untuk mengumpulkan informasi darinya.

Postingan blog Transformer: Arsitektur Jaringan Neural Baru untuk Pemahaman Bahasa memberikan pengantar yang bagus tentang Transformer.

invariansi translasi

#image

Dalam masalah klasifikasi gambar, kemampuan algoritme agar berhasil mengklasifikasikan gambar meskipun posisi objek dalam gambar berubah. Misalnya, algoritma masih dapat mengidentifikasi seekor, baik yang berada di tengah frame atau di ujung kiri frame.

Lihat juga invariansi ukuran dan invariansi rotasional.

trigram

#seq
#language

N-gram yang mana N=3.

negatif benar (TN)

#fundamentals

Contoh yang mana model dengan benar memprediksi kelas negatif. Misalnya, model menyimpulkan bahwa pesan email tertentu bukan spam, dan pesan email tersebut sebenarnya bukan spam.

positif benar (TP)

#fundamentals

Contoh yang mana model dengan benar memprediksi kelas positif. Misalnya, model menyimpulkan bahwa pesan email tertentu adalah spam, dan pesan email tersebut benar-benar spam.

rasio positif benar (TPR)

#fundamentals

Sinonim dari perolehan. Definisinya yaitu:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Rasio positif benar adalah sumbu y dalam kurva KOP.

U

ketidaksadaran (pada atribut sensitif)

#fairness

Situasi saat atribut sensitif ada, tetapi tidak disertakan dalam data pelatihan. Karena atribut sensitif sering berkorelasi dengan atribut lain dari data seseorang, model yang dilatih tanpa awareness tentang atribut sensitif masih dapat memiliki dampak yang berbeda sehubungan dengan atribut tersebut, atau melanggar batasan keadilan lainnya.

underfitting

#fundamentals

Menghasilkan model dengan kemampuan prediktif yang buruk karena model tersebut belum sepenuhnya menangkap kompleksitas data pelatihan. Banyak masalah dapat menyebabkan underfitting, termasuk:

pengurangan sampel

Menghapus contoh dari kelas mayoritas dalam set data kelas tidak seimbang untuk membuat set pelatihan yang lebih seimbang.

Misalnya, pertimbangkan set data yang rasio class mayoritas terhadap kelas minoritas adalah 20:1. Untuk mengatasi ketidakseimbangan kelas ini, Anda dapat membuat set pelatihan yang terdiri dari semua contoh kelas minoritas, tetapi hanya sepuluh dari contoh kelas mayoritas, yang akan membuat rasio kelas set pelatihan menjadi 2:1. Berkat pengurangan sampel, set pelatihan yang lebih seimbang ini mungkin menghasilkan model yang lebih baik. Atau, set pelatihan yang lebih seimbang ini mungkin berisi contoh yang tidak memadai untuk melatih model yang efektif.

Berbeda dengan oversampling.

searah

#language

Sistem yang hanya mengevaluasi teks yang mendahului bagian target teks. Sebaliknya, sistem dua arah mengevaluasi teks yang mendahului dan mengikuti bagian teks target. Lihat dua arah untuk detail selengkapnya.

model bahasa searah

#language

Model bahasa yang mendasarkan probabilitasnya hanya pada token yang muncul sebelum, bukan setelah, token target. Berbeda dengan model bahasa dua arah.

contoh tidak berlabel

#fundamentals

Contoh yang berisi fitur tetapi tanpa label. Misalnya, tabel berikut menunjukkan tiga contoh tak berlabel dari model penilaian rumah, masing-masing dengan tiga fitur tetapi tidak memiliki nilai rumah:

Jumlah kamar Jumlah kamar mandi Usia rumah
3 2 15
2 1 72
4 2 34

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Dalam pembelajaran semi-supervised dan unsupervised, contoh tak berlabel digunakan selama pelatihan.

Bandingkan contoh tak berlabel dengan contoh berlabel.

unsupervised machine learning

#clustering
#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.

Penggunaan paling umum dari unsupervised machine learning adalah untuk mengelompokkan data ke dalam grup contoh yang serupa. Misalnya, algoritma unsupervised machine learning dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritma machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu ketika label yang berguna jumlahnya terbatas atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia untuk lebih memahami data.

Berbeda dengan supervised machine learning.

pemodelan peningkatan

Teknik pemodelan, yang biasa digunakan dalam pemasaran, yang memodelkan "efek kausal" (juga dikenal sebagai "dampak inkremental") dari "perlakuan" pada "individu". Berikut ini dua contohnya:

  • Dokter mungkin menggunakan pemodelan peningkatan untuk memprediksi penurunan kematian (efek kausal) dari prosedur medis (perawatan) bergantung pada usia dan riwayat medis pasien (individu).
  • Pemasar dapat menggunakan pemodelan peningkatan untuk memprediksi peningkatan probabilitas pembelian (efek kausal) karena iklan (perlakuan) terhadap seseorang (individu).

Pemodelan peningkatan berbeda dengan klasifikasi atau regresi karena beberapa label (misalnya, setengah label dalam perlakuan biner) selalu tidak ada dalam pemodelan peningkatan. Misalnya, pasien dapat menerima atau tidak menerima pengobatan; oleh karena itu, kita hanya dapat mengamati apakah pasien akan sembuh atau tidak sembuh hanya dalam salah satu dari dua situasi ini (tetapi tidak pernah keduanya). Keuntungan utama dari model peningkatan adalah model ini dapat menghasilkan prediksi untuk situasi yang tidak diamati (kontrafaktual) dan menggunakannya untuk menghitung efek kausal.

penambahan bobot

Menerapkan bobot ke class pengurangan sampel yang sama dengan faktor yang digunakan untuk melakukan pengurangan sampel.

matriks pengguna

#recsystems

Dalam sistem rekomendasi, vektor embedding yang dihasilkan oleh faktorisasi matriks yang menyimpan sinyal laten terkait preferensi pengguna. Setiap baris matriks pengguna menyimpan informasi tentang kekuatan relatif berbagai sinyal laten untuk satu pengguna. Misalnya, pertimbangkan sebuah sistem rekomendasi film. Dalam sistem ini, sinyal laten dalam matriks pengguna mungkin merepresentasikan minat setiap pengguna dalam genre tertentu, atau mungkin sinyal yang lebih sulit ditafsirkan yang melibatkan interaksi kompleks di berbagai faktor.

Matriks pengguna memiliki satu kolom untuk setiap fitur laten dan satu baris untuk setiap pengguna. Artinya, matriks pengguna memiliki jumlah baris yang sama dengan matriks target yang sedang difaktorkan. Misalnya, dengan sistem rekomendasi film untuk 1.000.000 pengguna, matriks pengguna akan memiliki 1.000.000 baris.

V

validasi

#fundamentals

Evaluasi awal kualitas model. Validasi memeriksa kualitas prediksi model terhadap set validasi.

Karena set validasi berbeda dengan set pelatihan, validasi membantu mencegah overfitting.

Anda mungkin menganggap mengevaluasi model terhadap set validasi sebagai tahap pertama pengujian, dan mengevaluasi model terhadap set pengujian sebagai putaran kedua pengujian.

kehilangan validasi

#fundamentals

Metrik yang merepresentasikan kerugian model pada set validasi selama iterasi pelatihan.

Lihat juga kurva generalisasi.

set validasi

#fundamentals

Subset set data yang melakukan evaluasi awal terhadap model terlatih. Biasanya, Anda akan mengevaluasi model yang dilatih terhadap set validasi beberapa kali sebelum mengevaluasi model terhadap set pengujian.

Secara tradisional, Anda membagi contoh dalam set data menjadi tiga subset berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh dimiliki set pelatihan dan set validasi.

imputasi nilai

Proses penggantian nilai yang hilang dengan pengganti yang dapat diterima. Jika nilai tidak ada, Anda dapat menghapus seluruh contoh atau menggunakan imputasi nilai untuk menyimpan contoh tersebut.

Misalnya, pertimbangkan set data yang berisi fitur temperature yang seharusnya direkam setiap jam. Namun, hasil pemeriksaan suhu tidak tersedia untuk jam tertentu. Berikut adalah bagian dari {i>dataset <i}tersebut:

Stempel waktu Temperature (suhu)
1680561000 10
1680564600 12
1680568200 tidak ada
1680571800 20
1680575400 21
1680579000 21

Sistem dapat menghapus contoh yang hilang tersebut atau menganggap suhu yang hilang sebagai 12, 16, 18, atau 20, tergantung pada algoritma imputasi.

masalah gradien yang hilang

#seq

Kecenderungan gradien lapisan tersembunyi awal dari beberapa jaringan neural dalam secara mengejutkan menjadi datar (rendah). Gradien yang semakin rendah menyebabkan perubahan bobot yang semakin kecil pada node di deep neural network, sehingga menyebabkan sedikit pembelajaran atau tidak ada sama sekali. Model yang mengalami masalah gradien yang menghilang menjadi sulit atau tidak mungkin untuk dilatih. Sel Memori Jangka Pendek Panjang mengatasi masalah ini.

Bandingkan dengan masalah gradien yang meledak.

tingkat kepentingan variabel

#df

Kumpulan skor yang menunjukkan kepentingan relatif setiap fitur terhadap model.

Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika serangkaian nilai penting variabel untuk ketiga fitur tersebut dihitung {size=5.8, age=2.5, style=4.7}, maka ukuran lebih penting bagi pohon keputusan daripada usia atau gaya.

Terdapat metrik tingkat kepentingan variabel yang berbeda, yang dapat memberi tahu pakar ML tentang berbagai aspek model.

{i> variational autoencoder<i} (VAE)

#language

Jenis autoencoder yang memanfaatkan perbedaan antara input dan output untuk menghasilkan versi input yang dimodifikasi. Autoencoder variasional berguna untuk AI generatif.

VAE didasarkan pada inferensi variasi: teknik untuk memperkirakan parameter model probabilitas.

vektor

Istilah yang sangat berlebihan yang maknanya bervariasi di berbagai bidang matematika dan ilmiah. Dalam machine learning, vektor memiliki dua properti:

  • Jenis data: Vektor dalam machine learning biasanya berisi bilangan floating point.
  • Jumlah elemen: Ini adalah panjang vektor atau dimensinya.

Misalnya, pertimbangkan vektor fitur yang menampung delapan angka floating point. Vektor fitur ini memiliki panjang atau dimensi delapan. Perhatikan bahwa vektor machine learning sering kali memiliki sejumlah besar dimensi.

Anda dapat merepresentasikan berbagai jenis informasi sebagai vektor. Contoh:

  • Segala posisi di permukaan Bumi dapat direpresentasikan sebagai vektor 2 dimensi, dengan satu dimensi adalah garis lintang dan dimensi lainnya adalah bujur.
  • Harga saat ini dari masing-masing 500 saham dapat direpresentasikan sebagai vektor 500 dimensi.
  • Distribusi probabilitas pada sejumlah kelas yang terbatas dapat direpresentasikan sebagai vektor. Misalnya, sistem klasifikasi kelas jamak yang memprediksi salah satu dari tiga warna output (merah, hijau, atau kuning) dapat menghasilkan vektor (0.3, 0.2, 0.5) yang berarti P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Vektor dapat digabungkan; sehingga berbagai media yang berbeda dapat diwakili sebagai vektor tunggal. Beberapa model beroperasi langsung pada rangkaian banyak encoding one-hot.

Prosesor khusus seperti TPU dioptimalkan untuk menjalankan operasi matematika pada vektor.

Vektor adalah tensor dari rank 1.

W

Kerugian Wasserstein

Salah satu fungsi kerugian yang biasa digunakan dalam jaringan saraf generatif berlawanan, berdasarkan jarak penggerak bumi antara distribusi data yang dihasilkan dan data nyata.

berat

#fundamentals

Nilai yang dikalikan dengan nilai lain oleh model. Pelatihan adalah proses menentukan bobot ideal model; inferensi adalah proses menggunakan bobot yang dipelajari tersebut untuk membuat prediksi.

Kotak Terkecil Alternatif Berbobot (WALS)

#recsystems

Algoritma untuk meminimalkan fungsi objektif selama faktorisasi matriks dalam sistem rekomendasi, yang memungkinkan penurunan bobot untuk contoh yang hilang. WALS meminimalkan bobot error kuadrat antara matriks asli dan rekonstruksi dengan beralih antara memperbaiki faktorisasi baris dan faktorisasi kolom. Masing-masing pengoptimalan ini dapat diselesaikan dengan pengoptimalan konveks kuadrat terkecil. Untuk mengetahui detailnya, lihat kursus Sistem Rekomendasi.

jumlah tertimbang (weighted sum)

#fundamentals

Jumlah semua nilai input yang relevan dikalikan dengan bobotnya yang sesuai. Misalnya, anggaplah input yang relevan terdiri dari hal berikut:

nilai input bobot masukan
2 -1,3
-1 0,6
3 0,4

Oleh karena itu, jumlah terbobot adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Jumlah terbobot adalah argumen input untuk fungsi aktivasi.

model lebar

Model linear yang biasanya memiliki banyak fitur input renggang. Kita menyebutnya sebagai "lebar" karena model seperti itu adalah jenis jaringan neural khusus dengan sejumlah besar input yang terhubung langsung ke node output. Model lebar sering kali lebih mudah di-debug dan diperiksa daripada model dalam. Meskipun model lebar tidak dapat mengekspresikan nonlinearitas melalui lapisan tersembunyi, model lebar dapat menggunakan transformasi seperti persilangan fitur dan pengelompokan untuk memodelkan nonlinearitas dengan cara yang berbeda.

Berbeda dengan model dalam.

lebar

Jumlah neuron dalam lapisan tertentu dari jaringan neural.

hikmah dari banyak orang

#df

Gagasan bahwa menghitung rata-rata pendapat atau estimasi dari sekelompok besar orang ("orang banyak") sering kali memberikan hasil yang sangat baik. Misalnya, pertimbangkan game yang mengharuskan orang menebak jumlah kacang jeli yang dimasukkan ke dalam stoples besar. Meskipun sebagian besar perkiraan tidak akurat, rata-rata semua tebakan telah terbukti secara mengejutkan mendekati jumlah biji jeli yang sebenarnya di dalam stoples.

Ensembles adalah software yang merupakan analogi dari kebijakan orang banyak. Meskipun setiap model membuat prediksi yang sangat tidak akurat, menghitung rata-rata prediksi banyak model sering kali menghasilkan prediksi yang sangat bagus. Misalnya, meskipun pohon keputusan individu mungkin membuat prediksi yang buruk, hutan keputusan sering kali membuat prediksi yang sangat baik.

penyematan kata

#language

Merepresentasikan setiap kata dalam kumpulan kata dalam vektor embedding; yaitu, merepresentasikan setiap kata sebagai vektor nilai floating point antara 0,0 dan 1,0. Kata dengan makna serupa memiliki representasi yang lebih mirip daripada kata dengan arti yang berbeda. Misalnya, wortel, seledri, dan mentimun akan memiliki representasi yang relatif mirip, yang akan sangat berbeda dari representasi pesawat, kacamata hitam, dan pasta gigi.

X

XLA (Accelerated Linear Algebra)

Compiler machine learning open source untuk GPU, CPU, dan akselerator ML.

Compiler XLA mengambil model dari framework ML populer seperti PyTorch, TensorFlow, dan JAX, serta mengoptimalkannya untuk eksekusi berperforma tinggi di berbagai platform hardware termasuk GPU, CPU, dan akselerator ML.

Z

pemelajaran zero-shot

Jenis pelatihan machine learning di mana model menyimpulkan prediksi untuk tugas yang belum secara khusus dilatih. Dengan kata lain, model diberi nol contoh pelatihan khusus tugas, tetapi diminta untuk melakukan inferensi untuk tugas tersebut.

metode zero-shot prompting

#language
#AI generatif

Perintah yang tidak memberikan contoh cara Anda ingin model bahasa besar merespons. Contoh:

Bagian dari satu perintah Catatan
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang Anda inginkan untuk dijawab oleh LLM.
India: Kueri yang sebenarnya.

Model bahasa besar dapat merespons dengan salah satu hal berikut:

  • Rupee
  • INR
  • Rupee India
  • Rupee
  • Rupee India

Semua jawaban benar, meskipun Anda mungkin memilih format tertentu.

Bandingkan dan bedakan zero-shot prompting dengan istilah berikut:

Normalisasi skor Z

#fundamentals

Teknik penskalaan yang mengganti nilai fitur mentah dengan nilai floating point yang mewakili jumlah deviasi standar dari rata-rata fitur tersebut. Misalnya, pertimbangkan fitur yang rata-ratanya adalah 800 dan standar deviasinya adalah 100. Tabel berikut menunjukkan cara normalisasi skor Z memetakan nilai mentah ke skor Z-nya:

Nilai mentah Skor Z
800 0
950 +1,5
575 -2,25

Model machine learning kemudian berlatih berdasarkan skor Z untuk fitur tersebut, bukan berdasarkan nilai mentah.