Glosarium Machine Learning

Glosarium ini mendefinisikan istilah umum machine learning, serta istilah khusus untuk TensorFlow.

A

ablasi

Teknik untuk mengevaluasi pentingnya fitur atau komponen dengan menghapus untuk sementara dari model. Anda kemudian melatih ulang model tanpa fitur atau komponen tersebut, dan jika model yang dilatih ulang kinerja yang jauh lebih buruk, maka fitur atau komponen yang dihapus mungkin penting.

Misalnya, anggaplah Anda melatih model klasifikasi pada 10 fitur dan mencapai presisi sebesar 88% pada set pengujian. Untuk memeriksa nilai penting fitur pertama, Anda dapat melatih ulang model hanya dengan sembilan baru. Jika model yang dilatih ulang berperforma jauh lebih buruk (misalnya, 55% presisi), fitur yang dihapus mungkin penting. Sebaliknya, jika model yang dilatih ulang berperforma sama baiknya, maka fitur tersebut mungkin yang tidak begitu penting.

Ablasi juga dapat membantu menentukan pentingnya:

  • Komponen yang lebih besar, seperti seluruh subsistem dari sistem ML yang lebih besar
  • Proses atau teknik, seperti langkah prapemrosesan data

Dalam kedua kasus tersebut, Anda akan mengamati bagaimana kinerja sistem berubah (atau tidak berubah) setelah Anda menghapus komponennya.

Pengujian A/B

Cara statistik untuk membandingkan dua (atau lebih) teknik—A dan B. Biasanya, A adalah teknik yang sudah ada, dan B adalah teknik baru. Pengujian A/B tidak hanya menentukan teknik mana yang berperforma lebih baik, tetapi juga apakah perbedaannya signifikan secara statistik.

Pengujian A/B biasanya membandingkan satu metrik pada dua teknik; misalnya, bagaimana perbandingan akurasi model untuk dua teknik? Namun, pengujian A/B juga dapat membandingkan sejumlah metrik.

chip akselerator

#GoogleCloud

Kategori komponen perangkat keras khusus yang dirancang untuk melakukan operasi komputasi yang diperlukan untuk algoritma deep learning.

Chip akselerator (atau disingkat akselerator) dapat secara signifikan meningkatkan kecepatan dan efisiensi tugas pelatihan dan inferensi dibandingkan dengan CPU serbaguna. GPU ini ideal untuk melatih neural network dan tugas intensif komputasi serupa.

Contoh chip akselerator meliputi:

  • Tensor Processing Unit (TPU) Google dengan hardware khusus untuk deep learning.
  • GPU NVIDIA yang, meskipun awalnya dirancang untuk pemrosesan grafis, dirancang untuk memungkinkan pemrosesan paralel, yang dapat secara signifikan meningkatkan kecepatan pemrosesan.

akurasi

#fundamentals

Jumlah prediksi klasifikasi yang benar yang dibagi dengan jumlah total prediksi. Definisinya yaitu:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Misalnya, model yang membuat 40 prediksi yang benar dan 10 prediksi yang salah akan memiliki akurasi:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasifikasi biner memberikan nama spesifik untuk berbagai kategori prediksi yang benar dan prediksi yang salah. Jadi, formula akurasi untuk klasifikasi biner adalah sebagai berikut:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dalam hal ini:

Membandingkan dan membedakan akurasi dengan presisi dan penarikan.

Lihat Klasifikasi: Akurasi, recall, presisi, dan metrik terkait di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

action

#rl

Dalam reinforcement learning, mekanisme yang digunakan agen transisi antara status lingkungan. Agen memilih tindakan dengan menggunakan policy.

fungsi aktivasi

#fundamentals

Fungsi yang memungkinkan jaringan saraf mempelajari hubungan nonlinear (kompleks) antara fitur dan label.

Fungsi aktivasi yang populer mencakup:

Plot fungsi aktivasi tidak pernah berupa garis lurus tunggal. Misalnya, plot fungsi aktivasi ReLU terdiri dari dua garis lurus:

Plot Kartesius dari dua garis. Baris pertama memiliki nilai y konstan
          sebesar 0, yang berjalan di sepanjang sumbu x dari -infinity,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, sehingga
          berjalan dari 0,0 hingga +infinity,+infinity.

Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain
          -tak terhingga hingga +positif, sedangkan nilai y menjangkau rentang hampir 0 hingga
          hampir 1. Jika x adalah 0, y adalah 0,5. Kemiringan kurva selalu
          positif, dengan kemiringan tertinggi 0,0.5 dan perlahan menurun
          kemiringan seiring meningkatnya nilai absolut x.

Lihat Jaringan neural: Fungsi aktivasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pembelajaran aktif

Pendekatan pelatihan yang menggunakan algoritma untuk memilih beberapa data yang dipelajarinya. Pembelajaran aktif sangat berharga jika contoh berlabel langka atau mahal untuk diperoleh. Daripada mencari secara membabi buta berbagai contoh berlabel, algoritma pembelajaran aktif secara selektif mencari rentang contoh tertentu yang diperlukan untuk pembelajaran.

AdaGrad

Algoritma penurunan gradien yang canggih yang mengubah skala gradien setiap parameter, yang secara efektif memberikan setiap parameter kecepatan pembelajaran independen. Untuk penjelasan selengkapnya, lihat makalah AdaGrad ini.

agen

#rl

Dalam pembelajaran penguatan, entitas yang menggunakan kebijakan untuk memaksimalkan hasil yang diharapkan diperoleh dari transisi antara status lingkungan.

Secara lebih umum, agen adalah perangkat lunak yang secara mandiri merencanakan dan menjalankan serangkaian tindakan untuk mencapai tujuan, dengan kemampuan untuk beradaptasi dengan perubahan di lingkungannya. Misalnya, agen berbasis LLM mungkin menggunakan LLM untuk membuat rencana, bukan menerapkan kebijakan reinforcement learning.

pengelompokan aglomeratif

#clustering

Lihat pengelompokan hierarkis.

deteksi anomali

Proses mengidentifikasi pencilan. Misalnya, jika rata-rata untuk fitur tertentu adalah 100 dengan simpangan baku 10, maka deteksi anomali harus menandai nilai 200 sebagai mencurigakan.

AR

Singkatan dari augmented reality.

area di bawah kurva PR

Lihat PR AUC (Area di bawah Kurva PR).

area di bawah kurva ROC

Lihat AUC (Area di bawah kurva ROC).

kecerdasan umum buatan

Mekanisme nonmanusia yang menunjukkan berbagai pemecahan masalah, kreativitas, dan kemampuan beradaptasi. Misalnya, suatu program yang mendemonstrasikan kecerdasan umum dapat menerjemahkan teks, menyusun simfoni, dan unggul dalam {i>game<i} yang belum ditemukan.

kecerdasan buatan

#fundamentals

Program atau model nonmanusia yang dapat menyelesaikan tugas-tugas rumit. Misalnya, program atau model yang menerjemahkan teks atau program atau model yang mengidentifikasi penyakit dari gambar radiologi, keduanya menunjukkan kecerdasan buatan.

Secara formal, machine learning adalah sub-bidang dari buatan AI generatif. Namun, dalam beberapa tahun terakhir, sejumlah organisasi mulai menggunakan istilah kecerdasan buatan dan machine learning secara bergantian.

Attention,

#language

Mekanisme yang digunakan dalam jaringan neural yang menunjukkan pentingnya kata atau bagian kata tertentu. Perhatian mengompresi jumlah informasi yang diperlukan model untuk memprediksi token/kata berikutnya. Mekanisme perhatian standar mungkin terdiri dari jumlah berbobot pada sekumpulan input, dengan bobot untuk setiap input dihitung oleh bagian lain dari jaringan neural.

Lihat juga perhatian mandiri dan multi-head self-attention, yang merupakan elemen penyusun Transformer.

Lihat LLM: Apa itu model bahasa besar? di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya tentang perhatian mandiri.

atribut

#fairness

Sinonim dari feature.

Dalam keadilan machine learning, atribut sering kali mengacu pada karakteristik yang berkaitan dengan individu.

sampling atribut

#df

Taktik untuk melatih hutan keputusan yang masing-masing pohon keputusan hanya mempertimbangkan subset acak dari fitur saat mempelajari kondisi. Umumnya, subset fitur yang berbeda diambil sampelnya untuk setiap node. Sebaliknya, saat melatih hierarki keputusan tanpa sampling atribut, semua kemungkinan fitur akan dipertimbangkan untuk setiap node.

AUC (Area di bawah kurva ROC)

#fundamentals

Angka antara 0,0 dan 1,0 mewakili Model klasifikasi biner kemampuan untuk memisahkan kelas positif dari kelas negatif. Semakin dekat ABK ke 1,0, semakin baik kemampuan model untuk memisahkan kelas dari satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model pengklasifikasi yang memisahkan kelas positif (oval hijau) dari kelas negatif (persegi panjang ungu) dengan sempurna. Model sempurna yang tidak realistis ini memiliki AUC sebesar 1,0:

Garis bilangan dengan 8 contoh positif di satu sisi dan
          9 contoh negatif di sisi lain.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk pengklasifikasi yang menampilkan hasil acak. Model ini memiliki ABK 0,5:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contohnya adalah positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif, negatif.

Ya, model sebelumnya memiliki AUC 0,5, bukan 0,0.

Sebagian besar model berada di antara dua titik ekstrem. Misalnya, model berikut memisahkan positif dari negatif, sehingga memiliki AUC antara 0,5 dan 1,0:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contoh adalah negatif, negatif, negatif,
          positif, negatif, positif, positif, negatif, positif, positif,
          positif.

AUC mengabaikan nilai apa pun yang Anda tetapkan untuk nilai minimum klasifikasi. Sebagai gantinya, ABK mempertimbangkan semua batas klasifikasi yang mungkin.

Lihat Klasifikasi: ROC dan AUC di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

augmented reality

#image

Teknologi yang menempatkan gambar yang dihasilkan komputer pada pandangan pengguna tentang dunia nyata, sehingga memberikan tampilan gabungan.

autoencoder

#language
#image

Sistem yang mempelajari cara mengekstrak informasi yang paling penting dari input. Autoencoder adalah kombinasi dari encoder dan decoder. Autoencoder mengandalkan proses dua langkah berikut:

  1. Encoder memetakan input ke format (biasanya) dengan dimensi lebih rendah (perantara) yang mengalami derau.
  2. Decoder membangun versi lossy dari input asli dengan memetakan format dimensi yang lebih rendah ke dimensi aslinya format input teks.

Autoencoder dilatih secara menyeluruh dengan meminta decoder mencoba merekonstruksi input asli dari format perantara encoder semirip mungkin. Karena format perantara lebih kecil (dimensi lebih rendah) daripada format aslinya, autoencoder dipaksa untuk mempelajari informasi apa yang penting dalam input, dan {i>output-<i}nya tidak identik dengan input lainnya.

Contoh:

  • Jika data input adalah grafik, salinan yang tidak sama akan mirip dengan grafik asli, tetapi sedikit dimodifikasi. Mungkin salinan yang tidak persis menghilangkan noise dari grafis asli atau mengisi beberapa piksel yang hilang.
  • Jika data input adalah teks, autoencoder akan menghasilkan teks baru yang meniru (tetapi tidak identik dengan) teks asli.

Lihat juga autoencoder variasional.

bias otomatisasi

#fairness

Ketika pembuat keputusan manusia lebih memilih rekomendasi yang dibuat oleh sistem pengambilan keputusan otomatis daripada informasi yang dibuat tanpa otomatisasi, meskipun sistem pengambilan keputusan otomatis membuat error.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

AutoML

Setiap proses otomatis untuk membuat model machine learning. AutoML dapat melakukan tugas seperti berikut secara otomatis:

  • Telusuri model yang paling sesuai.
  • Sesuaikan hyperparameter.
  • Menyiapkan data (termasuk melakukan rekayasa fitur).
  • Deploy model yang dihasilkan.

AutoML berguna bagi data scientist karena dapat menghemat waktu dan upaya dalam mengembangkan pipeline machine learning dan meningkatkan prediksi tingkat akurasi. Hal ini juga berguna bagi non-ahli, dengan membuat tugas machine learning yang rumit lebih mudah diakses oleh mereka.

Lihat Machine Learning Otomatis (AutoML) di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model autoregresif

#language
#image
#generativeAI

Model yang menyimpulkan prediksi berdasarkan permintaan sebelumnya terhadap prediksi yang di-output oleh model. Misalnya, model bahasa autoregresif memprediksi token berdasarkan token yang diprediksi sebelumnya. Semua berbasis Transformer model bahasa besar bersifat autoregresif.

Sebaliknya, model gambar berbasis GAN biasanya tidak bersifat autoregresif karena menghasilkan gambar dalam satu penerusan maju dan tidak secara iteratif dalam langkah-langkah. Namun, model pembuatan gambar tertentu adalah autoregresif karena membuat gambar secara bertahap.

kerugian tambahan

Fungsi kerugian—digunakan bersama dengan Layanan utama jaringan neural model kerugian—yang membantu mempercepat pelatihan selama iterasi awal ketika bobot diinisialisasi secara acak.

Fungsi kerugian tambahan mendorong gradien efektif ke lapisan sebelumnya. Hal ini memfasilitasi konvergensi selama pelatihan dengan mengatasi masalah gradien hilang.

presisi rata-rata

Metrik untuk meringkas performa urutan hasil yang diberi peringkat. Presisi rata-rata dihitung dengan mengambil rata-rata nilai presisi untuk setiap hasil yang relevan (setiap hasil dalam daftar peringkat tempat penarikan kembali meningkat relatif terhadap hasil sebelumnya).

Lihat juga Area di Bawah Kurva PR.

kondisi sejajar sumbu

#df

Dalam pohon keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, maka berikut ini adalah kondisi yang sejajar sumbu:

area > 200

Berbeda dengan kondisi miring.

B

propagasi mundur

#fundamentals

Algoritma yang mengimplementasikan penurunan gradien di jaringan neural.

Pelatihan jaringan neural melibatkan banyak iterasi dari siklus dua tahap berikut:

  1. Selama pass maju, sistem akan memproses kumpulan contoh untuk menghasilkan prediksi. Sistem membandingkan masing-masing prediksi ke tiap nilai label. Perbedaan antara prediksi dan nilai label adalah kerugian untuk contoh tersebut. Sistem menggabungkan kerugian untuk semua contoh guna menghitung total kerugian untuk batch saat ini.
  2. Selama lintas mundur (propagasi mundur), sistem akan mengurangi kerugian sebesar menyesuaikan bobot semua neuron di semua lapisan tersembunyi.

Jaringan saraf sering kali berisi banyak neuron di banyak lapisan tersembunyi. Setiap neuron tersebut berkontribusi pada keseluruhan kerugian dengan cara yang berbeda. Backpropagation menentukan apakah akan meningkatkan atau menurunkan bobot yang diterapkan ke neuron tertentu.

Kecepatan pembelajaran adalah pengganda yang mengontrol sejauh mana setiap {i>back pass<i} menambah atau mengurangi setiap bobot. Kecepatan pembelajaran yang besar akan meningkatkan atau menurunkan setiap bobot lebih banyak daripada kecepatan pembelajaran yang kecil.

Dalam istilah kalkulus, propagasi mundur menerapkan aturan chain. dari kalkulus. Artinya, propagasi mundur menghitung turunan parsial dari error dengan terhadap setiap parameter.

Beberapa tahun yang lalu, praktisi ML harus menulis kode untuk menerapkan backpropagation. API ML modern seperti Keras kini menerapkan backpropagation untuk Anda. Fiuh!

Lihat Jaringan neural di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pengelompokan

#df

Metode untuk melatih ensemble dengan setiap model penyusunnya dilatih pada subset acak dari contoh pelatihan yang dipilih dengan penggantian. Misalnya, hutan acak adalah kumpulan pohon keputusan yang dilatih dengan bagging.

Istilah bagging adalah singkatan dari bootstrap aggregating.

Lihat Hutan acak di materi Pengambilan Keputusan Hutan untuk informasi lebih lanjut.

kantong data

#language

Representasi dari kata-kata dalam frasa atau bagian, terlepas dari urutannya. Misalnya, kumpulan kata-kata mewakili tiga frasa berikut secara identik:

  • anjingnya melompat
  • melompat anjing
  • {i>dog walker<i}

Setiap kata dipetakan ke indeks dalam vektor renggang, dengan vektor memiliki indeks untuk setiap kata dalam kosakata. Misalnya, frasa the dog jumps dipetakan menjadi vektor fitur dengan nilai bukan nol pada ketiga indeks yang sesuai dengan kata the, dog, dan lompatan. Nilai bukan nol dapat berupa salah satu dari hal berikut:

  • 1 untuk menunjukkan keberadaan kata.
  • Jumlah frekuensi kemunculan kata dalam bag. Misalnya, jika frasa tersebut adalah anjing maroon adalah anjing dengan bulu maroon, maka maroon dan anjing akan direpresentasikan sebagai 2, sedangkan kata lainnya akan direpresentasikan sebagai 1.
  • Beberapa nilai lainnya, seperti logaritma jumlah berapa kali kata muncul di dalam tas.

dasar

Model yang digunakan sebagai titik referensi untuk membandingkan performa model lain (biasanya, model yang lebih kompleks). Sebagai contoh, model regresi logistik dapat berfungsi sebagai dasar pengukuran yang baik untuk model mendalam.

Untuk masalah tertentu, dasar pengukuran membantu developer model mengukur performa minimal yang diharapkan yang harus dicapai model baru untuk tertentu agar berguna.

batch

#fundamentals

Kumpulan contoh yang digunakan dalam satu iterasi pelatihan. Ukuran tumpukan menentukan jumlah contoh dalam batch.

Lihat epoch untuk mengetahui penjelasan tentang keterkaitan suatu batch dengan yaitu sebuah epoch.

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

inferensi batch

#TensorFlow
#GoogleCloud

Proses menyimpulkan prediksi pada beberapa contoh tak berlabel dibagi menjadi beberapa subset ("batch").

Inferensi batch dapat memanfaatkan fitur paralelisasi chip akselerator. Artinya, beberapa akselerator secara bersamaan dapat menyimpulkan prediksi pada berbagai batch contoh, meningkatkan jumlah inferensi per detik secara signifikan.

Lihat Sistem ML produksi: Statis versus dinamis inferensi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

normalisasi batch

Normalisasi input atau output fungsi aktivasi dalam lapisan tersembunyi. Normalisasi batch dapat memberikan manfaat berikut:

ukuran tumpukan

#fundamentals

Jumlah contoh dalam tumpukan. Misalnya, jika ukuran batch adalah 100, maka model akan memproses 100 contoh per iterasi.

Berikut adalah strategi ukuran tumpukan yang populer:

  • Penurunan Gradien Stokastik (SGD), dengan ukuran tumpukan 1.
  • Batch penuh, dengan ukuran batch adalah jumlah contoh di seluruh set pelatihan. Misalnya, jika set pelatihan berisi satu juta contoh, maka ukuran tumpukannya adalah satu juta contoh. Batch penuh biasanya merupakan strategi yang tidak efisien.
  • mini-batch dengan ukuran batch biasanya antara 10 dan 1.000. Mini-batch biasanya merupakan strategi yang paling efisien.

Lihat bagian berikut untuk informasi selengkapnya:

Jaringan neural Bayesian

Jaringan neural probabilistik yang memperhitungkan ketidakpastian dalam bobot dan output. Jaringan neural standar model regresi biasanya memprediksi nilai skalar; misalnya, model standar memprediksi harga rumah dari 853.000. Sebaliknya, jaringan saraf Bayesian memprediksi distribusi nilai; misalnya, model Bayesian memprediksi harga rumah senilai 853.000 dengan simpangan baku 67.200.

Jaringan saraf Bayesian mengandalkan Teorema Bayes untuk menghitung ketidakpastian dalam bobot dan prediksi. Model saraf Bayesian jaringan dapat berguna ketika penting untuk mengukur ketidakpastian, seperti dalam yang terkait dengan farmasi. Jaringan saraf Bayesian juga dapat membantu mencegah overfitting.

Pengoptimalan Bayesian

Model regresi probabilistik pengoptimalan biaya komputasi yang mahal fungsi objektif dengan mengoptimalkan surrogate yang mengukur ketidakpastian menggunakan teknik pembelajaran Bayesian. Karena pengoptimalan Bayesian itu sendiri sangat mahal, pengoptimalan ini biasanya digunakan untuk mengoptimalkan tugas yang mahal untuk dievaluasi dan memiliki sedikit parameter, seperti memilih hyperparameter.

Persamaan Bellman

#rl

Dalam reinforcement learning, identitas berikut dipenuhi oleh fungsi-Q yang optimal:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algoritma pembelajaran penguatan menerapkan identitas ini untuk membuat pembelajaran Q melalui aturan pembaruan berikut:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Selain pembelajaran penguatan, persamaan Bellman memiliki kegunaan untuk pemrograman dinamis. Lihat Entri Wikipedia untuk persamaan Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Arsitektur model untuk representasi teks. terlatih Model BERT dapat bertindak sebagai bagian dari model yang lebih besar untuk klasifikasi teks atau tugas ML lainnya.

BERT memiliki karakteristik berikut:

Varian BERT mencakup:

  • ALBERT, yang merupakan akronim dari A Light BERT.
  • LaBSE.

Lihat Open Sourcing BERT: Pra-pelatihan Canggih untuk Natural Language Memproses untuk ringkasan BERT.

bias (etika/keadilan)

#fairness
#fundamentals

1. Stereotip, prasangka atau favoritisme terhadap beberapa hal, orang, atau kelompok dibandingkan yang lain. Bias ini dapat mempengaruhi pengumpulan dan interpretasi data, desain sistem, dan bagaimana pengguna berinteraksi dengan suatu sistem. Bentuk dari jenis bias ini meliputi:

2. Kesalahan sistematis yang diperkenalkan oleh prosedur pengambilan sampel atau pelaporan. Bentuk dari jenis bias ini meliputi:

Jangan sampai tertukar dengan istilah bias dalam model machine learning atau bias prediksi.

Lihat Keadilan: Jenis bias pada Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

bias (matematika) atau istilah bias

#fundamentals

Intersep atau offset dari asal. Bias adalah parameter dalam model machine learning, yang dilambangkan dengan salah satu hal berikut:

  • b
  • m0

Misalnya, bias bernilai b dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dalam garis dua dimensi sederhana, bias hanya berarti "titik potong y". Misalnya, bias garis dalam ilustrasi berikut adalah 2.

Plot garis dengan kemiringan 0,5 dan bias (perpotongan y) 2.

Bias ada karena tidak semua model dimulai dari asal (0,0). Misalnya, anggap sebuah taman hiburan biaya 2 Euro untuk masuk dan tambahan 0,5 Euro untuk setiap jam pelanggan menginap. Oleh karena itu, model yang memetakan biaya total memiliki bias 2 karena biaya terendah adalah 2 Euro.

Bias tidak sama dengan bias dalam etika dan keadilan atau bias prediksi.

Lihat Regresi Linear di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

dua arah

#language

Istilah yang digunakan untuk menggambarkan sistem yang mengevaluasi teks yang mendahului dan mengikuti bagian target teks. Sebaliknya, sistem satu arah hanya mengevaluasi teks yang mendahului bagian teks target.

Misalnya, pertimbangkan model bahasa yang disamarkan yang harus menentukan probabilitas kata atau kata-kata yang mewakili garis bawah dalam pertanyaan berikut:

Ada apa _____ dengan Anda?

Model bahasa satu arah harus mendasarkan probabilitasnya hanya pada konteks yang diberikan oleh kata "Apa", "adalah", dan "yang". Sebaliknya, model bahasa dua arah juga dapat memperoleh konteks dari "dengan" dan "Anda", yang dapat membantu model menghasilkan prediksi yang lebih baik.

model bahasa dua arah

#language

Model bahasa yang menentukan probabilitas bahwa token tertentu ada di lokasi tertentu dalam kutipan teks berdasarkan teks sebelumnya dan berikutnya.

bigram

#seq
#language

N-gram yang mana N=2.

klasifikasi biner

#fundamentals

Jenis tugas klasifikasi yang memprediksi salah satu dari dua class yang saling eksklusif:

Misalnya, dua model machine learning berikut memiliki performa klasifikasi biner:

  • Model yang menentukan apakah pesan email spam (kelas positif) atau bukan spam (kelas negatif).
  • Model yang mengevaluasi gejala medis untuk menentukan apakah seseorang memiliki penyakit tertentu (kelas positif) atau tidak memiliki penyakit tersebut penyakit (kelas negatif).

Berbeda dengan klasifikasi kelas jamak.

Lihat juga regresi logistik dan nilai minimum klasifikasi.

Lihat Klasifikasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kondisi biner

#df

Dalam pohon keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya ya atau tidak. Misalnya, berikut ini adalah kondisi biner:

temperature >= 100

Berbeda dengan kondisi non-biner.

Lihat Jenis kondisi di kursus Decision Forests untuk mengetahui informasi selengkapnya.

pengelompokan

Sinonim dari bucketing.

BLEU (Bilingual Evaluation Understudy)

#language

Skor antara 0,0 dan 1,0, inklusif, yang menunjukkan kualitas terjemahan antara dua bahasa manusia (misalnya, antara bahasa Inggris dan Rusia). BLEU skor 1,0 menunjukkan terjemahan yang sempurna; skor BLEU sebesar 0,0 menunjukkan terjemahan yang buruk.

meningkatkan

Teknik machine learning yang secara berulang menggabungkan serangkaian pengklasifikasi yang sederhana dan tidak terlalu akurat (disebut sebagai pengklasifikasi "lemah") menjadi pengklasifikasi dengan akurasi tinggi (pengklasifikasi "kuat") dengan menambahkan bobot contoh yang saat ini salah diklasifikasikan oleh model.

Lihat Keputusan yang Ditingkatkan dengan Gradien Pepohonan? di materi Pengambilan Keputusan Hutan untuk informasi lebih lanjut.

kotak pembatas

#image

Dalam sebuah gambar, koordinat (x, y) dari persegi panjang di sekitar area tertentu, seperti gambar anjingnya di gambar di bawah ini.

Foto duduk di sofa. Kotak pembatas hijau
          dengan koordinat kiri atas (275, 1271) dan kanan bawah
          koordinat (2954, 2761) yang mengelilingi tubuh

penyiaran

Memperluas bentuk operand dalam operasi matematika matriks ke dimensi yang kompatibel untuk operasi tersebut. Misalnya, aljabar linear mengharuskan dua operand dalam operasi penambahan matriks untuk memiliki dimensi yang sama. Akibatnya, Anda tidak dapat menambahkan matriks bentuk (m, n) ke vektor panjang n. Penyiaran memungkinkan operasi ini dengan memperluas vektor sepanjang n ke matriks berbentuk (m,n) secara virtual dengan mereplikasi nilai yang sama di setiap kolom.

Misalnya, dengan definisi berikut, aljabar linear melarang A+B karena A dan B memiliki dimensi yang berbeda:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Namun, penyiaran memungkinkan operasi A+B dengan memperluas B secara virtual ke:

 [[2, 2, 2],
  [2, 2, 2]]

Dengan demikian, kini A+B merupakan operasi yang valid:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Lihat deskripsi berikut tentang penyiaran di NumPy untuk detail selengkapnya.

pengelompokan

#fundamentals

Mengonversi satu fitur menjadi beberapa fitur biner yang disebut bucket atau bin, biasanya berdasarkan rentang nilai. Fitur cincang biasanya adalah fitur berkelanjutan.

Misalnya, alih-alih merepresentasikan suhu sebagai satu fitur floating point berkelanjutan, Anda dapat memotong rentang suhu menjadi bucket terpisah, seperti:

  • <= 10 derajat Celsius akan menjadi "dingin" direktori VM dengan bucket.
  • 11 - 24 derajat Celsius akan menjadi "sedang" direktori VM dengan bucket.
  • >= 25 derajat Celsius akan menjadi bucket "hangat".

Model akan memperlakukan setiap nilai dalam bucket yang sama secara identik. Misalnya, nilai 13 dan 22 berada dalam bucket sedang, sehingga model memperlakukan kedua nilai tersebut secara identik.

Lihat Data numerik: Pengelompokan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

C

lapisan kalibrasi

Penyesuaian pascaprediksi, biasanya untuk memperhitungkan bias prediksi. Prediksi dan probabilitas yang disesuaikan harus cocok dengan distribusi set label yang diamati.

pembuatan kandidat

#recsystems

Serangkaian rekomendasi awal yang dipilih oleh sistem rekomendasi. Misalnya, pertimbangkan toko buku yang menawarkan 100.000 judul. Fase pembuatan kandidat membuat daftar buku yang sesuai untuk pengguna tertentu yang jauh lebih kecil, misalnya 500. Tapi bahkan 500 buku terlalu banyak untuk direkomendasikan kepada pengguna. Fase berikutnya dari sistem rekomendasi yang lebih mahal (seperti pemberian skor dan pemeringkatan ulang) akan mengurangi 500 rekomendasi tersebut menjadi kumpulan rekomendasi yang jauh lebih kecil dan lebih berguna.

Lihat Pembuatan kandidat ringkasan dalam kursus Sistem Rekomendasi untuk mendapatkan informasi lebih lanjut.

sampling kandidat

Pengoptimalan waktu pelatihan yang menghitung probabilitas untuk semua label positif, menggunakan, misalnya, softmax, tetapi hanya untuk sampel label negatif acak. Misalnya, dengan contoh berlabel anjing pemburu dan anjing, sampling kandidat akan menghitung probabilitas yang diprediksi dan istilah kerugian yang sesuai untuk:

  • beagle
  • subset acak dari class negatif yang tersisa (misalnya cat, lollipop, pagar).

Idenya adalah bahwa kelas negatif dapat belajar dari kelompok yang lebih jarang penguatan negatif selama kelas positif selalu mendapatkan positif yang tepat penguatan, dan hal ini memang diamati secara empiris.

Sampling kandidat lebih efisien secara komputasi daripada algoritma pelatihan yang menghitung prediksi untuk semua class negatif, terutama ketika jumlah kelas negatif sangat besar.

data kategorik

#fundamentals

Fitur yang memiliki kumpulan kemungkinan nilai tertentu. Misalnya, pertimbangkan fitur kategoris bernama traffic-light-state, yang hanya dapat memiliki salah satu dari tiga kemungkinan nilai berikut:

  • red
  • yellow
  • green

Dengan merepresentasikan traffic-light-state sebagai fitur kategoris, model dapat mempelajari dampak yang berbeda dari red, green, dan yellow terhadap perilaku pengemudi.

Fitur kategorik terkadang disebut fitur diskrit.

Berbeda dengan data numerik.

Lihat Bekerja dengan data kategoris di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model bahasa kausal

#language

Sinonim dari model bahasa searah.

Lihat model bahasa dua arah untuk membandingkan berbagai pendekatan arah dalam pemodelan bahasa.

sentroid

#clustering

Pusat cluster seperti yang ditentukan oleh k-means atau algoritma k-median. Misalnya, jika k adalah 3, maka algoritma k-means atau k-median akan menemukan 3 sentroid.

Lihat Algoritma pengelompokan di materi Pengelompokan untuk informasi lebih lanjut.

pengelompokan berbasis sentroid

#clustering

Kategori algoritma pengelompokan yang mengatur data menjadi kelompok-kelompok non-hierarki. k-means adalah model menggunakan algoritma pengelompokan berbasis sentroid.

Berbeda dengan pengelompokan hierarkis algoritme.

Lihat Algoritma pengelompokan di materi Pengelompokan untuk informasi lebih lanjut.

prompting chain-of-thinkt

#language
#generativeAI

Teknik prompt engineering yang mendorong model bahasa besar (LLM) untuk menjelaskan pemikirannya, langkah demi langkah. Misalnya, pertimbangkan perintah berikut, dengan memperhatikan kalimat kedua secara khusus:

Berapa gaya g yang akan dialami pengemudi dalam mobil yang melaju dari 0 hingga 60 mil per jam dalam 7 detik? Dalam jawaban, tampilkan semua penghitungan yang relevan.

Respons LLM kemungkinan akan:

  • Tampilkan urutan formula fisika, dengan memasukkan nilai 0, 60, dan 7 di tempat yang sesuai.
  • Menjelaskan mengapa ia memilih formula tersebut dan apa arti berbagai variabelnya.

Rantai pikiran yang mendorong LLM untuk melakukan semua perhitungan, yang mungkin mengarah pada jawaban yang lebih benar. Selain itu, perintah chain-of-thought memungkinkan pengguna memeriksa langkah-langkah LLM untuk menentukan apakah jawaban tersebut masuk akal atau tidak.

chat

#language
#generativeAI

Konten dialog bolak-balik dengan sistem ML, biasanya model bahasa besar. Interaksi sebelumnya dalam chat (apa yang Anda ketik dan bagaimana model bahasa besar merespons) menjadi konteks untuk bagian selanjutnya dari percakapan tersebut.

Chatbot adalah penerapan model bahasa besar.

pos pemeriksaan

Data yang merekam status parameter model selama pelatihan atau setelah pelatihan selesai. Misalnya, selama pelatihan, Anda dapat:

  1. Hentikan pelatihan, mungkin sengaja atau mungkin akibat error tertentu.
  2. Ambil checkpoint.
  3. Kemudian, muat ulang checkpoint, mungkin di hardware lain.
  4. Mulai ulang pelatihan.

class

#fundamentals

Kategori yang dapat menjadi bagian dari label. Contoh:

  • Dalam model klasifikasi biner yang mendeteksi spam, kedua kelas tersebut mungkin adalah spam dan bukan spam.
  • Dalam model klasifikasi kelas multi-class yang mengidentifikasi jenis, kelasnya mungkin adalah pudel, beagle, pesa, dan seterusnya.

Model klasifikasi memprediksi class. Sebaliknya, model regresi memprediksi jumlah bukan class.

Lihat Klasifikasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model klasifikasi

#fundamentals

Model yang prediksinya adalah class. Misalnya, berikut ini adalah semua model klasifikasi:

  • Model yang memprediksi bahasa kalimat input (bahasa Prancis? Spanyol? Italia?).
  • Model yang memprediksi spesies pohon (Maple? Ek? Baobab?).
  • Model yang memprediksi kelas positif atau negatif untuk kondisi medis tertentu.

Sebaliknya, model regresi memprediksi angka, bukan class.

Dua jenis model klasifikasi yang umum adalah:

nilai minimum klasifikasi

#fundamentals

Dalam klasifikasi biner, angka antara 0 dan 1 yang mengonversi output mentah dari model regresi logistik menjadi prediksi kelas positif atau kelas negatif. Perhatikan bahwa ambang batas klasifikasi adalah nilai yang dipilih manusia, bukan nilai yang dipilih oleh pelatihan model.

Model regresi logistik menghasilkan nilai mentah antara 0 dan 1. Lalu:

  • Jika nilai mentah ini lebih besar dari nilai minimum klasifikasi, class positif akan diprediksi.
  • Jika nilai mentah ini kurang dari batas klasifikasi, maka kelas negatif diprediksi.

Misalnya, batas klasifikasi adalah 0,8. Jika nilai mentah adalah 0,9, model akan memprediksi kelas positif. Jika nilai mentahnya adalah 0,7, maka model ini memprediksi kelas negatif.

Pilihan nilai minimum klasifikasi sangat memengaruhi jumlah positif palsu dan negatif palsu.

Lihat Batas dan tingkat kebingungan matriks di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

set data kelas tidak seimbang

#fundamentals

{i>Dataset<i} untuk masalah klasifikasi di mana jumlah total label di setiap class berbeda secara signifikan. Sebagai contoh, pertimbangkan {i>dataset<i} klasifikasi biner yang memiliki dua label dibagi sebagai berikut:

  • 1.000.000 label negatif
  • 10 label positif

Rasio label negatif terhadap positif adalah 100.000 banding 1, sehingga ini adalah set data kelas tidak seimbang.

Sebaliknya, set data berikut tidak tidak seimbang karena rasio label negatif terhadap label positif relatif mendekati 1:

  • 517 label negatif
  • 483 label positif

Set data multi-class juga dapat bersifat tidak seimbang. Misalnya, set data klasifikasi multi-kelas juga tidak seimbang karena satu label memiliki lebih banyak contoh daripada dua lainnya:

  • 1.000.000 label dengan kelas "hijau"
  • 200 label dengan class "purple"
  • 350 label dengan kelas "oranye"

Lihat juga entropi, class mayoritas, dan class minoritas.

pemangkasan

#fundamentals

Teknik untuk menangani outlier dengan melakukan salah satu atau kedua hal berikut:

  • Mengurangi nilai feature yang lebih besar dari nilai minimum maksimum hingga nilai minimum maksimum tersebut.
  • Meningkatkan nilai fitur yang kurang dari nilai minimum hingga ke nilai tersebut dan batas minimum.

Misalnya, anggaplah <0,5% nilai untuk fitur tertentu jatuh di luar rentang 40–60. Dalam hal ini, Anda dapat melakukan hal berikut:

  • Pangkas semua nilai di atas 60 (nilai minimum maksimum) menjadi tepat 60.
  • Potong semua nilai di bawah 40 (batas minimum) menjadi tepat 40.

Pencilan dapat merusak model, terkadang menyebabkan bobot yang berlebih selama pelatihan. Beberapa outlier juga dapat merusak metrik seperti akurasi secara drastis. Pemangkasan adalah teknik umum untuk membatasi kerusakan.

Pemangkasan gradien gaya nilai gradien dalam rentang yang ditentukan selama pelatihan.

Lihat Data numerik: Normalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Cloud TPU

#TensorFlow
#GoogleCloud

Akselerator hardware khusus yang dirancang untuk mempercepat beban kerja machine learning di Google Cloud.

{i>clustering<i} (pengelompokan)

#clustering

Mengelompokkan contoh terkait, terutama selama unsupervised learning. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan arti pada setiap cluster.

Ada banyak algoritma pengelompokan. Misalnya, algoritma k-means mengelompokkan contoh berdasarkan kedekatannya dengan sentroid, seperti pada diagram berikut:

Grafik dua dimensi di mana sumbu x diberi label lebar pohon,
          dan sumbu y diberi label 
tinggi pohon. Grafik ini berisi dua
          sentroid dan beberapa lusin titik data. Titik data
          dikategorikan berdasarkan kedekatannya. Yaitu, titik-titik data
          yang terdekat dengan satu sentroid dikategorikan sebagai klaster 1, sedangkan
          yang terdekat dengan sentroid lain dikategorikan sebagai klaster 2.

Kemudian peneliti manusia dapat meninjau cluster dan, misalnya, memberi label cluster 1 sebagai "pohon kerdil" dan cluster 2 sebagai "pohon berukuran normal".

Sebagai contoh lain, pertimbangkan algoritma pengklasteran berdasarkan jarak contoh dari titik tengah, diilustrasikan sebagai berikut:

Puluhan titik data disusun dalam lingkaran konsentris, hampir
          seperti lubang di sekitar pusat papan dart. Lingkaran terdalam
          titik data dikategorikan sebagai klaster 1, cincin tengah
          dikategorikan sebagai klaster 2, dan cincin terluar sebagai
          klaster 3.

Lihat Materi Clustering untuk mengetahui informasi selengkapnya.

adaptasi bersama

Saat neuron memprediksi pola dalam data pelatihan dengan mengandalkan hampir secara eksklusif pada {i>output <i}dari neuron lain yang spesifik daripada mengandalkan perilaku jaringan secara keseluruhan. Jika pola yang menyebabkan adaptasi bersama tidak ada dalam data validasi, adaptasi bersama akan menyebabkan overfitting. Regularisasi dengan pelarian mengurangi adaptasi bersama karena dropout memastikan neuron tidak bisa hanya mengandalkan neuron spesifik lain.

pemfilteran kolaboratif

#recsystems

Membuat prediksi tentang minat satu pengguna berdasarkan minat dari banyak pengguna lainnya. Pemfilteran kolaboratif sering digunakan dalam sistem rekomendasi.

Lihat Pemfilteran kolaboratif dalam kursus Sistem Rekomendasi untuk mengetahui informasi selengkapnya.

penyimpangan konsep

Pergeseran hubungan antara fitur dan label. Seiring waktu, penyimpangan konsep akan mengurangi kualitas model.

Selama pelatihan, model mempelajari hubungan antara fitur dan labelnya dalam set pelatihan. Jika label dalam set pelatihan proxy yang baik untuk dunia nyata, maka model harus dapat berfungsi berbagai prediksi di dunia nyata. Namun, karena penyimpangan konsep, model prediksi cenderung menurun dari waktu ke waktu.

Sebagai contoh, pertimbangkan klasifikasi biner yang memprediksi apakah model mobil tertentu "hemat bahan bakar" atau tidak. Artinya, fitur tersebut dapat berupa:

  • berat mobil
  • kompresi mesin
  • jenis transmisi

sedangkan labelnya adalah:

  • hemat bahan bakar
  • tidak hemat bahan bakar

Namun, konsep “mobil hemat bahan bakar” menyimpan berganti. Sebuah model mobil berlabel hemat bahan bakar pada tahun 1994 hampir dapat dipastikan berlabel tidak hemat bahan bakar pada tahun 2024. Model yang mengalami penyimpangan konsep cenderung membuat prediksi yang kurang dan kurang berguna dari waktu ke waktu.

Bandingkan dan bedakan dengan non-stasioneritas.

kondisi

#df

Dalam hierarki keputusan, setiap node yang mengevaluasi ekspresi. Misalnya, bagian berikut dari hierarki keputusan berisi dua kondisi:

Pohon keputusan yang terdiri dari dua kondisi: (x > 0) dan
          (y > 0).

Kondisi juga disebut pemisahan atau pengujian.

Kondisi kontras dengan daun.

Lihat juga:

Lihat Jenis kondisi di kursus Decision Forests untuk mengetahui informasi selengkapnya.

konfabulasi

#language

Sinonim dari halusinasi.

Konfabulasi mungkin merupakan istilah yang lebih akurat secara teknis daripada halusinasi. Namun, halusinasi menjadi populer terlebih dahulu.

konfigurasi

Proses penetapan nilai properti awal yang digunakan untuk melatih model, termasuk:

Dalam project machine learning, konfigurasi dapat dilakukan melalui file konfigurasi atau menggunakan library konfigurasi seperti berikut:

bias konfirmasi

#fairness

Kecenderungan untuk mencari, menafsirkan, mendukung, dan mengingat informasi dengan cara yang mengonfirmasi keyakinan atau hipotesis yang sudah ada sebelumnya. Developer machine learning mungkin secara tidak sengaja mengumpulkan atau memberi label data dengan cara yang memengaruhi hasil yang mendukung keberadaan mereka kepercayaan. Bias konfirmasi adalah bentuk dari bias implisit.

Bias pelaku eksperimen adalah bentuk bias konfirmasi yang mana pelaku eksperimen terus melatih model hingga hipotesis dikonfirmasi.

matriks konfusi

#fundamentals

Tabel NxN yang berisi ringkasan jumlah prediksi yang benar dan salah yang dibuat oleh model klasifikasi. Misalnya, pertimbangkan matriks konfusi berikut untuk Model klasifikasi biner:

Tumor (diprediksi) Bukan Tumor (diprediksi)
Tumor (kebenaran nyata) 18 (PB) 1 (NP)
Non-Tumor (kebenaran nyata) 6 (FP) 452 (TN)

Matriks konfusi sebelumnya menunjukkan hal berikut:

  • Dari 19 prediksi yang kebenaran dasar-nya adalah Tumor, model dengan benar mengklasifikasikan 18 dan salah diklasifikasikan dengan 1.
  • Dari 458 prediksi dengan kebenaran dasar Non-Tumor, model mengklasifikasikan 452 dengan benar dan salah mengklasifikasikan 6.

Matriks konfusi untuk klasifikasi kelas multi-class masalah dapat membantu Anda mengidentifikasi pola kesalahan. Misalnya, pertimbangkan matriks kebingungan berikut untuk model klasifikasi multi-class 3 kelas yang mengategorikan tiga jenis iris yang berbeda (Virginica, Versicolor, dan Setosa). Ketika kebenaran dasar adalah Virginica, matriks konfusi menunjukkan bahwa model ini jauh lebih mungkin untuk keliru memprediksi Versicolor daripada Setosa:

  Setosa (diprediksi) Versicolor (diprediksi) Virginica (diprediksi)
Setosa (kebenaran dasar) 88 12 0
Versicolor (kebenaran nyata) 6 141 7
Virginica (kebenaran dasar) 2 27 109

Sebagai contoh lain, matriks konflik dapat mengungkapkan bahwa model yang dilatih untuk mengenali digit tulisan tangan cenderung salah memprediksi 9 bukannya 4, atau salah memprediksi 1 bukannya 7.

Matriks kebingungan berisi informasi yang memadai untuk menghitung berbagai metrik performa, termasuk presisi dan recall.

penguraian konstituensi

#language

Membagi kalimat menjadi struktur tata bahasa yang lebih kecil ("konstituen"). Bagian selanjutnya dari sistem ML, seperti natural language understanding, dapat mengurai konstituen dengan lebih mudah daripada kalimat aslinya. Misalnya, pertimbangkan kalimat berikut:

Teman saya mengadopsi dua ekor kucing.

Parser konstituensi dapat membagi kalimat ini menjadi beberapa dua konstituen:

  • Teman saya adalah frasa nomina.
  • adopted two cats adalah frasa kata kerja.

Konstituen ini dapat dibagi lagi menjadi konstituen yang lebih kecil. Misalnya, frasa kata kerja

mengadopsi dua kucing

dapat dibagi lebih lanjut menjadi:

  • adopted adalah kata kerja.
  • two cats adalah frasa nomina lainnya.

penyematan bahasa yang dikontekstualisasikan

#language
#generativeAI

Embedding yang mendekati "pemahaman" kata dan frasa dengan cara yang dapat dilakukan penutur asli. Penyematan bahasa kontekstual dapat memahami sintaksis, semantik, dan konteks yang kompleks.

Misalnya, pertimbangkan penyematan kata bahasa Inggris cow. Penyematan lama seperti word2vec dapat merepresentasikan kata-kata bahasa Inggris sehingga jarak dalam ruang penyematan dari cow ke bull mirip dengan jarak dari ewe (domba betina) ke ram (domba jantan) atau dari female ke male. Penyematan bahasa yang dikontekstualisasikan dapat melangkah lebih jauh dengan mengenali bahwa penutur bahasa Inggris terkadang menggunakan kata cow secara santai untuk merujuk pada sapi atau banteng.

jendela konteks

#language
#generativeAI

Jumlah token yang dapat diproses model dalam perintah. Makin besar jendela konteks, makin banyak informasi yang dapat digunakan model untuk memberikan respons yang koheren dan konsisten kepada perintah.

fitur berkelanjutan

#fundamentals

Fitur floating point dengan rentang kemungkinan yang tak terbatas nilai, seperti suhu atau berat.

Berbeda dengan fitur diskrit.

sampling praktis

Menggunakan {i>dataset<i} yang tidak dikumpulkan secara ilmiah untuk dijalankan dengan cepat eksperimen. Pada tahapan eksperimen yang lebih dalam, gunakanlah set data yang dikumpulkan secara ilmiah.

konvergensi

#fundamentals

Status yang dicapai saat nilai loss sangat sedikit berubah atau tidak sama sekali di setiap iterasi. Misalnya, kurva kerugian berikut menunjukkan konvergensi pada sekitar 700 iterasi:

Plot Kartesius. Sumbu X adalah kerugian. Sumbu y adalah jumlah iterasi
          pelatihan. Kerugian sangat tinggi selama beberapa iterasi pertama, tetapi menurun drastis. Setelah sekitar 100 iterasi, kerugian masih
          menurun tetapi secara bertahap. Setelah sekitar 700 iterasi,
          kerugian tetap datar.

Model konvergensi ketika pelatihan tambahan tidak dapat dilakukan memperbaiki model.

Dalam deep learning, nilai kerugian terkadang tetap konstan atau hampir seluruh iterasi sebelum akhirnya menurun. Selama jangka waktu yang lama nilai kerugian yang konstan, untuk sementara waktu Anda mungkin mendapatkan pemahaman palsu tentang konvergensi.

Lihat juga penghentian awal.

Lihat Kurva konvergensi dan loss model di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fungsi konveks

Sebuah {i>function<i} di mana wilayah di atas grafik dari {i>function<i} tersebut adalah kumpulan konveks. Fungsi konveks prototipe{i> <i}adalah berbentuk seperti huruf U. Misalnya, berikut adalah semua fungsi konveks:

Kurva berbentuk U, masing-masing dengan satu titik minimum.

Sebaliknya, fungsi berikut bukan konveks. Perhatikan bagaimana wilayah di atas grafik yang bukan himpunan konveks:

Kurva berbentuk huruf W dengan dua titik minimum lokal yang berbeda.

Fungsi konveks tegas memiliki tepat satu titik minimum lokal, yang juga merupakan titik minimum global. Fungsi berbentuk U klasik adalah fungsi konveks. Namun, beberapa fungsi konveks (misalnya, garis lurus) tidak berbentuk U.

Lihat Konvergensi dan konveks fungsi-fungsi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pengoptimalan konveks

Proses menggunakan teknik matematika seperti penurunan gradien untuk menemukan nilai minimum fungsi konveks. Banyak riset dalam machine learning telah berfokus pada perumusan berbagai masalah sebagai masalah pengoptimalan konveks dan dalam pemecahan masalah tersebut secara lebih efisien.

Untuk detail selengkapnya, lihat Boyd dan Vandenberghe, Convex Pengoptimalan.

himpunan konveks

Suatu {i>subset<i} dari ruang Euclidean sedemikian rupa sehingga garis yang digambar di antara dua titik dalam {i>subset<i} tetap berada sepenuhnya dalam {i>subset<i} tersebut. Misalnya, dua hal berikut bentuk adalah himpunan cembung:

Salah satu ilustrasi persegi panjang. Ilustrasi oval lainnya.

Sebaliknya, dua bentuk berikut bukan merupakan kumpulan cembung:

Satu ilustrasi diagram lingkaran dengan satu bagian yang hilang.
          Ilustrasi lain dari poligon yang sangat tidak beraturan.

konvolusi

#image

Dalam matematika, berbicara santai, campuran dari dua fungsi. Dalam machine learning, konvolusi mencampur filter konvolusi dan matriks input untuk melatih bobot.

Istilah "konvolusi" dalam machine learning sering kali merupakan cara singkat untuk mengacu pada operasi konvolusi atau lapisan konvolusi.

Tanpa konvolusi, algoritma {i>machine learning<i} harus belajar bobot terpisah untuk setiap sel dalam tensor besar. Misalnya, pelatihan algoritma machine learning pada gambar 2K x 2K akan dipaksa untuk menemukan 4 juta bobot terpisah. Berkat konvolusi, algoritma machine learning hanya harus menemukan bobot untuk setiap sel dalam filter konvolusi, yang secara drastis mengurangi memori yang diperlukan untuk melatih model. Ketika saringan konvolusional diterapkan, maka hanya direplikasi di sel sedemikian rupa sehingga masing-masing oleh filter.

Lihat Memperkenalkan Neural Konvolusional Jaringan di kursus Klasifikasi Gambar untuk informasi lebih lanjut.

filter konvolusi

#image

Salah satu dari dua komponen dalam operasi konvolusi. (Aktor lainnya adalah slice matriks input.) Filter konvolusi adalah matriks yang memiliki urutan yang sama dengan matriks input, tetapi bentuknya lebih kecil. Misalnya, dengan matriks input 28x28, filter dapat berupa matriks 2D yang lebih kecil dari 28x28.

Dalam manipulasi fotografi, semua sel dalam saringan konvolusional yang biasanya diatur dengan pola satu dan nol yang konstan. Dalam machine learning, filter konvolusi biasanya diisi dengan angka acak, lalu jaringan melatih nilai ideal.

Lihat Konvolusi dalam kursus Klasifikasi Gambar untuk mengetahui informasi selengkapnya.

lapisan konvolusi

#image

Lapisan jaringan neural dalam tempat filter konvolusi diteruskan di sepanjang matriks input. Misalnya, pertimbangkan filter konvolusi 3x3 berikut:

Matriks 3x3 dengan nilai berikut: [[0,1,0], [1,0,1], [0,1,0]]

Animasi berikut menunjukkan lapisan konvolusional yang terdiri dari 9 operasi konvolusional yang melibatkan matriks input 5x5. Perhatikan bahwa setiap operasi konvolusional bekerja pada potongan 3 x 3 dari matriks input. Matriks 3x3 yang dihasilkan (di sebelah kanan) terdiri dari hasil 9 operasi konvolusi:

Animasi yang menampilkan dua matriks. Matriks pertama adalah matriks 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          Matriks kedua adalah matriks 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          Matriks kedua dihitung dengan menerapkan filter konvolusi [[0, 1, 0], [1, 0, 1], [0, 1, 0]] di seluruh subkumpulan 3x3 yang berbeda dari matriks 5x5.

Lihat Tersambung Sepenuhnya Lapisan di kursus Klasifikasi Gambar untuk informasi lebih lanjut.

jaringan neural konvolusional

#image

Jaringan neural yang setidaknya satu lapisannya adalah lapisan konvolusi. Jaringan saraf konvolusi umum terdiri dari beberapa kombinasi lapisan berikut:

Jaringan neural konvolusional telah memiliki keberhasilan besar dalam jenis masalah, seperti pengenalan citra.

operasi konvolusi

#image

Operasi matematika dua langkah berikut:

  1. Perkalian berbasis elemen dari filter konvolusi dan potongan dari matriks input. (Potongan matriks input memiliki peringkat dan ukuran yang sama dengan filter konvolusi.)
  2. Penjumlahan semua nilai dalam matriks produk yang dihasilkan.

Misalnya, pertimbangkan matriks input 5x5 berikut:

Matriks 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195.179], [31,40,100,192,177]].

Sekarang bayangkan saringan konvolusional 2x2 berikut:

Matriks 2x2: [[1, 0], [0, 1]]

Setiap operasi konvolusi melibatkan satu slice 2x2 dari matriks input. Misalnya, kita menggunakan potongan 2x2 pada kiri atas matriks input. Jadi, operasi konvolusi pada irisan ini terlihat seperti berikut:

Menerapkan filter convolutional [[1, 0], [0, 1]] ke bagian 2x2 kiri atas
          matriks input, yaitu [[128,97], [35,22]].
          Filter konvolusi membiarkan 128 dan 22 tetap utuh, tetapi meniadakan
          97 dan 35. Akibatnya, operasi konvolusi menghasilkan
          nilai 150 (128+22).

Lapisan konvolusional terdiri dari lapisan serangkaian operasi konvolusional, masing-masing bekerja pada irisan yang berbeda matriks input.

biaya

Sinonim dari kerugian.

pelatihan bersama

Pendekatan semi-supervised learning sangat berguna saat semua kondisi berikut terpenuhi:

Co-training pada dasarnya memperkuat sinyal independen menjadi sinyal yang lebih kuat. Misalnya, pertimbangkan model klasifikasi yang mengategorikan setiap mobil bekas sebagai Baik atau Buruk. Satu kumpulan fitur prediktif dapat berfokus pada karakteristik gabungan seperti tahun, merek, dan model mobil; kumpulan fitur prediktif lainnya dapat berfokus pada catatan mengemudi pemilik sebelumnya dan histori pemeliharaan mobil.

Makalah penting tentang pelatihan bersama adalah Combining Labeled and Unlabeled Data with Co-Training oleh Blum dan Mitchell.

keadilan kontrafaktual

#fairness

Metrik keadilan yang memeriksa apakah pengklasifikasi menghasilkan hasil yang sama untuk satu individu seperti yang dilakukan untuk individu lain yang identik dengan yang pertama, kecuali sehubungan dengan satu atau beberapa atribut sensitif. Mengevaluasi pengklasifikasi untuk keadilan kontrafaktual adalah salah satu metode untuk mengungkapkan sumber potensial bias dalam model.

Lihat salah satu dari yang berikut ini untuk informasi selengkapnya:

bias cakupan

#fairness

Lihat bias seleksi.

bunga tabrakan

#language

Kalimat atau frasa dengan makna yang ambigu. Frasa ambigu menghadirkan masalah yang signifikan dalam natural language understanding. Misalnya, judul Pita Merah Menahan Pilar adalah {i>error blossom<i} karena model NLU dapat menafsirkan judul secara harfiah atau secara kiasan.

kritikus

#rl

Sinonim dari Deep Q-Network.

entropi silang

Generalisasi Log Loss untuk masalah klasifikasi multi-class. Entropi silang mengukur perbedaan antara dua distribusi probabilitas. Lihat juga perpleksitas.

validasi silang

Mekanisme untuk memperkirakan seberapa baik model akan digeneralisasi untuk data baru dengan menguji model terhadap satu atau beberapa subkumpulan data yang tidak tumpang-tindih yang ditahan dari set pelatihan.

fungsi distribusi kumulatif (CDF)

Fungsi yang menentukan frekuensi sampel kurang dari atau sama dengan nilai target. Misalnya, pertimbangkan distribusi normal dari nilai kontinu. CDF memberi tahu Anda bahwa sekitar 50% sampel harus kurang dari atau sama dengan nilai rata-rata dan sekitar 84% sampel harus kurang dari atau sama dengan satu deviasi standar di atas nilai rata-rata.

D

analisis data

Mendapatkan pemahaman tentang data dengan mempertimbangkan sampel, pengukuran, dan visualisasi. Analisis data bisa sangat berguna ketika seorang pertama kali diterima, sebelum membuat model pertama. Hal ini juga penting dalam memahami eksperimen dan masalah {i>debugging <i}dengan sistem.

augmentasi data

#image

Secara artifisial meningkatkan rentang dan jumlah Contoh pelatihan dengan mentransformasi contoh untuk membuat contoh tambahan. Misalnya, anggaplah gambar adalah salah satu fitur Anda, tetapi set data Anda tidak berisi contoh gambar yang memadai bagi model untuk mempelajari asosiasi yang berguna. Idealnya, Anda perlu menambahkan cukup gambar berlabel ke set data Anda untuk memungkinkan model Anda dilatih dengan benar. Jika tidak memungkinkan, pengayaan data dapat memutar, meregangkan, dan memantulkan setiap gambar untuk menghasilkan banyak varian gambaran asli, yang mungkin menghasilkan data berlabel yang memadai untuk memungkinkan pelatihan.

DataFrame

#fundamentals

Jenis data pandas yang populer untuk merepresentasikan set data dalam memori.

DataFrame dapat dianalogikan dengan tabel atau {i>spreadsheet<i}. Setiap kolom dari DataFrame memiliki nama ({i>header<i}), dan setiap baris diidentifikasi oleh nomor unik.

Setiap kolom dalam DataFrame terstruktur seperti {i>array 2D<i}, kecuali bahwa setiap kolom dapat diberi tipe datanya sendiri.

Lihat juga halaman referensi pandas.DataFrame resmi.

paralelisme data

Cara menskalakan pelatihan atau inferensi yang mereplikasi seluruh model ke beberapa perangkat dan kemudian meneruskan {i>subset<i} data input ke setiap perangkat. Paralelisme data dapat memungkinkan pelatihan dan inferensi pada data yang sangat besar ukuran tumpukan; Namun, paralelisme data mengharuskan menjadi cukup kecil untuk muat di semua perangkat.

Paralelisme data biasanya mempercepat pelatihan dan inferensi.

Lihat juga paralelisme model.

kumpulan data atau set data (data set atau dataset)

#fundamentals

Kumpulan data mentah, biasanya (tetapi tidak secara eksklusif) diatur dalam salah satu format berikut:

  • spreadsheet
  • file dalam format CSV ({i>comma-separated values<i})

Dataset API (tf.data)

#TensorFlow

API TensorFlow tingkat tinggi untuk membaca data dan mengubahnya menjadi bentuk yang diperlukan algoritma machine learning. Objek tf.data.Dataset mewakili urutan elemen, yang mana setiap elemen berisi satu atau beberapa Tensor. Objek tf.data.Iterator memberikan akses ke elemen Dataset.

batas keputusan

Pemisah antara class yang dipelajari oleh model dalam class biner atau masalah klasifikasi kelas multi-kelas. Misalnya, dalam gambar berikut yang merepresentasikan masalah klasifikasi biner, batas keputusannya adalah perbatasan antara kelas berwarna oranye dan kelas berwarna biru:

Batas yang jelas antara satu class dan class lainnya.

hutan keputusan

#df

Model yang dibuat dari beberapa hierarki keputusan. {i>Forest<i} keputusan membuat prediksi dengan menggabungkan prediksi dari pohon keputusannya. Jenis hutan keputusan yang populer antara lain forest acak dan pohon yang ditingkatkan gradien.

Lihat Keputusan Hutan di kursus Pengambilan Keputusan Hutan untuk informasi selengkapnya.

nilai minimum keputusan

Sinonim dari batas klasifikasi.

pohon keputusan

#df

Model supervised learning yang terdiri dari serangkaian conditions dan leaf diatur secara hierarkis. Misalnya, berikut adalah pohon keputusan:

Pohon keputusan yang terdiri dari 
empat kondisi yang diatur
          secara hierarkis, yang 
menghasilkan lima daun.

decoder

#language

Secara umum, setiap sistem ML yang melakukan konversi dari representasi internal ke representasi yang lebih mentah, jarang, atau eksternal.

Decoder sering kali merupakan komponen dari model yang lebih besar, yang sering kali dipasangkan dengan encoder.

Pada tugas urutan-ke-urutan, decoder dimulai dengan status internal yang dihasilkan encoder untuk memprediksi .

Lihat Transformer untuk mengetahui definisi decoder dalam arsitektur Transformer.

Lihat Model bahasa besar di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model dalam

#fundamentals

Jaringan neural yang berisi lebih dari satu lapisan tersembunyi.

Model dalam juga disebut jaringan neural dalam.

Berbeda dengan model lebar.

yang sangat populer

Sinonim dari model dalam.

Deep Q-Network (DQN)

#rl

Di Q-learning, jaringan neural yang mendalam yang memprediksi fungsi Q.

Critic adalah sinonim untuk Deep Q-Network.

paritas demografi

#fairness

Metrik keadilan yang terpenuhi jika hasil klasifikasi model tidak bergantung pada atribut sensitif tertentu.

Misalnya, jika Lilliputian dan Brobdingnagian mendaftar ke Universitas Glubbdubdrib, paritas demografis akan tercapai jika persentase Lilliputian yang diterima sama dengan persentase Brobdingnagian yang diterima, terlepas dari apakah satu kelompok rata-rata lebih memenuhi syarat daripada kelompok lainnya.

Berbeda dengan peluang yang disamakan dan kesetaraan peluang, yang memungkinkan hasil klasifikasi secara agregat bergantung pada atribut sensitif, tetapi tidak mengizinkan hasil klasifikasi untuk label kebenaran dasar agar bergantung pada atribut sensitif. Lihat "Menerangi diskriminasi dengan machine learning yang lebih cerdas" untuk visualisasi mengeksplorasi konsekuensi saat mengoptimalkan paritas demografis.

Lihat Keadilan: demografi paritas di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

penghilang kebisingan

#language

Pendekatan umum untuk self-supervised learning dalam hal ini:

  1. Derau ditambahkan secara artifisial ke set data.
  2. Model mencoba menghapus derau.

Pembersihan derau memungkinkan pembelajaran dari contoh tanpa label. Set data asli berfungsi sebagai target atau label dan data berisi derau sebagai input.

Beberapa model bahasa yang disamarkan menggunakan penghilang noise sebagai berikut:

  1. Derau ditambahkan secara artifisial ke kalimat yang tidak berlabel dengan menyamarkan beberapa token.
  2. Model mencoba memprediksi token asli.

fitur padat

#fundamentals

Fitur yang sebagian besar atau semua nilainya bukan nol, biasanya Tensor yang terdiri dari nilai floating point. Misalnya, Matriks 10 elemen berikut rapat karena 9 nilainya bukan nol:

8 3 7 5 2 4 0 4 9 6

Berbeda dengan fitur renggang.

lapisan padat

Sinonim dari lapisan terhubung sepenuhnya.

kedalaman

#fundamentals

Jumlah nilai berikut dalam jaringan neural:

Misalnya, jaringan neural dengan lima lapisan tersembunyi dan satu lapisan keluaran memiliki kedalaman 6.

Perhatikan bahwa lapisan input tidak memengaruhi kedalaman.

jaringan neural konvolusional yang dapat dipisahkan depthwise (sepCNN)

#image

Arsitektur jaringan saraf konvolusi berdasarkan Inception, tetapi modul Inception diganti dengan konvolusi yang dapat dipisahkan secara mendalam. Juga dikenal sebagai Xception.

Konvolusi yang dapat dipisahkan secara mendalam (juga disingkat sebagai konvolusi yang dapat dipisahkan) memfaktorkan konvolusi 3D standar menjadi dua operasi konvolusi terpisah yang lebih efisien secara komputasi: pertama, konvolusi kedalaman, dengan kedalaman 1 (n ✕ n ✕ 1), lalu kedua, konvolusi titik, dengan panjang dan lebar 1 (1 ✕ 1 ✕ n).

Untuk mempelajari lebih lanjut, lihat Xception: Deep Learning dengan Depthwise Separable Konvolusi.

label turunan

Sinonim dari label proxy.

perangkat

#TensorFlow
#GoogleCloud

Istilah yang kelebihan beban dengan dua kemungkinan definisi berikut:

  1. Kategori hardware yang dapat menjalankan sesi TensorFlow, termasuk CPU, GPU, dan TPU.
  2. Saat melatih model ML di chip akselerator (GPU atau TPU), bagian sistem yang benar-benar memanipulasi tensor dan embedding. Perangkat berjalan pada chip akselerator. Sebaliknya, host yang biasanya berjalan pada CPU.

privasi diferensial

Dalam machine learning, pendekatan anonimisasi untuk melindungi data sensitif apa pun (misalnya, informasi pribadi individu) yang disertakan dalam set pelatihan model agar tidak terekspos. Pendekatan ini memastikan bahwa model tidak banyak mempelajari atau mengingat individu tertentu. Hal ini dilakukan dengan mengambil sampel dan menambahkan derau selama pelatihan model untuk mengaburkan setiap titik data, sehingga mengurangi risiko mengekspos data pelatihan sensitif.

Privasi diferensial juga digunakan di luar machine learning. Misalnya, ilmuwan data terkadang menggunakan privasi diferensial untuk melindungi privasi individu saat menghitung statistik penggunaan produk untuk demografi yang berbeda.

pengurangan dimensi

Mengurangi jumlah dimensi yang digunakan untuk mewakili fitur tertentu dalam vektor fitur, biasanya dengan melakukan konversi ke vektor penyematan.

dimensi

Istilah yang berlebihan yang memiliki salah satu definisi berikut:

  • Jumlah tingkat koordinat dalam Tensor. Contoh:

    • Skalar memiliki dimensi nol; misalnya ["Hello"].
    • Vektor memiliki satu dimensi; misalnya [3, 5, 7, 11].
    • Matriks memiliki dua dimensi; misalnya, [[2, 4, 18], [5, 7, 14]]. Anda dapat secara unik menentukan sel tertentu dalam vektor satu dimensi dengan satu koordinat; Anda memerlukan dua koordinat untuk secara unik menentukan sebuah sel dalam matriks dua dimensi.
  • Jumlah entri dalam vektor fitur.

  • Jumlah elemen dalam lapisan embedding.

perintah langsung

#language
#generativeAI

Sinonim dari perintah zero-shot.

fitur diskret

#fundamentals

Fitur dengan serangkaian kemungkinan nilai yang terbatas. Misalnya, fitur yang nilainya hanya boleh hewan, sayuran, atau mineral adalah fitur diskret (atau kategoris).

Berbeda dengan fitur berkelanjutan.

model diskriminatif

Model yang memprediksi label dari himpunan satu atau fitur lainnya. Secara lebih formal, model diskriminatif menentukan probabilitas bersyarat output berdasarkan fitur dan bobot; yaitu:

p(output | features, weights)

Misalnya, model yang memprediksi apakah email adalah spam dari fitur dan bobot adalah model diskriminatif.

Sebagian besar model supervised learning, termasuk klasifikasi dan regresi, merupakan model diskriminatif.

Berbeda dengan model generatif.

diskriminator

Sistem yang menentukan apakah contoh asli atau palsu.

Atau, subsistem dalam jaringan saraf generatif jaringan yang menentukan apakah contoh yang dibuat oleh generator adalah asli atau palsu.

Lihat Discriminator di materi GAN untuk informasi lebih lanjut.

dampak yang berbeda

#fairness

Membuat keputusan tentang orang yang memengaruhi subgrup populasi yang berbeda secara tidak proporsional. Hal ini biasanya mengacu pada situasi saat proses pengambilan keputusan algoritma merugikan atau menguntungkan beberapa subgrup lebih dari yang lain.

Misalnya, algoritma yang menentukan kelayakan Lilliputian untuk pinjaman rumah miniatur cenderung mengklasifikasikan mereka sebagai "tidak memenuhi syarat" jika alamat surat mereka berisi kode pos tertentu. Jika Liliputan Big-Endian lebih cenderung memiliki dengan kode pos ini daripada Little-Endian Lilliputians, maka algoritma ini mungkin menghasilkan dampak yang berbeda.

Berbeda dengan perlakuan yang berbeda, yang berfokus pada perbedaan yang terjadi ketika karakteristik subkelompok adalah input eksplisit untuk proses pengambilan keputusan berbasis algoritma.

perlakuan yang berbeda

#fairness

Memfaktorkan atribut sensitif subjek ke dalam proses pengambilan keputusan algoritme sehingga subgrup orang yang berbeda diperlakukan secara berbeda.

Misalnya, pertimbangkan sebuah algoritma yang menentukan Lilliputians kelayakan untuk mendapatkan kredit pemilikan rumah mini berdasarkan data yang mereka berikan dalam permohonan pinjaman mereka. Jika algoritma menggunakan Afiliasi Lilliputian sebagai Big-Endian atau Little-Endian sebagai input, menerapkan perlakuan yang berbeda di sepanjang dimensi tersebut.

Berbeda dengan dampak yang tidak setara, yang berfokus pada perbedaan dampak sosial dari keputusan algoritma terhadap subgrup, terlepas dari apakah subgrup tersebut merupakan input untuk model.

distilasi

#generativeAI

Proses pengurangan ukuran satu model (dikenal sebagai pengajar) menjadi model yang lebih kecil (disebut siswa) yang mengemulasi prediksi model asli dengan setia mungkin. Distilasi berguna karena model yang lebih kecil memiliki dua manfaat utama dibandingkan model yang lebih besar (pengajar):

  • Waktu inferensi yang lebih cepat
  • Mengurangi penggunaan memori dan energi

Namun, prediksi siswa biasanya tidak sebagus prediksi pengajar.

Distilasi melatih model siswa untuk meminimalkan fungsi loss berdasarkan perbedaan antara output prediksi model siswa dan pengajar.

Bandingkan dan buat perbedaan nyata distilasi dengan istilah berikut:

Lihat LLM: Penyesuaian, distilasi, dan rekayasa prompt di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

distribusi

Frekuensi dan rentang nilai yang berbeda untuk feature atau label. Distribusi menunjukkan seberapa besar kemungkinan nilai tertentu.

Gambar berikut menunjukkan histogram dari dua distribusi yang berbeda:

  • Di sebelah kiri, distribusi kekayaan hukum kekuasaan versus jumlah orang yang memiliki kekayaan tersebut.
  • Di sebelah kanan, distribusi normal tinggi badan versus jumlah orang yang memiliki tinggi badan tersebut.

Dua histogram. Satu histogram menunjukkan distribusi 
hukum kekuatan dengan
          pada sumbu x dan jumlah orang yang memiliki kekayaan tersebut di
          sumbu y. Kebanyakan orang hanya memiliki sedikit kekayaan, dan beberapa orang memiliki
          banyak kekayaan. Histogram lainnya menunjukkan distribusi normal
          dengan tinggi pada sumbu x dan jumlah orang yang memiliki tinggi tersebut
          pada sumbu y. Kebanyakan orang berkumpul di suatu tempat yang dekat dengan nilai rata-rata.

Memahami distribusi setiap fitur dan label dapat membantu Anda menentukan cara untuk menormalisasi nilai dan mendeteksi outlier.

Frasa out of distribution mengacu pada nilai yang tidak muncul dalam set data atau sangat jarang. Misalnya, gambar planet Saturnus akan dianggap keluar dari distribusi untuk {i>dataset <i}yang terdiri dari gambar kucing.

pengelompokan divisif

#clustering

Lihat pengelompokan hierarkis.

pengurangan sampel

#image

Istilah yang memiliki lebih dari satu makna:

  • Mengurangi jumlah informasi dalam fitur dalam untuk melatih model dengan lebih efisien. Misalnya, sebelum melatih model pengenalan citra, pengurangan sampel resolusi tinggi gambar ke format resolusi yang lebih rendah.
  • Melatih contoh class yang terlalu banyak direpresentasikan dengan persentase rendah dan tidak proporsional untuk meningkatkan pelatihan model pada class yang kurang direpresentasikan. Misalnya, dalam set data yang tidak seimbang berdasarkan class, model cenderung mempelajari banyak hal tentang class mayoritas dan tidak cukup mempelajari class minoritas. Downsampling membantu menyeimbangkan jumlah pelatihan pada kelas mayoritas dan minoritas.

Lihat Set data: Set data tidak seimbang di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

DQN

#rl

Singkatan dari Deep Q-Network.

regularisasi dengan pelolosan

Bentuk regulasi yang berguna dalam melatih jaringan saraf. Regularisasi dengan pelolosan menghapus pilihan acak dari unit yang berjumlah tetap dalam lapisan jaringan untuk satu langkah gradien. Semakin banyak unit yang keluar, semakin kuat regularisasi. Hal ini dianalogikan dengan pelatihan jaringan untuk mengemulasi ensemble yang besar secara eksponensial dari jaringan yang lebih kecil. Untuk mengetahui detail selengkapnya, lihat Pelolosan: Cara Sederhana untuk Mencegah Overfitting pada Jaringan Neural.

dinamis

#fundamentals

Sesuatu dilakukan secara sering atau terus-menerus. Istilah dinamis dan online adalah sinonim dari machine learning. Berikut adalah penggunaan umum dinamis dan online di mesin pembelajaran:

  • Model dinamis (atau model online) adalah model yang sering dilatih ulang atau terus-menerus.
  • Pelatihan dinamis (atau pelatihan online) adalah proses pelatihan secara berkala atau berkelanjutan.
  • Inferensi dinamis (atau inferensi online) adalah proses menghasilkan prediksi sesuai permintaan.

model dinamis

#fundamentals

Model yang sering (mungkin bahkan terus-menerus) dilatih ulang. Model dinamis adalah "pembelajar seumur hidup" sehingga terus beradaptasi dengan data yang berkembang. Model dinamis juga dikenal sebagai model online.

Berbeda dengan model statis.

E

eksekusi segera

#TensorFlow

Lingkungan pemrograman TensorFlow tempat operasi langsung dijalankan. Sebaliknya, operasi yang disebut eksekusi grafik tidak berjalan sampai secara eksplisit dievaluasi. Eksekusi segera adalah antarmuka imperatif, seperti kode dalam sebagian besar bahasa pemrograman. Program eksekusi yang bersemangat adalah umumnya jauh lebih mudah untuk di-{i>debug<i} daripada program eksekusi grafik.

penghentian awal

#fundamentals

Metode untuk regularisasi yang melibatkan penghentian pelatihan sebelum kerugian pelatihan selesai menurun. Dalam penghentian awal, Anda sengaja menghentikan pelatihan model saat kerugian pada set data validasi mulai meningkat; yaitu, saat performa generalisasi memburuk.

earth mover's distance (EMD)

Ukuran kesamaan relatif dari dua distribusi. Semakin rendah jarak penggerak bumi, semakin mirip distribusinya.

edit jarak

#language

Pengukuran seberapa mirip dua {i>string<i} teks satu sama lain. Dalam machine learning, edit distance berguna karena mudah dihitung, dan merupakan cara yang efektif untuk membandingkan dua string yang diketahui mirip atau menemukan string yang mirip dengan string tertentu.

Ada beberapa definisi jarak edit, masing-masing menggunakan operasi string yang berbeda. Misalnya, jarak Levenshtein mempertimbangkan operasi penghapusan, penyisipan, dan penggantian yang paling sedikit.

Misalnya, jarak Levenshtein antara kata "hati" dan "dart" adalah 3 karena 3 edit berikut adalah perubahan paling sedikit untuk mengubah satu kata ke yang lain:

  1. heart → deart (ganti "h" dengan "d")
  2. deart → dart (hapus "e")
  3. dart → darts (masukkan "s")

Notasi einsum

Notasi yang efisien untuk menjelaskan cara menggabungkan dua tensor. Tensor-tensor tersebut dikombinasikan dengan mengalikan elemen-elemen dari satu tensor oleh elemen tensor lain, lalu menjumlahkan hasilnya. Notasi Einsum menggunakan simbol untuk mengidentifikasi sumbu setiap tensor, dan simbol yang sama tersebut disusun ulang untuk menentukan bentuk tensor baru yang dihasilkan.

NumPy menyediakan implementasi Einsum umum.

lapisan penyematan

#language
#fundamentals

Lapisan tersembunyi khusus yang dilatih pada fitur kategoris berdimensi tinggi untuk secara bertahap mempelajari vektor embedding dimensi yang lebih rendah. Channel memungkinkan jaringan neural untuk melatih jauh lebih lebih efisien dibandingkan melatih fitur kategorikal berdimensi tinggi.

Misalnya, saat ini Bumi mendukung sekitar 73.000 spesies pohon. Misalkan spesies pohon adalah fitur dalam model Anda, jadi model lapisan input menyertakan vektor one-hot 73.000 elemen yang panjang. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array berisi 73.000 elemen. 6.232 elemen pertama menyimpan nilai
     0. Elemen berikutnya menyimpan nilai 1. Elemen terakhir sebanyak 66.767 menyimpan nilai nol.

Array 73.000 elemen sangat panjang. Jika Anda tidak menambahkan lapisan penyematan ke model, pelatihan akan sangat memakan waktu karena menggandakan 72.999 nol. Mungkin Anda memilih lapisan embedding dari 12 dimensi. Akibatnya, lapisan penyematan akan secara bertahap mempelajari vektor penyematan baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar untuk lapisan penyematan.

Lihat Embedding di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

ruang sematan

#language

Ruang vektor berdimensi d yang menjadi tujuan pemetaan fitur dari ruang vektor berdimensi yang lebih tinggi. Idealnya, ruang embedding berisi struktur yang memberikan hasil matematis yang bermakna; misalnya, dalam ruang embedding yang ideal, penambahan dan pengurangan embedding dapat menyelesaikan tugas analogi kata.

Produk titik dari dua embeddings adalah ukuran kesamaan dari embedding tersebut.

vektor penyematan

#language

Secara garis besar, array bilangan floating point yang diambil dari apa pun lapisan tersembunyi yang mendeskripsikan input ke lapisan tersembunyi tersebut. Sering kali, vektor penyematan adalah array bilangan floating point yang dilatih di lapisan penyematan. Misalnya, lapisan penyematan harus mempelajari vektor penyematan untuk setiap dari 73.000 spesies pohon di Bumi. Mungkin array berikut adalah vektor embedding untuk pohon baobab:

Array yang berisi 12 elemen, masing-masing menyimpan bilangan floating point
          antara 0,0 dan 1,0.

Vektor embedding bukanlah sekumpulan angka acak. Lapisan embedding menentukan nilai-nilai ini melalui pelatihan, mirip dengan cara neural network mempelajari bobot lain selama pelatihan. Setiap elemen array adalah rating beserta beberapa karakteristik spesies pohon. Elemen mana yang mewakili karakteristik spesies pohon? Hal ini sangat sulit ditentukan oleh manusia.

Bagian yang luar biasa secara matematis dari vektor penyematan adalah item yang serupa memiliki kumpulan bilangan floating point yang serupa. Misalnya, jenis pohon yang serupa memiliki kumpulan bilangan floating point yang lebih mirip daripada jenis pohon yang tidak serupa. Kayu merah dan sequoia adalah spesies pohon yang terkait, sehingga mereka akan memiliki kumpulan angka mengambang yang lebih mirip daripada redwood dan pohon kelapa. Angka dalam vektor penyematan akan berubah setiap kali Anda melatih ulang model, meskipun Anda melatih ulang model dengan input yang identik.

fungsi distribusi kumulatif empiris (eCDF atau EDF)

Fungsi distribusi kumulatif berdasarkan pengukuran empiris dari set data nyata. Nilai fungsi di titik mana pun di sepanjang sumbu x adalah fraksi pengamatan dalam set data yang kurang dari atau sama dengan nilai yang ditentukan.

minimalisasi risiko empiris (ERM)

Memilih fungsi yang meminimalkan kerugian pada set pelatihan. Berbeda dengan minimalisasi risiko struktural.

pembuat enkode

#language

Secara umum, setiap sistem ML yang melakukan konversi dari resource mentah, sparse, atau eksternal representasi data menjadi representasi yang lebih terproses, lebih padat, atau lebih internal.

Encoder sering kali merupakan komponen dari model yang lebih besar, yang sering kali dipasangkan dengan decoder. Beberapa Transformer menyambungkan encoder dengan decoder, meskipun Transformer lain hanya menggunakan encoder atau hanya decoder.

Beberapa sistem menggunakan output encoder sebagai input ke jaringan klasifikasi atau regresi.

Dalam tugas urutan ke urutan, encoder mengambil urutan input dan menampilkan status internal (vektor). Kemudian, decoder menggunakan status internal tersebut untuk memprediksi urutan berikutnya.

Lihat Transformer untuk mengetahui definisi encoder dalam arsitektur Transformer.

Lihat LLM: Apa itu model bahasa besar di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

ensemble

Kumpulan model yang dilatih secara independen dan prediksinya dirata-ratakan atau diagregasikan. Dalam banyak kasus, suatu ansambel menghasilkan prediksi dibandingkan model tunggal. Misalnya, hutan acak adalah ansambel yang dibuat dari beberapa pohon keputusan. Perhatikan bahwa tidak semua hutan keputusan adalah ansambel.

Lihat Acak Hutan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

entropi

#df

Dalam teori informasi, deskripsi tentang seberapa tidak dapat diprediksinya distribusi probabilitas. Atau, entropi juga didefinisikan sebagai jumlah informasi yang dimuat setiap contoh. Distribusi memiliki entropi setinggi mungkin jika semua nilai variabel acak sama-sama mungkin.

Entropi kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) memiliki formula berikut:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dalam hal ini:

  • H adalah entropi.
  • p adalah pecahan dari "1" contoh.
  • q adalah pecahan contoh "0". Perhatikan bahwa q = (1 - p)
  • log umumnya adalah log2. Dalam hal ini, unit entropi adalah bit.

Misalnya, anggap saja hal berikut:

  • 100 contoh berisi nilai "1"
  • 300 contoh berisi nilai "0"

Oleh karena itu, nilai entropinya adalah:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per contoh

Kumpulan yang seimbang sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki entropi 1,0 bit per contoh. Saat kumpulan menjadi lebih tidak seimbang, entropinya bergerak menuju 0,0.

Dalam pohon keputusan, entropi membantu merumuskan keuntungan informasi untuk membantu pemisah memilih kondisi selama pertumbuhan pohon keputusan klasifikasi.

Bandingkan entropi dengan:

Entropi sering disebut entropi Shannon.

Lihat Pemisah yang tepat untuk klasifikasi biner dengan angka baru di materi Pengambilan Keputusan Hutan untuk informasi lebih lanjut.

lingkungan

#rl

Dalam reinforcement learning, dunia yang berisi agent dan memungkinkan agen untuk mengamati negara bagian dunia tersebut. Misalnya, dunia yang terwakili bisa berupa permainan seperti catur, atau dunia fisik seperti labirin. Saat agen menerapkan tindakan pada lingkungan, kemudian transisi lingkungan antar status.

episode

#rl

Dalam reinforcement learning, setiap upaya berulang oleh agen untuk mempelajari lingkungan.

epoch

#fundamentals

Pass pelatihan penuh pada seluruh set pelatihan sehingga setiap contoh telah diproses satu kali.

Epoch mewakili iterasi pelatihan N/ukuran batch, dengan N adalah jumlah total contoh.

Misalnya, anggaplah berikut ini:

  • Set data terdiri dari 1.000 contoh.
  • Ukuran tumpukan adalah 50 contoh.

Oleh karena itu, satu epoch memerlukan 20 iterasi:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kebijakan epsilon greedy

#rl

Dalam pembelajaran penguatan, kebijakan yang mengikuti kebijakan acak dengan probabilitas epsilon atau kebijakan serakah. Sebagai contoh, jika epsilon 0.9, maka kebijakan tersebut mengikuti kebijakan acak 90% dari waktu dan kebijakan 10% sepanjang waktu.

Selama episode berturut-turut, algoritma mengurangi nilai epsilon untuk beralih dari mengikuti kebijakan acak ke mengikuti kebijakan rakus. Menurut menggeser kebijakan, agen mula-mula secara acak mengeksplorasi lingkungan dan kemudian mengeksploitasi hasil eksplorasi acak.

kesetaraan peluang

#fairness

Metrik keadilan untuk menilai apakah suatu model memprediksi hasil yang diinginkan dengan sama baik untuk semua nilai atribut sensitif. Dengan kata lain, jika hasil yang diinginkan untuk model adalah kelas positif, sasarannya adalah memastikan rasio positif benar menjadi hal yang sama untuk semua kelompok.

Kesetaraan peluang terkait dengan peluang yang disamakan, yang mengharuskan rasio positif benar dan rasio positif palsu (PP) sama untuk semua kelompok.

Misalkan Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagian ke program matematika yang ketat. Liliput sekolah menengah atas menawarkan kurikulum kelas matematika yang mumpuni, dan sebagian besar siswa memenuhi kualifikasi untuk program universitas. Sekolah menengah Brobdingnag tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswa mereka yang memenuhi syarat. Kesetaraan peluang terpenuhi untuk label pilihan "diterima" sehubungan dengan kewarganegaraan (Lilliputian atau Brobdingnagian) jika siswa yang memenuhi syarat memiliki kemungkinan yang sama untuk diterima, terlepas dari apakah mereka adalah Lilliputian atau Brobdingnagian.

Misalnya, 100 Lilliputian dan 100 Brobdingnagian mendaftar ke Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 1. Pelamar Lilliputian (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 3
Ditolak 45 7
Total 90 10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 7/10 = 70%
Total persentase siswa Lilliputian yang diterima: (45+3)/100 = 48%

 

Tabel 2. Pelamar Brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 9
Ditolak 5 81
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 81/90 = 90%
Total persentase siswa Brobdingnagian yang diterima: (5+9)/100 = 14%

Contoh sebelumnya memenuhi kesetaraan peluang untuk penerimaan siswa yang memenuhi syarat karena Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima.

Meskipun kesetaraan peluang terpenuhi, dua metrik keadilan berikut tidak puas:

  • paritas demografis: Liliput dan Brobdingnagian diterima di universitas dengan tarif yang berbeda; 48% siswa Liliput diterima, tetapi hanya 14% siswa Mahasiswa Brobdingnagian diizinkan.
  • equalized odds: Meskipun siswa Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang yang sama untuk diterima, batasan tambahan bahwa siswa Lilliputian dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang yang sama untuk ditolak tidak terpenuhi. Lilliput yang tidak memenuhi syarat memiliki tingkat penolakan 70%, sedangkan Brobdingnagian yang tidak memenuhi syarat memiliki rasio penolakan 90%.

Lihat Keadilan: Kesetaraan peluang di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

peluang yang disamakan

#fairness

Metrik keadilan untuk menilai apakah model memprediksi hasil dengan sama baiknya untuk semua nilai atribut sensitif sehubungan dengan kelas positif dan kelas negatif—bukan hanya satu kelas atau yang lainnya secara eksklusif. Dengan kata lain, rasio positif benar dan rasio negatif palsu harus sama untuk semua grup.

Peluang yang disamakan terkait dengan kesetaraan peluang, yang hanya berfokus pada rasio error untuk satu class (positif atau negatif).

Misalnya, Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagian ke program matematika yang ketat. Liliput sekunder sekolah menawarkan kurikulum kelas matematika yang tangguh, dan sebagian besar siswa memenuhi kualifikasi untuk program universitas. Sekolah menengah Brobdingnagians tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswa yang memenuhi syarat. Peluang yang sama terpenuhi asalkan tidak memedulikan apakah pelamar adalah Lilliputian atau Brobdingnagian, jika mereka memenuhi syarat, mereka memiliki peluang yang sama untuk diterima ke program, dan jika mereka tidak memenuhi syarat, mereka memiliki peluang yang sama untuk ditolak.

Misalkan 100 Lilliput dan 100 Brobdingnagian berlaku untuk Glubbdubdrib Keputusan terkait universitas dan penerimaan dibuat sebagai berikut:

Tabel 3. Pelamar Liliputan (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 2
Ditolak 45 8
Total 90 10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 8/10 = 80%
Total persentase siswa Lilliputian yang diterima: (45+2)/100 = 47%

 

Tabel 4. Pelamar Brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 18
Ditolak 5 72
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 72/90 = 80%
Total persentase siswa Brobdingnagian yang diterima: (5+18)/100 = 23%

Peluang yang disamakan terpenuhi karena siswa Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima, dan siswa Lilliputian dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang 80% untuk ditolak.

Peluang yang disamakan secara formal ditentukan dalam "Kesetaraan Peluang dalam Pemelajaran Berawas" sebagai berikut: "prediktor Ŷ memenuhi peluang yang disamakan sehubungan dengan atribut A yang dilindungi dan hasil Y jika Ŷ dan A independen, bersyarat pada Y."

Estimator

#TensorFlow

TensorFlow API yang tidak digunakan lagi. Gunakan tf.keras, bukan Estimator.

evals

#language
#generativeAI

Utamanya digunakan sebagai singkatan untuk evaluasi LLM. Secara lebih luas, evals adalah singkatan dari bentuk apa pun dari evaluasi.

evaluasi

#language
#generativeAI

Proses mengukur kualitas model atau membandingkan berbagai model satu sama lain.

Untuk mengevaluasi model machine learning dengan pengawasan, Anda biasanya menilainya berdasarkan set validasi dan set pengujian. Mengevaluasi LLM biasanya melibatkan penilaian kualitas dan keamanan yang lebih luas.

contoh

#fundamentals

Nilai dari satu baris fitur dan mungkin label. Contoh dalam supervised learning terbagi menjadi dua kategori umum:

  • Contoh berlabel terdiri dari satu atau beberapa fitur dan label. Contoh berlabel digunakan selama pelatihan.
  • Contoh tanpa label terdiri dari satu atau beberapa fitur, tetapi tidak memiliki label. Contoh tanpa label digunakan selama inferensi.

Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Berikut adalah tiga contoh berlabel:

Fitur Label
Suhu Kelembapan Tekanan Skor pengujian
15 47 998 Baik
19 34 1020 Luar biasa
18 92 1012 Buruk

Berikut adalah tiga contoh tanpa label:

Suhu Kelembapan Tekanan  
12 62 1014  
21 47 1017  
19 41 1021  

Baris set data biasanya merupakan sumber mentah untuk contoh. Yaitu, sebuah contoh biasanya terdiri dari satu {i>subset <i}kolom dalam {i>dataset <i}tersebut. Selain itu, fitur dalam contoh juga dapat mencakup fitur sintetis, seperti silang fitur.

Lihat Pembelajaran yang Diawasi di kursus Pengantar Machine Learning untuk mendapatkan informasi lebih lanjut.

pemutaran ulang pengalaman

#rl

Dalam reinforcement learning, teknik DQN digunakan untuk mengurangi korelasi temporal dalam data pelatihan. Agen menyimpan transisi status dalam buffering replay, lalu mengambil sampel transisi dari buffer replay untuk membuat data pelatihan.

bias pelaku eksperimen

#fairness

Lihat bias konfirmasi.

masalah gradien meledak

#seq

Kecenderungan gradient di deep neural network (terutama recurrent neural network) menjadi sangat curam (tinggi). Gradien curam sering menyebabkan pembaruan yang sangat besar ke bobot setiap node dalam yang sangat populer.

Model yang mengalami masalah gradien yang meledak menjadi sulit atau tidak mungkin dilatih. Pemangkasan gradien dapat memitigasi masalah ini.

Bandingkan dengan masalah gradien yang menghilang.

F

F1

Metrik klasifikasi biner "gabungan" yang bergantung pada presisi dan recall. Berikut adalah formulanya:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Misalnya, dengan hal berikut:

  • precision = 0.6
  • perolehan = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Jika presisi dan perolehan cukup mirip (seperti dalam contoh sebelumnya), F1 mendekati rata-ratanya. Jika presisi dan recall berbeda secara signifikan, F1 akan lebih mendekati nilai yang lebih rendah. Contoh:

  • precision = 0,9
  • recall = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

batasan keadilan

#fairness
Menerapkan batasan pada algoritma untuk memastikan satu atau lebih definisi keadilan terpenuhi. Contoh batasan keadilan meliputi:

metrik keadilan

#fairness

Definisi matematika "keadilan" yang dapat diukur. Beberapa metrik keadilan yang umum digunakan meliputi:

Banyak metrik keadilan yang saling eksklusif; lihat ketidakcocokan metrik keadilan.

negatif palsu (NP)

#fundamentals

Contoh saat model salah memprediksi kelas negatif. Misalnya, model memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email sebenarnya adalah spam.

rasio negatif palsu

Proporsi contoh positif sebenarnya yang tidak seharusnya oleh model memprediksi kelas negatif. Rumus berikut menghitung rasio negatif palsu:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Lihat Batas dan tingkat kebingungan matriks di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

positif palsu (PP)

#fundamentals

Contoh yang mana model salah memprediksi kelas positif. Misalnya, model ini memprediksi pesan email tertentu adalah spam (kelas positif), tetapi pesan email sebenarnya bukan spam.

Lihat Batas dan tingkat kebingungan matriks di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

rasio positif palsu (FPR)

#fundamentals

Proporsi contoh negatif sebenarnya yang salah diprediksi oleh model sebagai kelas positif. Rumus berikut menghitung rasio positif palsu:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Rasio positif palsu adalah sumbu x dalam kurva KOP.

Lihat Klasifikasi: ROC dan AUC di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fitur

#fundamentals

Variabel input ke model machine learning. Contoh terdiri dari satu atau beberapa fitur. Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Tabel berikut menampilkan tiga contoh, yang masing-masing berisi tiga fitur dan satu label:

Fitur Label
Suhu Kelembapan Tekanan Skor pengujian
15 47 998 92
19 34 1020 84
18 92 1012 87

Berbeda dengan label.

Lihat Pembelajaran yang Diawasi dalam kursus Pengantar Machine Learning untuk mendapatkan informasi lebih lanjut.

persilangan fitur

#fundamentals

Fitur sintetis yang dibentuk dengan "persilangan" fitur kategoris atau bucket.

Misalnya, pertimbangkan "perkiraan suasana hati" yang mewakili suhu di salah satu dari empat kategori berikut:

  • freezing
  • chilly
  • temperate
  • warm

Dan mewakili kecepatan angin di salah satu dari tiga bucket berikut:

  • still
  • light
  • windy

Tanpa persilangan fitur, model linear dilatih secara terpisah pada setiap tujuh bucket sebelumnya. Jadi, model dilatih, misalnya, freezing secara terpisah dari pelatihan pada, misalnya, windy.

Atau, Anda dapat membuat persilangan fitur suhu dan kecepatan angin. Fitur sintetis ini akan memiliki 12 kemungkinan nilai berikut:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Berkat persilangan fitur, model ini dapat mempelajari perbedaan mood antara freezing-windy hari dan freezing-still hari.

Jika Anda membuat fitur sintetis dari dua fitur yang masing-masing memiliki bucket berbeda, persilangan fitur yang dihasilkan akan memiliki jumlah yang besar kombinasi yang mungkin. Misalnya, jika satu fitur memiliki 1.000 bucket dan fitur lainnya memiliki 2.000 bucket, persilangan fitur yang dihasilkan memiliki 2.000.000 bucket.

Secara formal, salib adalah Produk Kartesius.

Persilangan fitur sebagian besar digunakan dengan model linear dan jarang digunakan dengan jaringan neural.

Lihat Data kategoris: Persilangan fitur di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

rekayasa fitur

#fundamentals
#TensorFlow

Proses yang melibatkan langkah-langkah berikut:

  1. Menentukan fitur yang mungkin berguna dalam melatih model.
  2. Mengonversi data mentah dari set data menjadi versi fitur tersebut yang efisien.

Misalnya, Anda mungkin menentukan bahwa temperature mungkin merupakan fitur yang berguna. Kemudian, Anda dapat bereksperimen dengan bucketing untuk mengoptimalkan hal yang dapat dipelajari model dari berbagai rentang temperature.

Rekayasa fitur terkadang disebut ekstraksi fitur atau featurisasi.

Lihat Data numerik: Cara model menyerap data menggunakan fitur vektor di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

ekstraksi fitur

Istilah yang berlebihan yang memiliki salah satu definisi berikut:

tingkat kepentingan fitur

#df

Sinonim dari variabel penting.

set fitur

#fundamentals

Grup fitur machine learning Anda model berlatih. Misalnya, kode pos, ukuran properti, dan kondisi properti mungkin terdiri dari kumpulan fitur sederhana untuk model yang memprediksi harga perumahan.

spesifikasi fitur

#TensorFlow

Menjelaskan informasi yang diperlukan untuk mengekstrak data features dari buffering protokol tf.Example. Karena tf.Example protocol buffer hanyalah kontainer untuk data, Anda harus menentukan hal berikut:

  • Data yang akan diekstrak (yaitu, kunci untuk fitur)
  • Jenis data (misalnya, float atau int)
  • Panjang (tetap atau variabel)

vektor fitur

#fundamentals

Array nilai feature yang terdiri dari contoh. Vektor fitur adalah input selama pelatihan dan selama inferensi. Misalnya, vektor fitur untuk model dengan dua fitur terpisah mungkin:

[0.92, 0.56]

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan satu lapisan output.
          Lapisan input berisi dua node, satu berisi nilai
          0,92 dan yang lainnya berisi nilai 0,56.

Setiap contoh memberikan nilai yang berbeda untuk vektor fitur, sehingga vektor fitur untuk contoh berikutnya bisa seperti:

[0.73, 0.49]

Rekayasa fitur menentukan cara menampilkan fitur dalam vektor fitur. Misalnya, fitur kategoris biner dengan lima nilai yang mungkin mungkin direpresentasikan dengan enkode one-hot. Dalam hal ini, bagian dari vektor fitur untuk contoh tertentu akan terdiri dari empat angka nol dan 1,0 tunggal di posisi ketiga, sebagai berikut:

[0.0, 0.0, 1.0, 0.0, 0.0]

Sebagai contoh lain, misalkan model Anda terdiri dari tiga fitur:

  • fitur kategori biner dengan lima nilai kemungkinan yang diwakili dengan enkode one-hot; misalnya: [0.0, 1.0, 0.0, 0.0, 0.0]
  • fitur kategorikal biner lainnya dengan tiga kemungkinan nilai yang direpresentasikan dengan encoding one-hot; misalnya: [0.0, 0.0, 1.0]
  • fitur {i>floating-point<i}; misalnya: 8.3.

Dalam hal ini, vektor fitur untuk setiap contoh akan direpresentasikan sebanyak sembilan nilai. Dengan contoh nilai dalam daftar sebelumnya, vektor fitur akan menjadi:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Lihat Data numerik: Cara model menyerap data menggunakan vektor fitur di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fitur

Proses pengekstrakan fitur dari sumber input, seperti dokumen atau video, dan memetakan fitur tersebut ke dalam vektor fitur.

Beberapa pakar ML menggunakan fitur sebagai sinonim untuk rekayasa fitur atau ekstraksi fitur.

federated learning

Pendekatan machine learning terdistribusi yang melatih model machine learning yang menggunakan terdesentralisasi contoh yang ada di perangkat seperti smartphone. Dalam federated learning, sebagian perangkat mendownload model saat ini dari server koordinasi pusat. Perangkat menggunakan contoh yang disimpan di perangkat untuk melakukan peningkatan pada model. Perangkat kemudian mengupload peningkatan model (tetapi bukan contoh pelatihan) untuk sistem yang lebih baik, yang digabungkan dengan update lain untuk menghasilkan global. Setelah agregasi, pembaruan model yang dihitung oleh perangkat tidak lagi diperlukan, dan dapat dibuang.

Karena contoh pelatihan tidak pernah diupload, federated learning mengikuti prinsip privasi pengumpulan data yang terfokus dan pengurangan data.

Untuk informasi selengkapnya tentang federated learning, lihat tutorial ini.

feedback loop

#fundamentals

Dalam machine learning, situasi ketika prediksi model memengaruhi data pelatihan untuk model yang sama atau model lain. Misalnya, model yang merekomendasikan film akan memengaruhi film yang dilihat orang, yang kemudian akan memengaruhi model rekomendasi film berikutnya.

Lihat Sistem ML produksi: Pertanyaan yang harus diajukan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

jaringan saraf alur maju (feedforward neural network) (FFN)

Jaringan neural tanpa koneksi siklis atau rekursif. Misalnya, jaringan neural dalam tradisional jaringan saraf alur maju. Berbeda dengan neural berulang jaringan, yang bersifat siklik.

pemelajaran beberapa tahap ( few-shot learning)

Pendekatan machine learning, yang sering digunakan untuk klasifikasi objek, dirancang untuk melatih pengklasifikasi yang efektif hanya dari sejumlah kecil contoh pelatihan.

Lihat juga pembelajaran satu kali dan pembelajaran zero-shot.

few-shot prompting

#language
#generativeAI

Perintah yang berisi lebih dari satu ("beberapa") contoh yang menunjukkan bagaimana model bahasa besar harus merespons. Misalnya, {i>prompt<i} panjang berikut berisi dua contoh yang menunjukkan model bahasa besar tentang cara menjawab kueri.

Bagian dari satu perintah Catatan
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang perlu dijawab oleh LLM.
Prancis: EUR Satu contoh.
Inggris Raya: GBP Contoh lain.
India: Kueri sebenarnya.

Perintah few-shot umumnya menghasilkan hasil yang lebih diinginkan daripada perintah zero-shot dan perintah one-shot. Namun, few-shot prompting memerlukan prompt yang lebih panjang.

Perintah few-shot adalah bentuk pemelajaran beberapa tahap yang diterapkan pada pembelajaran berbasis perintah.

Lihat Rekayasa perintah di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Biola

#language

Library konfigurasi Python-first yang menetapkan fungsi dan kelas tanpa kode atau infrastruktur yang invasif. Untuk Pax—dan codebase ML lainnya—fungsi dan class merepresentasikan model dan pelatihan hyperparameter.

Fiddle menganggap bahwa codebase machine learning biasanya dibagi menjadi:

  • Kode library, yang menentukan lapisan dan pengoptimal.
  • "Perekat" set data kode, yang memanggil {i>library<i} dan menghubungkan semuanya.

Fiddle menangkap struktur panggilan kode glue dalam model yang dapat berubah.

penyesuaian

#language
#image
#generativeAI

Lulusan pelatihan kedua khusus tugas yang dilakukan pada model terlatih untuk meningkatkan parameternya untuk kasus penggunaan tertentu. Misalnya, urutan pelatihan lengkap untuk beberapa model bahasa besar (LLM) adalah sebagai berikut:

  1. Prapelatihan: Melatih model bahasa besar pada set data umum yang luas, seperti semua halaman Wikipedia bahasa Inggris.
  2. Fine-tuning: Latih model terlatih untuk melakukan tugas tertentu, seperti menanggapi pertanyaan medis. Penyesuaian biasanya melibatkan ratusan atau ribuan contoh yang berfokus pada tugas tertentu.

Sebagai contoh lain, urutan pelatihan lengkap untuk model gambar besar adalah sebagai berikut:

  1. Prapelatihan: Melatih model gambar besar pada set data gambar umum yang luas, seperti semua gambar di Wikimedia commons.
  2. Fine-tuning: Latih model terlatih untuk melakukan tugas tertentu, seperti membuat gambar {i>orca<i}.

Fine-tuning dapat memerlukan kombinasi dari strategi berikut:

  • Mengubah semua parameter yang ada pada model terlatih. Hal ini terkadang disebut perbaikan penuh.
  • Hanya mengubah beberapa parameter model terlatih yang ada (biasanya, lapisan yang paling dekat dengan lapisan output), sembari mempertahankan parameter lain yang sudah ada (biasanya, lapisan terdekat dengan lapisan input). Lihat parameter-efficient tuning.
  • Menambahkan lebih banyak lapisan, biasanya di atas lapisan yang ada yang paling dekat dengan lapisan output.

Fine-tuning adalah bentuk pembelajaran transfer. Dengan demikian, fine-tuning mungkin menggunakan fungsi kerugian yang berbeda atau model yang berbeda dibandingkan dengan yang digunakan untuk melatih model terlatih. Misalnya, Anda dapat menyesuaikan model gambar besar yang sudah dilatih sebelumnya untuk menghasilkan model regresi yang menampilkan jumlah burung pada gambar input.

Bandingkan dan bedakan penyesuaian halus dengan istilah berikut:

Lihat Fine-tuning di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Flax

#language

Aplikasi open source berperforma tinggi library untuk deep learning yang dibangun di atas JAX. Flax menyediakan fungsi untuk pelatihan jaringan neural, serta sebagai metode untuk mengevaluasi kinerjanya.

Flaxformer

#language

Transformer open source perpustakaan, dibangun di Flax, yang dirancang terutama untuk natural language processing dan penelitian multimodal.

forget gate

#seq

Bagian dari Memori Jangka Pendek sel yang mengatur aliran informasi melalui sel. Gate lupa mempertahankan konteks dengan memutuskan informasi mana yang akan dihapus dari status sel.

full softmax

Sinonim dari softmax.

Berbeda dengan sampling kandidat.

Lihat Jaringan neural: Klasifikasi multi-class di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

lapisan terhubung seluruhnya

Lapisan tersembunyi tempat setiap node terhubung ke setiap node di lapisan tersembunyi berikutnya.

Lapisan terhubung seluruhnya juga dikenal sebagai lapisan padat.

transformasi fungsi

Fungsi yang menggunakan fungsi sebagai input dan menampilkan fungsi yang ditransformasi sebagai output. JAX menggunakan transformasi fungsi.

G

GAN

Singkatan dari generative adversarial (permukaan generatif) jaringan.

generalisasi

#fundamentals

Kemampuan model untuk membuat prediksi yang benar terkait data baru yang sebelumnya tidak terlihat. Model yang dapat digeneralisasi adalah kebalikan dari model yang overfitting.

Lihat Generalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Gemini

#language
#image
#generativeAI

Ekosistem yang terdiri dari AI tercanggih Google. Elemen ekosistem ini meliputi:

  • Berbagai model Gemini.
  • Antarmuka percakapan interaktif ke model Gemini. Pengguna mengetik perintah dan Gemini merespons perintah tersebut.
  • Beragam API Gemini.
  • Berbagai produk bisnis berdasarkan model Gemini; misalnya, Gemini untuk Google Cloud.

Model Gemini

#language
#image
#generativeAI

Teknologi berbasis Transformer termutakhir dari Google model multimodal. Model Gemini dirancang khusus untuk berintegrasi dengan agen.

Pengguna dapat berinteraksi dengan model Gemini dengan berbagai cara, termasuk melalui antarmuka dialog interaktif dan melalui SDK.

kurva generalisasi

#fundamentals

Plot kerugian pelatihan dan kerugian validasi sebagai fungsi dari jumlah iterasi.

Kurva generalisasi dapat membantu Anda mendeteksi kemungkinan overfitting. Misalnya, kurva generalisasi berikut menunjukkan overfitting karena kerugian validasi pada akhirnya menjadi jauh lebih tinggi daripada kerugian pelatihan.

Grafik Kartesius dengan sumbu y berlabel loss dan sumbu x berlabel iterasi. Dua plot muncul. Satu plot menunjukkan
          kerugian pelatihan dan yang lainnya 
menunjukkan kerugian validasi.
          Kedua plot dimulai dengan cara serupa, tetapi kerugian pelatihan pada akhirnya
          turun jauh lebih rendah
daripada kerugian validasi.

Lihat Generalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model linear tergeneralisasi

Generalisasi regresi kuadrat terkecil besar, yang didasarkan pada Gaussia derau, ke jenis model berdasarkan jenis derau lainnya, seperti Derau poisson atau derau kategorikal. Contoh model linear tergeneralisasi meliputi:

Parameter dari model linear tergeneralisasi dapat ditemukan melalui pengoptimalan konveks.

Model linear tergeneralisasi menunjukkan properti berikut:

  • Prediksi rata-rata dari model regresi kuadrat terkecil yang optimal adalah sama dengan label rata-rata pada data pelatihan.
  • Probabilitas rata-rata yang diprediksi oleh regresi logistik optimal sama dengan label rata-rata pada data pelatihan.

Kekuatan model linear umum dibatasi oleh fiturnya. Tidak suka model dalam, sedangkan model linear tergeneralisasi tidak bisa “mempelajari fitur baru”.

jaringan saraf generatif berlawanan (generative adversarial network (GAN))

Sistem untuk membuat data baru yang dibuat oleh generator data dan diskriminator menentukan apakah data yang dibuat valid atau tidak valid.

Lihat kursus Generative Adversarial Networks untuk mengetahui informasi selengkapnya.

AI generatif

#language
#image
#generativeAI

Bidang transformatif yang baru muncul tanpa definisi formal. Meskipun demikian, sebagian besar pakar setuju bahwa model AI generatif dapat membuat ("menghasilkan") konten yang merupakan semua hal berikut:

  • kompleks
  • koheren
  • asli

Misalnya, model AI generatif dapat membuat esai atau gambar yang canggih.

Beberapa teknologi lama, termasuk LSTMs dan RNN, juga dapat menghasilkan respons asli dan konten yang koheren. Beberapa pakar menganggap teknologi sebelumnya ini sebagai AI generatif, sementara yang lain merasa bahwa AI generatif sejati memerlukan output yang lebih kompleks daripada yang dapat dihasilkan teknologi sebelumnya.

Berbeda dengan ML prediktif.

model generatif

Secara praktis, model yang melakukan salah satu tindakan berikut:

  • Membuat (menghasilkan) contoh baru dari set data pelatihan. Misalnya, model generatif dapat membuat puisi setelah dilatih di set data yang terdiri dari beberapa puisi. Bagian generator dari jaringan saraf generatif berlawanan termasuk dalam kategori ini.
  • Menentukan probabilitas bahwa contoh baru berasal dari set pelatihan, atau dibuat dari mekanisme yang sama yang membuat set pelatihan. Misalnya, setelah dilatih di set data yang terdiri dari kalimat bahasa Inggris, model generatif dapat menentukan probabilitas bahwa masukan baru adalah kalimat bahasa Inggris yang valid.

Model generatif dapat secara teoretis memahami distribusi contoh atau fitur tertentu dalam set data. Definisinya yaitu:

p(examples)

Model unsupervised learning bersifat generatif.

Berbeda dengan model diskriminatif.

generator

Subsistem dalam jaringan saraf generatif jaringan yang akan membuat contoh baru.

Berbeda dengan model diskriminatif.

ketidakmurnian gini

#df

Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari ketidakmurnian gini atau entropi untuk menyusun kondisi untuk klasifikasi hierarki keputusan. Keuntungan informasi berasal dari entropi. Tidak ada istilah setara yang diterima secara universal untuk metrik yang berasal dari impuritas gini; namun, metrik tanpa nama ini sama pentingnya dengan manfaat informasi.

Kotoran gini juga disebut indeks gini, atau gini saja.

set data emas

Kumpulan data yang diseleksi secara manual yang menangkap kebenaran nyata. Tim dapat menggunakan satu atau beberapa set data emas untuk mengevaluasi kualitas model.

Beberapa {i>dataset<i} emas menangkap subdomain yang berbeda dari kebenaran nyata. Misalnya, set data emas untuk klasifikasi gambar dapat menangkap kondisi pencahayaan dan resolusi gambar.

GPT (Transformer Terlatih Generatif)

#language

Keluarga berbasis Transformer model bahasa besar (LLM) yang dikembangkan oleh OpenAI.

Varian GPT dapat diterapkan ke beberapa modalitas, termasuk:

  • pembuatan gambar (misalnya, ImageGPT)
  • pembuatan teks ke gambar (misalnya, DALL-E).

gradien

Vektor turunan parsial yang terkait dengan semua variabel independen. Dalam machine learning, gradien adalah vektor turunan parsial fungsi model. Gradien mengarah ke arah pendakian tercuram.

akumulasi gradien

Teknik propagasi mundur yang memperbarui parameter hanya sekali per epoch, bukan sekali per iterasi sebelumnya. Setelah memproses setiap tumpukan mini, gradien akumulasi hanya memperbarui total gradien yang berjalan. Kemudian, setelah memproses tumpukan mini terakhir dalam epoch, sistem akhirnya memperbarui parameter berdasarkan total semua perubahan gradien.

Akumulasi gradien berguna jika ukuran batch sangat besar dibandingkan dengan jumlah memori yang tersedia untuk pelatihan. Ketika memori menjadi masalah, kecenderungan alaminya adalah mengurangi ukuran tumpukan. Namun, mengurangi ukuran tumpukan dalam propagasi mundur normal akan meningkatkan jumlah pembaruan parameter. Akumulasi gradien memungkinkan model untuk menghindari masalah memori tetapi tetap berlatih secara efisien.

gradient boosted (decision) tree (GBT)

#df

Jenis hutan keputusan yang:

Lihat Keputusan yang Ditingkatkan dengan Gradien Pepohonan di Decision Forests untuk informasi lebih lanjut.

peningkatan gradien

#df

Algoritma pelatihan tempat model lemah dilatih untuk secara iteratif meningkatkan kualitas (mengurangi kerugian) model yang kuat. Misalnya, model yang lemah dapat berupa model pohon keputusan linear atau kecil. Model kuat menjadi jumlah dari semua model lemah yang dilatih sebelumnya.

Dalam bentuk gradient boosting yang paling sederhana, pada setiap iterasi, model lemah dilatih untuk memprediksi gradien kerugian model yang kuat. Kemudian, output model yang kuat diperbarui dengan mengurangi gradien yang diprediksi, serupa dengan gradient descent.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dalam hal ini:

  • $F_{0}$ adalah model kuat awal.
  • $F_{i+1}$ adalah model kuat berikutnya.
  • $F_{i}$ adalah model kuat saat ini.
  • $\xi$ adalah nilai antara 0,0 dan 1,0 yang disebut penyusutan, yang setara dengan kecepatan pembelajaran dalam penurunan gradien.
  • $f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian $F_{i}$.

Variasi modern dari gradient boosting juga menyertakan turunan kedua (Hessian) dari kerugian dalam komputasinya.

Pohon keputusan biasanya digunakan sebagai model lemah dalam gradient boosting. Lihat pohon (keputusan) yang ditingkatkan gradien.

pemotongan gradien

#seq

Mekanisme yang biasa digunakan untuk mengurangi masalah ledakan gradien dengan membatasi (memotong) nilai maksimum gradien secara artifisial saat menggunakan gradient descent untuk melatih model.

penurunan gradien

#fundamentals

Teknik matematis untuk meminimalkan kerugian. Penurunan gradien disesuaikan secara iteratif bobot dan bias, secara bertahap menemukan kombinasi terbaik untuk meminimalkan kerugian.

Penurunan gradien bersifat lebih tua—jauh lebih tua—dibandingkan machine learning.

Lihat Regresi linear: Penurunan gradien di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

grafik

#TensorFlow

Di TensorFlow, spesifikasi komputasi. Node dalam grafik mewakili operasi. Tepi diarahkan dan merepresentasikan penerusan hasil dari suatu operasi (Tensor) sebagai operand ke operasi lain. Gunakan TensorBoard untuk memvisualisasikan grafik.

eksekusi grafik

#TensorFlow

Lingkungan pemrograman TensorFlow tempat program pertama kali dibuat grafik lalu mengeksekusi seluruh atau sebagian grafik tersebut. Eksekusi grafik adalah mode eksekusi default di TensorFlow 1.x.

Berbeda dengan eager execution.

kebijakan rakus

#rl

Dalam reinforcement learning, kebijakan yang selalu memilih tindakan dengan laba tertinggi yang diperkirakan.

kebenaran dasar

#fundamentals

Realitas.

Hal yang benar-benar terjadi.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah siswa di tahun pertama universitasnya akan lulus dalam waktu enam tahun. Kebenaran dasar model ini adalah apakah bukan siswa yang benar-benar lulus dalam enam tahun.

bias atribusi kelompok

#fairness

Mengasumsikan bahwa apa yang benar bagi seseorang juga benar bagi semua orang dalam kelompok tersebut. Efek dari bias atribusi golongan dapat diperburuk jika pengambilan sampel praktis digunakan untuk pengumpulan data. Dalam sampel bukan perwakilan, atribusi dapat dibuat yang tidak mencerminkan realitas.

Lihat juga bias kehomogenan luar golongan dan bias dalam golongan. Lihat juga Keadilan: Jenis-jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

H

halusinasi

#language

Produksi output yang tampaknya masuk akal, tetapi salah secara faktual, oleh model AI generatif yang berpura-pura membuat pernyataan tentang dunia nyata. Misalnya, model AI generatif yang mengklaim bahwa Barack Obama meninggal pada tahun 1865 sedang berhalusinasi.

hashing

Dalam machine learning, mekanisme untuk pengelompokan data kategorik, terutama ketika jumlah kategori sangat besar, tetapi jumlah kategori yang benar-benar muncul dalam {i>dataset<i} relatif kecil.

Misalnya, Bumi adalah rumah bagi sekitar 73.000 spesies pohon. Anda dapat mewakili masing-masing dari 73.000 spesies pohon di 73.000 bucket. Alternatifnya, jika hanya 200 dari spesies pohon tersebut yang benar-benar muncul dalam sebuah {i>dataset<i}, Anda dapat menggunakan {i>hashing<i} untuk membagi spesies pohon ke dalam mungkin 500 bucket.

Satu bucket dapat berisi beberapa spesies pohon. Misalnya, {i>hashing<i} dapat menempatkan baobab dan maple merah—dua genetik yang berbeda spesies ke dalam bucket yang sama. Bagaimanapun juga, hashing masih merupakan cara yang baik untuk memetakan set kategorik dalam jumlah besar ke jumlah bucket yang dipilih. {i>Hashing<i} mengubah fitur kategorikal yang memiliki banyak kemungkinan nilai ke dalam jumlah nilai yang lebih kecil dengan mengelompokkan determenistik.

Lihat Data kategorikal: Kosakata dan one-hot encoding di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

heuristik

Solusi sederhana dan cepat diterapkan untuk suatu masalah. Misalnya, "Dengan heuristik, kami mencapai akurasi 86%. Saat kami beralih ke jaringan neural dalam, akurasi meningkat hingga 98%."

lapisan tersembunyi

#fundamentals

Lapisan dalam jaringan neural antara lapisan input (fitur) dan lapisan output (prediksi). Setiap lapisan tersembunyi terdiri dari satu atau beberapa neuron. Misalnya, jaringan neural berikut berisi dua lapisan tersembunyi, yang pertama dengan tiga neuron dan yang kedua dengan dua neuron:

Empat lapisan. Lapisan pertama adalah lapisan input yang berisi dua
          fitur. Lapisan kedua adalah lapisan 
tersembunyi yang berisi tiga
          neuron. Lapisan ketiga adalah lapisan tersembunyi yang berisi dua
          neuron. Lapisan keempat adalah lapisan output. Setiap fitur
          berisi tiga tepi, yang masing-masing mengarah ke neuron yang berbeda
          di lapisan kedua. Setiap neuron di lapisan kedua
          memiliki dua tepi, yang masing-masing 
mengarah ke neuron yang berbeda
          di lapisan ketiga. Setiap neuron di lapisan ketiga berisi
          satu tepi, yang masing-masing mengarah ke lapisan output.

Jaringan neural dalam berisi lebih dari satu {i>hidden layer<i}. Misalnya, ilustrasi sebelumnya adalah jaringan neural dalam karena model berisi dua lapisan tersembunyi.

Lihat Jaringan neural: Node dan tersembunyi lapisan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pengelompokan hierarkis

#clustering

Kategori algoritma pengelompokan yang membuat hierarki cluster. Pengelompokan hierarkis sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis algoritma pengelompokan hierarkis:

  • Pengelompokan aglomeratif pertama-tama menetapkan setiap contoh ke clusternya sendiri, dan secara berulang menggabungkan cluster terdekat untuk membuat hierarki pohon.
  • Pengelompokan divisif mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, lalu secara iteratif membagi cluster ke dalam pohon hierarkis.

Berbeda dengan pengelompokan berbasis sentroid.

Lihat Pengelompokan algoritma di materi Pengelompokan untuk informasi lebih lanjut.

kerugian engsel

Kelompok fungsi loss untuk klasifikasi yang dirancang untuk menemukan batas keputusan sejauh mungkin dari setiap contoh pelatihan, sehingga bisa memaksimalkan margin antara contoh dan batas. KSVMs menggunakan kerugian engsel (atau fungsi terkait, seperti kerugian engsel kuadrat). Untuk klasifikasi biner, fungsi engsel kerugian didefinisikan sebagai berikut:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

dengan y adalah label yang sebenarnya, -1 atau +1, dan y' adalah output mentah dari model pengklasifikasi:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Akibatnya, plot kerugian engsel versus (y * y') akan terlihat sebagai berikut:

Plot Kartesius yang terdiri dari dua segmen garis yang terhubung. Segmen garis pertama dimulai pada (-3, 4) dan berakhir pada (1, 0). Baris kedua
          segmen dimulai di (1, 0) dan berlanjut tanpa batas dengan kemiringan
          dari 0.

bias historis

#fairness

Jenis bias yang sudah ada di dunia dan telah masuk ke set data. Bias ini cenderung mencerminkan stereotip budaya, ketimpangan demografi, dan prasangka terhadap kelompok sosial tertentu yang ada.

Misalnya, pertimbangkan model klasifikasi yang memprediksi apakah pemohon pinjaman akan bawaan atau tidak pada pinjaman mereka, yang dilatih berdasarkan data historis default pinjaman dari tahun 1980-an dari bank-bank lokal menjadi berbagai komunitas. Jika pelamar lama dari Komunitas A enam kali lebih banyak cenderung default pada pinjaman mereka dibandingkan pemohon dari Komunitas B, dapat mempelajari bias historis yang menyebabkan model cenderung tidak menyetujui pinjaman di Komunitas A, bahkan jika kondisi historis yang di rasio bawaan yang lebih tinggi di komunitas itu tidak lagi relevan.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

data pisahan

Contoh sengaja tidak digunakan ("dipisah") selama pelatihan. Set data validasi dan set data pengujian adalah contoh data pisahan. Data holdout membantu mengevaluasi kemampuan model Anda dalam menggeneralisasi data selain data tempat model dilatih. Kekalahan di set holdout memberikan perkiraan kerugian pada {i>dataset<i} yang tidak terlihat dibandingkan dengan kerugian pada set pelatihan.

host

#TensorFlow
#GoogleCloud

Saat melatih model ML pada chip akselerator (GPU atau TPU), bagian dari sistem yang mengontrol kedua hal berikut:

  • Alur kode secara keseluruhan.
  • Ekstraksi dan transformasi pipeline input.

Host biasanya berjalan pada CPU, bukan pada chip akselerator; tindakan device memanipulasi tensor di dan chip akselerator.

hyperparameter

#fundamentals

Variabel yang Anda atau layanan penyesuaian hyperparameter menyesuaikan model selama pelatihan model berturut-turut. Misalnya, kecepatan pembelajaran adalah hyperparameter. Anda dapat mengatur kecepatan pembelajaran ke 0,01 sebelum satu sesi pelatihan. Jika menentukan bahwa 0,01 terlalu tinggi, Anda mungkin dapat menetapkan kecepatan pembelajaran ke 0,003 untuk sesi pelatihan berikutnya.

Sebaliknya, parameter adalah berbagai bobot dan bias yang dipelajari model selama pelatihan.

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

bidang-hiper

Batas yang memisahkan ruang menjadi dua subruang. Misalnya, sebuah garis bidang-hiper dalam dua dimensi dan bidang adalah bidang-hiper dalam tiga dimensi. Biasanya dalam machine learning, bidang-hiper (hyperplane) adalah batas yang memisahkan ruang dimensi tinggi. Kernel Support Vector Machines digunakan bidang-hiper untuk memisahkan kelas positif dari kelas negatif, sering kali dalam ruang dimensi tinggi.

I

i.i.d.

Singkatan dari didistribusikan secara independen dan identik.

pengenalan gambar

#image

Suatu proses yang mengklasifikasikan objek, pola, atau konsep dalam suatu gambar. Pengenalan citra juga dikenal sebagai klasifikasi gambar.

Untuk informasi selengkapnya, lihat Praktik ML: Klasifikasi Gambar.

Lihat Praktik ML: Klasifikasi Gambar materi untuk informasi selengkapnya.

set data tidak seimbang

Sinonim dari set data kelas tidak seimbang.

bias implisit

#fairness

Secara otomatis membuat asosiasi atau asumsi berdasarkan pikiran seseorang model dan memori. Bias implisit dapat memengaruhi hal berikut:

  • Cara data dikumpulkan dan diklasifikasikan.
  • Cara sistem machine learning dirancang dan dikembangkan.

Misalnya, saat membuat pengklasifikasi untuk mengidentifikasi foto pernikahan, seorang engineer dapat menggunakan keberadaan gaun putih dalam foto sebagai fitur. Namun, gaun putih telah menjadi kebiasaan hanya selama era tertentu dan dalam budaya tertentu.

Lihat juga bias konfirmasi.

imputation

Bentuk singkat dari imputasi nilai.

inkompatibilitas metrik keadilan

#fairness

Gagasan bahwa beberapa gagasan tentang perlakuan yang adil tidak kompatibel satu sama lain dan tidak dapat dipenuhi secara bersamaan. Akibatnya, tidak ada satu metrik universal untuk mengukur keadilan yang dapat diterapkan ke semua masalah ML.

Meskipun hal ini mungkin tampak mengecewakan, ketidakcocokan metrik keadilan tidak berarti bahwa upaya keadilan tidak membuahkan hasil. Sebaliknya, hal ini menyarankan bahwa keadilan harus didefinisikan secara kontekstual untuk masalah ML tertentu, dengan tujuan mencegah bahaya khusus untuk kasus penggunaannya.

Lihat "Tentang (ke)tidakmungkinan keadilan" untuk pembahasan selengkapnya tentang topik ini.

pembelajaran dalam konteks

#language
#generativeAI

Sinonim dari few-shot prompting.

terdistribusi secara independen dan identik (i.i.d)

#fundamentals

Data yang diambil dari distribusi yang tidak berubah, dan di mana setiap nilai tidak bergantung pada nilai yang telah digambar sebelumnya. AI adalah gas ideal mesin pembelajaran—konstruk matematis yang berguna tetapi hampir tidak pernah ditemukan secara pasti di dunia nyata. Misalnya, distribusi pengunjung halaman dapat terdistribusi secara independen dan identik selama jendela waktu yang singkat; artinya, distribusi tidak berubah selama jendela waktu tersebut dan kunjungan satu orang umumnya tidak bergantung pada kunjungan orang lain. Namun, jika Anda memperluas periode waktu tersebut, perbedaan musiman dalam pengunjung halaman web mungkin muncul.

Lihat juga nonstasioneritas.

keadilan individu

#fairness

Metrik keadilan yang memeriksa apakah individu serupa diklasifikasikan hasil yang sama. Misalnya, Brobdingnagian Academy mungkin ingin memuaskan keadilan individu dengan memastikan bahwa dua siswa dengan nilai yang sama dan nilai ujian yang terstandardisasi sama kemungkinan untuk mendapatkan akses masuk.

Perhatikan bahwa keadilan individu sepenuhnya bergantung pada cara Anda mendefinisikan "kesamaan" (dalam hal ini, nilai dan nilai ujian), dan Anda dapat berisiko memperkenalkan masalah keadilan baru jika metrik kesamaan Anda meleset penting (seperti ketelitian kurikulum siswa).

Lihat "Keadilan Melalui Kesadaran" untuk diskusi yang lebih mendetail tentang keadilan individu.

inferensi

#fundamentals

Dalam machine learning, proses pembuatan prediksi dengan menerapkan model yang terlatih ke contoh tak berlabel.

Inferensi memiliki arti yang agak berbeda dalam statistik. Lihat artikel Wikipedia tentang inferensi statistik untuk mengetahui detailnya.

Lihat Pembelajaran yang Diawasi di kursus Pengantar ML untuk melihat peran inferensi dalam learning otomatis.

jalur inferensi

#df

Dalam pohon keputusan, selama inferensi, rute yang diambil contoh tertentu dari root ke kondisi lain, yang diakhiri dengan daun. Misalnya, pada pohon keputusan berikut, model panah yang lebih tebal menunjukkan jalur inferensi untuk contoh dengan nilai fitur:

  • x = 7
  • y = 12
  • z = -3

Jalur inferensi dalam ilustrasi berikut melalui tiga kondisi sebelum mencapai daun (Zeta).

Pohon keputusan yang terdiri dari empat kondisi dan lima daun.
          Kondisi root-nya adalah (x > 0). Karena jawabannya adalah Ya,
          jalur inferensi dimulai dari {i>root<i} ke kondisi berikutnya (y > 0).
          Karena jawabannya adalah Ya, jalur inferensi kemudian akan berpindah ke
          kondisi berikutnya (z > 0). Karena jawabannya adalah Tidak, jalur inferensinya
          sampai ke {i>node<i} terminalnya, yaitu {i>leaf<i} (Zeta).

Tiga panah tebal menunjukkan jalur inferensi.

Lihat Pohon keputusan di materi Pengambilan Keputusan Hutan untuk informasi lebih lanjut.

perolehan informasi

#df

Di hutan keputusan, perbedaan antara entropi node dan jumlah berbobot (menurut jumlah contoh) entropi node turunannya. Entropi node adalah entropi contoh dalam node tersebut.

Misalnya, pertimbangkan nilai entropi berikut:

  • entropi node induk = 0,6
  • entropi satu node turunan dengan 16 contoh yang relevan = 0,2
  • entropi node turunan lain dengan 24 contoh yang relevan = 0,1

Jadi 40% dari contoh ada di satu simpul turunan dan 60% ada di node turunan lainnya. Jadi:

  • jumlah entropi tertimbang node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Jadi, informasi yang diperoleh adalah:

  • perolehan informasi = entropi node induk - jumlah entropi tertimbang dari node turunan
  • information gain = 0,6 - 0,14 = 0,46

Sebagian besar pemisah berupaya membuat kondisi yang memaksimalkan perolehan informasi.

bias dalam grup

#fairness

Menunjukkan keberpihakan pada golongan atau karakteristik milik seseorang. Jika penguji atau penilai terdiri dari teman developer machine learning, keluarga, atau kolega, maka bias dalam kelompok dapat membatalkan pengujian produk atau {i>dataset <i}tersebut.

Bias dalam golongan adalah bentuk bias atribusi golongan. Lihat juga bias kehomogenan luar golongan.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

generator input

Mekanisme di mana data dimuat ke dalam jaringan neural.

Generator input dapat dianggap sebagai komponen yang bertanggung jawab untuk memproses data mentah menjadi tensor yang di-iterasi untuk menghasilkan batch untuk pelatihan, evaluasi, dan inferensi.

lapisan input

#fundamentals

Lapisan jaringan neural yang menyimpan vektor fitur. Yaitu, lapisan input memberikan contoh untuk pelatihan atau inferensi. Misalnya, lapisan input dalam jaringan saraf berikut terdiri dari dua fitur:

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan lapisan output.

kondisi dalam ditetapkan

#df

Dalam pohon keputusan, kondisi yang menguji keberadaan satu item dalam set item. Misalnya, berikut adalah kondisi dalam set:

  house-style in [tudor, colonial, cape]

Selama inferensi, jika nilai fitur gaya rumah adalah tudor atau colonial atau cape, maka kondisi ini bernilai Ya. Jika nilai fitur gaya rumah adalah hal lain (misalnya, ranch), maka kondisi ini bernilai Tidak.

Kondisi dalam set biasanya menghasilkan pohon keputusan yang lebih efisien daripada kondisi yang menguji fitur enkode one-hot.

instance

Sinonim dari contoh.

penyesuaian instruksi

#generativeAI

Bentuk fine-tuning yang meningkatkan Kemampuan model AI generatif untuk mengikuti petunjuk. Tuning instruksi melibatkan pelatihan model pada serangkaian berisi petunjuk petunjuk, biasanya mencakup berbagai berbagai macam tugas. Model yang disesuaikan dengan petunjuk yang dihasilkan kemudian cenderung menghasilkan respons yang berguna untuk perintah zero-shot di berbagai tugas.

Bandingkan dan bedakan dengan:

interpretabilitas

#fundamentals

Kemampuan untuk menjelaskan atau menyajikan penalaran model ML dalam istilah yang dapat dipahami oleh manusia.

Misalnya, sebagian besar model regresi linear sangat interpretabel. (Anda hanya perlu melihat bobot terlatih untuk setiap feature.) Hutan keputusan juga sangat mudah ditafsirkan. Namun, beberapa model memerlukan visualisasi yang rumit agar dapat ditafsirkan.

Anda dapat menggunakan Alat Penafsiran Pembelajaran (LIT) untuk menafsirkan model ML.

kecocokan antar-pelabel

Pengukuran seberapa sering penilai manusia setuju saat melakukan tugas. Jika pelabel tidak setuju, petunjuk tugas mungkin perlu ditingkatkan. Terkadang disebut juga kecocokan antar-anotator atau reliabilitas antar-pelabel. Lihat juga Cohen kappa, yang merupakan salah satu pengukuran kesepakatan antar-pelabel yang paling populer.

Lihat Data kategorikal: Umum masalah di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

intersection over union (IoU)

#image

Persimpangan dua set yang dibagi dengan gabungannya. Di machine learning tugas deteksi gambar, IoU digunakan untuk mengukur akurasi prediksi kotak pembatas sehubungan dengan Kotak pembatas ground-truth. Dalam hal ini, IoU untuk dua kotak adalah rasio antara area yang tumpang tindih dan luas total, dan nilainya berkisar dari 0 (tidak ada tumpang tindih kotak pembatas yang diprediksi dan kebenaran dasar kotak pembatas) ke 1 (kotak pembatas yang diprediksi dan kotak pembatas kebenaran dasar memiliki koordinat yang sama persis).

Misalnya, pada gambar di bawah ini:

  • Kotak pembatas yang diprediksi (koordinat yang membatasi tempat model memprediksi meja malam dalam lukisan) ditampilkan dengan warna ungu.
  • Kotak pembatas kebenaran dasar (koordinat yang membatasi tempat malam dalam lukisan itu sebenarnya) berada di garis batas warna hijau.

Lukisan Van Gogh Vincent&#39;s Bedroom in Arles, dengan dua kotak pembatas
          yang berbeda di sekitar meja samping tempat tidur. Kebenaran dasar
          kotak pembatas (berwarna hijau) mengelilingi meja malam dengan sempurna. Tujuan
          kotak pembatas yang diprediksi (dalam warna ungu) di-offset 50% ke bawah dan ke kanan
          di kotak pembatas kebenaran dasar; cakupannya mencakup
perempat kanan bawah
          dari meja malam, tapi 
melewatkan sisa meja.

Di sini, perpotongan kotak pembatas untuk prediksi dan kebenaran dasar (kiri bawah) adalah 1, dan gabungan kotak pembatas untuk prediksi dan kebenaran dasar (di bawah kanan) adalah 7, sehingga IoU adalah \(\frac{1}{7}\).

Gambar sama seperti di atas, tetapi setiap kotak pembatas dibagi menjadi empat
          kuadran. Ada total tujuh kuadran, karena kuadran kanan bawah
          dari kotak pembatas ground truth dan kuadran kiri atas
          dari kotak pembatas yang diprediksi saling tumpang-tindih. Ini
          yang tumpang tindih (disorot dengan warna hijau) mewakili
          persimpangan, dan memiliki luas 1. Gambar sama seperti di atas, tetapi setiap kotak pembatas dibagi menjadi empat
          kuadran. Ada total tujuh kuadran, sebagai kanan bawah
          kotak pembatas kebenaran dasar di sudut kiri atas
          kuadran dari kotak pembatas yang diprediksi saling tumpang tindih.
          Seluruh bagian dalam yang diapit oleh kedua kotak pembatas
          (ditandai dengan warna hijau) mewakili gabungan, dan memiliki
          area 7.

IoU

Singkatan dari intersection over union.

matriks item

#recsystems

Dalam sistem rekomendasi, matriks vektor penyematan yang dihasilkan oleh faktorisasi matriks yang menyimpan sinyal laten tentang setiap item. Setiap baris matriks item memiliki nilai laten tunggal untuk semua item. Misalnya, pertimbangkan sistem rekomendasi film. Setiap kolom di matriks item mewakili satu film. Sinyal laten mungkin mewakili genre, atau mungkin sinyal yang lebih sulit ditafsirkan yang melibatkan interaksi kompleks antara genre, bintang, usia film, atau faktor lainnya.

Matriks item memiliki jumlah kolom yang sama dengan target matriks yang sedang difaktorkan. Misalnya, jika film sistem rekomendasi yang mengevaluasi 10.000 judul film, matriks item akan memiliki 10.000 kolom.

item

#recsystems

Dalam sistem rekomendasi, entitas yang direkomendasikan oleh sistem. Misalnya, video adalah item yang direkomendasikan toko video, sedangkan buku adalah item yang direkomendasikan toko buku.

iterasi

#fundamentals

Satu pembaruan parameter modelbobot dan bias model—selama pelatihan. Ukuran batch menentukan jumlah contoh yang diproses model dalam satu iterasi. Misalnya, jika ukuran batch adalah 20, model akan memproses 20 contoh sebelum menyesuaikan parameter.

Saat melatih jaringan neural, satu iterasi melibatkan dua penerusan berikut:

  1. Penerusan maju untuk mengevaluasi kerugian pada satu batch.
  2. Penerusan mundur (backpropagation) untuk menyesuaikan parameter model berdasarkan loss dan kecepatan pemelajaran.

J

JAX

{i>Array computing library<i}, yang menyatukan XLA (Accelerated Linear Algebra) dan diferensiasi otomatis untuk komputasi numerik berperforma tinggi. JAX menyediakan API sederhana dan canggih untuk menulis kode numerik yang dipercepat dengan transformasi composable. JAX menyediakan fitur seperti:

  • grad (diferensiasi otomatis)
  • jit (kompilasi tepat waktu)
  • vmap (vektorisasi atau pengelompokan otomatis)
  • pmap (paralelisasi)

JAX adalah bahasa untuk mengekspresikan dan membuat transformasi kode, analog—tetapi cakupannya jauh lebih besar—dengan NumPy Python library. (Faktanya, library .numpy di JAX adalah versi library NumPy Python yang setara secara fungsional, tetapi sepenuhnya ditulis ulang.)

JAX sangat cocok untuk mempercepat berbagai tugas machine learning dengan mentransformasi model dan data menjadi bentuk yang sesuai untuk paralelisme di seluruh GPU dan TPU chip akselerator.

Flax, Optax, Pax, dan banyak library lainnya dibuat di infrastruktur JAX.

K

Keras

API machine learning Python yang populer. Keras berjalan di beberapa framework deep learning, termasuk TensorFlow, yang mana tersedia sebagai tf.keras.

Kernel Support Vector Machines (KSVMs)

Algoritma klasifikasi yang berupaya memaksimalkan margin antara kelas positif dan kelas negatif dengan memetakan vektor data input ke ruang berdimensi yang lebih tinggi. Misalnya, pertimbangkan masalah klasifikasi yang mana set data masukan memiliki seratus fitur. Untuk memaksimalkan margin antara positif dan negatif, KSVM dapat secara internal memetakan fitur-fitur tersebut menjadi satu juta dimensi. KSVM menggunakan fungsi kerugian yang disebut kerugian engsel.

keypoint

#image

Koordinat fitur tertentu dalam gambar. Misalnya, untuk pengenalan citra yang membedakan spesies bunga, titik kunci mungkin adalah pusat dari setiap kelopak, batang, benang sari, dan seterusnya.

validasi silang k-fold

Algoritma untuk memprediksi kemampuan model dalam menggeneralisasi ke data baru. k dalam k-fold mengacu pada jumlah grup yang sama yang Anda bagi menjadi contoh set data; yaitu, Anda melatih dan menguji model k kali. Untuk setiap putaran pelatihan dan pengujian, kelompok yang berbeda adalah set pengujian, dan semua kelompok yang tersisa menjadi atur. Setelah k putaran pelatihan dan pengujian, Anda menghitung rata-rata dan standar deviasi dari metrik uji yang dipilih.

Misalnya, set data Anda terdiri dari 120 contoh. Selanjutnya misalkan, Anda memutuskan untuk menetapkan k ke 4. Oleh karena itu, setelah mengacak contoh, Anda membagi set data menjadi empat grup yang sama dengan 30 contoh dan melakukan empat putaran pelatihan dan pengujian:

Set data yang dibagi menjadi empat kelompok contoh yang sama. Di Putaran 1,
          tiga kelompok pertama digunakan untuk 
pelatihan dan kelompok terakhir
          digunakan untuk pengujian. Di Putaran 2, dua grup pertama dan grup terakhir
          grup digunakan untuk pelatihan, sedangkan grup ketiga digunakan untuk
          pengujian. Di Putaran 3, grup pertama dan dua grup terakhir adalah
          digunakan untuk pelatihan, sedangkan kelompok kedua 
digunakan untuk pengujian.
          Di Babak 4, grup pertama digunakan untuk pengujian, sedangkan tiga grup
          terakhir digunakan untuk pelatihan.

Misalnya, Rataan Kuadrat Kesalahan (MSE) mungkin merupakan metrik yang paling bermakna untuk model regresi linear. Oleh karena itu, Anda akan menemukan rata-rata dan standar deviasi dari MSE di keempat putaran.

k-means

#clustering

Algoritme pengelompokan populer yang mengelompokkan contoh dalam unsupervised learning. Algoritma k-means pada dasarnya melakukan hal berikut:

  • Secara iteratif menentukan titik tengah k terbaik (yang diketahui sebagai centroids).
  • Menetapkan setiap contoh ke sentroid terdekat. Contoh yang terdekat dengan centroid yang sama berada dalam grup yang sama.

Algoritma k-means memilih lokasi sentroid untuk meminimalkan kuadrat jarak dari setiap contoh ke sentroid terdekatnya.

Misalnya, perhatikan plot tinggi anjing terhadap lebar anjing berikut:

Plot Kartesius dengan beberapa lusin titik data.

Jika k=3, algoritma k-means akan menentukan tiga sentroid. Setiap contoh ditugaskan ke sentroid terdekatnya, yang menghasilkan tiga kelompok:

Plot Kartesius yang sama seperti dalam ilustrasi sebelumnya, kecuali
          dengan menambahkan tiga sentroid.
          Titik data sebelumnya dikelompokkan ke dalam tiga grup yang berbeda,
          dengan setiap grup mewakili titik data yang paling dekat dengan centroid
          tertentu.

Bayangkan produsen ingin menentukan ukuran ideal untuk sweter anjing berukuran kecil, sedang, dan besar. Tiga sentroid mengidentifikasi nilai rata-rata tinggi dan lebar rata-rata setiap dog di cluster tersebut. Jadi, produsen mungkin harus mendasarkan ukuran sweter pada ketiga sentroid tersebut. Perhatikan bahwa centroid cluster biasanya bukan contoh dalam cluster.

Ilustrasi sebelumnya menunjukkan k-means untuk contoh dengan hanya dua fitur (tinggi dan lebar). Perhatikan bahwa k-means dapat mengelompokkan contoh di banyak fitur.

median k

#clustering

Algoritma pengelompokan yang terkait erat dengan k-means. Tujuan perbedaan praktis di antara keduanya adalah sebagai berikut:

  • Dalam k-means, centroid ditentukan dengan meminimalkan jumlah kuadrat jarak antara kandidat centroid dan setiap contohnya.
  • Dalam k-median, sentroid ditentukan dengan meminimalkan jumlah dari jarak antara kandidat sentroid dan setiap contohnya.

Perhatikan bahwa definisi jarak juga berbeda:

  • k-means bergantung pada jarak Euclidean dari sentroid ke contoh. (Dalam dua dimensi, diagram Euclidean jarak berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-means antara (2,2) dan (5,-2) akan menjadi:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah delta absolut di setiap dimensi. Misalnya, grafik k-median jarak antara (2,2) dan (5,-2) adalah:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularisasi L0

#fundamentals

Jenis regularisasi yang mengganjar jumlah total bobot yang bukan nol dalam model. Misalnya, model yang memiliki 11 bobot non-nol akan dikenai penalti lebih besar daripada model serupa yang memiliki 10 bobot non-nol.

Regularisasi L0 terkadang disebut regularisasi norma L0.

Kerugian L1

#fundamentals

Fungsi kerugian yang menghitung nilai absolut perbedaan antara nilai label yang sebenarnya dan nilai yang diprediksi model. Misalnya, berikut adalah penghitungan kerugian L1 untuk batch yang terdiri dari lima contoh:

Nilai sebenarnya dari contoh Nilai prediksi model Nilai absolut delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = kerugian L1

Kerugian L1 kurang sensitif terhadap pencilan daripada kerugian L2.

Mean Absolute Error adalah rata-rata kerugian L1 per contoh.

Regularisasi L1

#fundamentals

Jenis regularisasi yang memberikan hukuman bobot sebanding dengan jumlah nilai absolut bobotnya. Regularisasi L1 membantu mendorong bobot yang tidak relevan atau fitur yang hampir tidak relevan dengan tepat 0. Fitur dengan bobot 0 secara efektif dihapus dari model.

Berbeda dengan regularisasi 2.

Kerugian L2

#fundamentals

Fungsi kerugian yang menghitung kuadrat perbedaan antara nilai label sebenarnya dan nilai yang diprediksi model. Misalnya, berikut adalah penghitungan kerugian L2 untuk tumpukan lima contoh:

Nilai sebenarnya dari contoh Nilai prediksi model Kuadrat delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = kerugian L2

Karena adanya kuadrat, kerugian L2 memperkuat pengaruh pencilan. Artinya, kerugian L2 bereaksi lebih kuat terhadap prediksi yang buruk daripada kerugian L1. Misalnya, kerugian L1 untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu {i>outlier <i}menyebabkan 9 dari 16 kasus.

Model regresi biasanya menggunakan kerugian L2 sebagai fungsi kerugian.

Rataan Kuadrat Galat adalah rata-rata kerugian L2 per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L2.

Regularisasi L2

#fundamentals

Jenis regularisasi yang memberikan hukuman bobot sebanding dengan jumlah kuadrat bobot. Regularisasi L2 membantu mendorong bobot pencilan (bobot dengan nilai positif tinggi atau negatif rendah) lebih dekat ke 0, tetapi tidak benar-benar 0. Fitur dengan nilai yang sangat mendekati 0 tetap ada dalam model, tetapi tidak terlalu memengaruhi prediksi model.

Regularisasi L2 selalu meningkatkan generalisasi dalam model linear.

Berbeda dengan regularisasi L1.

label

#fundamentals

Dalam machine learning dengan pengawasan, bagian "jawaban" atau "hasil" dari contoh.

Setiap contoh berlabel terdiri dari satu atau beberapa fitur dan label. Misalnya, dalam set data deteksi spam, label mungkin berupa "spam" atau "bukan spam". Dalam {i>dataset <i}curah hujan, label mungkin berupa jumlah yang turun selama periode tertentu.

contoh berlabel

#fundamentals

Contoh yang berisi satu atau beberapa fitur dan label. Misalnya, tabel berikut menunjukkan tiga contoh berlabel dari model penilaian rumah, masing-masing dengan tiga fitur dan satu label:

Jumlah kamar Jumlah kamar mandi Usia rumah Harga rumah (label)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Dalam machine learning dengan pengawasan, model dilatih pada contoh berlabel dan membuat prediksi pada contoh tanpa label.

Bedakan contoh berlabel dengan contoh tidak berlabel.

kebocoran label

Cacat desain model saat fitur adalah proxy untuk label. Misalnya, pertimbangkan klasifikasi biner yang memprediksi apakah calon pelanggan akan membeli produk tertentu atau tidak. Misalkan salah satu fitur untuk model adalah Boolean bernama SpokeToCustomerAgent. Selanjutnya, anggaplah bahwa agen pelanggan hanya ditetapkan setelah calon pelanggan benar-benar membeli produk. Selama pelatihan, model akan dengan cepat mempelajari antara SpokeToCustomerAgent dan label.

lambda

#fundamentals

Sinonim dari derajat regularisasi.

Lambda adalah istilah yang memiliki lebih dari satu makna. Di sini kita berfokus pada dalam regularisasi.

LaMDA (Language Model for Dialogue Applications/Model Bahasa untuk Aplikasi Dialog)

#language

Model bahasa besar berbasis Transformer yang dikembangkan oleh Google dan dilatih pada set data dialog besar yang dapat menghasilkan respons percakapan yang realistis.

LaMDA: percakapan terobosan kami teknologi memberikan ringkasan.

{i>landmark<i}

#image

Sinonim dari titik kunci.

model bahasa

#language

Model yang memperkirakan probabilitas token atau urutan token yang terjadi dalam urutan token yang lebih panjang.

model bahasa besar

#language

Setidaknya, model bahasa memiliki jumlah parameter. Secara lebih informal, apa pun Model bahasa berbasis Transformer, seperti Gemini atau GPT.

ruang laten

#language

Sinonim dari ruang penyematan.

lapisan

#fundamentals

Kumpulan neuron dalam jaringan neural. Tiga jenis lapisan yang umum adalah sebagai berikut:

Misalnya, ilustrasi berikut menunjukkan jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
          lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi
          pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua
          terdiri dari dua neuron. Lapisan output terdiri dari satu node.

Di TensorFlow, lapisan juga merupakan fungsi Python yang menggunakan Tensor dan opsi konfigurasi sebagai input dan menghasilkan tensor lain sebagai output.

Layers API (tf.layers)

#TensorFlow

TensorFlow API untuk membuat jaringan neural deep sebagai komposisi lapisan. Layers API memungkinkan Anda membangun jenis lapisan, seperti:

Layers API mengikuti konvensi Keras layer API. Artinya, selain awalan yang berbeda, semua fungsi di Layers API memiliki nama dan tanda tangan yang sama dengan fungsi yang setara di API lapisan Keras.

daun

#df

Endpoint apa pun dalam hierarki keputusan. Tidak seperti condition, leaf tidak melakukan pengujian. Sebaliknya, node adalah kemungkinan prediksi. {i>Leaf<i} juga merupakan terminal node dari jalur inferensi.

Misalnya, pohon keputusan berikut memiliki tiga daun:

Pohon keputusan dengan dua kondisi yang mengarah ke tiga daun.

Learning Interpretability Tool (LIT)

Sebuah alat visualisasi data dan pemahaman model yang interaktif.

Anda dapat menggunakan LIT open source untuk menafsirkan model atau memvisualisasikan teks, gambar, dan data tabel.

kecepatan pembelajaran

#fundamentals

Bilangan floating point yang memberi tahu algoritma penurunan gradien seberapa kuat bobot dan bias harus disesuaikan pada setiap iterasi. Misalnya, kecepatan pembelajaran 0,3 akan menyesuaikan bobot dan bias tiga kali lebih kuat daripada kecepatan pembelajaran 0,1.

Kecepatan pembelajaran adalah hyperparameter utama. Jika Anda menetapkan kecepatan pembelajaran terlalu rendah, pelatihan akan memakan waktu terlalu lama. Jika Anda menetapkan kecepatan belajar terlalu tinggi, gradien menurun sering kali mengalami masalah dalam mencapai konvergensi.

regresi kuadrat terkecil

Model regresi linear dilatih dengan meminimalkan L2 Loss.

linier

#fundamentals

Hubungan antara dua atau lebih variabel yang dapat direpresentasikan hanya melalui penjumlahan dan perkalian.

Plot hubungan linier adalah sebuah garis.

Berbeda dengan nonlinear.

model linear

#fundamentals

Model yang menetapkan satu bobot per fitur untuk membuat prediksi. (Model linear juga menyertakan bias.) Sebaliknya, hubungan fitur dengan prediksi dalam model dalam umumnya nonlinear.

Model linear biasanya lebih mudah dilatih dan banyak lagi dapat ditafsirkan daripada model dalam. Namun, model deep dapat mempelajari hubungan kompleks antara fitur.

Regresi linear dan regresi logistik adalah dua jenis model linear.

regresi linear

#fundamentals

Jenis model machine learning yang memenuhi kedua hal berikut:

  • Model ini adalah model linear.
  • Prediksinya adalah nilai floating point. (Ini adalah regresi dari regresi linear.)

Menemukan perbedaan regresi linear dengan regresi logistik. Selain itu, membandingkan regresi dengan klasifikasi.

LIT

Singkatan dari Learning Interpretability Tool (LIT), yang sebelumnya dikenal sebagai Alat Penafsiran Bahasa.

LLM

#language
#generativeAI

Singkatan dari large language model.

Evaluasi LLM (eval)

#language
#generativeAI

Kumpulan metrik dan tolok ukur untuk menilai performa model bahasa besar (LLM). Pada dasarnya, Evaluasi LLM:

  • Membantu peneliti mengidentifikasi area yang perlu ditingkatkan pada LLM.
  • Bermanfaat untuk membandingkan berbagai LLM dan mengidentifikasi LLM terbaik tugas tertentu.
  • Membantu memastikan bahwa LLM aman dan etis untuk digunakan.

regresi logistik

#fundamentals

Jenis model regresi yang memprediksi probabilitas. Model regresi logistik memiliki karakteristik berikut:

  • Labelnya kategoris. Istilah regresi logistik biasanya mengacu pada regresi logistik biner, yaitu model yang menghitung probabilitas untuk label dengan dua kemungkinan nilai. Varian yang kurang umum, regresi logistik multinomial, menghitung probabilitas untuk label dengan lebih dari dua kemungkinan nilai.
  • Fungsi loss selama pelatihan adalah Log Loss. (Beberapa unit Kehilangan Log dapat ditempatkan secara paralel untuk label dengan lebih dari dua kemungkinan nilai).
  • Model tersebut memiliki arsitektur linear, bukan deep neural network. Namun, bagian lain dari definisi ini juga berlaku untuk model mendalam yang memprediksi probabilitas untuk label kategoris.

Misalnya, pertimbangkan model regresi logistik yang menghitung kemungkinan email input itu spam atau bukan spam. Selama inferensi, misalkan model memprediksi 0,72. Oleh karena itu, memperkirakan:

  • Kemungkinan email tersebut adalah spam sebesar 72%.
  • Kemungkinan 28% bahwa email tersebut bukan spam.

Model regresi logistik menggunakan arsitektur dua langkah berikut:

  1. Model menghasilkan prediksi mentah (y') dengan menerapkan fungsi linear fitur input.
  2. Model menggunakan prediksi mentah tersebut sebagai input ke fungsi sigmoid, yang mengonversi prediksi mentah menjadi nilai antara 0 dan 1, secara eksklusif.

Seperti model regresi lainnya, model regresi logistik memprediksi angka. Namun, angka ini biasanya menjadi bagian dari klasifikasi biner model sebagai berikut:

  • Jika angka yang diprediksi lebih besar dari nilai minimum klasifikasi, nilai model klasifikasi biner memprediksi kelas positif.
  • Jika angka yang diprediksi kurang dari batas klasifikasi, model klasifikasi biner memprediksi kelas negatif.

logit

Vektor prediksi mentah (tidak dinormalisasi) yang dihasilkan model klasifikasi, yang biasanya diteruskan ke fungsi normalisasi. Jika model memecahkan masalah klasifikasi multi-class, logit biasanya menjadi input untuk fungsi softmax. Fungsi softmax kemudian menghasilkan vektor probabilitas (ternormalisasi) dengan satu nilai untuk setiap kemungkinan class.

Kerugian Log

#fundamentals

Fungsi kerugian yang digunakan dalam biner regresi logistik.

log-peluang

#fundamentals

Logaritma dari peluang beberapa peristiwa.

Memori Jangka Pendek (LSTM)

#seq

Jenis sel di dalam jaringan saraf berulang yang digunakan untuk memproses urutan data dalam aplikasi seperti pengenalan tulis tangan, mesin penerjemahan, dan pemberian teks pada gambar. LSTM mengatasi masalah gradien hilang yang terjadi ketika pelatihan RNN karena urutan data yang panjang (long data) dengan mempertahankan riwayat status memori internal berdasarkan input dan konteks baru dari sel sebelumnya dalam RNN.

LoRA

#language
#generativeAI

Singkatan dari Adaptasi Peringkat Rendah.

kalah

#fundamentals

Selama pelatihan model tersupervisi, ukuran seberapa jauh prediksi model dari label-nya.

Fungsi kerugian menghitung kerugian.

agregator kerugian

Jenis algoritma machine learning yang meningkatkan performa model dengan menggabungkan prediksi dari beberapa model dan menggunakan prediksi tersebut untuk membuat satu prediksi. Hasilnya, agregator kerugian dapat mengurangi varians prediksi dan meningkatkan akurasi prediksi.

kurva penyimpangan

#fundamentals

Plot kerugian sebagai fungsi dari jumlah pelatihan iterasi. Plot berikut menunjukkan kerugian yang khas kurva:

Grafik Kartesius kerugian versus iterasi pelatihan, yang menunjukkan
          penurunan kerugian yang cepat untuk iterasi awal, diikuti dengan penurunan
          menurun, dan kemudian kemiringan datar selama iterasi akhir.

Kurva kerugian dapat membantu Anda menentukan kapan model Anda berkonvergensi atau overfitting.

Kurva kerugian dapat memetakan semua jenis kerugian berikut:

Lihat juga kurva generalisasi.

fungsi loss

#fundamentals

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada kumpulan contoh. Fungsi kerugian menampilkan kerugian yang lebih rendah untuk model yang membuat prediksi yang baik daripada model yang membuat prediksi yang buruk.

Tujuan pelatihan biasanya adalah untuk meminimalkan kerugian akibat fungsi kerugian akan dikembalikan.

Ada berbagai jenis fungsi kerugian. Pilih kerugian yang sesuai fungsi untuk jenis model yang sedang Anda bangun. Contoh:

permukaan penyimpangan

Grafik berat versus penurunan. Tujuan Penurunan gradien untuk menemukan bobot yang permukaan penyimpangannya berada pada minimum lokal.

Low-Rank Adaptability (LoRA)

#language
#generativeAI

Teknik parameter-efficient untuk penyesuaian yang "membeku" model yang dilatih sebelumnya bobot (sedemikian rupa sehingga tidak lagi dapat dimodifikasi) dan kemudian menyisipkan satu set bobot yang dapat dilatih ke dalam model. Kumpulan bobot yang dapat dilatih ini (juga dikenal sebagai "matriks pembaruan") jauh lebih kecil daripada model dasar sehingga jauh lebih cepat untuk dilatih.

LoRA memberikan manfaat berikut:

  • Meningkatkan kualitas prediksi model untuk domain di mana denda tuning diterapkan.
  • Melakukan penyesuaian lebih cepat daripada teknik yang memerlukan penyesuaian semua parameter model.
  • Mengurangi biaya komputasi inferensi dengan mengaktifkan penayangan serentak beberapa model khusus yang berbagi model dasar yang sama.

LSTM

#seq

Singkatan dari Long Short-Term Memory.

M

machine learning

#fundamentals

Program atau sistem yang melatih model dari data input. Model terlatih dapat membuat prediksi yang berguna dari data baru (yang belum pernah dilihat) yang diambil dari distribusi yang sama dengan yang digunakan untuk melatih model.

Machine learning juga mengacu pada bidang studi yang berkaitan dengan program atau sistem ini.

kelas mayoritas

#fundamentals

Label yang lebih umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi 99% label negatif dan 1% label positif, label negatif adalah kelas mayoritas.

Berbeda dengan kelas minoritas.

Proses keputusan Markov (MDP)

#rl

Grafik yang mewakili model pengambilan keputusan di mana keputusan (atau tindakan) diambil untuk menavigasi urutan status dengan asumsi bahwa Pembekuan properti Markov. Dalam reinforcement learning, transisi antara status ini menampilkan reward numerik.

Properti Markov

#rl

Properti lingkungan tertentu, di mana status sepenuhnya ditentukan oleh informasi yang implisit dalam status saat ini dan tindakan agen.

model bahasa yang disamarkan

#language

Model bahasa yang memprediksi probabilitas token kandidat untuk mengisi bagian yang kosong secara berurutan. Sebagai contoh, model bahasa yang disamarkan dapat menghitung probabilitas kata kandidat untuk mengganti garis bawah dalam kalimat berikut:

____ di topi kembali.

Referensi biasanya menggunakan string "MASK", bukan garis bawah. Contoh:

"MASK" dalam topi itu kembali.

Sebagian besar model bahasa masked modern bersifat dua arah.

matplotlib

Library plot 2D Python open source. matplotlib membantu Anda memvisualisasikan berbagai aspek machine learning.

faktorisasi matriks

#recsystems

Dalam matematika, mekanisme untuk menemukan matriks yang produk titiknya mendekati matriks target.

Dalam sistem rekomendasi, matriks target sering kali menyimpan rating pengguna pada item. Misalnya, matriks target untuk sistem rekomendasi film mungkin terlihat seperti berikut, yang mana bilangan bulat positif adalah nilai pengguna dan 0 berarti bahwa pengguna tidak menilai film:

  Casablanca Kisah Philadelphia Black Panther Wonder Woman Pulp Fiction
Pengguna 1 5,0 3.0 0,0 2.0 0,0
Pengguna 2 4.0 0,0 0,0 1.0 5,0
Pengguna 3 3.0 1.0 4.0 5,0 0,0

Sistem rekomendasi film bertujuan untuk memprediksi rating pengguna untuk film yang tidak diberi rating. Misalnya, apakah Pengguna 1 akan menyukai Black Panther?

Salah satu pendekatan untuk sistem rekomendasi adalah menggunakan faktorisasi matriks untuk menghasilkan dua matriks berikut:

  • Matriks pengguna, dibentuk dari jumlah pengguna X jumlah dimensi penyematan.
  • Matriks item, dibentuk sesuai jumlah embedding dimensi X jumlah item.

Misalnya, menggunakan faktorisasi matriks pada tiga pengguna dan lima item dapat menghasilkan matriks pengguna dan matriks item berikut:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Hasil perkalian titik matriks pengguna dan matriks item menghasilkan matriks rekomendasi yang tidak hanya berisi rating pengguna asli, tetapi juga prediksi untuk film yang belum ditonton oleh setiap pengguna. Misalnya, pertimbangkan rating Casablanca dari Pengguna 1, yang sebesar 5,0. Titik produk yang sesuai dengan sel tersebut dalam matriks rekomendasi harus semoga sekitar 5,0, dan ini:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Lebih penting lagi, apakah Pengguna 1 akan menyukai Black Panther? Mengambil hasil perkalian titik yang sesuai dengan baris pertama dan kolom ketiga menghasilkan prediksi rating 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Faktorisasi matriks biasanya menghasilkan matriks pengguna dan matriks item yang, secara bersamaan, jauh lebih ringkas daripada matriks target.

Rata-rata Error Absolut (MAE)

Kerugian rata-rata per contoh saat kerugian1 digunakan. Hitung Mean Absolute Error sebagai berikut:

  1. Hitung kerugian L1 untuk batch.
  2. Bagi kerugian L1 dengan jumlah contoh dalam batch.

Misalnya, pertimbangkan penghitungan kerugian L1 pada dalam batch lima contoh berikut:

Nilai sebenarnya dari contoh Nilai prediksi model Kerugian (perbedaan antara aktual dan prediksi)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = kerugian L1

Jadi, kerugian L1 adalah 8 dan jumlah contoh adalah 5. Oleh karena itu, Error Absolut Rata-rata adalah:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Membandingkan Error Rata-rata Absolut dengan Rataan Kuadrat Error dan Error Akar Rata-Rata Kuadrat.

Rataan Kuadrat Galat (MSE)

Kerugian rata-rata per contoh saat kerugian2 digunakan. Hitung Rataan Kuadrat Galat (RKG) sebagai berikut:

  1. Hitung kerugian L2 untuk batch.
  2. Bagikan kerugian L2 dengan jumlah contoh dalam batch.

Misalnya, pertimbangkan kerugian pada batch lima contoh berikut:

Nilai sebenarnya Prediksi model Kerugian Kerugian kuadrat
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = kerugian L2

Oleh karena itu, Rataan Kuadrat Galat adalah:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Rataan Kuadrat Error adalah pengoptimal pelatihan populer, khususnya untuk regresi linear.

Membedakan {i>Mean Squared Error<i} dengan Error Absolut Rata-Rata dan Error Akar Rata-Rata Kuadrat.

TensorFlow Playground menggunakan Rata-rata Error Kuadrat untuk menghitung nilai kerugian.

mesh

#TensorFlow
#GoogleCloud

Dalam pemrograman paralel ML, istilah yang terkait dengan penetapan data dan model ke chip TPU, serta menentukan cara nilai ini akan di-shard atau direplikasi.

Mesh adalah istilah yang kelebihan beban yang dapat berarti salah satu dari hal berikut:

  • Tata letak fisik chip TPU.
  • Konstruksi logis abstrak untuk memetakan data dan model ke TPU {i>chip<i}.

Dalam kedua kasus tersebut, mesh ditentukan sebagai shape.

pembelajaran meta

#language

Subkumpulan machine learning yang menemukan atau meningkatkan algoritma pembelajaran. Sistem meta-pembelajaran juga dapat bertujuan untuk melatih model agar dapat dengan cepat mempelajari tugas baru dari sejumlah kecil data atau dari pengalaman yang diperoleh dalam tugas sebelumnya. Algoritma pembelajaran meta umumnya mencoba untuk mencapai hal-hal berikut:

  • Meningkatkan atau mempelajari fitur rekayasa tangan (seperti penginisialisasi atau pengoptimal).
  • Meningkatkan efisiensi data dan komputasi.
  • Meningkatkan generalisasi.

Meta-pembelajaran terkait dengan pemelajaran beberapa tahap.

metrik

#TensorFlow

Statistik yang Anda minati.

Tujuan adalah metrik yang diperlukan sistem machine learning dioptimalkan.

Metrics API (tf.metrics)

TensorFlow API untuk mengevaluasi model. Misalnya, tf.metrics.accuracy menentukan seberapa sering prediksi model cocok dengan label.

tumpukan mini

#fundamentals

Subset kecil yang dipilih secara acak dari tumpukan yang diproses dalam satu iterasi. Ukuran batch dari batch mini biasanya antara 10 dan 1.000 contoh.

Misalnya, seluruh set pelatihan (batch penuh) terdiri dari 1.000 contoh. Selanjutnya anggap saja bahwa Anda mengatur ukuran tumpukan setiap tumpukan mini menjadi 20. Oleh karena itu, setiap iterasi menentukan kerugian pada 20 contoh acak dari 1.000 contoh, lalu menyesuaikan bobot dan bias yang sesuai.

Jauh lebih efisien untuk menghitung kerugian pada tumpukan mini daripada kerugian pada semua contoh dalam batch lengkap.

penurunan gradien stokastik mini-batch

Algoritma penurunan gradien yang menggunakan kumpulan mini. Dengan kata lain, stokastik mini-batch penurunan gradien memperkirakan gradien berdasarkan subset kecil dari data pelatihan. Penurunan gradien stokastik reguler menggunakan batch mini berukuran 1.

kerugian minimax

Fungsi kerugian untuk jaringan saraf generatif berlawanan, berdasarkan entropi silang antara distribusi data yang dihasilkan dan data aktual.

Kerugian minimax digunakan dalam makalah pertama untuk mendeskripsikan jaringan adversarial generatif.

kelas minoritas

#fundamentals

Label yang kurang umum dalam set data kelas tidak seimbang. Misalnya, diberikan sebuah {i>dataset<i} yang berisi 99% label negatif dan 1% label positif, label positif adalah kelas minoritas.

Berbeda dengan kelas mayoritas.

campuran pakar

#language
#generativeAI

Skema untuk meningkatkan efisiensi jaringan neural dengan menggunakan hanya subset parameternya (dikenal sebagai pakar) untuk memproses token atau contoh input tertentu. Jaringan gating merutekan setiap token atau contoh input ke pakar yang sesuai.

Untuk mengetahui detailnya, lihat salah satu makalah berikut:

ML

Singkatan dari machine learning.

MMIT

#language
#image
#generativeAI

Singkatan dari multimodal instruction-tuned.

MNIST

#image

Set data domain publik yang dikompilasi oleh LeCun, Cortes, dan Burges yang berisi 60.000 gambar, setiap gambar menunjukkan cara manusia secara manual menulis digit tertentu dari 0–9. Tiap gambar disimpan sebagai susunan bilangan bulat 28x28, dengan setiap bilangan bulat adalah nilai hitam putih antara 0 dan 255, inklusif.

MNIST adalah set data kanonis untuk machine learning, yang sering digunakan untuk menguji machine learning. Untuk mengetahui detailnya, lihat Database MNIST untuk Digit Tulisan Tangan.

modalitas

#language

Kategori data tingkat tinggi. Misalnya, angka, teks, gambar, video, dan audio adalah lima modalitas yang berbeda.

model

#fundamentals

Secara umum, setiap konstruksi matematika yang memproses data input dan menampilkan output. Diungkapkan secara berbeda, model adalah seperangkat parameter dan struktur yang diperlukan suatu sistem untuk membuat prediksi. Di supervised machine learning, model mengambil contoh sebagai input dan menyimpulkan prediksi sebagai output. Dalam machine learning yang diawasi, modelnya agak berbeda. Contoh:

  • Model regresi linear terdiri dari kumpulan bobot dan bias.
  • Model jaringan saraf terdiri dari:
    • Kumpulan lapisan tersembunyi, yang masing-masing berisi satu atau lebih banyak neuron.
    • Bobot dan bias yang terkait dengan setiap neuron.
  • Model hierarki keputusan terdiri dari:
    • Bentuk hierarki; yaitu, pola yang menghubungkan kondisi dan daun.
    • Kondisi dan keluarnya.

Anda dapat menyimpan, memulihkan, atau membuat salinan model.

Unsupervised machine learning juga membuat model, biasanya fungsi yang dapat memetakan contoh input ke cluster yang paling sesuai.

kapasitas model

Kompleksitas masalah yang dapat dipelajari oleh model. Semakin kompleks masalah yang dapat dipelajari model, semakin tinggi kapasitas model. Kapasitas model biasanya meningkat seiring dengan jumlah parameter model. Untuk definisi formal dari kapasitas pengklasifikasi, lihat dimensi VC.

model cascading

#generativeAI

Sistem yang memilih model ideal untuk kueri inferensi tertentu.

Bayangkan sekelompok model, mulai dari yang sangat besar (banyak parameter) hingga yang jauh lebih kecil (parameter jauh lebih sedikit). Model yang sangat besar menghabiskan lebih banyak sumber daya komputasi inferensi dibandingkan model yang lebih kecil. Namun, model yang sangat besar biasanya dapat menyimpulkan permintaan yang lebih kompleks daripada model yang lebih kecil. Penyusunan model menentukan kompleksitas kueri inferensi dan kemudian memilih model yang sesuai untuk melakukan inferensi. Motivasi utama untuk cascading model adalah untuk mengurangi biaya inferensi dengan umumnya memilih model yang lebih kecil, dan hanya memilih model yang lebih besar untuk kueri yang lebih kompleks.

Bayangkan sebuah model kecil dijalankan di ponsel dan versi yang lebih besar dari model tersebut berjalan pada server jarak jauh. Cascading model yang baik akan mengurangi biaya dan latensi dengan memungkinkan model yang lebih kecil menangani permintaan sederhana dan hanya memanggil model jarak jauh untuk menangani permintaan yang kompleks.

Lihat juga router model.

paralelisme model

#language

Cara menskalakan pelatihan atau inferensi yang menempatkan berbagai bagian dari satu model di berbagai perangkat. Paralelisme model memungkinkan model yang terlalu besar untuk dimuat di satu perangkat.

Untuk menerapkan paralelisme model, sistem biasanya melakukan hal berikut:

  1. Shard (membagi) model menjadi bagian-bagian yang lebih kecil.
  2. Mendistribusikan pelatihan bagian-bagian yang lebih kecil ke beberapa prosesor. Setiap prosesor melatih bagian modelnya sendiri.
  3. Menggabungkan hasil untuk membuat satu model.

Paralelisme model memperlambat pelatihan.

Lihat juga paralelisme data.

router model

#generativeAI

Algoritma yang menentukan model ideal untuk inferensi dalam cascade model. Router model itu sendiri biasanya merupakan model machine learning yang secara bertahap mempelajari cara memilih model terbaik untuk input tertentu. Namun, {i>router<i} model terkadang bisa lebih sederhana, algoritma non-machine learning.

pelatihan model

Proses menentukan model terbaik.

Momentum

Algoritme penurunan gradien mutakhir yang langkah pembelajarannya tidak hanya bergantung pada turunan dalam langkah saat ini, tetapi juga pada turunan langkah yang langsung mendahuluinya. Momentum melibatkan komputasi rata-rata pergerakan gradien yang diberi bobot secara eksponensial dari waktu ke waktu, analog terhadap momentum dalam fisika. Momentum terkadang mencegah pembelajaran terhenti di lokal minimum.

MOE

#language
#image
#generativeAI

Singkatan dari mixture of experts.

klasifikasi multi-class

#fundamentals

Dalam pembelajaran dengan pengawasan, masalah klasifikasi yang set data-nya berisi lebih dari dua kelas label. Misalnya, label dalam set data Iris harus berupa salah satu dari tiga class berikut:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Model yang dilatih dengan set data Iris yang memprediksi jenis Iris pada contoh baru sedang melakukan klasifikasi multi-kelas.

Sebaliknya, masalah klasifikasi yang membedakan antara tepat dua class adalah model klasifikasi biner. Misalnya, model email yang memprediksi spam atau bukan spam adalah model klasifikasi biner.

Dalam masalah pengelompokan, klasifikasi multi-class mengacu pada lebih dari dua cluster.

regresi logistik multi-kelas

Menggunakan regresi logistik dalam masalah klasifikasi multikelas.

self-attention multi-kepala

#language

Perluasan dari perhatian mandiri yang menerapkan mekanisme self-attention beberapa kali untuk setiap posisi dalam urutan input.

Transformer memperkenalkan self-attention multi-head.

model multimodal

#language

Model yang input dan/atau output-nya mencakup lebih dari satu modalitas. Misalnya, pertimbangkan model yang menggunakan gambar dan teks (dua modalitas) sebagai fitur, dan mengeluarkan skor yang menunjukkan seberapa sesuai teks untuk gambar. Jadi, input model ini bersifat multimodal dan output-nya unimodal.

disesuaikan dengan petunjuk multimodal

#language

Model yang disesuaikan dengan petunjuk yang dapat memproses input selain teks, seperti gambar, video, dan audio.

klasifikasi multinomial

Sinonim dari klasifikasi kelas jamak.

regresi multinomial

Sinonim dari regresi logistik multi-kelas.

multitasking

Teknik machine learning yang menggunakan satu model yang dilatih untuk melakukan beberapa tugas.

Model {i>multitask <i}dibuat dengan melatih data yang sesuai untuk masing-masing tugas yang berbeda. Hal ini memungkinkan model belajar membagikan informasi lintas tugas, yang membantu model belajar lebih efektif.

Model yang dilatih untuk beberapa tugas sering kali memiliki kemampuan generalisasi yang lebih baik dan dapat lebih andal dalam menangani berbagai jenis data.

T

Perangkap NaN

Saat satu angka dalam model Anda menjadi NaN selama pelatihan, yang menyebabkan banyak atau semua angka lain dalam model Anda akhirnya menjadi NaN.

NaN adalah singkatan dari Not a Number.

natural language understanding

#language

Menentukan niat pengguna berdasarkan apa yang diketik atau dikatakan pengguna. Misalnya, mesin telusur menggunakan natural language understanding untuk menentukan apa yang dicari pengguna berdasarkan apa yang diketik atau dikatakan pengguna.

kelas negatif

#fundamentals

Dalam klasifikasi biner, satu class disebut positif dan class lainnya disebut negatif. Class positif adalah hal atau peristiwa yang diuji model dan class negatif adalah kemungkinan lainnya. Contoh:

  • Kelas negatif dalam tes medis bisa jadi "bukan Tumor".
  • Kelas negatif dalam pengklasifikasi email dapat berupa "bukan spam".

Berbeda dengan class positif.

sampling negatif

Sinonim dari sampling kandidat.

Neural Architecture Search (NAS)

Teknik untuk merancang arsitektur aplikasi secara otomatis jaringan neural. Algoritma NAS dapat mengurangi jumlah waktu dan resource yang diperlukan untuk melatih jaringan saraf.

NAS biasanya menggunakan:

  • Ruang penelusuran, yang merupakan kumpulan kemungkinan arsitektur.
  • Fungsi kebugaran, yang merupakan ukuran seberapa baik performa arsitektur tertentu pada tugas tertentu.

Algoritma NAS sering dimulai dengan serangkaian kemungkinan arsitektur dan secara bertahap memperluas ruang pencarian saat algoritma mempelajari lebih lanjut tentang apa arsitektur itu efektif. Fungsi kebugaran biasanya didasarkan pada performa arsitektur pada set pelatihan, dan algoritma biasanya dilatih menggunakan teknik reinforcement learning.

Algoritma NAS telah terbukti efektif dalam menemukan performa tinggi arsitektur untuk berbagai tugas, termasuk layanan gambar klasifikasi, klasifikasi teks, dan terjemahan mesin.

alur maju

#fundamentals

Model yang berisi setidaknya satu lapisan tersembunyi. Jaringan neural dalam adalah jenis jaringan neural yang berisi lebih dari satu lapisan tersembunyi. Misalnya, diagram berikut menunjukkan jaringan neural dalam yang berisi dua lapisan tersembunyi.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan lapisan output.

Setiap neuron di jaringan neural terhubung ke semua simpul di lapisan berikutnya. Misalnya, dalam diagram sebelumnya, perhatikan bahwa setiap dari tiga neuron di lapisan tersembunyi pertama terhubung secara terpisah ke kedua neuron di lapisan tersembunyi kedua.

Jaringan neural yang diimplementasikan pada komputer kadang-kadang disebut jaringan neural artifisial untuk membedakannya dari jaringan saraf yang ditemukan di otak dan sistem saraf lainnya.

Beberapa jaringan neural dapat meniru hubungan nonlinear yang sangat kompleks antara fitur yang berbeda dan labelnya.

Lihat juga jaringan neural konvolusional dan jaringan saraf berulang.

neuron

#fundamentals

Dalam machine learning, unit yang berbeda dalam lapisan tersembunyi dari jaringan neural. Setiap neuron melakukan hal-hal berikut tindakan dua langkah:

  1. Menghitung jumlah berbobot nilai input yang dikalikan dengan bobotnya yang sesuai.
  2. Meneruskan jumlah berbobot sebagai input ke fungsi aktivasi.

Neuron di lapisan tersembunyi pertama menerima input dari nilai fitur di lapisan input. Neuron di lapisan tersembunyi apa pun selain lapisan pertama menerima input dari neuron di lapisan tersembunyi sebelumnya. Misalnya, neuron di lapisan tersembunyi kedua menerima input dari neuron di lapisan tersembunyi pertama.

Ilustrasi berikut menyoroti dua neuron dan input.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan lapisan output. Dua neuron disorot: satu di bagian pertama
          lapisan tersembunyi dan satu lagi 
di lapisan tersembunyi kedua. Neuron yang ditandai
          di lapisan tersembunyi pertama menerima input dari kedua fitur
          di lapisan input. Neuron yang disorot di lapisan tersembunyi kedua
          menerima input dari ketiga neuron pada
          feedforward.

Sebuah neuron di jaringan saraf meniru perilaku neuron di otak dan bagian lain dari sistem saraf.

N-gram

#seq
#language

Urutan kata N yang teratur. Misalnya, truly madly bernilai 2 gram. Karena itu relevan, benar-benar berbeda 2 gram dengan benar-benar gila.

T Nama untuk jenis N-gram ini Contoh
2 bigram atau 2 gram to go, go to, eat lunch, eat dinner
3 trigram atau 3-gram makan terlalu banyak, tiga tikus tunanetra, bel berbunyi
4 4-gram berjalan di taman, terkena debu, dan anak itu makan miju-miju

Banyak natural language understanding model bergantung pada N-gram untuk memprediksi kata berikutnya yang akan diketik pengguna atau katakan. Misalnya, pengguna mengetik three blind. Model NLU berdasarkan trigram kemungkinan akan memprediksi bahwa pengguna selanjutnya akan mengetik mouse.

Bedakan N-gram dengan kantong data, yang merupakan kumpulan kata yang tidak berurutan.

NLU

#language

Singkatan dari bahasa natural pemahaman.

node (pohon keputusan)

#df

Di pohon keputusan, setiap condition atau leaf.

Pohon keputusan dengan dua kondisi dan tiga daun.

node (jaringan neural)

#fundamentals

neuron dalam lapisan tersembunyi.

node (grafik TensorFlow)

#TensorFlow

Operasi dalam grafik TensorFlow.

kebisingan

Secara garis besar, segala sesuatu yang mengaburkan sinyal dalam {i>dataset<i}. Suara Bising dapat dimasukkan ke dalam data dengan berbagai cara. Contoh:

  • Penilai manusia melakukan kesalahan dalam pelabelan.
  • Manusia dan instrumen salah mencatat atau menghapus nilai fitur.

kondisi non-biner

#df

Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan akibat:

Kondisi (number_of_legs = ?) yang menghasilkan tiga kemungkinan
          hasil pengujian tersebut. Satu hasil (number_of_legs = 8) mengarah ke daun
          yang dinamakan spider. Hasil kedua (number_of_legs = 4) mengarah ke
          daun bernama {i>dog<i}. Hasil ketiga (number_of_legs = 2) mengarah ke
          daun bernama penguin.

nonlinear

#fundamentals

Hubungan antara dua atau beberapa variabel yang tidak dapat direpresentasikan hanya melalui penambahan dan perkalian. Hubungan linear dapat direpresentasikan sebagai garis; hubungan nonlinear tidak dapat direpresentasikan sebagai garis. Misalnya, pertimbangkan dua model yang masing-masing mengaitkan satu fitur ke satu label. Model di sebelah kiri adalah linear dan model di sebelah kanan adalah nonlinear:

Dua plot. Satu plot adalah sebuah
garis, jadi ini adalah hubungan linear.
          Plot lainnya adalah kurva, sehingga ini adalah hubungan nonlinier.

bias abstain

#fairness

Lihat bias seleksi.

nonstasioneritas

#fundamentals

Fitur yang nilainya berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, perhatikan contoh nonstasioneritas berikut:

  • Jumlah pakaian renang yang dijual di toko tertentu bervariasi sesuai musim.
  • Jumlah buah tertentu yang dipanen di wilayah tertentu nol selama sebagian besar tahun, tetapi besar selama periode singkat.
  • Karena perubahan iklim, suhu rata-rata tahunan mengalami pergeseran.

Berbeda dengan stasioneritas.

normalisasi

#fundamentals

Secara garis besar, proses konversi rentang aktual variabel ke dalam rentang nilai standar, seperti:

  • -1 hingga +1
  • 0 hingga 1
  • Skor Z (kira-kira, -3 hingga +3)

Misalnya, rentang nilai sebenarnya dari fitur tertentu adalah 800 hingga 2.400. Sebagai bagian dari engineering fitur, Anda dapat menormalisasi nilai sebenarnya ke rentang standar, seperti -1 hingga +1.

Normalisasi adalah tugas umum di rekayasa fitur. Model biasanya dilatih lebih cepat (dan menghasilkan prediksi yang lebih baik) jika setiap fitur numerik dalam vektor fitur memiliki rentang yang kira-kira sama.

Lihat panduan Bekerja dengan Data Numerik modul ini Kursus Singkat Machine Learning untuk mengetahui detail lebih lanjut. Lihat juga normalisasi skor Z.

deteksi kebaruan

Proses menentukan apakah contoh baru (baru) berasal dari distribusi yang sama dengan set pelatihan. Dengan kata lain, setelah pelatihan pada set pelatihan, deteksi kebaruan menentukan apakah baru (selama inferensi atau selama pelatihan tambahan) adalah outlier.

Berbeda dengan deteksi pencilan.

data numerik

#fundamentals

Fitur yang direpresentasikan sebagai bilangan bulat atau bilangan bernilai nyata. Misalnya, model penilaian rumah mungkin akan mewakili ukuran rumah (dalam kaki persegi atau meter persegi) sebagai data numerik. Merepresentasikan sebuah fitur sebagai data numerik menunjukkan bahwa nilai fitur itu memiliki hubungan matematika dengan label. Artinya, jumlah meter persegi sebuah rumah mungkin memiliki beberapa hubungan matematis dengan nilai rumah.

Tidak semua data bilangan bulat harus direpresentasikan sebagai data numerik. Misalnya, kode pos di beberapa bagian dunia adalah bilangan bulat; namun, pos bilangan bulat kode tidak boleh direpresentasikan sebagai data numerik dalam model. Hal itu karena seorang kode pos 20000 tidak dua kali (atau setengah) lebih kuat daripada kode pos 10.000. Selain itu, meskipun kode pos yang berbeda memang berkorelasi dengan nilai properti yang berbeda, kita tidak dapat mengasumsikan bahwa nilai properti di kode pos 20000 bernilai dua kali lipat dari nilai properti di kode pos 10000. Kode pos harus direpresentasikan sebagai data kategorik sebagai gantinya.

Fitur numerik terkadang disebut fitur berkelanjutan.

NumPy

Sebuah library matematika open source yang menyediakan operasi array yang efisien dalam Python. pandas dibangun di NumPy.

O

tujuan

Metrik yang coba dioptimalkan oleh algoritma Anda.

fungsi objektif

Formula matematika atau metrik yang ingin dioptimalkan oleh model. Misalnya, fungsi objektif untuk regresi linier biasanya Mean Squared Loss. Oleh karena itu, saat melatih model regresi linear, pelatihan bertujuan untuk meminimalkan Mean Squared Loss.

Dalam beberapa kasus, sasarannya adalah memaksimalkan fungsi objektif. Misalnya, jika fungsi objektifnya adalah akurasi, sasarannya adalah memaksimalkan akurasi.

Lihat juga kerugian.

kondisi miring

#df

Dalam pohon keputusan, kondisi yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar merupakan fitur, maka berikut ini adalah kondisi miring:

  height > width

Berbeda dengan kondisi yang sejajar dengan sumbu.

offline

#fundamentals

Sinonim dari static.

inferensi offline

#fundamentals

Proses model yang menghasilkan batch prediksi, lalu menyimpan prediksi tersebut dalam cache. Aplikasi kemudian dapat mengakses prediksi yang disimpulkan dari cache, bukan menjalankan ulang model.

Misalnya, pertimbangkan model yang menghasilkan prakiraan cuaca lokal (prediksi) setiap empat jam sekali. Setelah setiap model dijalankan, sistem akan meng-cache semua perkiraan cuaca lokal. Aplikasi cuaca mengambil prakiraan cuaca dari cache.

Inferensi offline juga disebut inferensi statis.

Berbeda dengan inferensi online.

enkode one-hot

#fundamentals

Merepresentasikan data kategoris sebagai vektor dengan:

  • Satu elemen ditetapkan ke 1.
  • Semua elemen lainnya ditetapkan ke 0.

Enkode one-hot biasanya digunakan untuk merepresentasikan string atau ID yang memiliki kemungkinan set nilai yang terbatas. Sebagai contoh, anggap sebuah fitur kategorikal tertentu bernama Scandinavia memiliki lima kemungkinan nilai:

  • "Denmark"
  • "Swedia"
  • "Norwegia"
  • "Finlandia"
  • "Islandia"

Encoding one-hot dapat mewakili setiap lima nilai sebagai berikut:

country Vektor
"Denmark" 1 0 0 0 0
"Swedia" 0 1 0 0 0
"Norway" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islandia" 0 0 0 0 1

Berkat encoding one-hot, model dapat mempelajari koneksi yang berbeda berdasarkan masing-masing dari kelima negara.

Merepresentasikan fitur sebagai data numerik adalah alternatif untuk enkode one-hot. Sayangnya, merepresentasikan negara-negara Skandinavia secara numerik bukanlah pilihan yang baik. Misalnya, pertimbangkan representasi numerik berikut ini:

  • "Denmark" adalah 0
  • "Swedia" adalah 1
  • "Norwegia" adalah 2
  • "Finland" adalah 3
  • "Iceland" adalah 4

Dengan encoding numerik, model akan menafsirkan angka mentah secara matematis dan akan mencoba melatih angka tersebut. Namun, Islandia sebenarnya tidak memiliki dua kali lipat (atau setengah) sesuatu seperti Norwegia, sehingga model akan menghasilkan beberapa kesimpulan aneh.

pemelajaran satu kali

Pendekatan {i>machine learning<i}, yang sering digunakan untuk klasifikasi objek, yang dirancang untuk mempelajari pengklasifikasi yang efektif dari satu contoh pelatihan.

Lihat juga pemelajaran beberapa tahap dan pemelajaran tanpa contoh.

one-shot prompting

#language
#generativeAI

Perintah yang berisi satu contoh yang menunjukkan cara model bahasa besar merespons. Misalnya, perintah berikut berisi satu contoh yang menunjukkan model bahasa besar cara menjawab kueri.

Bagian dari satu perintah Catatan
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang perlu dijawab oleh LLM.
Prancis: EUR Satu contoh.
India: Kueri sebenarnya.

Bandingkan dan bedakan perintah satu kali dengan istilah berikut:

satu vs. semua

#fundamentals

Mengingat masalah klasifikasi dengan kelas N, larutan yang terdiri dari N dan pengklasifikasi biner—satu pengklasifikasi biner untuk setiap hasil yang mungkin. Misalnya, dengan model yang mengklasifikasikan contoh seperti hewan, sayur, atau mineral, solusi satu vs. semua akan memberikan berikut tiga pengklasifikasi biner terpisah:

  • hewan versus bukan hewan
  • sayuran versus bukan sayuran
  • mineral versus bukan mineral

online

#fundamentals

Sinonim dari dinamis.

inferensi online

#fundamentals

Menghasilkan prediksi sesuai permintaan. Misalnya, misalkan aplikasi meneruskan input ke model dan mengeluarkan permintaan untuk prediksi. Sistem yang menggunakan inferensi {i>online<i} merespons permintaan dengan menjalankan model (dan menampilkan prediksi ke aplikasi).

Berbeda dengan inferensi offline.

operasi (op)

#TensorFlow

Di TensorFlow, prosedur apa pun yang membuat, memanipulasi, atau menghancurkan Tensor. Misalnya, perkalian matriks adalah operasi yang menggunakan dua Tensor sebagai input dan menghasilkan satu Tensor sebagai output.

Optax

Library pemrosesan dan pengoptimalan gradien untuk JAX. Optax memfasilitasi riset dengan menyediakan elemen penyusun yang dapat digabungkan kembali dengan cara kustom untuk mengoptimalkan model parametrik seperti deep neural network. Tujuan lainnya termasuk:

  • Menyediakan implementasi yang dapat dibaca, teruji dengan baik, dan efisien dari komponen inti.
  • Meningkatkan produktivitas dengan memungkinkan penggabungan bahan-bahan tingkat rendah menjadi pengoptimal khusus (atau komponen pemrosesan gradien lainnya).
  • Mempercepat penerapan ide-ide baru dengan memudahkan siapa saja untuk berkontribusi.

pengoptimal

Implementasi spesifik dari algoritma penurunan gradien. Pengoptimal populer mencakup:

  • AdaGrad, yang merupakan singkatan dari ADAptive GRADient descent.
  • Adam, yang merupakan singkatan dari ADAptive dengan Momentum.

bias kehomogenan luar golongan

#fairness

Kecenderungan untuk melihat anggota di luar kelompok lebih mirip daripada anggota dalam grup ketika membandingkan sikap, nilai, ciri kepribadian, dan karakteristik. Dalam grup mengacu pada orang yang berinteraksi dengan Anda secara berkala; luar grup mengacu pada orang yang tidak berinteraksi dengan Anda secara berkala. Jika Anda membuat set data dengan meminta orang untuk memberikan atribut tentang luar golongan, atribut tersebut mungkin kurang bernuansa dan lebih stereotip daripada atribut yang dicantumkan oleh peserta untuk orang di dalam golongan mereka.

Misalnya, Liliput mungkin mendeskripsikan rumah Liliput lain dengan sangat mendetail, dengan menyebutkan perbedaan kecil dalam gaya arsitektur, jendela, pintu, dan ukuran. Namun, Lilliputian yang sama mungkin hanya menyatakan bahwa semua Brobdingnagian tinggal di rumah yang identik.

Bias kehomogenan luar golongan adalah bentuk bias atribusi golongan.

Lihat juga bias dalam grup.

deteksi pencilan

Proses mengidentifikasi outlier dalam suatu set pelatihan.

Berbeda dengan deteksi baru.

kekecualian

Nilai yang berbeda dari sebagian besar nilai lainnya. Dalam machine learning, setiap berikut ini adalah pencilan:

  • Data input yang nilainya lebih dari sekitar 3 standar deviasi dari rata-rata.
  • Bobot dengan nilai absolut yang tinggi.
  • Nilai yang diprediksi relatif jauh dari nilai sebenarnya.

Misalnya, widget-price adalah fitur dari model tertentu. Asumsikan bahwa rata-rata widget-price adalah 7 Euro dengan simpangan baku sebesar 1 Euro. Contoh berisi widget-price sebesar 12 Euro atau 2 Euro oleh karena itu akan dianggap {i>outlier <i} karena masing-masing harga tersebut lima deviasi standar dari nilai {i>mean<i}.

Pencilan sering disebabkan oleh kesalahan ketik atau kesalahan {i>input<i} lainnya. Dalam kasus lain, {i>outliers <i}bukanlah kesalahan; bagaimanapun juga, nilai lima deviasi standar dari nilai rata-rata jarang terjadi tetapi hampir tidak mungkin.

Pencilan biasanya menyebabkan masalah dalam pelatihan model. Penyesuaian nilai adalah salah satu cara untuk mengelola pencilan.

evaluasi out-of-bag (evaluasi OOB)

#df

Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan terhadap contoh yang tidak digunakan selama pelatihan tentang pohon keputusan tersebut. Misalnya, di kolom berikut ini, perhatikan bahwa sistem melatih setiap pohon keputusan pada sekitar dua pertiga contoh dan kemudian mengevaluasinya berdasarkan sepertiga dari contoh yang tersisa.

Hutan keputusan yang terdiri dari tiga pohon keputusan.
          Satu pohon keputusan dilatih pada dua pertiga contoh, lalu menggunakan sepertiga sisanya untuk evaluasi OOB.
          Pohon keputusan kedua dilatih di dua pertiga yang berbeda
          contoh dari pohon keputusan sebelumnya, dan kemudian
          menggunakan sepertiga yang berbeda untuk evaluasi OOB
          pohon keputusan sebelumnya.

Evaluasi {i>out-of-bag<i} adalah metode konservatif yang efisien dan konservatif perkiraan mekanisme validasi silang. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, satu model dilatih. Karena pengisian menahan beberapa data dari setiap pohon selama pelatihan, evaluasi OOB dapat data itu untuk memperkirakan validasi silang.

lapisan output

#fundamentals

"Terakhir" lapisan jaringan neural. Lapisan output berisi prediksi.

Ilustrasi berikut menunjukkan deep neural network kecil dengan input dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
          lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi
          pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua
          terdiri dari dua neuron. Lapisan output terdiri dari satu node.

overfitting

#fundamentals

Membuat model yang sesuai dengan data pelatihan terlalu dekat sehingga model gagal membuat prediksi yang benar pada data baru.

Regularisasi dapat mengurangi overfitting. Pelatihan pada set pelatihan yang besar dan beragam juga dapat mengurangi overfitting.

oversampling

Menggunakan kembali contoh dari kelas minoritas dalam set data kelas tidak seimbang untuk membuat set pelatihan yang lebih seimbang.

Misalnya, pertimbangkan masalah klasifikasi biner dengan rasio kelas mayoritas terhadap kelas minoritas adalah 5.000:1. Jika set data berisi satu juta contoh, set data tersebut hanya berisi sekitar 200 contoh class minoritas, yang mungkin terlalu sedikit untuk pelatihan yang efektif. Untuk mengatasi kekurangan ini, Anda dapat mengambil sampel berlebihan (menggunakan kembali) 200 contoh tersebut beberapa kali, yang mungkin menghasilkan contoh yang memadai untuk pelatihan yang berguna.

Anda perlu berhati-hati terhadap penggunaan overfitting yang berlebihan saat {i>oversampling<i}.

Berbeda dengan undersampling.

P

data terpaket

Sebuah pendekatan untuk menyimpan data dengan lebih efisien.

Data yang dipaketkan menyimpan data menggunakan format yang dikompresi atau dengan cara lain yang memungkinkan data diakses dengan lebih efisien. Data yang dikemas meminimalkan jumlah memori dan komputasi yang diperlukan untuk mengaksesnya, sehingga menghasilkan pelatihan yang lebih cepat dan inferensi model yang lebih efisien.

Data yang dipaketkan sering digunakan dengan teknik lain, seperti pengayaan data dan regulasi, yang lebih meningkatkan performa model.

pandas

#fundamentals

API analisis data berorientasi kolom yang dibuat di atas numpy. Banyak framework machine learning, termasuk TensorFlow, mendukung struktur data pandas sebagai input. Untuk mengetahui detailnya, lihat dokumentasi pandas.

parameter

#fundamentals

Bobot dan bias yang dipelajari model selama pelatihan. Misalnya, di regresi linear, parameternya terdiri dari bias (b) dan semua bobot (w1, w2, dan seterusnya) dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sebaliknya, hyperparameter adalah nilai yang yang Anda (atau layanan penyesuaian hyperparameter) ke model. Misalnya, kecepatan pembelajaran adalah hyperparameter.

parameter-efficient tuning

#language
#generativeAI

Serangkaian teknik untuk melakukan penyesuaian halus model bahasa terlatih (PLM) yang besar secara lebih efisien daripada penyesuaian halus penuh. Parameter-efficient tuning biasanya melakukan penyesuaian yang jauh lebih sedikit parameter daripada menyetel fine-tuning, namun umumnya menghasilkan model bahasa besar yang berfungsi juga (atau hampir sama persis) model bahasa besar yang dibangun dari fine-tuning.

Bandingkan dan buat perbedaan nyata penyesuaian parameter yang efisien dengan:

Parameter-efficient tuning juga dikenal sebagai parameter-efficient tuning.

Server Parameter (PS)

#TensorFlow

Tugas yang melacak parameter model dalam yang terdistribusi.

pembaruan parameter

Operasi penyesuaian parameter model selama pelatihan, biasanya dalam satu iterasi gradient descent.

turunan parsial

Turunan yang mana semua kecuali satu variabel dianggap sebagai konstanta. Misalnya, turunan parsial f(x, y) sehubungan dengan x adalah turunan f yang dianggap sebagai fungsi dari x saja (yaitu, mempertahankan y konstanta). Turunan parsial f yang terkait dengan x hanya berfokus pada bagaimana x mengubah dan mengabaikan semua variabel lain dalam persamaan.

bias partisipasi

#fairness

Sinonim dari bias non-respons. Lihat bias seleksi.

strategi partisi

Algoritme yang mana variabel dibagi di semua server parameter.

Pax

Framework pemrograman yang dirancang untuk melatih skala besar model jaringan neural begitu besar bahwa keduanya mencakup beberapa TPU chip akselerator slice atau pod.

Pax dibuat berdasarkan Flax, yang dibuat berdasarkan JAX.

Diagram yang menunjukkan posisi Pax dalam stack software.
          Pax dibangun di atas JAX. Pax sendiri terdiri dari tiga lapisan. Lapisan bawah berisi TensorStore dan Flax.
          Lapisan tengah berisi Optax dan Flaxformer. Teratas
          berisi Praxis Modeling Library. Fiddle dibuat
          di atas Pax.

perseptron

Sebuah sistem (baik perangkat keras atau perangkat lunak) yang menggunakan satu atau lebih nilai input, menjalankan fungsi pada jumlah input berbobot, dan menghitung satu nilai output. Dalam machine learning, fungsinya biasanya nonlinear, seperti ULT, sigmoid, atau tanh. Misalnya, perseptron berikut bergantung pada fungsi sigmoid untuk memproses tiga nilai input:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Dalam ilustrasi berikut, perseptron menggunakan tiga input, yang masing-masing dimodifikasi sendiri oleh bobot sebelum memasuki perseptron:

Perseptron yang menggunakan 3 input, masing-masing dikalikan dengan bobot
          terpisah. Perceptron menghasilkan satu nilai.

Perceptron adalah neuron dalam jaringan saraf.

performa

Istilah yang memiliki lebih dari satu makna:

  • Makna standar dalam rekayasa perangkat lunak. Yaitu: Seberapa cepat (atau efisien) apakah perangkat lunak ini berjalan?
  • Makna dalam machine learning. Di sini, performa menjawab pertanyaan berikut: Seberapa benar model ini? Artinya, seberapa baik prediksi model?

kepentingan variabel permutasi

#df

Jenis variabel kepentingan yang mengevaluasi peningkatan error prediksi model setelah mengubah nilai fitur. Nilai penting variabel permutation adalah variabel independen model metrik.

perpleksitas

Salah satu ukuran terkait seberapa baik model menyelesaikan tugasnya. Misalnya, tugas Anda adalah membaca beberapa huruf pertama dari kata yang diketik pengguna di keyboard ponsel, dan menawarkan daftar kemungkinan kata penyelesaian. Perpleksitas, P, untuk tugas ini adalah sekitar jumlah perkiraan yang perlu Anda tawarkan agar daftar Anda dapat berisi kata yang coba diketik pengguna.

Perpleksitas terkait dengan entropi silang sebagai berikut:

$$P= 2^{-\text{cross entropy}}$$

pipeline

Infrastruktur yang berkaitan dengan algoritma machine learning. Pipeline mencakup pengumpulan data, memasukkan data ke dalam file data pelatihan, melatih satu atau beberapa model, dan mengekspor model ke produksi.

pipeline

#language

Bentuk paralelisme model di mana model dibagi menjadi beberapa tahap yang berurutan dan setiap tahap dijalankan di perangkat yang berbeda. Saat suatu tahap memproses satu batch, tahap sebelumnya dapat mengerjakan batch berikutnya.

Lihat juga pelatihan bertahap.

pjit

Fungsi JAX yang membagi kode untuk dijalankan di beberapa chip akselerator. Pengguna meneruskan fungsi ke {i>pjit<i}, yang menampilkan fungsi yang memiliki semantik setara tetapi dikompilasi menjadi komputasi XLA yang berjalan di beberapa perangkat (seperti GPU atau core TPU).

pjit memungkinkan pengguna melakukan shard komputasi tanpa menulis ulang dengan menggunakan partisioner SPMD.

Mulai Maret 2023, pjit telah digabungkan dengan jit. Lihat Array terdistribusi dan otomatis paralelisasi untuk mengetahui detail selengkapnya.

PLM

#language
#generativeAI

Singkatan dari model bahasa terlatih.

pmap

Fungsi JAX yang menjalankan salinan fungsi input di beberapa perangkat hardware (CPU, GPU, atau TPU), dengan nilai input yang berbeda. pmap bergantung pada SPMD.

kebijakan

#rl

Dalam reinforcement learning, pemetaan probabilistik agen dari status ke tindakan.

penggabungan

#image

Mengurangi matriks (atau matriks) yang dibuat oleh lapisan konvolusional ke matriks yang lebih kecil. Penggabungan biasanya melibatkan pengambilan nilai maksimum atau rata-rata di seluruh area gabungan. Misalnya, kita memiliki matriks 3x3 berikut:

Matriks 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Operasi penggabungan, seperti operasi konvolusional, membagi menjadi irisan dan kemudian menggeser operasi konvolusional tersebut dengan langkah. Misalnya, operasi penggabungan matriks konvolusional dibagi menjadi 2 x 2 potongan dengan panjang 1x1. Seperti yang digambarkan diagram berikut, empat operasi penggabungan terjadi. Bayangkan bahwa setiap operasi penggabungan memilih nilai maksimum empat dalam irisan itu:

Matriks inputnya adalah 3x3 dengan nilai: [[5,3,1], [8,2,5], [9,4,3]].
          Submatriks 2x2 kiri atas dari matriks input adalah [[5,3], [8,2]], jadi
          operasi penggabungan kiri atas menghasilkan nilai 8 (yang merupakan
          maksimal 5, 3, 8, dan 2). Submatriks 2x2 kanan atas dari input
          adalah [[3,1], [2,5]], sehingga operasi penggabungan kanan atas menghasilkan
          nilai 5. Submatriks 2x2 kiri bawah dari matriks input adalah
          [[8,2], [9,4]], sehingga operasi penggabungan kiri bawah menghasilkan nilai
          9. Submatriks 2x2 kanan bawah dari matriks input adalah
          [[2,5], [4,3]], sehingga operasi penggabungan kanan bawah menghasilkan nilai
          5. Singkatnya, operasi penggabungan menghasilkan matriks 2 x 2
          [[8,5], [9,5]].

Penggabungan membantu menegakkan invariansi translasi dalam matriks input.

Penggabungan untuk aplikasi visi dikenal lebih formal sebagai penggabungan spasial. Penerapan deret waktu biasanya mengacu pada penggabungan sebagai penggabungan sementara. Secara tidak resmi, penggabungan sering disebut subsampling atau downsampling.

encoding posisi

#language

Teknik untuk menambahkan informasi tentang posisi token dalam urutan ke penyematan token. Model transformer menggunakan posisi pengkodean untuk lebih memahami hubungan antara berbagai bagian dari .

Implementasi umum dari pengkodean posisi{i> <i}menggunakan fungsi sinusoidal. (Secara khusus, frekuensi dan amplitudo fungsi sinusoid ditentukan oleh posisi token dalam urutan.) Teknik ini memungkinkan model Transformer mempelajari cara memperhatikan berbagai bagian urutan berdasarkan posisinya.

kelas positif

#fundamentals

Class yang Anda uji.

Misalnya, kelas positif dalam model kanker mungkin berupa "tumor". Kelas positif dalam pengklasifikasi email mungkin adalah "spam".

Berbeda dengan kelas negatif.

pasca-pemrosesan

#fairness
#fundamentals

Menyesuaikan output model setelah model dijalankan. Pascapemrosesan dapat digunakan untuk menegakkan batasan keadilan tanpa memodifikasi model itu sendiri.

Misalnya, seseorang dapat menerapkan pascapemrosesan ke pengklasifikasi biner dengan menetapkan nilai minimum klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa apakah rasio positif sejati sama untuk semua nilai atribut tersebut.

PR AUC (area di bawah kurva PR)

Area dalam interpolasi kurva presisi-recall, yang diperoleh dengan pemetaan (recall, presisi) poin untuk nilai yang berbeda dari nilai minimum klasifikasi. Bergantung pada cara penghitungannya, AUC PR mungkin setara dengan presisi rata-rata model.

Praxis

Library ML inti berperforma tinggi dari Pax. Praxis sering kali disebut "Pustaka lapisan".

Praxis tidak hanya berisi definisi untuk class Lapisan, tetapi juga sebagian besar komponen pendukungnya, termasuk:

Praxis menyediakan definisi untuk class Model.

presisi

Metrik untuk model klasifikasi yang menjawab pertanyaan berikut:

Saat model memprediksi kelas positif, berapa persentase prediksi yang benar?

Berikut ini rumusnya:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dalam hal ini:

  • positif benar berarti model dengan benar memprediksi kelas positif.
  • positif palsu berarti model tersebut salah memprediksi class positif.

Misalnya, sebuah model membuat 200 prediksi positif. Dari 200 prediksi positif ini:

  • 150 adalah positif benar.
  • 50 di antaranya adalah positif palsu.

Dalam hal ini:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Berbeda dengan akurasi dan perolehan.

Lihat Klasifikasi: Akurasi, perolehan, presisi, dan terkait metrik untuk informasi selengkapnya.

kurva presisi-recall

Kurva presisi versus recall dengan perbedaan nilai minimum klasifikasi.

prediksi

#fundamentals

Output model. Contoh:

  • Prediksi model klasifikasi biner adalah prediksi atau kelas negatif.
  • Prediksi model klasifikasi multi-class adalah satu class.
  • Prediksi model regresi linear adalah angka.

bias prediksi

Nilai yang menunjukkan seberapa jauh rata-rata prediksi dari rata-rata label dalam set data.

Harap bedakan dengan istilah bias dalam model machine learning atau dengan bias dalam etika dan keadilan.

ML prediktif

Sistem machine learning standar ("klasik") apa pun.

Istilah ML prediktif tidak memiliki definisi formal. Sebaliknya, istilah ini membedakan kategori sistem ML yang tidak didasarkan pada AI generatif.

paritas prediktif

#fairness

Metrik keadilan yang memeriksa apakah, untuk pengklasifikasi tertentu, kecepatan presisi setara untuk subgrup yang dipertimbangkan.

Misalnya, model yang memprediksi penerimaan perguruan tinggi akan memenuhi paritas prediktif untuk kewarganegaraan jika rasio presisinya sama untuk Lilliputians dan Brobdingnagians.

Paritas prediktif terkadang disebut juga paritas rasio prediktif.

Lihat "Penjelasan Definisi Keadilan" (bagian 3.2.1) untuk diskusi yang lebih mendetail tentang paritas prediktif.

paritas rasio prediktif

#fairness

Nama lain untuk paritas prediktif.

prapemrosesan

#fairness
Memproses data sebelum digunakan untuk melatih model. Prapemrosesan dapat sederhana menghapus kata dari korpus teks bahasa Inggris yang tidak terdapat dalam kamus bahasa Inggris, atau dapat sesederhana mengekspresikan ulang titik data dengan cara yang menghilangkan sebanyak mungkin atribut yang berkorelasi dengan atribut sensitif. Prapemrosesan dapat membantu memenuhi batasan keadilan.

model terlatih

#language
#image
#generativeAI

Model atau komponen model (seperti vektor penyematan) yang telah dilatih. Terkadang, Anda perlu memasukkan vektor embedding terlatih ke dalam jaringan neural. Pada lain waktu, model Anda akan melatih embedding vektor itu sendiri, daripada mengandalkan embeddings terlatih.

Istilah model bahasa terlatih mengacu pada model bahasa besar yang telah melalui pra-pelatihan.

pra-pelatihan

#language
#image
#generativeAI

Pelatihan awal model pada set data besar. Beberapa model terlatih adalah raksasa yang ceroboh dan biasanya harus ditingkatkan melalui pelatihan tambahan. Misalnya, pakar ML mungkin melatih model bahasa besar (LLM) di set data teks yang luas, seperti semua halaman berbahasa Inggris di Wikipedia. Setelah pra-pelatihan, model yang dihasilkan dapat lebih ditingkatkan lagi melalui salah satu teknik berikut:

keyakinan awal

Apa yang Anda yakini tentang data sebelum Anda mulai melatihnya. Misalnya, regulasi L2 bergantung pada keyakinan sebelumnya bahwa bobot harus kecil dan umumnya didistribusikan dengan nilai sekitar nol.

model regresi probabilistik

Model regresi yang tidak hanya menggunakan bobot untuk setiap fitur, tetapi juga ketidakpastian bobot tersebut. Model regresi probabilistik menghasilkan sebuah prediksi dan ketidakpastian prediksi. Misalnya, model regresi probabilistik mungkin menghasilkan prediksi 325 dengan deviasi standar 12. Untuk mengetahui informasi selengkapnya tentang model regresi probabilistik, lihat Colab di tensorflow.org ini.

fungsi kepadatan probabilitas

Fungsi yang mengidentifikasi frekuensi sampel data benar-benar nilai tertentu. Jika nilai set data adalah bilangan floating point kontinu, kecocokan persis jarang terjadi. Namun, mengintegrasikan fungsi kepadatan probabilitas dari nilai x ke nilai y akan menghasilkan frekuensi sampel data yang diharapkan antara x dan y.

Misalnya, pertimbangkan distribusi normal yang memiliki rata-rata 200 dan deviasi standar 30. Untuk menentukan frekuensi yang diharapkan dari sampel data yang berada dalam rentang 211,4 hingga 218,7, Anda dapat mengintegrasikan fungsi kepadatan probabilitas untuk distribusi normal dari 211,4 hingga 218,7.

perintah

#language
#generativeAI

Setiap teks yang dimasukkan sebagai input ke model bahasa besar untuk mengkondisikan model agar berperilaku dengan cara tertentu. Perintah bisa sesingkat frasa atau panjangnya bebas (misalnya, seluruh teks novel). Perintah tercakup dalam beberapa kategori, termasuk yang ditampilkan dalam tabel berikut:

Kategori perintah Contoh Catatan
Pertanyaan Seberapa cepat merpati bisa terbang?
Petunjuk Tulis puisi lucu tentang arbitrase. Prompt yang meminta model bahasa besar untuk melakukan sesuatu.
Contoh Menerjemahkan kode Markdown ke HTML. Contoh:
{i>Markdown<i}: * item daftar
HTML: <ul> <li>daftar item</li> &lt;/ul&gt;
Kalimat pertama dalam contoh perintah ini adalah instruksi. sisa perintah adalah contohnya.
Peran Jelaskan alasan penurunan gradien digunakan dalam pelatihan machine learning kepada seorang PhD dalam Fisika. Bagian pertama dari kalimat itu adalah instruksi; frasa "mendapatkan gelar PhD di bidang Fisika" adalah bagian peran.
Input parsial untuk diselesaikan model Perdana Menteri Inggris Raya tinggal di Perintah input parsial dapat berakhir secara tiba-tiba (seperti contoh ini) atau diakhiri dengan garis bawah.

Model AI generatif dapat merespons perintah dengan teks, kode, gambar, sematan, video...hampir apa saja.

pembelajaran berbasis perintah

#language
#generativeAI

Kemampuan model tertentu yang memungkinkan mereka beradaptasi perilakunya sebagai respons terhadap input teks arbitrer (perintah). Dalam paradigma pembelajaran berbasis perintah standar, model bahasa besar merespons perintah dengan menghasilkan teks. Misalnya, pengguna memasukkan perintah berikut:

Ringkaslah Hukum Ketiga Gerak Newton.

Model yang mampu melakukan pembelajaran berbasis perintah tidak dilatih secara khusus untuk menjawab perintah sebelumnya. Sebaliknya, model “mengetahui” banyak fakta tentang fisika, banyak tentang aturan bahasa umum, dan banyak hal tentang apa yang jawaban yang bermanfaat. Pengetahuan tersebut cukup untuk memberikan jawaban yang (semoga) berguna. Masukan tambahan dari manusia ("Jawaban itu terlalu rumit" atau "Apa reaksinya?") memungkinkan beberapa sistem pembelajaran berbasis perintah untuk secara bertahap meningkatkan kegunaan jawabannya.

desain prompt

#language
#generativeAI

Sinonim dari rekayasa perintah.

rekayasa perintah

#language
#generativeAI

Seni membuat perintah yang mendapatkan respons yang diinginkan dari model bahasa besar. Manusia menjalankan perintah teknik. Menulis dialog yang terstruktur dengan baik adalah bagian penting untuk memastikan respons yang berguna dari model bahasa besar. Prompt Engineering bergantung pada banyak faktor, termasuk:

Lihat Pengantar desain perintah untuk mengetahui detail selengkapnya tentang cara menulis perintah yang bermanfaat.

Desain perintah adalah sinonim untuk rekayasa perintah.

penyesuaian perintah

#language
#generativeAI

Mekanisme parameter-efficient tuning yang mempelajari "awalan" bahwa sistem menambahkan perintah sebenarnya.

Salah satu variasi prompt tuning—terkadang disebut tuning awalan—adalah untuk tambahkan awalan di setiap lapisan. Sebaliknya, sebagian besar prompt tuning menambahkan awalan ke lapisan input.

label proxy

#fundamentals

Data yang digunakan untuk memperkirakan label yang tidak tersedia secara langsung dalam set data.

Misalnya, Anda harus melatih model untuk memprediksi karyawan tingkat stres. Set data Anda berisi banyak fitur prediktif, tetapi tidak berisi label bernama tingkat stres. Anda tidak ragu untuk memilih "kecelakaan di tempat kerja" sebagai label proxy untuk tingkat stres. Lagipula, karyawan yang mengalami stres tinggi lebih sering mengalami kecelakaan daripada karyawan yang tenang. Atau apakah mereka melakukannya? Kemungkinan kecelakaan di tempat kerja bisa saja naik turun karena berbagai alasan.

Sebagai contoh kedua, misalkan Anda ingin apakah sedang hujan? menjadi label Boolean untuk set data Anda, tetapi set data tersebut tidak berisi data hujan. Jika foto tersedia, Anda mungkin membuat foto orang-orang membawa payung sebagai label proxy untuk apakah hujan? Apakah itu label {i>proxy<i} yang bagus? Mungkin, tetapi orang-orang di beberapa budaya mungkin lebih cenderung membawa payung untuk melindungi dari sinar matahari daripada hujan.

Label proxy sering kali tidak sempurna. Jika memungkinkan, pilih label sebenarnya, bukan label proxy. Meskipun demikian, jika label sebenarnya tidak ada, pilih proxy label dengan sangat hati-hati, memilih kandidat label {i>proxy<i} yang paling tidak buruk.

proxy (atribut sensitif)

#fairness
Atribut yang digunakan sebagai pengganti atribut sensitif. Sebagai contoh, kode pos individu dapat digunakan sebagai {i>proxy<i} untuk pendapatan mereka, ras, atau etnis.

fungsi murni

Fungsi yang outputnya hanya didasarkan pada inputnya, dan yang tidak memiliki sisi yang dihasilkan. Secara khusus, fungsi murni tidak menggunakan atau mengubah status global apa pun, seperti konten file atau nilai variabel di luar fungsi.

Fungsi murni dapat digunakan untuk membuat kode yang aman untuk thread, yang bermanfaat saat sharding kode model di beberapa chip akselerator.

Metode transformasi fungsi JAX memerlukan bahwa fungsi input adalah fungsi murni.

T

Fungsi Q

#rl

Dalam pembelajaran penguatan, fungsi yang memprediksi hasil yang diharapkan dari mengambil tindakan dalam status, lalu mengikuti kebijakan tertentu.

Fungsi Q juga dikenal sebagai fungsi nilai status-tindakan.

Pemelajaran Q

#rl

Dalam reinforcement learning, algoritma yang mengizinkan agen untuk mempelajari fungsi Q yang optimal dari Proses keputusan Markov dengan menerapkan Persamaan Bellman. Proses keputusan Markov membuat model lingkungan.

kuantil

Setiap bucket dalam bucketing kuantil.

pengelompokan kuantil

Mendistribusikan nilai fitur ke dalam bucket sehingga setiap bucket berisi jumlah contoh yang sama (atau hampir sama). Misalnya, gambar berikut membagi 44 poin menjadi 4 bucket, yang masing-masing berisi 11 poin. Agar setiap kelompok dalam gambar berisi jumlah titik yang sama, beberapa bucket memiliki lebar nilai x yang berbeda.

44 titik data dibagi menjadi 4 bucket yang masing-masing berisi 11 poin.
          Meskipun setiap bucket berisi jumlah titik data yang sama, beberapa bucket berisi rentang nilai fitur yang lebih luas daripada bucket lainnya.

kuantisasi

Istilah yang berlebihan yang dapat digunakan dengan salah satu cara berikut:

  • Menerapkan distribusi kuantil pada fitur tertentu.
  • Mengubah data menjadi nol dan satu untuk penyimpanan, pelatihan, dan inferensi yang lebih cepat. Karena data Boolean lebih tahan terhadap derau dan error daripada format lainnya, kuantisasi dapat meningkatkan akurasi model. Teknik kuantisasi meliputi pembulatan, pemotongan, dan binning.
  • Mengurangi jumlah bit yang digunakan untuk menyimpan parameter model. Misalnya, parameter model adalah disimpan sebagai angka floating point 32-bit. Kuantisasi mengonversi parameter dari 32 bit menjadi 4, 8, atau 16 bit. Kuantisasi mengurangi berikut ini:

    • Penggunaan komputasi, memori, disk, dan jaringan
    • Waktu untuk menyimpulkan predikasi
    • Konsumsi daya

    Namun, kuantisasi terkadang mengurangi ketepatan prediksi model.

antrean

#TensorFlow

Operasi TensorFlow yang menerapkan struktur data antrean. Biasanya digunakan dalam I/O.

R

RAG

#fundamentals

Singkatan dari retrieval-augmented generation.

hutan acak

#df

Ansambel pohon keputusan dalam di mana setiap pohon keputusan dilatih dengan derau acak tertentu, seperti pengisian bagasi.

Hutan acak adalah jenis hutan keputusan.

kebijakan acak

#rl

Dalam pembelajaran penguatan, kebijakan yang memilih tindakan secara acak.

peringkat

Jenis supervised learning yang tujuannya adalah mengurutkan daftar item.

peringkat (ordinalitas)

Posisi ordinal suatu kelas dalam masalah machine learning yang mengkategorikan dari yang tertinggi hingga terendah. Misalnya, sistem peringkat perilaku dapat memberi peringkat pada reward anjing dari yang tertinggi (steak) hingga terendah (kangkung layu).

peringkat (Tensor)

#TensorFlow

Jumlah dimensi dalam Tensor. Misalnya, skalar memiliki peringkat 0, vektor memiliki peringkat 1, dan matriks memiliki peringkat 2.

Harap bedakan dengan peringkat (ordinalitas).

pelabel

#fundamentals

Manusia yang memberikan label untuk contoh. "Annotator" adalah nama lain untuk penilai.

recall

Metrik untuk model klasifikasi yang menjawab pertanyaan berikut:

Jika kebenaran dasar adalah kelas positif, berapa persentase prediksi yang diidentifikasi model dengan benar sebagai kelas positif?

Berikut ini rumusnya:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dalam hal ini:

  • positif benar berarti model dengan benar memprediksi class positif.
  • negatif palsu berarti bahwa model keliru memprediksi kelas negatif.

Misalnya, model Anda membuat 200 prediksi pada contoh yang ground truth-nya adalah kelas positif. Dari 200 prediksi ini:

  • 180 adalah positif benar.
  • 20 adalah negatif palsu.

Dalam hal ini:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Lihat Klasifikasi: Akurasi, perolehan, presisi, dan terkait metrik untuk informasi selengkapnya.

sistem rekomendasi

#recsystems

Sistem yang memilih satu set yang relatif kecil untuk setiap pengguna yang diinginkan items dari korpus besar. Misalnya, sistem rekomendasi video mungkin merekomendasikan dua video dari korpus yang berisi 100.000 video, memilih Casablanca dan The Philadelphia Story untuk satu pengguna, dan Wonder Woman serta Black Panther untuk yang lain. Sistem rekomendasi video mungkin mendasari rekomendasinya pada faktor-faktor seperti:

  • Film yang telah diberi rating atau ditonton oleh pengguna serupa.
  • Genre, sutradara, aktor, demografi target...

Unit Linear Terarah (ReLU)

#fundamentals

Fungsi aktivasi dengan perilaku berikut:

  • Jika input negatif atau nol, outputnya adalah 0.
  • Jika input positif, output-nya sama dengan input.

Contoh:

  • Jika inputnya adalah -3, outputnya adalah 0.
  • Jika inputnya adalah +3, maka output-nya adalah 3,0.

Berikut adalah plot ReLU:

Plot kartesian dari dua baris. Baris pertama memiliki nilai y konstan
          sebesar 0, yang berjalan di sepanjang sumbu x dari -infinity,0 hingga 0,-0.
          Baris kedua dimulai pada 0,0. Garis ini memiliki kemiringan +1, sehingga
          berjalan dari 0,0 hingga +infinity,+infinity.

ULT adalah fungsi aktivasi yang sangat populer. Meskipun memiliki perilaku yang sederhana, ReLU tetap memungkinkan jaringan saraf mempelajari hubungan nonlinear antara fitur dan label.

jaringan saraf berulang

#seq

Jaringan neural yang sengaja dijalankan beberapa kali, yang mana bagian dari setiap proses dimasukkan ke proses berikutnya. Secara khusus, Anda bisa lapisan tersembunyi dari proses sebelumnya memberikan bagian dari input ke lapisan tersembunyi yang sama di proses berikutnya. Jaringan saraf berulang sangat berguna untuk mengevaluasi urutan, sehingga lapisan tersembunyi dapat belajar dari operasi jaringan saraf sebelumnya pada bagian awal urutan.

Misalnya, gambar berikut menunjukkan jaringan saraf berulang yang berjalan empat kali. Perhatikan bahwa nilai yang dipelajari di lapisan tersembunyi dari proses pertama menjadi bagian dari input untuk lapisan tersembunyi yang sama sesi kedua. Demikian pula, nilai yang dipelajari di lapisan tersembunyi pada eksekusi kedua menjadi bagian dari input ke lapisan tersembunyi yang sama dalam eksekusi ketiga. Dengan cara ini, jaringan saraf berulang secara bertahap melatih dan memprediksi makna keseluruhan urutan, bukan hanya artinya setiap kata.

RNN yang berjalan empat kali untuk memproses empat kata input.

model regresi

#fundamentals

Secara informal, model yang menghasilkan prediksi numerik. (Sebaliknya, model klasifikasi menghasilkan class prediction.) Misalnya, berikut ini adalah semua model regresi:

  • Model yang memprediksi nilai rumah tertentu, seperti 423.000 Euro.
  • Model yang memprediksi harapan hidup pohon tertentu, misalnya 23,2 tahun.
  • Model yang memprediksi jumlah hujan yang akan turun di kota tertentu selama enam jam ke depan, seperti 0,18 inci.

Dua jenis model regresi yang umum adalah:

  • Regresi linear, yang menemukan garis yang terbaik menyesuaikan nilai label dengan fitur.
  • Regresi logistik, yang menghasilkan probabilitas antara 0,0 dan 1,0 yang biasanya dipetakan oleh sistem ke prediksi class.

Tidak semua model yang menghasilkan prediksi numerik adalah model regresi. Dalam beberapa kasus, prediksi numerik sebenarnya hanyalah model klasifikasi yang kebetulan memiliki nama kelas numerik. Misalnya, model yang memprediksi kode pos numerik adalah model klasifikasi, bukan model regresi.

regularisasi

#fundamentals

Setiap mekanisme yang mengurangi overfitting. Jenis regularisasi yang populer meliputi:

Regularisasi juga dapat didefinisikan sebagai penalti pada kompleksitas model.

derajat regularisasi

#fundamentals

Angka yang menentukan tingkat kepentingan relatif dari regularisasi selama pelatihan. Meningkatkan tingkat regularisasi akan mengurangi overfitting, tetapi dapat mengurangi kemampuan prediktif model. Sebaliknya, mengurangi atau menghilangkan tingkat regularisasi akan meningkatkan {i>overfitting<i}.

Reinforcement Learning (RL)

#rl

Sekumpulan algoritma yang mempelajari kebijakan yang optimal, yang tujuannya adalah memaksimalkan hasil saat berinteraksi dengan lingkungan. Misalnya, imbalan akhir dari kebanyakan game adalah kemenangan. Sistem pembelajaran berbasis imbalan dapat menjadi pakar dalam bermain game kompleks, dengan mengevaluasi urutan gerakan dari game sebelumnya yang akhirnya mengakibatkan kemenangan dan urutan yang akhirnya mengakibatkan kekalahan.

Reinforcement Learning dari Respons Manusia (RLHF)

#generativeAI
#rl

Menggunakan masukan dari penilai manual untuk meningkatkan kualitas respons model. Misalnya, mekanisme RLHF dapat meminta pengguna untuk menilai kualitas respons model dengan emoji 👍 atau 👎. Sistem kemudian dapat menyesuaikan responsnya di masa mendatang berdasarkan masukan tersebut.

ReLU

#fundamentals

Singkatan dari Rectified Linear Unit.

replay buffer

#rl

Dalam algoritma seperti DQN, memori yang digunakan oleh agen untuk menyimpan transisi status untuk digunakan dalam rekaman ulang pengalaman.

replika

Salinan set pelatihan atau model, yang biasanya ada di komputer lain. Misalnya, sistem dapat menggunakan strategi untuk menerapkan paralelisme data:

  1. Menempatkan replika model yang ada di beberapa mesin.
  2. Kirim subset yang berbeda dari set pelatihan ke setiap replika.
  3. Gabungkan update parameter.

bias pelaporan

#fairness

Fakta bahwa frekuensi orang menulis tentang tindakan, hasil, atau properti bukanlah cerminan frekuensi di dunia nyata atau tingkat properti yang merupakan karakteristik dari suatu kelompok individu. Bias pelaporan dapat memengaruhi komposisi data yang dipelajari oleh sistem machine learning.

Misalnya, dalam buku, kata tertawa lebih umum daripada menghembuskan napas. Model machine learning yang memperkirakan frekuensi relatif tertawa dan bernapas dari korpus buku mungkin akan menentukan bahwa tertawa lebih umum daripada bernapas.

vektor yang sama

Proses memetakan data ke fitur yang berguna.

pemeringkatan ulang

#recsystems

Tahap akhir dari sistem rekomendasi, yang mana item yang diberi skor dapat dinilai ulang menurut beberapa algoritma lainnya (biasanya, non-ML). Pemeringkatan ulang mengevaluasi daftar item yang dihasilkan oleh fase penskoran, dengan mengambil tindakan seperti:

  • Menghapus item yang telah dibeli pengguna.
  • Menaikkan skor item yang lebih baru.

retrieval-augmented generation (RAG)

#fundamentals

Teknik untuk meningkatkan kualitas output model bahasa besar (LLM) dengan mendasarkannya pada sumber pengetahuan yang diambil setelah model dilatih. RAG meningkatkan akurasi respons LLM dengan memberikan LLM yang terlatih akses ke informasi yang diambil dari basis atau dokumen terpercaya.

Motivasi umum untuk menggunakan pembuatan yang didukung pengambilan meliputi:

  • Meningkatkan akurasi faktual respons yang dihasilkan model.
  • Memberi model akses ke pengetahuan yang tidak dilatihnya.
  • Mengubah pengetahuan yang digunakan model.
  • Memungkinkan model mengutip sumber.

Misalnya, anggaplah aplikasi kimia menggunakan PaLM API untuk membuat ringkasan yang terkait dengan kueri pengguna. Saat backend aplikasi menerima kueri, backend akan:

  1. Menelusuri ("mengambil") data yang relevan dengan kueri pengguna.
  2. Menambahkan ("tambahan") data kimia yang relevan ke kueri pengguna.
  3. Memberi petunjuk kepada LLM untuk membuat ringkasan berdasarkan data yang ditambahkan.

pengembalian

#rl

Dalam Reinforcement Learning, dengan mempertimbangkan kebijakan dan kondisi tertentu, yang ditampilkan adalah jumlah dari semua reward yang diberikan oleh agen yang akan diterima saat mengikuti kebijakan dari state ke akhir episode. Agen memperhitungkan sifat tertunda reward yang diharapkan dengan memberikan diskon pada reward sesuai dengan transisi status yang diperlukan untuk mendapatkan reward.

Oleh karena itu, jika faktor diskonnya adalah \(\gamma\), dan \(r_0, \ldots, r_{N}\) menunjukkan reward hingga akhir episode, lalu penghitungan kembali adalah sebagai berikut:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

reward

#rl

Dalam reinforcement learning, hasil numerik dari mengambil tindakan dalam status, seperti yang ditentukan oleh lingkungan.

regulerisasi batas

Sinonim dari regularisasi L2. Istilah regularisasi ridge lebih sering digunakan dalam konteks statistika murni, sedangkan regularisasi L2 lebih sering digunakan dalam machine learning.

RNN

#seq

Singkatan dari recurrent neural network.

Kurva ROC (karakteristik operasi penerima)

#fundamentals

Grafik rasio positif benar versus rasio positif palsu untuk berbagai batas klasifikasi dalam klasifikasi biner.

Bentuk kurva ROC menunjukkan kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Misalkan, model klasifikasi biner secara sempurna memisahkan semua nilai negatif dari semua class positif:

Garis bilangan dengan 8 contoh positif di sisi kanan dan
          7 contoh negatif di sebelah kiri.

Kurva ROC untuk model sebelumnya terlihat seperti berikut:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y
          adalah Rasio Positif Benar. Kurva memiliki bentuk L terbalik. Kurva
          mulai dari (0.0,0.0) dan langsung ke (0.0,1.0). Kemudian kurva
          mulai dari (0.0,1.0)
ke (1.0,1.0).

Sebaliknya, ilustrasi berikut menampilkan grafik regresi logistik mentah untuk model buruk yang tidak dapat memisahkan kelas negatif dari kelas positif:

Garis bilangan dengan contoh positif dan kelas negatif
          yang benar-benar tercampur.

Kurva ROC untuk model ini terlihat seperti berikut:

Kurva ROC, yang sebenarnya adalah garis lurus dari (0,0,0)
          ke (1,0,1).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan positif dan negatif sampai batas tertentu, tetapi biasanya tidak sempurna. Jadi, kurva ROC standar berada di antara dua ekstrem:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva KOP mendekati busur yang goyang
          menelusuri titik kompas dari Barat ke Utara.

Titik pada kurva ROC yang paling dekat dengan (0.0,1.0) secara teoritis mengidentifikasi batas klasifikasi ideal. Namun, beberapa masalah dunia nyata lainnya memengaruhi pemilihan nilai minimum klasifikasi yang ideal. Misalnya, mungkin negatif palsu (PP) menyebabkan masalah yang jauh lebih besar daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva ROC menjadi nilai floating point tunggal.

pemberian perintah peran

#language
#generativeAI

Bagian opsional dari perintah yang mengidentifikasi target audiens untuk respons model AI generatif. Tanpa perintah peran, model bahasa besar memberikan jawaban yang mungkin atau mungkin tidak berguna bagi orang yang mengajukan pertanyaan. Dengan prompt peran, model bahasa dapat menjawab dengan cara yang lebih tepat dan lebih membantu bagi audiens target yang spesifik. Misalnya, bagian perintah peran dari perintah berikut dicetak tebal:

  • Rangkum artikel ini untuk mendapatkan gelar PhD dalam bidang ekonomi.
  • Menjelaskan cara kerja pasang surut untuk anak berusia sepuluh tahun.
  • Menjelaskan krisis keuangan 2008. Bicaralah seperti yang Anda lakukan kepada anak kecil, atau golden retriever.

root

#df

Node awal (node pertama kondisi) dalam hierarki keputusan. Secara umum, diagram menempatkan root di bagian atas hierarki keputusan. Contoh:

Pohon keputusan dengan dua kondisi dan tiga daun. Kondisi
          awal (x > 2) adalah root.

direktori root

#TensorFlow

Direktori yang Anda tentukan untuk menghosting subdirektori TensorFlow checkpoint dan file peristiwa dari beberapa model.

{i>Root Mean Squared Error<i} (RMSE)

#fundamentals

Akar kuadrat dari Rataan Kuadrat Galat (RKG).

invariansi rotasional

#image

Dalam masalah klasifikasi gambar, kemampuan algoritma untuk berhasil mengklasifikasikan gambar meskipun orientasi gambar berubah. Misalnya, algoritme tetap dapat mengidentifikasi raket tenis, baik yang mengarah ke atas, ke samping, maupun ke bawah. Perhatikan bahwa invariansi rotasi tidak selalu diinginkan; misalnya, nilai 9 terbalik seharusnya tidak diklasifikasikan sebagai 9.

Lihat juga invarians translasi dan invariansi ukuran.

R-persegi

Metrik regresi yang menunjukkan jumlah variasi dalam label yang disebabkan oleh setiap fitur atau kumpulan fitur. R-kuadrat adalah nilai antara 0 dan 1, yang dapat Anda interpretasikan sebagai berikut:

  • R-kuadrat 0 berarti tidak ada variasi label yang disebabkan oleh kumpulan fitur.
  • R-kuadrat 1 berarti bahwa semua variasi label disebabkan oleh untuk setiap set fitur.
  • Nilai R-kuadrat antara 0 dan 1 menunjukkan sejauh mana posisi label variasi dapat diprediksi dari fitur atau set fitur tertentu. Misalnya, R-kuadrat 0,10 berarti bahwa 10 persen varian dalam label disebabkan oleh kumpulan fitur, R-kuadrat 0,20 berarti bahwa 20 persen disebabkan oleh kumpulan fitur, dan seterusnya.

R-kuadrat adalah kuadrat dari koefisien korelasi Pearson antara nilai yang diprediksi model dan kebenaran dasar.

S

bias sampling

#fairness

Lihat bias seleksi.

sampling dengan penggantian

#df

Metode memilih item dari kumpulan item kandidat tempat item yang sama dapat dipilih beberapa kali. Frasa "dengan penggantian" berarti bahwa setelah setiap pilihan, item yang dipilih akan dikembalikan ke kumpulan item kandidat. Metode terbalik, pengambilan sampel tanpa penggantian, berarti bahwa item kandidat hanya dapat dipilih sekali.

Misalnya, pertimbangkan kumpulan buah berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Misalkan sistem memilih fig secara acak sebagai item pertama. Jika menggunakan pengambilan sampel dengan pengganti, sistem akan memilih item kedua dari kumpulan berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ya, itu adalah kumpulan yang sama seperti sebelumnya, sehingga sistem berpotensi memilih fig lagi.

Jika menggunakan pengambilan sampel tanpa penggantian, setelah diambil, sampel tidak dapat dipilih lagi. Misalnya, jika sistem memilih fig secara acak sebagai contoh pertama, fig tidak dapat dipilih lagi. Oleh karena itu, sistem memilih sampel kedua dari kumpulan (dikurangi) berikut:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Format yang direkomendasikan untuk menyimpan dan memulihkan model TensorFlow. SavedModel adalah format serialisasi yang dapat dipulihkan dengan bahasa netral, yang memungkinkan sistem dan fitur berlevel tinggi untuk memproduksi, mengonsumsi, dan mengubah model TensorFlow.

Lihat bab Menyimpan dan Memulihkan di Panduan Programmer TensorFlow untuk mengetahui detail selengkapnya.

Hemat

#TensorFlow

Objek TensorFlow bertanggung jawab untuk menyimpan checkpoint model.

skalar

Satu angka atau satu {i>string<i} yang dapat direpresentasikan sebagai tensor dari peringkat 0. Misalnya, baris kode yang masing-masing menghasilkan satu skalar di TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

penskalaan

Transformasi atau teknik matematis yang menggeser rentang label dan/atau nilai fitur. Beberapa bentuk penskalaan sangat berguna untuk transformasi seperti normalisasi.

Bentuk umum penskalaan yang berguna dalam Machine Learning meliputi:

  • penskalaan linier, yang biasanya menggunakan kombinasi pengurangan dan untuk mengganti nilai asli dengan angka antara -1 dan +1 atau antara 0 dan 1.
  • penskalaan logaritmik, yang mengganti nilai asli dengan logaritmanya.
  • Normalisasi skor Z, yang menggantikan nilai awal dengan nilai floating point yang merepresentasikan jumlah deviasi standar dari rerata fitur itu.

scikit-learn

Platform machine learning open source yang populer. Lihat scikit-learn.org.

penskoran

#recsystems

Bagian dari sistem rekomendasi yang memberikan nilai atau peringkat untuk setiap item yang dihasilkan oleh fase pemilihan kandidat.

bias seleksi

#fairness

Kesalahan dalam kesimpulan yang diambil dari data sampel karena proses seleksi yang menghasilkan perbedaan sistematis antara sampel yang diamati dalam data dan perilaku yang tidak diamati. Terdapat beberapa bentuk bias seleksi:

  • bias cakupan: Populasi yang direpresentasikan dalam set data tidak mencocokkan populasi yang dihasilkan model machine learning prediksi.
  • bias sampling: Data tidak dikumpulkan secara acak dari kelompok target.
  • bias non-respons (juga disebut bias partisipasi): Pengguna dari grup tertentu memilih untuk tidak mengikuti survei dengan tingkat yang berbeda dari pengguna dari grup lain.

Misalnya, Anda membuat model machine learning yang memprediksi kesenangan orang terhadap film. Untuk mengumpulkan data pelatihan, Anda membagikan survei kepada semua orang di barisan depan teater yang menayangkan film. Secara spontan, hal ini mungkin terdengar seperti cara yang wajar untuk mengumpulkan set data; namun, bentuk pengumpulan data semacam ini dapat memperkenalkan bentuk-bentuk bias seleksi berikut:

  • bias cakupan: Dengan mengambil sampel dari populasi yang memilih untuk menonton film, prediksi model Anda tidak dapat digeneralisasikan kepada orang-orang yang belum mengekspresikan minat terhadap film tersebut.
  • bias sampling: Daripada pengambilan sampel secara acak dari populasi yang ditargetkan (semua orang yang ada di film), Anda hanya mengambil sampel orang-orang di barisan depan. Mungkin saja orang-orang yang duduk di baris depan lebih tertarik dengan film daripada orang-orang di baris lain.
  • bias non-respons: Secara umum, orang dengan pendapat yang kuat cenderung lebih sering merespons survei opsional daripada orang dengan pendapat yang lemah. Karena survei film bersifat opsional, tanggapan lebih cenderung membentuk distribusi bimodal dari distribusi normal (berbentuk lonceng).

self-attention (juga disebut lapisan self-attention)

#language

Lapisan jaringan neural yang mengubah urutan embedding (misalnya, embedding token) menjadi urutan embedding lainnya. Setiap penyematan dalam urutan output dibuat dengan mengintegrasikan informasi dari elemen urutan input melalui mekanisme perhatian.

Bagian self dari self-attention mengacu pada urutan yang memperhatikan dirinya sendiri, bukan konteks lainnya. Perhatian penuh adalah salah satu hal utama elemen penyusun untuk Transformers dan menggunakan pencarian kamus terminologi, seperti "query", "key", dan "value".

Lapisan self-attention dimulai dengan urutan representasi input, satu untuk setiap kata. Representasi input untuk kata dapat berupa penyematan sederhana. Untuk setiap kata dalam urutan input, jaringan akan menilai relevansi kata dengan setiap elemen dalam seluruh urutan kata. Skor relevansi menentukan seberapa banyak representasi akhir kata menggabungkan representasi dari kata-kata lain.

Misalnya, pertimbangkan kalimat berikut:

Hewan itu tidak menyeberang jalan karena terlalu lelah.

Ilustrasi berikut (dari Transformer: A Novel Neural Network Architecture for Language Understanding) menunjukkan pola perhatian lapisan perhatian mandiri untuk kata ganti it, dengan keterangkasan setiap baris menunjukkan seberapa banyak setiap kata berkontribusi pada representasi:

Kalimat berikut muncul dua kali: Hewan tidak menyeberang jalan
          karena terlalu lelah. Terdapat garis yang menghubungkan sebutan
          satu kalimat menjadi lima token (The, animal, street, it, dan
          titik) di kalimat lainnya.  Garis di antara
kata ganti itu
          dan kata hewan adalah 
yang paling kuat.

Lapisan self-attention menandai kata-kata yang relevan dengan "it". Dalam hal ini, lapisan perhatian telah belajar untuk menandai kata yang mungkin dirujuk oleh lapisan tersebut, dengan menetapkan bobot tertinggi ke hewan.

Untuk urutan token n, perhatian mandiri mengubah urutan penyematan n secara terpisah, satu kali di setiap posisi dalam urutan.

Lihat juga perhatian dan multi-head self-attention.

pembelajaran yang diawasi secara mandiri

Sekelompok teknik untuk mengonversi Masalah unsupervised machine learning masalah supervised machine learning dengan membuat label surrogate dari contoh tidak berlabel.

Beberapa model berbasis Transformer seperti BERT menggunakan pemelajaran dengan pengawasan mandiri.

Pelatihan yang diawasi mandiri adalah semi-supervised learning.

pelatihan mandiri

Varian self-supervised learning yang sangat berguna saat semua kondisi berikut terpenuhi:

Pelatihan mandiri dilakukan dengan melakukan iterasi pada dua langkah berikut hingga model berhenti meningkatkan:

  1. Gunakan machine learning dengan pengawasan untuk melatih model pada contoh berlabel.
  2. Gunakan model yang dibuat di Langkah 1 untuk menghasilkan prediksi (label) pada contoh tak berlabel, memindahkan contoh yang memiliki tingkat kepercayaan tinggi contoh berlabel dengan label yang diprediksi.

Perhatikan bahwa setiap iterasi Langkah 2 menambahkan lebih banyak contoh berlabel untuk dilatih oleh Langkah 1.

semi-supervised learning

Melatih model pada data di mana beberapa contoh pelatihan memiliki label tetapi yang lain tidak. Salah satu teknik untuk semi-supervised learning adalah menyimpulkan label untuk contoh yang tidak berlabel, lalu melatih label yang disimpulkan untuk membuat model baru. Semi-supervised learning dapat berguna jika label mahal untuk diperoleh, tetapi contoh yang tidak berlabel berlimpah.

Pelatihan mandiri adalah salah satu teknik untuk semi-supervised pembelajaran.

atribut sensitif

#fairness
Atribut manusia yang dapat diberikan pertimbangan khusus untuk hukum, alasan etis, sosial, atau pribadi.

analisis sentimen

#language

Menggunakan algoritma statistik atau machine learning untuk menentukan sikap keseluruhan grup—positif atau negatif—terhadap layanan, produk, organisasi, atau topik. Misalnya, menggunakan natural language understanding, algoritma dapat melakukan analisis sentimen pada masukan tekstual dari kuliah perguruan tinggi untuk menentukan sejauh mana mahasiswa umumnya menyukai atau tidak menyukai materi tersebut.

model urutan

#seq

Model yang inputnya memiliki dependensi berurutan. Misalnya, memprediksi video berikutnya yang ditonton dari urutan video yang ditonton sebelumnya.

tugas urutan ke urutan

#language

Tugas yang mengonversi urutan input token menjadi urutan token output. Misalnya, dua jenis tugas urutan ke urutan yang populer adalah:

  • Penerjemah:
    • Contoh urutan input: "Saya cinta kamu".
    • Contoh urutan output: "Je t'aime".
  • Menjawab pertanyaan:
    • Contoh urutan input: "Apakah saya perlu mobil saya di Jakarta?"
    • Contoh urutan output: "No. Simpan mobil Anda di rumah."

porsi

Proses penyediaan model terlatih untuk memberikan prediksi melalui inferensi online atau inferensi offline.

shape (Tensor)

Jumlah elemen di setiap dimensi tensor. Bentuk direpresentasikan sebagai daftar bilangan bulat. Misalnya, tensor dua dimensi berikut memiliki bentuk [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow menggunakan format baris-utama (gaya C) untuk mewakili urutan itu sebabnya bentuk di TensorFlow adalah [3,4], bukan [4,3]. Dengan kata lain, dalam Tensor TensorFlow dua dimensi, bentuknya adalah [jumlah baris, jumlah kolom].

Bentuk statis adalah bentuk tensor yang diketahui pada waktu kompilasi.

Bentuk dinamis tidak diketahui pada waktu kompilasi dan oleh karena itu bergantung pada data runtime. Tensor ini mungkin direpresentasikan dengan dimensi placeholder di TensorFlow, seperti dalam [3, ?].

shard

#TensorFlow
#GoogleCloud

Pembagian logis dari set pelatihan atau model. Biasanya, beberapa proses membuat shard dengan membagi contoh atau parameter menjadi (biasanya) potongan yang berukuran sama. Setiap shard kemudian ditetapkan ke mesin yang berbeda.

Sharding model disebut paralelisme model; sharding data disebut paralelisme data.

penyusutan

#df

Hyperparameter dalam gradient boosting yang mengontrol overfitting. Penyusutan pada peningkatan gradien setara dengan kecepatan pembelajaran di penurunan gradien. Penyusutan adalah nilai desimal antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah akan mengurangi overfitting nilai penyusutan yang lebih besar.

fungsi sigmoid

#fundamentals

Fungsi matematika yang "meluncur" nilai input ke dalam rentang yang dibatasi, biasanya 0 hingga 1 atau -1 hingga +1. Yaitu, Anda dapat meneruskan angka berapa pun (dua, satu juta, negatif, apa pun) ke sebuah sigmoid dan {i>output-<i}nya akan tetap dalam dan rentang terbatas. Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain
          -tak terhingga hingga +positif, sedangkan nilai y menjangkau rentang hampir 0 hingga
          hampir 1. Jika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi di 0,0,5 dan kemiringan yang menurun secara bertahap seiring dengan meningkatnya nilai absolut x.

Fungsi sigmoid memiliki beberapa kegunaan dalam machine learning, antara lain:

ukuran kesamaan

#clustering

Dalam algoritma pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip (seberapa mirip) dua contoh tersebut.

satu program / beberapa data (SPMD)

Teknik paralelisme saat komputasi yang sama dijalankan pada data input yang berbeda secara paralel di perangkat yang berbeda. Tujuan SPMD adalah untuk mendapatkan hasil dengan lebih cepat. Ini adalah gaya pemrograman paralel yang paling umum.

invariansi ukuran

#image

Dalam masalah klasifikasi gambar, kemampuan algoritma untuk berhasil mengklasifikasikan gambar meskipun ukuran gambar berubah. Misalnya, algoritme tetap dapat mengidentifikasi kucing, baik yang menggunakan 2 juta piksel maupun 200 ribu piksel. Perhatikan bahwa bahkan yang terbaik algoritma klasifikasi gambar masih memiliki batas praktis terkait invariansi ukuran. Misalnya, algoritme (atau manusia) tidak mungkin mengklasifikasikan gambar kucing yang hanya menggunakan 20 piksel dengan benar.

Lihat juga invariansi translasi dan invariansi rotasi.

membuat sketsa

#clustering

Dalam unsupervised machine learning, kategori algoritma yang melakukan analisis kesamaan awal pada contoh. Algoritme sketching menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi titik-titik yang mungkin mirip, lalu mengelompokkannya ke dalam bucket.

Sketsa mengurangi perhitungan yang diperlukan untuk perhitungan kesamaan pada set data besar. Alih-alih menghitung kesamaan untuk setiap sepasang contoh dalam {i>dataset<i}, kita hanya menghitung kesamaan untuk masing-masing sepasang titik di dalam setiap kotak.

skip-gram

#language

n-gram yang dapat menghilangkan (atau "melewati") kata-kata dari aslinya konteks, yang berarti N kata mungkin awalnya tidak berdekatan. Lebih tepatnya, "k-skip-n-gram" adalah n-gram yang mungkin telah mengabaikan hingga k kata.

Misalnya, "the quick brown fox" memiliki kemungkinan 2-gram berikut:

  • "the quick"
  • "cokelat cepat"
  • "rubah cokelat"

"1-lewati-2-gram" adalah pasangan kata yang memiliki paling banyak 1 kata di antara mereka. Oleh karena itu, "the quick brown fox" memiliki 2-gram 1-lewati berikut:

  • "cokelat"
  • "quick fox"

Selain itu, semua 2 gram juga 1-skip-2-gram, karena lebih sedikit dari satu kata bisa dilewati.

Lewati gram berguna untuk memahami lebih lanjut konteks kata di sekitar. Dalam contoh, "fox" dikaitkan langsung dengan "quick" dalam kumpulan 1-skip-2-gram, tetapi tidak dalam kumpulan 2-gram.

Skip-gram membantu melatih model embedding kata.

softmax

#fundamentals

Fungsi yang menentukan probabilitas untuk setiap kemungkinan kelas dalam model klasifikasi multi-class. probabilitas menjumlahkan menjadi tepat 1,0. Misalnya, tabel berikut menunjukkan cara softmax mendistribusikan berbagai probabilitas:

Gambar adalah... Probability
anjing 0,85
kucing .13
kuda .02

Softmax juga disebut softmax penuh.

Berbeda dengan sampling kandidat.

penyesuaian perintah lunak

#language
#generativeAI

Teknik untuk menyesuaikan model bahasa besar untuk tugas tertentu, tanpa penyesuaian terperinci yang membutuhkan banyak resource. Daripada melatih ulang semua bobot dalam model, penyesuaian perintah lunak otomatis menyesuaikan perintah untuk mencapai sasaran yang sama.

Diberikan perintah tekstual, prompt tuning ringan biasanya menambahkan embedding token tambahan ke prompt propagasi mundur untuk mengoptimalkan input.

Perintah "hard" berisi token sebenarnya, bukan penyematan token.

fitur renggang

#language
#fundamentals

Fitur yang sebagian besar nilainya nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 bersifat renggang. Sebaliknya, fitur padat memiliki nilai yang utamanya tidak bernilai nol atau kosong.

Dalam machine learning, jumlah fitur yang mengejutkan adalah fitur yang jarang. Fitur kategori biasanya berupa fitur renggang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan video yang mungkin ada di koleksi video, satu contoh mungkin hanya mengidentifikasi "Casablanca".

Dalam model, Anda biasanya merepresentasikan fitur jarang dengan enkode one-hot. Jika encoding one-hot berukuran besar, Anda dapat menempatkan lapisan penyematan di atas encoding one-hot untuk efisiensi yang lebih besar.

representasi renggang

#language
#fundamentals

Hanya menyimpan posisi elemen non-nol dalam fitur jarang.

Misalnya, fitur kategori bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Asumsikan lebih lanjut bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk merepresentasikan spesies pohon pada setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0 (untuk mewakili 35 spesies pohon yang tidak ada dalam contoh tersebut). Jadi, representasi one-hot dari maple mungkin terlihat seperti berikut:

Vektor dengan posisi 0 hingga 23 menyimpan nilai 0, posisi
          24 menyimpan nilai 1, dan posisi 25 hingga 35 menyimpan nilai 0.

Atau, representasi jarang hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada di posisi 24, representasi sparse dari maple akan menjadi:

24

Perhatikan bahwa representasi renggang jauh lebih ringkas daripada representasi one-hot merepresentasinya.

vektor renggang

#fundamentals

Vektor yang sebagian besar nilainya adalah nol. Lihat juga fitur renggang dan renggang.

ketersebaran

Jumlah elemen yang ditetapkan ke nol (atau nol) dalam vektor atau matriks yang dibagi dengan jumlah total entri dalam vektor atau matriks tersebut. Misalnya, pikirkan sebuah matriks 100 elemen yang mana 98 sel berisi nol. Perhitungan dari ketersebaran adalah sebagai berikut:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Ketersebaran fitur mengacu pada ketersebaran dari vektor fitur; ketersebaran model mengacu pada ketersebaran dari bobot model.

penggabungan spasial

#image

Lihat penggabungan.

bagian

#df

Dalam pohon keputusan, nama lain untuk kondisi.

pemisah

#df

Saat melatih pohon keputusan, rutinitas tersebut (dan algoritma) yang bertanggung jawab untuk menemukan condition di setiap node.

SPMD

Singkatan dari single program/multiple data.

kerugian engsel kuadrat

Kuadrat dari kerugian engsel. Kerugian engsel kuadrat menghukum pencilan lebih keras daripada kerugian engsel biasa.

kerugian kuadrat

#fundamentals

Sinonim dari kerugian L2.

pelatihan bertahap

#language

Taktik melatih model dalam urutan tahapan yang berbeda. Sasarannya dapat berupa mempercepat proses pelatihan, atau mencapai kualitas model yang lebih baik.

Ilustrasi pendekatan {i>progressive stacking<i} ditampilkan di bawah ini:

  • Tahap 1 berisi 3 lapisan tersembunyi, tahap 2 berisi 6 lapisan tersembunyi, dan tahap 3 berisi 12 lapisan tersembunyi.
  • Tahap 2 memulai pelatihan dengan bobot yang dipelajari di 3 lapisan tersembunyi Tahap 1. Tahap 3 memulai pelatihan dengan bobot yang dipelajari di 6 lapisan tersembunyi Tahap 2.

Tiga tahap, yang diberi label Tahap 1, Tahap 2, dan Tahap 3.
          Setiap tahap berisi jumlah lapisan yang berbeda: Tahap 1 berisi
          3 lapisan, Tahap 2 berisi 6 lapisan, dan Tahap 3 berisi 12 lapisan.
          3 lapisan dari Tahap 1 menjadi 3 lapisan pertama Tahap 2.
          Demikian pula, 6 lapisan dari Tahap 2 menjadi 6 lapisan pertama
          Tahap 3.

Lihat juga pipeline.

dengan status tersembunyi akhir

#rl

Dalam reinforcement learning, nilai parameter yang menggambarkan kondisi saat ini konfigurasi lingkungan yang sama, yang digunakan agen untuk pilih tindakan.

fungsi nilai tindakan status

#rl

Sinonim dari fungsi Q.

static

#fundamentals

Sesuatu yang dilakukan satu kali, bukan secara terus-menerus. Istilah statis dan offline adalah sinonim. Berikut adalah penggunaan umum statis dan offline di mesin pembelajaran:

  • model statis (atau model offline) adalah model yang dilatih satu kali lalu digunakan selama beberapa waktu.
  • pelatihan statis (atau pelatihan offline) adalah proses melatih model statis.
  • inferensi statis (atau inferensi offline) adalah proses saat model menghasilkan batch prediksi sekaligus.

Berbeda dengan dinamis.

inferensi statis

#fundamentals

Sinonim dari inferensi offline.

stasioneritas

#fundamentals

Fitur yang nilainya tidak berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, fitur yang nilainya terlihat sama pada tahun 2021 dan 2023 menunjukkan stasioneritas.

Di dunia nyata, sangat sedikit fitur yang menunjukkan stationaritas. Fitur genap identik dengan perubahan stabilitas (seperti permukaan laut) dari waktu ke waktu.

Berbeda dengan nonstasioneritas.

langkah

Penerusan maju dan penerusan mundur dari satu batch.

Lihat propagasi mundur untuk mengetahui informasi selengkapnya dalam {i>forward pass <i}dan {i>backward pass<i}.

ukuran langkah

Sinonim dari learning rate.

penurunan gradien stokastik (SGD)

#fundamentals

Algoritme penurunan gradien dengan ukuran batch satu. Dengan kata lain, SGD berlatih di satu contoh yang dipilih secara seragam di acak dari set pelatihan.

langkah

#image

Dalam operasi konvolusional atau penggabungan, delta di setiap dimensi rangkaian irisan input berikutnya. Misalnya, animasi berikut menunjukkan langkah (1,1) selama operasi konvolusi. Oleh karena itu, slice input berikutnya dimulai satu posisi di sebelah kanan slice input sebelumnya. Saat operasi mencapai tepi kanan, slice berikutnya akan berada di sebelah kiri, tetapi satu posisi ke bawah.

Matriks input 5x5 dan filter konvolusi 3x3. Karena
     stride adalah (1,1), filter konvolusi akan diterapkan 9 kali. Slice convolutional pertama mengevaluasi submatriks 3x3 kiri atas dari matriks input. Irisan kedua mengevaluasi lapisan 3x3 tengah atas
     submatriks. Irisan konvolusional ketiga mengevaluasi 3x3 kanan atas
     submatriks.  Slice keempat mengevaluasi submatriks 3x3 kiri tengah.
     Slice kelima mengevaluasi submatriks 3x3 tengah. Irisan keenam
     mengevaluasi submatriks 3 x 3 tengah-kanan. Slice ketujuh mengevaluasi
     submatriks 3x3 kiri bawah.  Slice kedelapan mengevaluasi
     submatriks 3x3 tengah bawah. Irisan kesembilan mengevaluasi elemen 3x3 kanan bawah
     submatriks.

Contoh sebelumnya menunjukkan langkah dua dimensi. Jika input tiga dimensi, jangka panjangnya juga akan tiga dimensi.

minimalisasi risiko struktural (SRM)

Algoritme yang menyeimbangkan dua sasaran:

  • Kebutuhan untuk membuat model yang paling prediktif (misalnya, kerugian terendah).
  • Kebutuhan untuk menjaga model sesederhana mungkin (misalnya, kuat regularisasi).

Misalnya, fungsi yang meminimalkan kerugian+regularisasi pada adalah algoritma minimalisasi risiko struktural.

Berbeda dengan minimalisasi risiko empiris.

subsampling

#image

Lihat penggabungan.

token subword

#language

Dalam model bahasa, token yang merupakan substring kata, yang mungkin merupakan seluruh kata.

Misalnya, kata seperti "itemize" dapat dibagi menjadi bagian-bagian "item" (kata akar) dan "ize" (akhiran), yang masing-masing diwakili oleh tokennya sendiri. Membagi kata yang tidak umum menjadi bagian-bagian tersebut, yang disebut subkata, memungkinkan model bahasa beroperasi pada bagian penyusun kata yang lebih umum, seperti awalan dan akhiran.

Sebaliknya, kata umum seperti "going" mungkin tidak dipecah dan mungkin diwakili oleh satu token.

ringkasan

#TensorFlow

Di TensorFlow, nilai atau set nilai yang dihitung pada step, yang biasanya digunakan untuk melacak metrik model selama pelatihan.

supervised machine learning

#fundamentals

Melatih model dari fitur dan label yang sesuai. supervised machine learning bersifat analog mempelajari suatu subjek dengan mempelajari serangkaian pertanyaan dan yang sesuai. Setelah menguasai pemetaan antara pertanyaan dan jawaban, siswa kemudian dapat memberikan jawaban untuk hal baru (yang belum pernah dilihat sebelumnya) pertanyaan dengan topik yang sama.

Bandingkan dengan unsupervised machine learning.

fitur sintetis

#fundamentals

Fitur yang tidak ada di antara fitur input, tetapi dirakit dari satu atau beberapa fitur input. Metode untuk membuat fitur sintetis mencakup hal berikut:

  • Mengelompokkan fitur berkelanjutan ke dalam bin rentang.
  • Membuat persilangan fitur.
  • Mengalikan (atau membagi) satu nilai fitur dengan nilai fitur lainnya atau dengan sendirinya. Misalnya, jika a dan b adalah fitur input, berikut contoh fitur sintetis:
    • ab
    • a2
  • Menerapkan fungsi transendental ke nilai fitur. Misalnya, jika c adalah fitur input, berikut adalah contoh fitur sintetis:
    • sin(c)
    • ln(c)

Fitur yang dibuat dengan melakukan normalisasi atau penskalaan saja tidak dianggap sebagai fitur sintetis.

S

T5

#language

Model pembelajaran transfer teks ke teks yang diperkenalkan oleh Google AI pada tahun 2020. T5 adalah model encoder-decoder, berdasarkan Arsitektur Transformer, dilatih dengan arsitektur yang {i>dataset<i} aslinya. Alat ini efektif pada berbagai tugas natural language processing, seperti menghasilkan teks, menerjemahkan bahasa, dan menjawab pertanyaan dalam percakapan.

T5 mendapatkan namanya dari lima huruf T dalam "Text-to-Text Transfer Transformer".

T5X

#language

Framework machine learning open source yang dirancang untuk membuat dan melatih model natural language processing (NLP) skala besar. T5 diimplementasikan pada codebase T5X (yang dibangun di JAX dan Flax).

Q-learning tabulasi

#rl

Di reinforcement learning, menerapkan Q-learning dengan menggunakan tabel untuk menyimpan Fungsi Q untuk setiap kombinasi status dan tindakan.

target

Sinonim dari label.

jaringan target

#rl

Dalam Deep Q-learning, jaringan neural yang merupakan aproksimasi stabil dari jaringan neural utama, dengan jaringan neural utama menerapkan fungsi Q atau kebijakan. Kemudian, Anda dapat melatih jaringan utama pada nilai Q yang diprediksi oleh jaringan. Oleh karena itu, Anda mencegah loop masukan yang terjadi saat jaringan utama dilatih pada nilai Q yang diprediksi oleh dirinya sendiri. Dengan menghindari masukan ini, stabilitas pelatihan akan meningkat.

tugas

Masalah yang dapat diselesaikan menggunakan teknik machine learning, seperti:

suhu

#language
#image
#generativeAI

Hyperparameter yang mengontrol tingkat keacakan output model. Suhu yang lebih tinggi menghasilkan lebih banyak {i>output<i} acak, sementara temperatur yang lebih rendah akan menghasilkan lebih sedikit {i>output<i} acak.

Memilih suhu terbaik tergantung pada aplikasi tertentu dan properti pilihan output model. Misalnya, Anda mungkin akan menaikkan suhu saat membuat aplikasi yang menghasilkan output materi iklan. Sebaliknya, Anda mungkin akan menurunkan suhu saat membuat model yang mengklasifikasikan gambar atau teks untuk meningkatkan akurasi dan konsistensi model.

Suhu sering digunakan dengan softmax.

data temporal

Data yang dicatat pada titik waktu yang berbeda. Misalnya, penjualan mantel musim dingin yang dicatat untuk setiap hari dalam setahun akan menjadi data temporal.

Tensor

#TensorFlow

Struktur data utama dalam program TensorFlow. Tensor adalah struktur data berdimensi N (dengan N bisa sangat besar), yang paling umum adalah skalar, vektor, atau matriks. Elemen Tensor dapat menyimpan bilangan bulat, floating point, atau nilai {i>string<i}.

TensorBoard

#TensorFlow

Dasbor yang menampilkan ringkasan yang disimpan selama eksekusi satu atau program TensorFlow.

TensorFlow

#TensorFlow

Platform machine learning berskala besar dan terdistribusi. Istilah ini juga mengacu pada lapisan API dasar dalam stack TensorFlow, yang mendukung komputasi umum pada grafik alur data.

Meskipun TensorFlow terutama digunakan untuk machine learning, Anda juga dapat menggunakan TensorFlow untuk tugas non-ML yang memerlukan komputasi numerik menggunakan grafik alur data.

TensorFlow Playground

#TensorFlow

Program yang memvisualisasikan pengaruh hyperparameter yang berbeda terhadap pelatihan (terutama jaringan neural) model. Buka http://playground.tensorflow.org untuk bereksperimen dengan TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Platform untuk men-deploy model terlatih dalam produksi.

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Application-specific integrated circuit (ASIC) yang mengoptimalkan performa workload machine learning. ASIC ini di-deploy sebagai beberapa chip TPU di perangkat TPU.

peringkat Tensor

#TensorFlow

Lihat urutan (Tensor).

Bentuk tensor

#TensorFlow

Jumlah elemen yang dimiliki Tensor dalam berbagai dimensi. Misalnya, Tensor [5, 10] memiliki bentuk 5 dalam satu dimensi dan 10 dalam dimensi lainnya.

Ukuran tensor

#TensorFlow

Jumlah total skalar yang terdapat dalam Tensor. Misalnya, Tensor [5, 10] memiliki ukuran 50.

TensorStore

Library untuk membaca dan menulis array multidimensi besar secara efisien.

kondisi penghentian

#rl

Dalam pembelajaran penguatan, kondisi yang menentukan kapan episode berakhir, seperti saat agen mencapai status tertentu atau melebihi jumlah minimum transisi status. Misalnya, di tic-tac-toe (juga yang dikenal sebagai {i>nought<i} dan {i>crosses<i}), episode berakhir baik ketika pemain menandai tiga spasi berturut-turut atau bila semua spasi ditandai.

uji

#df

Dalam pohon keputusan, nama lain untuk kondisi.

kerugian pengujian

#fundamentals

Metrik yang mewakili loss model terhadap set pengujian. Saat membangun model, Anda biasanya mencoba meminimalkan kerugian pengujian. Hal ini karena kerugian pengujian yang rendah adalah sinyal kualitas yang lebih kuat daripada kerugian pelatihan yang rendah atau kerugian validasi yang rendah.

Kesenjangan yang besar antara kerugian pengujian dan kerugian pelatihan atau kerugian validasi terkadang menunjukkan bahwa Anda perlu meningkatkan rasio regularisasi.

set pengujian

Subset dataset yang dicadangkan untuk pengujian model terlatih.

Secara tradisional, Anda membagi contoh dalam set data menjadi tiga subset yang berbeda berikut:

Setiap contoh dalam set data hanya boleh berasal dari salah satu subset sebelumnya. Misalnya, satu contoh seharusnya tidak termasuk dalam set pelatihan dan set pengujian.

Set pelatihan dan set validasi sangat terkait dengan pelatihan model. Karena set pengujian hanya terkait secara tidak langsung dengan pelatihan, kerugian pengujian adalah metrik yang tidak terlalu bias dan memiliki kualitas lebih tinggi daripada kerugian pelatihan atau kerugian validasi.

rentang teks

#language

Rentang indeks array yang dikaitkan dengan subbagian string teks tertentu. Misalnya, kata good di string Python s="Be good now" menempati rentang teks dari 3 hingga 6.

tf.Example

#TensorFlow

Buffer protokol standar yang digunakan untuk mendeskripsikan data input untuk pelatihan atau inferensi model machine learning.

tf.keras

#TensorFlow

Implementasi Keras yang terintegrasi ke dalam TensorFlow.

nilai minimum (untuk pohon keputusan)

#df

Dalam kondisi rata sumbu, nilai yang fitur sedang dibandingkan. Misalnya, 75 adalah nilai minimum dalam kondisi berikut:

grade >= 75

analisis deret waktu

#clustering

Subbidang machine learning dan statistik yang menganalisis data temporal. Banyak jenis masalah machine learning memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda bisa menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin di masa mendatang per bulan berdasarkan data penjualan historis.

waktu

#seq

Satu sel "yang tidak di-roll" dalam jaringan saraf berulang. Misalnya, gambar berikut menunjukkan tiga langkah waktu (dilabeli dengan subskrip t-1, t, dan t+1):

Tiga langkah waktu dalam jaringan saraf berulang. Output dari
          interval waktu pertama menjadi input untuk langkah waktu kedua. Output
          langkah waktu kedua menjadi input untuk langkah waktu ketiga.

token

#language

Dalam model bahasa, unit atomik yang digunakan untuk melatih dan membuat prediksi model. Token biasanya merupakan salah satu berikut ini:

  • kata—misalnya, frasa "anjing suka kucing" terdiri dari tiga token kata: "anjing", "suka", dan "kucing".
  • karakter—misalnya, frasa "bike fish" terdiri dari sembilan token karakter. (Perhatikan bahwa spasi kosong dihitung sebagai salah satu token.)
  • subkata—di mana satu kata dapat berupa satu token atau beberapa token. Subkata terdiri dari kata akar, awalan, atau akhiran. Misalnya, model bahasa yang menggunakan subkata sebagai token mungkin melihat kata "dogs" sebagai dua token (akar kata "dog" dan akhiran jamak "s"). Model bahasa yang sama mungkin melihat satu kata "taller" sebagai dua subkata (kata akar "tall" dan akhiran "er").

Di domain di luar model bahasa, token dapat mewakili jenis unit atomik lainnya. Misalnya, dalam computer vision, token mungkin merupakan subset gambar.

Tower

Komponen jaringan neural dalam yang merupakan jaringan neural dalam itu sendiri. Dalam beberapa kasus, setiap menara membaca dari sumber data independen, dan menara itu tetap independen sampai mereka output digabungkan dalam lapisan akhir. Dalam kasus lain, (misalnya, di menara encoder dan decoder dari banyak Transformer), menara memiliki koneksi silang satu sama lain.

TPU

#TensorFlow
#GoogleCloud

Singkatan dari Tensor Processing Unit.

Chip TPU

#TensorFlow
#GoogleCloud

Akselerator aljabar linear yang dapat diprogram dengan memori bandwidth tinggi pada chip yang dioptimalkan untuk workload machine learning. Beberapa chip TPU di-deploy di perangkat TPU.

Perangkat TPU

#TensorFlow
#GoogleCloud

Papan sirkuit cetak (PCB) dengan beberapa chip TPU, antarmuka jaringan {i>bandwidth<i} tinggi, dan perangkat keras pendingin sistem.

TPU master

#TensorFlow
#GoogleCloud

Proses koordinasi pusat yang berjalan di mesin host yang mengirim dan menerima data, hasil, program, performa, dan informasi kesehatan sistem ke pekerja TPU. TPU master juga mengelola penyiapan dan penonaktifan perangkat TPU.

Node TPU

#TensorFlow
#GoogleCloud

Resource TPU di Google Cloud dengan jenis TPU tertentu. Node TPU terhubung ke Jaringan VPC dari jaringan VPC peer. Node TPU adalah resource yang ditentukan dalam Cloud TPU API.

Pod TPU

#TensorFlow
#GoogleCloud

Konfigurasi spesifik perangkat TPU di paket Google pusat data. Semua perangkat di Pod TPU terhubung satu sama lain melalui jaringan berkecepatan tinggi. TPU Pod adalah konfigurasi terbesar dari Perangkat TPU tersedia untuk versi TPU tertentu.

Resource TPU

#TensorFlow
#GoogleCloud

Entity TPU di Google Cloud yang Anda buat, kelola, atau gunakan. Misalnya, node TPU dan jenis TPU adalah resource TPU.

Slice TPU

#TensorFlow
#GoogleCloud

Slice TPU adalah bagian pecahan dari perangkat TPU dalam Pod TPU. Semua perangkat dalam slice TPU terhubung satu sama lain melalui jaringan khusus berkecepatan tinggi.

Jenis TPU

#TensorFlow
#GoogleCloud

Konfigurasi satu atau beberapa perangkat TPU dengan Versi hardware TPU. Anda memilih jenis TPU saat membuat node TPU di Google Cloud. Misalnya, v2-8 Jenis TPU adalah perangkat TPU v2 tunggal dengan 8 core. Jenis TPU v3-2048 memiliki 256 perangkat TPU v3 dalam jaringan dan total 2048 core. Jenis TPU adalah resource didefinisikan dalam Cloud TPU API.

TPU worker

#TensorFlow
#GoogleCloud

Proses yang berjalan pada mesin host dan menjalankan program machine learning di perangkat TPU.

training

#fundamentals

Proses menentukan parameter yang ideal (bobot dan bias) yang terdiri dari model. Selama pelatihan, sistem membaca dalam contoh dan menyesuaikan parameter secara bertahap. Pelatihan menggunakan setiap contoh dari beberapa kali hingga miliaran kali.

kerugian pelatihan

#fundamentals

Metrik yang mewakili kerugian model selama iterasi pelatihan tertentu. Misalnya, anggap fungsi loss adalah Mean Squared Error. Mungkin kerugian pelatihan (Mean Squared Error) untuk iterasi ke-10 adalah 2,2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1,9.

Kurva kerugian memetakan kerugian pelatihan terhadap jumlah iterasi. Kurva kerugian memberikan petunjuk berikut tentang pelatihan:

  • Kemiringan menurun menyiratkan bahwa kualitas model meningkat.
  • Kemiringan ke atas menyiratkan bahwa model semakin buruk.
  • Kemiringan datar menyiratkan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian yang agak ideal berikut menunjukkan:

  • Kemiringan menurun yang curam selama iterasi awal, yang menyiratkan peningkatan model yang cepat.
  • Kemiringan yang secara bertahap mendatar (tetapi masih menurun) hingga mendekati akhir pelatihan, yang menyiratkan peningkatan model yang berkelanjutan dengan kecepatan yang agak lebih lambat daripada selama iterasi awal.
  • Kemiringan datar menjelang akhir pelatihan, yang menunjukkan konvergensi.

Plot kerugian pelatihan versus iterasi. Kurva kerugian ini dimulai
     dengan kemiringan menurun yang curam. Kemiringan secara bertahap mendatar hingga
     kemiringan menjadi nol.

Meskipun kerugian pelatihan penting, lihat juga generalisasi.

diferensiasi performa pelatihan dan penayangan

#fundamentals

Perbedaan antara performa model selama pelatihan dan performa model yang sama selama menayangkan.

set pelatihan

#fundamentals

Subset dari set data yang digunakan untuk melatih model.

Secara tradisional, contoh dalam set data dibagi menjadi tiga subset berbeda berikut:

Idealnya, setiap contoh dalam {i>dataset<i} hanya boleh dimiliki oleh salah satu {i>subset<i} sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set validasi.

lintasan

#rl

Dalam pembelajaran penguatan, urutan tuple yang mewakili urutan transisi status agen, dengan setiap tuple sesuai dengan status, tindakan, reward, dan status berikutnya untuk transisi status tertentu.

pemelajaran transfer

Mentransfer informasi dari satu tugas machine learning ke tugas lainnya. Misalnya, dalam pemelajaran tugas jamak, satu model menyelesaikan banyak tugas, seperti model dalam yang memiliki node output yang berbeda untuk tugas yang berbeda. Pemelajaran transfer mungkin melibatkan transfer pengetahuan dari solusi tugas yang lebih sederhana ke tugas yang lebih kompleks, atau melibatkan transfer pengetahuan dari tugas yang memiliki lebih banyak data ke tugas yang memiliki lebih sedikit data.

Sebagian besar sistem machine learning menyelesaikan satu tugas. Pemelajaran transfer adalah langkah kecil menuju kecerdasan buatan di mana sebuah program dapat memecahkan beberapa tugas.

Transformator

#language

Arsitektur jaringan neural yang dikembangkan di Google yang mengandalkan mekanisme perhatian mandiri untuk mengubah urutan embedding input ke dalam urutan output, embedding tanpa mengandalkan konvolusi atau jaringan saraf berulang. Transformator bisa menjadi dipandang sebagai tumpukan lapisan self-attention.

Transformator dapat mencakup salah satu dari berikut ini:

Encoder mengubah urutan penyematan menjadi urutan baru dengan panjang yang sama. Encoder menyertakan N lapisan identik, yang masing-masing berisi dua sublapisan. Kedua sublapisan ini diterapkan di setiap posisi urutan penyematan input, yang mengubah setiap elemen urutan menjadi penyematan baru. Sublapisan encoder pertama menggabungkan informasi dari seluruh urutan input. Sub-lapisan encoder kedua mengubah lapisan informasi ke dalam embedding output.

Decoder mengubah urutan penyematan input menjadi urutan penyematan output, mungkin dengan panjang yang berbeda. Decoder juga menyertakan lapisan identik N dengan tiga sublapisan, dua di antaranya mirip dengan sublapisan encoder. Sub-lapisan decoder ketiga mengambil output encoder dan menerapkan mekanisme perhatian mandiri pada mengumpulkan informasi darinya.

Postingan blog Transformer: A Novel Neural Network Architecture for Language Understanding memberikan pengantar yang baik tentang Transformer.

invariansi translasi

#image

Dalam masalah klasifikasi gambar, kemampuan algoritma untuk berhasil mengklasifikasikan gambar meskipun posisi objek dalam gambar berubah. Misalnya, algoritme tetap dapat mengidentifikasi gambar anjing, meskipun anjing tersebut berada di tengah bingkai atau di ujung kiri bingkai.

Lihat juga invariansi ukuran dan invariansi rotasi.

trigram

#seq
#language

N-gram yang mana N=3.

negatif benar (TN)

#fundamentals

Contoh saat model dengan benar memprediksi kelas negatif. Misalnya, model menyimpulkan bahwa pesan email tertentu bukan spam, dan pesan email tersebut sebenarnya bukan spam.

positif benar (TP)

#fundamentals

Contoh saat model dengan benar memprediksi kelas positif. Misalnya, model menyimpulkan bahwa pesan email tertentu adalah spam, dan pesan email itu sebenarnya adalah spam.

rasio positif benar (TPR)

#fundamentals

Sinonim dari recall. Definisinya yaitu:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Rasio positif benar adalah sumbu y dalam kurva KOP.

U

ketidaktahuan (terhadap atribut sensitif)

#fairness

Situasi saat atribut sensitif ada, tetapi tidak disertakan dalam data pelatihan. Karena atribut sensitif sering kali berkorelasi dengan atribut lain dari data seseorang, model yang dilatih tanpa mengetahui atribut sensitif masih dapat memiliki dampak yang berbeda sehubungan dengan atribut tersebut, atau melanggar batasan keadilan lainnya.

kurang pas

#fundamentals

Memproduksi model dengan kemampuan prediktif yang buruk karena model belum sepenuhnya memahami kompleksitas data pelatihan. Banyak masalah dapat menyebabkan {i>underfitting<i}, termasuk:

undersampling

Menghapus contoh dari kelas mayor dalam set data kelas tidak seimbang untuk buat set pelatihan yang lebih seimbang.

Misalnya, pertimbangkan set data dengan rasio class mayoritas terhadap class minoritas adalah 20:1. Untuk mengatasi ketidakseimbangan class ini, Anda dapat membuat set pelatihan yang terdiri dari semua contoh class minoritas, tetapi hanya sepuluh contoh class mayoritas, yang akan membuat rasio class set pelatihan 2:1. Berkat {i>undersampling<i}, ini lebih set pelatihan yang seimbang mungkin menghasilkan model yang lebih baik. Atau, jika set pelatihan yang lebih seimbang mungkin berisi contoh yang tidak memadai untuk melatih model yang efektif.

Berbeda dengan oversampling.

searah

#language

Sistem yang hanya mengevaluasi teks yang mendahului bagian target teks. Sebaliknya, sistem dua arah mengevaluasi teks yang mendahului dan mengikuti bagian target teks. Lihat dua arah untuk mengetahui detail selengkapnya.

model bahasa searah

#language

Model bahasa yang mendasarkan probabilitasnya hanya pada token muncul sebelum, bukan setelah, token target. Berbeda dengan model bahasa dua arah.

contoh tak berlabel

#fundamentals

Contoh yang berisi fitur, tetapi tidak ada label. Misalnya, tabel berikut menampilkan tiga contoh tak berlabel dari sebuah rumah model valuasi, masing-masing dengan tiga fitur tetapi tidak memiliki nilai rumah:

Jumlah kamar Jumlah kamar mandi Usia rumah
3 2 15
2 1 72
4 2 34

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Di semi-supervised dan unsupervised learning, contoh tak berlabel digunakan selama pelatihan.

Bandingkan contoh tanpa label dengan contoh berlabel.

unsupervised machine learning

#clustering
#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.

Penggunaan unsupervised machine learning yang paling umum adalah Data cluster ke dalam kelompok contoh yang serupa. Misalnya, algoritma machine learning tanpa pengawasan dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritma machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Clustering dapat membantu jika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia lebih memahami data.

Berbeda dengan supervised machine learning.

pemodelan peningkatan

Teknik pemodelan, yang biasa digunakan dalam pemasaran, yang memodelkan "efek kausal" (juga dikenal sebagai "dampak inkremental") dari "perlakuan" pada "individu". Berikut ini dua contoh:

  • Dokter mungkin menggunakan pemodelan peningkatan untuk memprediksi penurunan mortalitas (efek kausal) dari prosedur medis (pengobatan) bergantung pada usia dan riwayat medis pasien (individu).
  • Pemasar mungkin menggunakan pemodelan peningkatan untuk memprediksi peningkatan probabilitas pembelian (efek kausal) karena iklan (perlakuan) pada seseorang (individu).

Pemodelan peningkatan berbeda dengan klasifikasi atau regresi karena beberapa label (misalnya, setengah label dalam perlakuan biner) selalu tidak ada dalam pemodelan peningkatan. Misalnya, seorang pasien dapat menerima atau tidak menerima perawatan; Oleh karena itu, kita hanya dapat mengamati apakah pasien akan sembuh atau tidak sembuh hanya dalam salah satu dari dua situasi ini (tetapi tidak pernah keduanya). Keuntungan utama model peningkatan adalah model ini dapat menghasilkan prediksi untuk situasi yang tidak diamati (kontrafaktual) dan menggunakannya untuk menghitung efek kausal.

menaikkan bobot

Menerapkan bobot ke class downsampled yang sama dengan faktor yang digunakan ketika melakukan pengurangan sampel.

matriks pengguna

#recsystems

Dalam sistem rekomendasi, vektor penyematan yang dihasilkan oleh faktorisasi matriks yang memiliki sinyal laten tentang preferensi pengguna. Setiap baris dari matriks pengguna memiliki informasi tentang kekuatan relatif dari berbagai sinyal laten untuk satu pengguna. Misalnya, pertimbangkan sistem rekomendasi film. Dalam sistem ini, sinyal laten dalam matriks pengguna dapat mewakili kepentingan setiap pengguna genre tertentu, atau mungkin sinyal yang lebih sulit diinterpretasikan yang melibatkan interaksi yang kompleks pada berbagai faktor.

Matriks pengguna memiliki kolom untuk setiap fitur laten dan satu baris untuk setiap pengguna. Artinya, matriks pengguna memiliki jumlah baris yang sama dengan target matriks yang sedang difaktorkan. Misalnya, dengan sistem rekomendasi film untuk 1.000.000 pengguna, matriks pengguna akan memiliki 1.000.000 baris.

V

validasi

#fundamentals

Evaluasi awal kualitas model. Validasi memeriksa kualitas prediksi model terhadap set validasi.

Karena set validasi berbeda dari set pelatihan, validasi dapat membantu mencegah overfitting.

Anda mungkin berpikir untuk mengevaluasi model terhadap set validasi sebagai pengujian putaran pertama dan mengevaluasi model terhadap set pengujian sebagai tahap pengujian kedua.

kerugian validasi

#fundamentals

Metrik yang mewakili kerugian model pada set validasi selama iterasi pelatihan tertentu.

Lihat juga kurva generalisasi.

set validasi

#fundamentals

Subset dari set data yang melakukan evaluasi awal terhadap model yang dilatih. Biasanya, Anda mengevaluasi model terlatih terhadap beberapa set validasi waktu sebelum mengevaluasi model terhadap set pengujian.

Secara tradisional, Anda membagi contoh dalam set data menjadi tiga subset berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh berasal dari salah satu subkumpulan sebelumnya. Misalnya, satu contoh tidak boleh menjadi milik set pelatihan dan set validasi.

komputasi nilai

Proses penggantian nilai yang hilang dengan pengganti yang dapat diterima. Jika nilai hilang, Anda dapat membuang seluruh contoh atau Anda dapat menggunakan komputasi nilai untuk menyimpan contoh.

Misalnya, pertimbangkan set data yang berisi fitur temperature yang seharusnya dicatat setiap jam. Namun, pemeriksaan suhu tidak tersedia untuk jam tertentu. Berikut adalah bagian set data:

Stempel waktu Suhu
1680561000 10
1680564600 12
1680568200 tidak ada
1680571800 20
1680575400 21
1680579000 21

Sistem dapat menghapus contoh yang tidak ada atau mengimputasikan suhu yang tidak ada sebagai 12, 16, 18, atau 20, bergantung pada algoritma imputasi.

masalah vanishing gradient

#seq

Kecenderungan gradien lapisan tersembunyi awal dari beberapa jaringan neural dalam menjadi sangat datar (rendah). Gradien yang semakin rendah akan menghasilkan perubahan yang semakin kecil pada bobot pada node di jaringan neural dalam, sehingga menyebabkan sedikit atau tidak ada pembelajaran. Model yang mengalami masalah gradien hilang menjadi sulit atau tidak mungkin dilatih. Sel Long Short-Term Memory mengatasi masalah ini.

Bandingkan dengan masalah gradien yang meledak.

tingkat kepentingan variabel

#df

Kumpulan skor yang menunjukkan nilai penting relatif dari setiap fitur terhadap model.

Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika serangkaian nilai penting variabel untuk tiga fitur dihitung menjadi {size=5.8, age=2.5, style=4.7}, maka ukuran lebih penting bagi pohon keputusan daripada usia atau gaya.

Ada berbagai metrik tingkat kepentingan variabel, yang dapat memberi tahu ahli ML tentang berbagai aspek model.

autoencoder variasional (VAE)

#language

Jenis autoencoder yang memanfaatkan perbedaan tersebut antara input dan output untuk menghasilkan versi input yang dimodifikasi. Autoencoder variasional berguna untuk AI generatif.

VAE didasarkan pada inferensi variasional: teknik untuk memperkirakan parameter model probabilitas.

vektor

Istilah yang sangat berlebihan yang artinya bervariasi di berbagai metode matematika dan ilmiah. Dalam machine learning, vektor memiliki dua properti:

  • Jenis data: Vektor dalam machine learning biasanya menyimpan angka floating point.
  • Jumlah elemen: Ini adalah panjang vektor atau dimensinya.

Misalnya, pertimbangkan vektor fitur yang berisi delapan bilangan floating point. Vektor fitur ini memiliki panjang atau dimensi delapan. Perhatikan bahwa vektor machine learning sering kali memiliki dimensi dalam jumlah yang sangat besar.

Anda dapat merepresentasikan berbagai jenis informasi sebagai vektor. Contoh:

  • Setiap posisi di permukaan Bumi dapat direpresentasikan sebagai vektor 2 dimensi, dengan satu dimensi adalah lintang dan dimensi lainnya adalah bujur.
  • Harga saat ini dari masing-masing 500 saham dapat direpresentasikan sebagai vektor 500 dimensi.
  • Distribusi probabilitas pada sejumlah kelas yang terbatas dapat direpresentasikan sebagai vektor. Sebagai contoh, klasifikasi kelas jamak yang memprediksi salah satu dari tiga warna {i>output<i} (merah, hijau, atau kuning) yang dapat vektor (0.3, 0.2, 0.5) berarti P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Vektor dapat digabungkan; oleh karena itu, berbagai media dapat direpresentasikan sebagai satu vektor. Beberapa model beroperasi langsung pada penggabungan banyak enkode one-hot.

Prosesor khusus seperti TPU dioptimalkan untuk berfungsi operasi matematika pada vektor.

Vektor adalah tensor dari peringkat 1.

W

Kerugian Wasserstein

Salah satu fungsi kerugian yang umum digunakan dalam jaringan saraf generatif berlawanan, berdasarkan jarak penggerak bumi antara distribusi data yang dihasilkan dan data nyata.

bobot

#fundamentals

Nilai yang dikalikan model dengan nilai lain. Pelatihan adalah proses penentuan bobot ideal model; inferensi adalah proses penggunaan bobot yang dipelajari tersebut untuk membuat prediksi.

Kotak Alternatif Berbobot (WALS)

#recsystems

Sebuah algoritma untuk meminimalkan fungsi objektif selama faktorisasi matriks di sistem rekomendasi, yang memungkinkan menurunkan bobot dari contoh-contoh yang hilang. WALS meminimalkan bobot kuadrat kesalahan antara matriks asli dan rekonstruksi dengan secara bergantian antara memperbaiki faktorisasi baris dan faktorisasi kolom. Masing-masing pengoptimalan ini dapat diselesaikan dengan pengoptimalan konveks kuadrat terkecil. Untuk mengetahui detailnya, lihat Kursus Sistem Rekomendasi.

jumlah tertimbang

#fundamentals

Jumlah semua nilai input yang relevan dikalikan dengan bobotnya yang sesuai. Misalnya, anggap input yang relevan terdiri dari hal berikut:

nilai input bobot input
2 -1,3
-1 0,6
3 0,4

Oleh karena itu, jumlah tertimbang adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Jumlah berbobot adalah argumen input ke fungsi aktivasi.

model lebar

Model linear yang biasanya memiliki banyak fitur input renggang. Kami menyebutnya sebagai "{i>wide<i}" sejak model tersebut adalah jenis jaringan neural khusus dengan input dalam jumlah besar yang terhubung langsung ke {i>node<i} {i>output<i}. Model lebar sering kali lebih mudah di-debug dan diperiksa daripada model dalam. Meskipun model lebar tidak dapat mengekspresikan non-linearitas melalui lapisan tersembunyi, model lebar dapat menggunakan transformasi seperti feature crossing dan bucketization untuk memodelkan non-linearitas dengan cara yang berbeda.

Berbeda dengan model dalam.

lebar

Jumlah neuron dalam lapisan tertentu dari jaringan neural.

kebijaksanaan orang banyak

#df

Gagasan bahwa rata-rata pendapat atau estimasi dari sekelompok besar orang ("kerumunan") sering kali menghasilkan hasil yang sangat baik. Misalnya, pertimbangkan game yang mengharuskan orang menebak jumlah jelly bean yang dikemas dalam toples besar. Meskipun sebagian besar tebakan individu tidak akurat, rata-rata dari semua tebakan telah ditunjukkan secara empiris ternyata mendekati jumlah sebenarnya jelly bean dalam toples.

Ensembel adalah analog software dari kebijaksanaan massa. Meskipun setiap model membuat prediksi yang sangat tidak akurat, rata-rata prediksi dari banyak model sering kali menghasilkan prediksi yang sangat baik. Misalnya, meskipun setiap pohon keputusan mungkin membuat prediksi yang buruk, hutan keputusan sering kali membuat prediksi yang sangat baik.

embedding kata

#language

Mewakili setiap kata dalam kumpulan kata dalam vektor penyematan; yaitu, mewakili setiap kata sebagai vektor nilai floating point antara 0,0 dan 1,0. Kata dengan kemiripan memiliki representasi yang lebih mirip daripada kata-kata dengan makna yang berbeda. Misalnya, wortel, seledri, dan mentimun akan memiliki representasi yang relatif mirip, yang akan sangat berbeda dengan representasi pesawat, kacamata hitam, dan pasta gigi.

X

XLA (Accelerated Linear Algebra)

Compiler machine learning open source untuk GPU, CPU, dan akselerator ML.

Compiler XLA mengambil model dari framework ML populer seperti PyTorch, TensorFlow, dan JAX, lalu mengoptimalkannya untuk eksekusi performa tinggi di berbagai platform hardware termasuk GPU, CPU, dan akselerator ML.

Z

pembelajaran zero-shot

Jenis pelatihan machine learning dengan model menyimpulkan prediksi untuk tugas yang belum dilatih secara khusus. Dengan kata lain, model tidak diberi contoh pelatihan khusus tugas, tetapi diminta untuk melakukan inferensi untuk tugas tersebut.

zero-shot prompting

#language
#generativeAI

Perintah yang tidak memberikan contoh respons yang Anda inginkan dari model bahasa besar. Contoh:

Bagian dari satu perintah Catatan
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang ingin Anda jawab dengan LLM.
India: Kueri sebenarnya.

Model bahasa besar mungkin merespons dengan salah satu dari hal berikut:

  • Rupee
  • INR
  • Rs
  • Rupee India
  • Rupee
  • Rupee India

Semua jawaban benar, meskipun Anda mungkin lebih memilih format tertentu.

Bandingkan dan bedakan perintah zero-shot dengan istilah berikut:

Normalisasi skor Z

#fundamentals

Teknik penskalaan yang menggantikan nilai feature dengan nilai floating point yang merepresentasikan jumlah simpangan baku dari rerata fitur tersebut. Misalnya, pertimbangkan fitur dengan nilai rata-rata 800 dan deviasi standar 100. Tabel berikut menunjukkan cara normalisasi skor Z akan memetakan nilai mentah ke skor Z:

Nilai mentah Skor Z
800 0
950 +1,5
575 -2,25

Model machine learning kemudian berlatih dengan skor Z untuk fitur tersebut alih-alih pada nilai mentahnya.