Glosarium Machine Learning

Glosarium ini mendefinisikan istilah umum machine learning, serta istilah khusus untuk TensorFlow.

A

ablasi

Teknik untuk mengevaluasi pentingnya fitur atau komponen dengan menghapus untuk sementara dari model. Anda kemudian melatih ulang model tanpa fitur atau komponen tersebut, dan jika model yang dilatih ulang performa yang jauh lebih buruk, maka fitur atau komponen yang dihapus mungkin penting.

Misalnya, anggaplah Anda melatih model klasifikasi pada 10 fitur dan mencapai presisi sebesar 88% pada set pengujian. Untuk memeriksa nilai penting fitur pertama, Anda dapat melatih ulang model hanya dengan sembilan baru. Jika model yang dilatih ulang berperforma jauh lebih buruk (misalnya, 55% presisi), fitur yang dihapus mungkin penting. Sebaliknya, jika model yang dilatih ulang berperforma sama baiknya, maka fitur tersebut mungkin yang tidak begitu penting.

Ablasi juga dapat membantu menentukan pentingnya:

  • Komponen yang lebih besar, seperti seluruh subsistem dari sistem ML yang lebih besar
  • Proses atau teknik, seperti langkah pra-pemrosesan data

Dalam kedua kasus tersebut, Anda akan mengamati bagaimana kinerja sistem berubah (atau tidak berubah) setelah Anda menghapus komponennya.

Pengujian A/B

Cara statistik untuk membandingkan dua (atau lebih) teknik—A dan B. Biasanya, A adalah teknik yang sudah ada, dan B adalah teknik baru. Pengujian A/B tidak hanya menentukan teknik mana yang berperforma lebih baik tetapi juga apakah perbedaannya signifikan secara statistik.

Pengujian A/B biasanya membandingkan satu metrik pada dua teknik; misalnya, perbandingan akurasi model dengan dua teknik? Namun, pengujian A/B juga dapat membandingkan metrik.

chip akselerator

#GoogleCloud

Kategori komponen perangkat keras khusus yang dirancang untuk melakukan operasi komputasi yang diperlukan untuk algoritma deep learning.

Chip akselerator (atau disingkat akselerator) dapat secara signifikan meningkatkan kecepatan dan efisiensi tugas pelatihan dan inferensi dibandingkan dengan CPU serbaguna. Model ini ideal untuk pelatihan saraf alur maju dan tugas komputasi serupa serupa.

Contoh chip akselerator meliputi:

  • Tensor Processing Unit (TPU) Google dengan hardware khusus untuk deep learning.
  • GPU NVIDIA yang, meskipun awalnya dirancang untuk pemrosesan grafis, dirancang untuk memungkinkan pemrosesan paralel, yang dapat secara signifikan meningkatkan kecepatan pemrosesan.

akurasi

#fundamentals

Jumlah prediksi klasifikasi yang benar yang dibagi dengan jumlah total prediksi. Definisinya yaitu:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Misalnya, model yang membuat 40 prediksi benar dan 10 prediksi salah prediksi akan memiliki akurasi:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasifikasi biner memberikan nama tertentu untuk berbagai kategori prediksi yang benar dan prediksi salah. Jadi, rumus akurasi untuk klasifikasi biner adalah sebagai berikut:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dalam hal ini:

Membandingkan dan membedakan akurasi dengan presisi dan penarikan.

Lihat Klasifikasi: Akurasi, perolehan, presisi, dan terkait metrik di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

action

#rl

Dalam reinforcement learning, mekanisme yang digunakan agen transisi antara status lingkungan. Agen memilih tindakan dengan menggunakan policy.

fungsi aktivasi

#fundamentals

Fungsi yang memungkinkan jaringan neural untuk mempelajari Hubungan nonlinear (kompleks) antar fitur dan label.

Fungsi aktivasi yang populer mencakup:

Plot fungsi aktivasi tidak pernah berupa garis lurus tunggal. Misalnya, plot fungsi aktivasi ULT terdiri dari dua garis lurus:

Plot kartesian dari dua baris. Baris pertama memiliki konstanta
          nilai y 0, berjalan di sepanjang sumbu x dari - tak terhingga,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, jadi
          rentangnya mulai dari 0,0 hingga + tak terhingga,+tak terhingga.

Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain
          -tak terhingga hingga +positif, sedangkan nilai y menjangkau rentang hampir 0 hingga
          hampir 1. Jika x adalah 0, y adalah 0,5. Kemiringan kurva selalu
          positif, dengan kemiringan tertinggi 0,0.5 dan perlahan menurun
          kemiringan saat nilai absolut dari x meningkat.

Lihat Jaringan neural: Aktivasi fungsi-fungsi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pembelajaran aktif

Pendekatan pelatihan di mana algoritma memilih beberapa data yang dipelajarinya. Pembelajaran aktif sangat berguna jika contoh berlabel langka atau mahal untuk diperoleh. Alih-alih begitu saja mencari beragam rentang contoh berlabel, algoritma pembelajaran aktif secara selektif mencari rentang contoh tertentu yang diperlukan untuk pembelajaran.

AdaGrad

Algoritma penurunan gradien yang canggih yang mengubah skala gradien setiap parameter, yang secara efektif memberikan setiap parameter kecepatan pembelajaran independen. Untuk penjelasan lengkapnya, lihat makalah AdaGrad ini.

agen

#rl

Dalam reinforcement learning, entitas yang menggunakan kebijakan untuk memaksimalkan laba yang diharapkan yang diperoleh dari bertransisi di antara status lingkungan.

Secara lebih umum, agen adalah perangkat lunak yang secara mandiri merencanakan dan menjalankan serangkaian tindakan untuk mencapai tujuan, dengan kemampuan untuk beradaptasi dengan perubahan di lingkungannya. Misalnya, agen berbasis LLM mungkin menggunakan LLM untuk membuat rencana, bukan menerapkan kebijakan reinforcement learning.

pengelompokan aglomeratif

#clustering

Lihat pengelompokan hierarkis.

deteksi anomali

Proses mengidentifikasi outlier. Misalnya, jika rata-rata untuk fitur tertentu adalah 100 dengan simpangan baku 10, maka deteksi anomali harus menandai nilai 200 sebagai mencurigakan.

AR

Singkatan dari augmented reality.

area di bawah kurva PR

Lihat PR AUC (Area di bawah Kurva PR).

area di bawah kurva ROC

Lihat AUC (Area di bawah kurva ROC).

kecerdasan umum buatan

Mekanisme nonmanusia yang menunjukkan berbagai pemecahan masalah, kreativitas, dan kemampuan beradaptasi. Misalnya, suatu program yang mendemonstrasikan kecerdasan umum dapat menerjemahkan teks, menyusun simfoni, dan unggul dalam {i>game<i} yang belum ditemukan.

kecerdasan buatan

#fundamentals

Program atau model nonmanusia yang dapat menyelesaikan tugas-tugas rumit. Misalnya, program atau model yang menerjemahkan teks atau program atau model yang mengidentifikasi penyakit dari gambar radiologi, keduanya menunjukkan kecerdasan buatan.

Secara formal, machine learning adalah sub-bidang dari buatan AI generatif. Namun, dalam beberapa tahun terakhir, sejumlah organisasi mulai menggunakan istilah kecerdasan buatan dan machine learning secara bergantian.

Attention,

#language

Mekanisme yang digunakan dalam jaringan neural yang menunjukkan pentingnya suatu kata atau bagian dari sebuah kata. Kompresi atensi jumlah informasi yang dibutuhkan model untuk memprediksi token/kata berikutnya. Mekanisme atensi yang khas mungkin terdiri dari jumlah berbobot terhadap kumpulan input, dengan bobot untuk setiap input dihitung oleh bagian lain dari saraf alur maju.

Lihat juga perhatian mandiri dan multi-head self-attention, yang merupakan elemen penyusun Transformer.

Lihat LLM: Yang dimaksud dengan bahasa besar model? di Kursus Singkat Machine Learning untuk informasi lebih lanjut tentang self-attention.

atribut

#fairness

Sinonim dari feature.

Dalam keadilan machine learning, atribut sering kali mengacu pada karakteristik yang berkaitan dengan individu.

sampling atribut

#df

Taktik untuk melatih hutan keputusan yang masing-masing pohon keputusan hanya mempertimbangkan subset acak dari fitur saat mempelajari kondisi. Umumnya, subset fitur yang berbeda diambil sampelnya untuk setiap node. Sebaliknya, ketika melatih pohon keputusan tanpa sampling atribut, semua fitur yang mungkin akan dipertimbangkan untuk setiap node.

ABK (Area di bawah kurva ROC)

#fundamentals

Angka antara 0,0 dan 1,0 mewakili Model klasifikasi biner kemampuan untuk memisahkan kelas positif dari kelas negatif. Semakin dekat ABK ke 1,0, semakin baik kemampuan model untuk memisahkan kelas dari satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model pengklasifikasi yang memisahkan kelas positif (oval hijau) dari kelas negatif (persegi panjang ungu) dengan sempurna. Model yang tidak realistis ini memiliki ABK 1,0:

Garis bilangan dengan 8 contoh positif di satu sisi dan
          9 contoh negatif di sisi lain.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk pengklasifikasi yang menampilkan hasil acak. Model ini memiliki ABK 0,5:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contohnya adalah positif, negatif,
          positif, negatif, positif, negatif, positif, negatif, positif
          negatif, positif, negatif.

Ya, model sebelumnya memiliki AUC 0,5, bukan 0,0.

Sebagian besar model berada di antara dua hal ekstrem. Misalnya, model berikut memisahkan positif dari negatif, dan karenanya memiliki AUC antara 0,5 dan 1,0:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contoh adalah negatif, negatif, negatif,
          positif, negatif, positif, positif, negatif, positif, positif,
          positif.

ABK mengabaikan nilai apa pun yang Anda tetapkan nilai minimum klasifikasi. Sebagai gantinya, ABK mempertimbangkan semua batas klasifikasi yang mungkin.

Lihat Klasifikasi: ROC dan AUC di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

augmented reality

#image

Teknologi yang menempatkan gambar yang dihasilkan komputer pada pandangan pengguna tentang dunia nyata, sehingga memberikan tampilan gabungan.

autoencoder

#language
#image

Sebuah sistem yang belajar mengekstrak informasi terpenting dari input teks. Autoencoder adalah kombinasi dari encoder dan decoder. Autoencoder mengandalkan proses dua langkah berikut:

  1. Encoder memetakan input ke dimensi rendah lossy (biasanya) (menengah).
  2. Decoder membangun versi lossy dari input asli dengan memetakan format dimensi yang lebih rendah ke dimensi aslinya format input teks.

Autoencoder dilatih secara menyeluruh dengan meminta decoder mencoba merekonstruksi input asli dari format perantara encoder semirip mungkin. Karena format perantara lebih kecil (dimensi lebih rendah) daripada format aslinya, autoencoder dipaksa untuk mempelajari informasi apa yang penting dalam input, dan {i>output-<i}nya tidak identik dengan input lainnya.

Contoh:

  • Jika data input berupa grafik, salinan yang tidak tepat akan mirip dengan grafis aslinya, tetapi agak dimodifikasi. Mungkin salinan yang tidak persis menghilangkan noise dari grafis asli atau mengisi beberapa piksel yang hilang.
  • Jika data inputnya adalah teks, {i>autoencoder <i}akan menghasilkan teks baru yang meniru (tetapi tidak sama dengan) teks aslinya.

Lihat juga autoencoder variasi.

bias otomatisasi

#fairness

Ketika pembuat keputusan manusia mendukung rekomendasi yang dibuat oleh sistem pengambilan keputusan atas informasi yang dibuat tanpa otomatisasi, bahkan ketika sistem pengambilan keputusan otomatis membuat kesalahan.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

AutoML

Semua proses otomatis untuk membangun machine learning model. AutoML dapat otomatis melakukan tugas-tugas seperti berikut:

  • Telusuri model yang paling sesuai.
  • Menyesuaikan hyperparameter.
  • Menyiapkan data (termasuk melakukan rekayasa fitur).
  • Deploy model yang dihasilkan.

AutoML berguna bagi data scientist karena dapat menghemat waktu dan upaya dalam mengembangkan pipeline machine learning dan meningkatkan prediksi tingkat akurasi. Cara ini juga berguna bagi non-pakar, dengan cara mempersulit tugas machine learning agar lebih mudah diakses.

Lihat Mesin Otomatis Pembelajaran (AutoML) di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model autoregresif

#language
#image
#generativeAI

Model yang menyimpulkan prediksi berdasarkan permintaan sebelumnya terhadap prediksi yang di-output oleh model. Misalnya, model bahasa autoregresif memprediksi token berdasarkan token yang diprediksi sebelumnya. Semua berbasis Transformer model bahasa besar bersifat autoregresif.

Sebaliknya, model gambar berbasis GAN biasanya tidak auto-regresif karena metode itu menghasilkan gambar dalam satu penerusan maju dan tidak iteratif dalam langkah. Namun, model pembuatan gambar tertentu bersifat autoregresif karena mereka menghasilkan gambar secara bertahap.

kerugian tambahan

Fungsi kerugian—digunakan bersama dengan Layanan utama jaringan neural model kerugian—yang membantu mempercepat pelatihan selama iterasi awal ketika bobot diinisialisasi secara acak.

Fungsi kerugian tambahan mendorong gradien efektif ke lapisan sebelumnya. Hal ini memfasilitasi konvergensi selama pelatihan dengan mengatasi masalah gradien hilang.

presisi rata-rata

Metrik untuk meringkas performa urutan hasil yang diberi peringkat. Presisi rata-rata dihitung dengan mengambil rata-rata nilai presisi untuk setiap hasil yang relevan (setiap hasil dalam daftar peringkat tempat penarikan kembali meningkat relatif terhadap hasil sebelumnya).

Lihat juga Area di Bawah Kurva PR.

kondisi sejajar sumbu

#df

Dalam pohon keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, maka berikut ini adalah kondisi yang sejajar sumbu:

area > 200

Berbeda dengan kondisi miring.

B

propagasi mundur

#fundamentals

Algoritma yang mengimplementasikan penurunan gradien di jaringan neural.

Pelatihan jaringan neural melibatkan banyak iterasi dari siklus dua tahap berikut:

  1. Selama pass maju, sistem akan memproses kumpulan contoh untuk menghasilkan prediksi. Sistem membandingkan masing-masing prediksi ke tiap nilai label. Perbedaan antara prediksi dan nilai labelnya adalah kerugian untuk contoh tersebut. Sistem menggabungkan kerugian untuk semua contoh tersebut untuk menghitung total untuk batch saat ini.
  2. Selama lintas mundur (propagasi mundur), sistem akan mengurangi kerugian sebesar menyesuaikan bobot semua neuron di semua lapisan tersembunyi.

Jaringan neural sering berisi banyak neuron di banyak lapisan tersembunyi. Masing-masing neuron tersebut berkontribusi pada hilangnya keseluruhan dengan cara yang berbeda. Propagasi mundur menentukan apakah akan menambah atau mengurangi bobot diterapkan pada neuron tertentu.

Kecepatan pembelajaran adalah pengganda yang mengontrol sejauh mana setiap {i>back pass<i} menambah atau mengurangi setiap bobot. Kecepatan pembelajaran yang besar akan menambah atau mengurangi setiap bobot lebih dari satu memiliki kecepatan pembelajaran yang rendah.

Dalam istilah kalkulus, propagasi mundur menerapkan aturan chain. dari kalkulus. Artinya, propagasi mundur menghitung turunan parsial dari error dengan terhadap setiap parameter.

Bertahun-tahun yang lalu, praktisi ML harus menulis kode untuk mengimplementasikan propagasi mundur. API ML modern seperti Keras kini mengimplementasikan propagasi mundur untuk Anda. Fiuh!

Lihat Jaringan neural di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

mengantongi

#df

Metode untuk melatih ensemble di mana masing-masing model konstituen dilatih pada subset pelatihan acak contoh diambil sampel dengan pengganti. Misalnya, random forest adalah kumpulan dari pohon keputusan yang dilatih dengan pengangkutan.

Istilah bagging adalah singkatan dari bootstrap aggregating.

Lihat Hutan acak di materi Pengambilan Keputusan Hutan untuk informasi lebih lanjut.

kantong data

#language

Representasi dari kata-kata dalam frasa atau bagian, terlepas dari urutannya. Misalnya, kumpulan kata-kata mewakili tiga frasa berikut secara identik:

  • anjingnya melompat
  • melompat pada anjingnya
  • {i>dog walker<i}

Setiap kata dipetakan ke indeks dalam vektor renggang, dengan vektor memiliki indeks untuk setiap kata dalam kosakata. Misalnya, frasa the dog jumps dipetakan menjadi vektor fitur dengan nilai bukan nol pada ketiga indeks yang sesuai dengan kata the, dog, dan lompatan. Nilai bukan nol dapat berupa salah satu dari hal berikut:

  • A 1 untuk menunjukkan kehadiran sebuah kata.
  • Hitungan berapa kali sebuah kata muncul dalam tas. Misalnya, jika frasanya adalah the maroon dog is a dog with maroon fur, maka keduanya maroon dan dog akan direpresentasikan sebagai 2, sedangkan kata lainnya akan dinyatakan sebagai 1.
  • Beberapa nilai lainnya, seperti logaritma jumlah berapa kali kata muncul di dalam tas.

dasar

Model yang digunakan sebagai titik referensi untuk membandingkan seberapa baik model bisnis (biasanya, yang lebih kompleks). Sebagai contoh, model regresi logistik dapat berfungsi sebagai dasar pengukuran yang baik untuk model mendalam.

Untuk masalah tertentu, dasar pengukuran membantu developer model mengukur performa minimal yang diharapkan yang harus dicapai model baru untuk tertentu agar berguna.

batch

#fundamentals

Kumpulan contoh yang digunakan dalam satu pelatihan iterasi. Ukuran tumpukan menentukan jumlah contoh dalam batch.

Lihat epoch untuk mengetahui penjelasan tentang keterkaitan suatu batch dengan yaitu sebuah epoch.

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

inferensi batch

#TensorFlow
#GoogleCloud

Proses menyimpulkan prediksi pada beberapa contoh tak berlabel dibagi menjadi beberapa subset ("batch").

Inferensi batch dapat memanfaatkan fitur paralelisasi dari chip akselerator. Artinya, beberapa akselerator secara bersamaan dapat menyimpulkan prediksi pada berbagai batch contoh, meningkatkan jumlah inferensi per detik secara signifikan.

Lihat Sistem ML produksi: Statis versus dinamis inferensi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

normalisasi batch

Normalisasi input atau output fungsi aktivasi dalam lapisan tersembunyi. Normalisasi batch dapat memberikan manfaat berikut:

ukuran tumpukan

#fundamentals

Jumlah contoh dalam tumpukan. Misalnya, jika ukuran batch adalah 100, maka model akan memproses 100 contoh per iterasi.

Berikut adalah strategi ukuran tumpukan yang populer:

  • Penurunan Gradien Stokastik (SGD), dengan ukuran tumpukan 1.
  • Batch penuh, yang mana ukuran batch adalah jumlah contoh di seluruh set pelatihan. Misalnya, jika set pelatihan berisi satu juta contoh, maka ukuran tumpukannya adalah satu juta contoh. Batch penuh biasanya merupakan strategi yang tidak efisien.
  • tumpukan mini yang ukuran tumpukannya biasanya antara 10 dan 1000. Tumpukan mini biasanya merupakan strategi yang paling efisien.

Lihat bagian berikut untuk informasi selengkapnya:

Jaringan neural Bayesian

Jaringan neural probabilistik yang memperhitungkan ketidakpastian dalam bobot dan output. Jaringan neural standar model regresi biasanya memprediksi nilai skalar; misalnya, model standar memprediksi harga rumah dari 853.000. Sebaliknya, jaringan saraf Bayesian memprediksi distribusi nilai-nilai; misalnya, model Bayesian memprediksi harga rumah sebesar 853.000 dengan standar deviasi 67.200.

Jaringan neural Bayesian bergantung pada Bayes Teorema untuk menghitung ketidakpastian dalam bobot dan prediksi. Model saraf Bayesian jaringan dapat berguna ketika penting untuk mengukur ketidakpastian, seperti dalam yang terkait dengan farmasi. Jaringan saraf Bayesian juga dapat membantu mencegah overfitting.

Pengoptimalan Bayesian

Model regresi probabilistik pengoptimalan biaya komputasi yang mahal fungsi objektif dengan mengoptimalkan surrogate yang mengukur ketidakpastian menggunakan teknik pembelajaran Bayesian. Sejak Pengoptimalan Bayes sendiri sangat mahal, pengoptimalan ini biasanya digunakan untuk tugas-tugas yang mahal dan perlu dievaluasi yang memiliki parameter dalam jumlah kecil, seperti memilih hyperparameter.

Persamaan Bellman

#rl

Dalam Reinforcement Learning, identitas berikut terpenuhi oleh Fungsi Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algoritma Reinforcement learning menerapkan hal ini identitas untuk membuat Q-learning melalui aturan pembaruan berikut:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Selain pembelajaran penguatan, persamaan Bellman memiliki kegunaan untuk pemrograman dinamis. Lihat Entri Wikipedia untuk persamaan Bellman.

BERT (Encoder Dua Arah Representasi dari Transformer)

#language

Arsitektur model untuk representasi teks. Tim Model BERT dapat bertindak sebagai bagian dari model yang lebih besar untuk klasifikasi teks atau tugas ML lainnya.

BERT memiliki karakteristik berikut:

Varian BERT meliputi:

  • ALBERT, yang merupakan akronim dari A Light BERT.
  • LaBSE.

Lihat Open Sourcing BERT: Pra-pelatihan Canggih untuk Natural Language Memproses untuk ringkasan BERT.

bias (etika/keadilan)

#fairness
#fundamentals

1. Stereotip, prasangka atau favoritisme terhadap beberapa hal, orang, atau kelompok dibandingkan yang lain. Bias ini dapat mempengaruhi pengumpulan dan interpretasi data, desain sistem, dan bagaimana pengguna berinteraksi dengan suatu sistem. Bentuk dari jenis bias ini meliputi:

2. Kesalahan sistematis yang diperkenalkan oleh prosedur pengambilan sampel atau pelaporan. Bentuk dari jenis bias ini meliputi:

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

Lihat Keadilan: Jenis bias pada Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

bias (matematika) atau istilah bias

#fundamentals

Intersepsi atau offset dari origin. Bias adalah parameter dalam model machine learning, yang disimbolkan oleh salah satu berikut ini:

  • b
  • m0

Misalnya, bias bernilai b dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Pada garis sederhana dua dimensi, bias berarti "perpotongan y". Misalnya, bias garis dalam ilustrasi berikut adalah 2.

Plot garis dengan kemiringan 0,5 dan bias (perpotongan y) 2.

Bias ada karena tidak semua model dimulai dari titik asal (0,0). Misalnya, anggap sebuah taman hiburan biaya 2 Euro untuk masuk dan tambahan 0,5 Euro untuk setiap jam pelanggan menginap. Oleh karena itu, model yang memetakan total biaya memiliki bias 2 karena biaya terendah adalah 2 Euro.

Bias tidak sama dengan bias dalam etika dan keadilan atau bias prediksi.

Lihat Regresi Linear di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

dua arah

#language

Istilah yang digunakan untuk menggambarkan sistem yang mengevaluasi teks yang mendahului dan mengikuti bagian target teks. Sebaliknya, Khusus sistem searah mengevaluasi teks yang mendahului bagian target teks.

Misalnya, pertimbangkan model bahasa yang disamarkan yang harus menentukan probabilitas kata atau kata-kata yang mewakili garis bawah dalam pertanyaan berikut:

Ada apa _____ dengan Anda?

Model bahasa searah harus mendasarkan probabilitasnya hanya pada konteks yang diberikan oleh kata-kata "Apa", "adalah", dan "yang". Sebaliknya, model bahasa dua arah juga bisa mendapatkan konteks dari dan "Anda", yang dapat membantu model menghasilkan prediksi yang lebih baik.

model bahasa dua arah

#language

Model bahasa yang menentukan probabilitas bahwa suatu token yang diberikan ada di lokasi tertentu dalam kutipan teks berdasarkan teks sebelumnya dan berikutnya.

Bigram

#seq
#language

N-gram yang mana N=2.

klasifikasi biner

#fundamentals

Jenis tugas klasifikasi yang memprediksi salah satu dari dua class yang saling eksklusif:

Misalnya, dua model machine learning berikut memiliki performa klasifikasi biner:

  • Model yang menentukan apakah pesan email spam (kelas positif) atau bukan spam (kelas negatif).
  • Model yang mengevaluasi gejala medis untuk menentukan apakah seseorang memiliki penyakit tertentu (kelas positif) atau tidak memiliki penyakit tersebut penyakit (kelas negatif).

Berbeda dengan klasifikasi kelas jamak.

Lihat juga regresi logistik dan nilai minimum klasifikasi.

Lihat Klasifikasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kondisi biner

#df

Dalam pohon keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya ya atau tidak. Misalnya, berikut ini adalah kondisi biner:

temperature >= 100

Berbeda dengan kondisi non-biner.

Lihat Jenis kondisi di materi Pengambilan Keputusan Hutan untuk informasi lebih lanjut.

pengelompokan

Sinonim dari pengelompokan.

BLEU (Pembelajaran Evaluasi Bilingual)

#language

Skor antara 0,0 dan 1,0, inklusif, yang menunjukkan kualitas terjemahan antara dua bahasa manusia (misalnya, antara bahasa Inggris dan Rusia). BLEU skor 1,0 menunjukkan terjemahan yang sempurna; skor BLEU sebesar 0,0 menunjukkan terjemahan yang buruk.

penguatan

Teknik machine learning yang secara iteratif menggabungkan serangkaian pengklasifikasi yang tidak terlalu akurat (disebut sebagai pengklasifikasi "lemah") ke dalam pengklasifikasi dengan akurasi tinggi (pengklasifikasi "kuat") dengan menaikkan bobot contoh yang saat ini diberikan salah diklasifikasikan.

Lihat Keputusan yang Ditingkatkan dengan Gradien Pepohonan? di materi Pengambilan Keputusan Hutan untuk informasi lebih lanjut.

kotak pembatas

#image

Dalam sebuah gambar, koordinat (x, y) dari persegi panjang di sekitar area tertentu, seperti gambar anjingnya di gambar di bawah ini.

Foto duduk di sofa. Kotak pembatas hijau
          dengan koordinat kiri atas (275, 1271) dan kanan bawah
          koordinat (2954, 2761) yang mengelilingi tubuh

penyiaran

Memperluas bentuk operand dalam operasi matematika matriks untuk dimensi yang kompatibel untuk operasi tersebut. Misalnya, aljabar linear mengharuskan dua operand dalam operasi penjumlahan matriks harus memiliki dimensi yang sama. Akibatnya, Anda tidak dapat menambahkan matriks bentuk (m, n) ke vektor panjang n. Penyiaran memungkinkan operasi ini dengan memperluas vektor panjang n secara virtual ke matriks berbentuk (m, n) dengan mereplikasi nilai yang sama ke setiap kolom.

Misalnya, dengan definisi berikut, aljabar linear melarang A+B karena A dan B memiliki dimensi yang berbeda:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Namun, penyiaran memungkinkan operasi A+B dengan memperluas B secara virtual ke:

 [[2, 2, 2],
  [2, 2, 2]]

Dengan demikian, A+B sekarang menjadi operasi yang valid:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Lihat deskripsi berikut tentang penyiaran di NumPy untuk detail selengkapnya.

pengelompokan

#fundamentals

Mengonversi satu fitur menjadi beberapa fitur biner disebut bucket atau bins, umumnya didasarkan pada rentang nilai. Fitur cincang biasanya adalah fitur berkelanjutan.

Misalnya, alih-alih merepresentasikan suhu sebagai satu fitur floating point berkelanjutan, Anda dapat memotong rentang suhu menjadi bucket terpisah, seperti:

  • <= 10 derajat Celsius akan menjadi "dingin" direktori VM dengan bucket.
  • 11 - 24 derajat Celsius akan menjadi "sedang" direktori VM dengan bucket.
  • >= 25 derajat Celsius akan menjadi "hangat" direktori VM dengan bucket.

Model akan memperlakukan setiap nilai dalam bucket yang sama secara identik. Sebagai contoh, nilai 13 dan 22 keduanya berada dalam bucket temperate, sehingga memperlakukan dua nilai secara identik.

Lihat Data numerik: Pengelompokan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

C

lapisan kalibrasi

Penyesuaian pascaprediksi, biasanya untuk memperhitungkan bias prediksi. Prediksi yang disesuaikan dan probabilitasnya harus cocok dengan distribusi dari kumpulan label yang diamati.

pembuatan kandidat

#recsystems

Serangkaian rekomendasi awal yang dipilih oleh sistem rekomendasi. Misalnya, pertimbangkan toko buku yang menawarkan 100.000 judul. Fase pembuatan kandidat membuat sebuah daftar yang jauh lebih sedikit berisikan buku-buku yang cocok untuk pengguna tertentu, misalnya 500. Tapi bahkan 500 buku terlalu banyak untuk direkomendasikan kepada pengguna. Selanjutnya, lebih mahal, dalam suatu sistem rekomendasi (seperti skor dan pemeringkatan ulang) mengurangi 500 poin tersebut menjadi jumlah yang jauh lebih kecil, serangkaian rekomendasi yang lebih berguna.

Lihat Pembuatan kandidat ringkasan dalam kursus Sistem Rekomendasi untuk mendapatkan informasi lebih lanjut.

sampling kandidat

Pengoptimalan waktu pelatihan yang menghitung probabilitas untuk semua Label positif, misalnya dengan menggunakan softmax, tetapi hanya untuk item acak contoh label negatif. Misalnya, pada contoh berlabel beagle dan dog, sampling kandidat menghitung probabilitas yang diprediksi dan persyaratan kerugian yang sesuai untuk:

  • beagle
  • subset acak dari class negatif yang tersisa (misalnya cat, lollipop, pagar).

Idenya adalah bahwa kelas negatif dapat belajar dari kelompok yang lebih jarang penguatan negatif selama kelas positif selalu mendapatkan positif yang tepat penguatan, dan hal ini memang diamati secara empiris.

Sampling kandidat lebih efisien secara komputasi daripada algoritma pelatihan yang menghitung prediksi untuk semua class negatif, terutama ketika jumlah kelas negatif sangat besar.

data kategorik

#fundamentals

Fitur yang memiliki kumpulan spesifik nilai yang mungkin. Misalnya, pertimbangkan fitur kategori bernama traffic-light-state, yang hanya dapat memiliki salah satu dari tiga kemungkinan nilai berikut:

  • red
  • yellow
  • green

Dengan merepresentasikan traffic-light-state sebagai fitur kategori, suatu model dapat mempelajari dampak red, green, dan yellow yang berbeda terhadap perilaku pengemudi.

Fitur kategorik terkadang disebut fitur diskret.

Berbeda dengan data numerik.

Lihat Bekerja dengan kategori data di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model bahasa kausal

#language

Sinonim dari model bahasa searah.

Lihat model bahasa dua arah untuk membedakan berbagai pendekatan terarah dalam pemodelan bahasa.

sentroid

#clustering

Pusat cluster seperti yang ditentukan oleh k-means atau algoritma k-median. Misalnya, jika k adalah 3, maka algoritma k-means atau k-median akan menemukan 3 sentroid.

Lihat Algoritma pengelompokan di materi Pengelompokan untuk informasi lebih lanjut.

pengelompokan berbasis sentroid

#clustering

Kategori algoritma pengelompokan yang mengatur data menjadi kelompok-kelompok non-hierarki. k-means adalah model menggunakan algoritma pengelompokan berbasis sentroid.

Berbeda dengan pengelompokan hierarkis algoritme.

Lihat Algoritma pengelompokan di materi Pengelompokan untuk informasi lebih lanjut.

prompting chain-of-thinkt

#language
#generativeAI

Teknik rekayasa perintah yang mendorong model bahasa besar (LLM) untuk menjelaskan penalaran, langkah demi langkah. Misalnya, pertimbangkan petunjuk berikut, membayar perhatian khusus pada kalimat kedua:

Berapakah gaya g yang dialami pengemudi dalam sebuah mobil yang bergerak dari 0 hingga 60 mil per jam dalam 7 detik? Pada jawaban, tampilkan semua penghitungan yang relevan.

Respons LLM kemungkinan akan:

  • Menunjukkan urutan rumus fisika, dengan memasukkan nilai 0, 60, dan 7 di tempat yang tepat.
  • Menjelaskan mengapa ia memilih formula tersebut dan apa arti berbagai variabelnya.

Rantai pikiran yang mendorong LLM untuk melakukan semua perhitungan, yang mungkin mengarah pada jawaban yang lebih benar. Selain itu, rantai pemikiran memungkinkan pengguna memeriksa langkah-langkah LLM untuk menentukan apakah atau tidak, jawabannya masuk akal.

chat

#language
#generativeAI

Konten dialog dua arah dengan sistem ML, biasanya model bahasa besar (LLM). Interaksi sebelumnya dalam chat (apa yang Anda ketik dan bagaimana model bahasa besar merespons) menjadi konteks untuk bagian selanjutnya dari percakapan tersebut.

Chatbot adalah penerapan model bahasa besar.

pos pemeriksaan

Data yang menangkap status parameter model selama pelatihan atau setelah pelatihan selesai. Misalnya, selama pelatihan, Anda dapat:

  1. Hentikan pelatihan, mungkin sengaja atau mungkin akibat error tertentu.
  2. Ambil foto checkpoint.
  3. Kemudian, muat ulang checkpoint, mungkin di hardware lain.
  4. Mulai ulang pelatihan.

class

#fundamentals

Kategori yang dapat mencakup label. Contoh:

  • Dalam model klasifikasi biner yang mendeteksi spam, kedua kelas tersebut mungkin adalah spam dan bukan spam.
  • Dalam model klasifikasi kelas multi-class yang mengidentifikasi jenis, kelasnya mungkin adalah pudel, beagle, pesa, dan seterusnya.

Model klasifikasi memprediksi class. Sebaliknya, model regresi memprediksi jumlah bukan class.

Lihat Klasifikasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model klasifikasi

#fundamentals

Model yang prediksinya adalah class. Misalnya, berikut ini adalah semua model klasifikasi:

  • Model yang memprediksi bahasa kalimat input (bahasa Prancis? Spanyol? Italia?).
  • Model yang memprediksi spesies pohon (Maple? Ek? Baobab?).
  • Model yang memprediksi kelas positif atau negatif untuk kondisi medis tertentu.

Sebaliknya, model regresi memprediksi angka bukan class.

Dua jenis model klasifikasi yang umum adalah:

batas klasifikasi

#fundamentals

Dalam klasifikasi biner, angka antara 0 dan 1 yang mengubah {i>output<i} mentah dari model regresi logistik menjadi prediksi kelas positif atau kelas negatif. Perhatikan bahwa ambang batas klasifikasi adalah nilai yang dipilih manusia, bukan nilai yang dipilih oleh pelatihan model.

Model regresi logistik menghasilkan nilai mentah antara 0 dan 1. Lalu:

  • Jika nilai mentah ini lebih dari batas klasifikasi, maka kelas positif diprediksi.
  • Jika nilai mentah ini kurang dari batas klasifikasi, maka kelas negatif diprediksi.

Misalnya, batas klasifikasi adalah 0,8. Jika nilai mentah 0,9, maka model memprediksi kelas positif. Jika nilai mentahnya adalah 0,7, maka model ini memprediksi kelas negatif.

Pilihan batas klasifikasi sangat mempengaruhi jumlah positif palsu (PP) dan negatif palsu.

Lihat Batas dan tingkat kebingungan matriks di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

set data kelas tidak seimbang

#fundamentals

{i>Dataset<i} untuk masalah klasifikasi di mana jumlah total label di setiap class berbeda secara signifikan. Sebagai contoh, pertimbangkan {i>dataset<i} klasifikasi biner yang memiliki dua label dibagi sebagai berikut:

  • 1.000.000 label negatif
  • 10 label positif

Rasio label negatif terhadap positif adalah 100.000 berbanding 1, jadi ini adalah set data kelas tidak seimbang.

Sebaliknya, set data berikut tidak kelas tidak seimbang karena rasio label negatif terhadap label positif relatif mendekati 1:

  • 517 label negatif
  • 483 label positif

Set data multi-class juga dapat bersifat tidak seimbang. Misalnya, set data klasifikasi multi-kelas juga tidak seimbang karena satu label memiliki lebih banyak contoh daripada dua lainnya:

  • 1.000.000 label dengan kelas "hijau"
  • 200 label dengan class "ungu"
  • 350 label dengan kelas "oranye"

Lihat juga entropi, kelas mayoritas, dan class minoritas.

penyesuaian nilai

#fundamentals

Teknik untuk menangani outlier dengan melakukan salah satu atau kedua hal berikut:

  • Mengurangi nilai fitur yang lebih besar dari nilai maksimum hingga ke nilai minimum tersebut.
  • Meningkatkan nilai fitur yang kurang dari nilai minimum hingga ke nilai tersebut dan batas minimum.

Misalnya, anggaplah <0,5% nilai untuk fitur tertentu jatuh di luar rentang 40–60. Dalam kasus ini, Anda dapat melakukan tindakan berikut:

  • Potong semua nilai di atas 60 (batas maksimum) menjadi tepat 60.
  • Potong semua nilai di bawah 40 (batas minimum) menjadi tepat 40.

Pencilan dapat merusak model, terkadang menyebabkan bobot yang berlebih selama pelatihan. Beberapa {i>outlier<i} juga dapat merusak metrik seperti akurasi. {i>Clipping<i} adalah teknik umum untuk membatasi kerusakannya.

Pemangkasan gradien gaya nilai gradien dalam rentang yang ditentukan selama pelatihan.

Lihat Data numerik: Normalisasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Cloud TPU

#TensorFlow
#GoogleCloud

Akselerator hardware khusus yang dirancang untuk mempercepat performa mesin workload pembelajaran di Google Cloud.

{i>clustering<i} (pengelompokan)

#clustering

Mengelompokkan contoh terkait, terutama selama unsupervised learning. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan makna pada setiap klaster.

Ada banyak algoritma pengklasteran. Misalnya, k-means algoritma mengelompokkan contoh berdasarkan kedekatannya dengan centroid, seperti pada diagram berikut:

Grafik dua dimensi di mana sumbu x diberi label lebar pohon,
          dan sumbu y diberi label 
tinggi pohon. Grafik ini berisi dua
          sentroid dan beberapa lusin titik data. Titik-titik datanya
          dikategorikan berdasarkan kedekatannya. Yaitu, titik-titik data
          yang terdekat dengan satu sentroid dikategorikan sebagai klaster 1, sedangkan
          yang terdekat dengan sentroid lain dikategorikan sebagai klaster 2.

Peneliti manusia kemudian dapat meninjau klaster itu dan, misalnya, beri label kelompok 1 sebagai "pohon kerdil" dan kelompok 2 sebagai "pohon berukuran besar".

Sebagai contoh lain, pertimbangkan algoritma pengklasteran berdasarkan jarak contoh dari titik tengah, diilustrasikan sebagai berikut:

Puluhan titik data diatur 
dalam lingkaran konsentris,
          seperti lubang di sekitar 
tengah papan panah. Lingkaran terdalam
          titik data dikategorikan sebagai klaster 1, cincin tengah
          dikategorikan sebagai klaster 2, dan cincin terluar sebagai
          klaster 3.

Lihat Kursus pembuatan cluster untuk informasi selengkapnya.

adaptasi bersama

Saat neuron memprediksi pola dalam data pelatihan dengan mengandalkan hampir secara eksklusif pada {i>output <i}dari neuron lain yang spesifik daripada mengandalkan perilaku jaringan secara keseluruhan. Ketika pola yang menyebabkan adaptasi bersama tidak ada dalam data validasi, maka adaptasi bersama menyebabkan overfitting. Regularisasi dengan pelarian mengurangi adaptasi bersama karena dropout memastikan neuron tidak bisa hanya mengandalkan neuron spesifik lain.

penyaringan kolaboratif

#recsystems

Membuat prediksi tentang minat satu pengguna berdasarkan minat dari banyak pengguna lainnya. Pemfilteran kolaboratif sering digunakan dalam sistem rekomendasi.

Lihat Kolaboratif memfilter dalam kursus Sistem Rekomendasi untuk mendapatkan informasi lebih lanjut.

penyimpangan konsep

Pergeseran hubungan antara fitur dan label. Seiring waktu, penyimpangan konsep akan mengurangi kualitas model.

Selama pelatihan, model mempelajari hubungan antara fitur dan labelnya di set pelatihan. Jika label dalam set pelatihan proxy yang baik untuk dunia nyata, maka model harus dapat berfungsi berbagai prediksi di dunia nyata. Namun, karena penyimpangan konsep, model prediksi cenderung menurun dari waktu ke waktu.

Sebagai contoh, pertimbangkan klasifikasi biner yang memprediksi apakah model mobil tertentu "hemat bahan bakar" atau tidak. Artinya, fitur tersebut dapat berupa:

  • berat mobil
  • kompresi mesin
  • jenis transmisi

sedangkan labelnya adalah:

  • hemat bahan bakar
  • tidak hemat bahan bakar

Namun, konsep “mobil hemat bahan bakar” menyimpan berganti. Sebuah model mobil berlabel hemat bahan bakar pada tahun 1994 hampir dapat dipastikan berlabel tidak hemat bahan bakar pada tahun 2024. Model yang mengalami penyimpangan konsep cenderung membuat prediksi yang kurang dan kurang berguna dari waktu ke waktu.

Membandingkan dan membedakan dengan nonstasioneritas.

kondisi

#df

Dalam hierarki keputusan, setiap node yang mengevaluasi ekspresi. Misalnya, bagian berikutnya dari pohon keputusan mengandung dua syarat:

Pohon keputusan yang terdiri dari dua kondisi: (x > 0) dan
          (y > 0).

Kondisi juga disebut pemisahan atau pengujian.

Membandingkan kondisi dengan leaf.

Lihat juga:

Lihat Jenis kondisi di materi Pengambilan Keputusan Hutan untuk informasi lebih lanjut.

konfabulasi

#language

Sinonim dari halusinasi.

Konfabulasi mungkin merupakan istilah yang lebih akurat secara teknis daripada halusinasi. Namun, halusinasi menjadi populer terlebih dahulu.

konfigurasi

Proses penetapan nilai properti awal yang digunakan untuk melatih model, termasuk:

Dalam project machine learning, konfigurasi dapat dilakukan melalui file konfigurasi atau menggunakan library konfigurasi seperti berikut:

bias konfirmasi

#fairness

Kecenderungan untuk mencari, menafsirkan, mendukung, dan mengingat informasi dalam cara mengkonfirmasi keyakinan atau hipotesis yang sudah ada sebelumnya. Developer machine learning mungkin secara tidak sengaja mengumpulkan atau memberi label data dengan cara yang memengaruhi hasil yang mendukung keberadaan mereka kepercayaan. Bias konfirmasi adalah bentuk bias implisit.

Bias pelaku eksperimen adalah bentuk bias konfirmasi yang mana pelaku eksperimen terus melatih model hingga hipotesis dikonfirmasi.

matriks konfusi

#fundamentals

Tabel NxN yang merangkum jumlah prediksi yang benar dan salah yang dibuat oleh model klasifikasi. Misalnya, pertimbangkan matriks konfusi berikut untuk Model klasifikasi biner:

Tumor (diprediksi) Bukan Tumor (diprediksi)
Tumor (kebenaran dasar) 18 (PB) 1 (NP)
Non-Tumor (kebenaran dasar) 6 (PP) 452 (TN)

Matriks konfusi sebelumnya menunjukkan hal berikut:

  • Dari 19 prediksi yang kebenaran dasar-nya adalah Tumor, model dengan benar mengklasifikasikan 18 dan salah diklasifikasikan dengan 1.
  • Dari 458 prediksi yang mana kebenaran dasar adalah Non-Tumor, model diklasifikasikan dengan benar 452 dan salah diklasifikasikan 6.

Matriks konfusi untuk klasifikasi kelas multi-class masalah dapat membantu Anda mengidentifikasi pola kesalahan. Misalnya, pertimbangkan matriks konfusi berikut untuk kelas 3 model klasifikasi kelas multi-kelas yang mengkategorikan tiga jenis iris yang berbeda (Virginica, Versicolor, dan Setosa). Ketika kebenaran dasar adalah Virginica, matriks konfusi menunjukkan bahwa model ini jauh lebih mungkin untuk keliru memprediksi Versicolor daripada Setosa:

  Setosa (diprediksi) Versicolor (diprediksi) Virginica (diprediksi)
Setosa (kebenaran dasar) 88 12 0
Versicolor (kebenaran dasar) 6 141 7
Virginica (kebenaran dasar) 2 27 109

Sebagai contoh lain, matriks konflik dapat mengungkapkan bahwa model yang dilatih mengenali digit tulisan tangan cenderung salah memprediksi 9 bukannya 4, atau salah memprediksi 1 bukannya 7.

Matriks konfusi berisi informasi yang cukup untuk menghitung berbagai metrik performa, termasuk presisi dan recall.

penguraian konstituensi

#language

Membagi kalimat menjadi struktur tata bahasa yang lebih kecil ("konstituen"). Bagian selanjutnya dari sistem ML, seperti natural language understanding, dapat mengurai konstituen dengan lebih mudah daripada kalimat aslinya. Misalnya, pertimbangkan kalimat berikut:

Teman saya mengadopsi dua ekor kucing.

Parser konstituensi dapat membagi kalimat ini menjadi beberapa dua konstituen:

  • Teman saya adalah frasa nomina.
  • adopted two cats adalah frasa kata kerja.

Konstituen ini dapat dibagi lagi menjadi beberapa konstituen yang lebih kecil. Misalnya, frasa kata kerja

mengadopsi dua kucing

dapat dibagi lebih lanjut menjadi:

  • adopted adalah kata kerja.
  • two cats adalah frasa nomina lainnya.

embedding bahasa kontekstual

#language
#generativeAI

Penyematan yang hampir sama dengan "memahami" kata dan frasa dengan cara yang dapat dilakukan oleh penutur asli manusia. Bahasa yang kontekstual embeddings dapat memahami sintaks yang kompleks, semantik, dan konteks.

Misalnya, pertimbangkan embedding kata bahasa Inggris cow. Embedding lama seperti word2vec dapat mewakili bahasa Inggris kata sedemikian rupa sehingga jarak di ruang penyematan dari sapi ke banteng mirip dengan jarak dari betina (domba betina) ke domba jantan (domba jantan) atau dari betina menjadi jantan. Bahasa yang kontekstual embedding dapat lebih jauh mengetahui menggunakan kata cow yang bisa berarti sapi atau banteng.

jendela konteks

#language
#generativeAI

Jumlah token yang dapat diproses model dalam perintah. Semakin besar jendela konteks, semakin banyak informasi dapat digunakan model untuk memberikan respons yang koheren dan konsisten prompt tersebut.

fitur berkelanjutan

#fundamentals

Fitur floating point dengan rentang kemungkinan yang tak terbatas nilai, seperti suhu atau berat.

Berbeda dengan fitur diskret.

pengambilan sampel praktis

Menggunakan {i>dataset<i} yang tidak dikumpulkan secara ilmiah untuk dijalankan dengan cepat eksperimen. Nantinya, Anda harus beralih ke uji coba {i>dataset<i} aslinya.

konvergensi

#fundamentals

Status yang dicapai saat nilai loss sangat sedikit berubah atau tidak sama sekali di setiap iterasi. Misalnya, kurva kerugian menyarankan konvergensi di sekitar 700 iterasi:

Plot Kartesius. Sumbu X adalah kerugian. Sumbu Y adalah jumlah pelatihan
          iterasi sebelumnya. Kerugian sangat tinggi selama beberapa iterasi pertama, tetapi
          turun tajam. Setelah sekitar 100 iterasi, kerugian masih
          menurun tetapi secara bertahap. Setelah sekitar 700 iterasi,
          kerugian tetap datar.

Model konvergensi ketika pelatihan tambahan tidak dapat dilakukan memperbaiki model.

Dalam deep learning, nilai kerugian terkadang tetap konstan atau hampir seluruh iterasi sebelum akhirnya menurun. Selama jangka waktu yang lama nilai kerugian yang konstan, untuk sementara Anda mungkin mendapatkan pemahaman palsu tentang konvergensi.

Lihat juga penghentian awal.

Lihat Konvergensi dan kerugian model kurva di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fungsi cembung

Sebuah {i>function<i} di mana wilayah di atas grafik dari {i>function<i} tersebut adalah kumpulan konveks. Fungsi konveks prototipe{i> <i}adalah berbentuk seperti huruf U. Misalnya, semua fungsi konveks:

Kurva berbentuk U, masing-masing dengan satu titik minimum.

Sebaliknya, fungsi berikut tidak konveks. Perhatikan bagaimana wilayah di atas grafik yang bukan himpunan konveks:

Kurva berbentuk W dengan dua titik minimum lokal yang berbeda.

Fungsi konveks tegas memiliki tepat satu titik minimum lokal, yang juga merupakan titik minimum global. Fungsi berbentuk U klasik adalah fungsi konveks. Namun, beberapa fungsi konveks (misalnya, garis lurus) tidak berbentuk U.

Lihat Konvergensi dan konveks fungsi-fungsi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

pengoptimalan cembung

Proses menggunakan teknik matematika seperti penurunan gradien untuk menemukan nilai minimum fungsi konveks. Banyak penelitian dalam {i>machine learning<i} telah fokus pada merumuskan berbagai masalah sebagai masalah pengoptimalan cembung dan lebih secara efisien.

Untuk detail selengkapnya, lihat Boyd dan Vandenberghe, Convex Pengoptimalan.

himpunan konveks

Sebuah subhimpunan dari ruang Euclidean sedemikian rupa sehingga garis yang digambar di antara dua titik dalam {i>subset<i} tetap berada sepenuhnya dalam {i>subset<i} tersebut. Misalnya, dua hal berikut bentuk adalah himpunan cembung:

Salah satu ilustrasi persegi panjang. Ilustrasi oval lainnya.

Sebaliknya, dua bentuk berikut bukan himpunan konveks:

Salah satu ilustrasi diagram lingkaran dengan irisan yang hilang.
          Ilustrasi lain dari poligon tidak beraturan.

konvolusi

#image

Dalam matematika, berbicara santai, campuran dari dua fungsi. Di mesin pembelajaran, konvolusi mencampur elemen konvolusional filter dan matriks input untuk melatih bobot.

Istilah "konvolusi" dalam machine learning sering kali merupakan cara cepat untuk yang merujuk pada operasi konvolusional atau lapisan konvolusional.

Tanpa konvolusi, algoritma {i>machine learning<i} harus belajar bobot terpisah untuk setiap sel dalam tensor besar. Misalnya, pelatihan algoritma {i>machine learning<i} pada gambar 2K x 2K akan dipaksa untuk temukan bobot terpisah 4M. Berkat konvolusi, machine learning algoritma hanya perlu menemukan bobot untuk setiap sel dalam filter konvolusional, yang secara drastis mengurangi memori yang dibutuhkan untuk melatih model. Ketika saringan konvolusional diterapkan, maka hanya direplikasi di sel sedemikian rupa sehingga masing-masing oleh filter.

Lihat Memperkenalkan Neural Konvolusional Jaringan di kursus Klasifikasi Gambar untuk informasi lebih lanjut.

saringan konvolusional

#image

Salah satu dari dua aktor dalam operasi konvolusional. (Aktor lainnya adalah potongan dari matriks input.) Penyaringan konvolusional adalah matriks yang memiliki peringkat yang sama dengan matriks input, tetapi bentuknya lebih kecil. Misalnya, dengan matriks input 28 x 28, filter dapat berupa matriks 2D lebih kecil dari 28x28.

Dalam manipulasi fotografi, semua sel dalam saringan konvolusional yang biasanya diatur dengan pola satu dan nol yang konstan. Pada {i>machine learning<i}, filter konvolusional biasanya ditanam dengan angka acak dan kemudian jaringan melatih nilai yang ideal.

Lihat Konvolusi di kursus Klasifikasi Gambar untuk informasi lebih lanjut.

lapisan konvolusional

#image

Lapisan jaringan neural dalam tempat filter konvolusional meneruskan input yang dihasilkan. Misalnya, pertimbangkan gambar 3x3 berikut filter konvolusional:

Matriks 3x3 dengan nilai berikut: [[0,1,0], [1,0,1], [0,1,0]]

Animasi berikut menunjukkan lapisan konvolusional yang terdiri dari 9 operasi konvolusional yang melibatkan matriks input 5x5. Perhatikan bahwa setiap operasi konvolusional bekerja pada potongan 3 x 3 dari matriks input. Matriks 3 x 3 yang dihasilkan (di sebelah kanan) terdiri dari hasil dari 9 konvolusional:

Animasi yang menunjukkan dua matriks. Matriks pertama adalah 5x5
          matriks: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195.179], [31,40,100,192,177]].
          Matriks kedua adalah matriks 3 x 3:
          [[181.303.618], [115.338.605], [169.351.560]].
          Matriks kedua dihitung dengan menerapkan konvolusional
          filter [[0, 1, 0], [1, 0, 1], [0, 1, 0]]
          himpunan bagian 3 x 3 dari matriks 5 x 5.

Lihat Tersambung Sepenuhnya Lapisan di kursus Klasifikasi Gambar untuk informasi lebih lanjut.

jaringan neural konvolusional

#image

Jaringan neural yang mana setidaknya satu lapisan merupakan lapisan konvolusional. Jenis konvolusional yang umum jaringan neural terdiri dari beberapa kombinasi lapisan berikut:

Jaringan neural konvolusional telah memiliki keberhasilan besar dalam jenis masalah, seperti pengenalan citra.

operasi konvolusional

#image

Operasi matematika dua langkah berikut:

  1. Perkalian berbasis elemen dari filter konvolusional dan potongan matriks input. (Potongan dari matriks input memiliki peringkat yang sama dan ukurannya sama dengan saringan konvolusional.)
  2. Penjumlahan semua nilai dalam matriks produk yang dihasilkan.

Misalnya, pertimbangkan matriks input 5x5 berikut:

Matriks 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195.179], [31,40,100,192,177]].

Sekarang bayangkan saringan konvolusional 2x2 berikut:

Matriks 2x2: [[1, 0], [0, 1]]

Setiap operasi konvolusional melibatkan satu potongan 2x2 dari matriks input. Misalnya, kita menggunakan potongan 2x2 pada kiri atas matriks input. Jadi, operasi konvolusi pada irisan ini terlihat seperti berikut:

Menerapkan saringan konvolusional [[1, 0], [0, 1]] ke sisi kiri atas
          2x2 dari matriks input, yaitu [[128,97], [35,22]].
          Saringan konvolusional meninggalkan 128 dan 22 tetap utuh, tetapi angka nol
          angka 97 dan 35. Akibatnya, operasi konvolusi menghasilkan
          nilai 150 (128+22).

Lapisan konvolusional terdiri dari lapisan serangkaian operasi konvolusional, masing-masing bekerja pada irisan yang berbeda matriks input.

biaya

Sinonim dari kerugian.

pelatihan bersama

Pendekatan semi-supervised learning sangat berguna saat semua kondisi berikut terpenuhi:

Pelatihan bersama pada dasarnya memperkuat sinyal independen menjadi sinyal yang lebih kuat. Misalnya, pertimbangkan model klasifikasi yang mengategorikan mobil bekas satu per satu sebagai Baik atau Buruk. Satu set fitur prediktif mungkin berfokus pada karakteristik gabungan seperti tahun, merek, dan model mobil; satu set fitur prediktif lain mungkin berfokus pada catatan mengemudi dan riwayat perawatan mobil pemilik sebelumnya.

Makalah penting tentang pelatihan bersama adalah Menggabungkan Data Berlabel dan Tidak Berlabel dengan Pelatihan Bersama oleh Blum dan Mitchell.

keadilan kontrafaktual

#fairness

Metrik keadilan yang memeriksa apakah suatu pengklasifikasi memberikan hasil yang sama untuk satu individu seperti halnya untuk individu lain yang identik dengan yang pertama, kecuali sehubungan dengan satu atau lebih atribut sensitif. Mengevaluasi pengklasifikasi untuk keadilan kontrafaktual adalah salah satu metode untuk mengungkapkan sumber potensial bias dalam model.

Lihat salah satu dari yang berikut ini untuk informasi selengkapnya:

bias cakupan

#fairness

Lihat bias seleksi.

bunga tabrakan

#language

Kalimat atau frasa dengan makna yang ambigu. Bunga sakura menghadirkan masalah yang signifikan dalam alam alami pemahaman bahasa. Misalnya, judul Pita Merah Menahan Pilar adalah {i>error blossom<i} karena model NLU dapat menafsirkan judul secara harfiah atau secara kiasan.

kritikus

#rl

Sinonim dari Deep Q-Network.

entropi silang

Generalisasi Kerugian Log terhadap masalah klasifikasi kelas multi-kelas. Entropi silang mengukur perbedaan antara dua distribusi probabilitas. Lihat juga perpleksitas.

validasi silang

Mekanisme untuk memperkirakan seberapa baik model akan digeneralisasi untuk data baru dengan menguji model terhadap satu atau beberapa subkumpulan data yang tidak tumpang-tindih yang ditahan dari set pelatihan.

fungsi distribusi kumulatif (CDF)

Fungsi yang menentukan frekuensi sampel yang kurang dari atau sama dengan suatu nilai target. Misalnya, pertimbangkan distribusi normal dari nilai kontinu. CDF memberi tahu Anda bahwa sekitar 50% sampel harus kurang dari atau sama ke rata-rata dan bahwa sekitar 84% sampel harus kurang dari atau sama satu standar deviasi di atas {i>mean<i}.

D

analisis data

Mendapatkan pemahaman tentang data dengan mempertimbangkan sampel, pengukuran, dan visualisasi. Analisis data bisa sangat berguna ketika seorang pertama kali diterima, sebelum membuat model pertama. Hal ini juga penting dalam memahami eksperimen dan masalah {i>debugging <i}dengan sistem.

augmentasi data

#image

Secara artifisial meningkatkan rentang dan jumlah Contoh pelatihan dengan mentransformasi contoh untuk membuat contoh tambahan. Misalnya, misalkan gambar adalah salah satu fitur, tetapi set data Anda tidak berisi cukup contoh gambar yang cukup bagi model untuk mempelajari asosiasi yang berguna. Idealnya, Anda perlu menambahkan cukup gambar berlabel ke set data Anda untuk memungkinkan model Anda dilatih dengan benar. Jika tidak memungkinkan, pengayaan data dapat memutar, meregangkan, dan memantulkan setiap gambar untuk menghasilkan banyak varian gambaran asli, yang mungkin menghasilkan data berlabel yang memadai untuk memungkinkan pelatihan.

DataFrame

#fundamentals

Jenis data pandas populer untuk merepresentasikan set data dalam memori.

DataFrame dapat dianalogikan dengan tabel atau {i>spreadsheet<i}. Setiap kolom dari DataFrame memiliki nama ({i>header<i}), dan setiap baris diidentifikasi oleh nomor unik.

Setiap kolom dalam DataFrame terstruktur seperti {i>array 2D<i}, kecuali bahwa setiap kolom dapat diberi tipe datanya sendiri.

Lihat juga dokumen Referensi pandas.DataFrame Google.

paralelisme data

Cara menskalakan pelatihan atau inferensi yang mereplikasi seluruh model ke beberapa perangkat dan kemudian meneruskan {i>subset<i} data input ke setiap perangkat. Paralelisme data dapat memungkinkan pelatihan dan inferensi pada data yang sangat besar ukuran tumpukan; Namun, paralelisme data mengharuskan menjadi cukup kecil untuk muat di semua perangkat.

Paralelisme data biasanya mempercepat pelatihan dan inferensi.

Lihat juga paralelisme model.

{i>dataset<i} atau {i>dataset<i}

#fundamentals

Kumpulan data mentah, biasanya (tetapi tidak secara eksklusif) diatur dalam satu format berikut:

  • spreadsheet
  • file dalam format CSV ({i>comma-separated values<i})

Dataset API (tf.data)

#TensorFlow

TensorFlow API tingkat tinggi untuk membaca data dan mengubahnya menjadi bentuk yang diperlukan algoritma machine learning. Objek tf.data.Dataset mewakili urutan elemen, di mana setiap elemen berisi satu atau beberapa Tensor. tf.data.Iterator memberikan akses ke elemen Dataset.

batas keputusan

Pemisah antara class yang dipelajari oleh model dalam class biner atau masalah klasifikasi kelas multi-kelas. Misalnya, pada gambar berikut yang merepresentasikan masalah klasifikasi biner, batas keputusan adalah batas antara kelas oranye dan kelas biru:

Batas yang jelas antara satu class dan class lainnya.

hutan keputusan

#df

Model yang dibuat dari beberapa hierarki keputusan. {i>Forest<i} keputusan membuat prediksi dengan menggabungkan prediksi dari pohon keputusannya. Jenis hutan keputusan yang populer antara lain forest acak dan pohon yang ditingkatkan gradien.

Lihat Keputusan Hutan di kursus Pengambilan Keputusan Hutan untuk informasi selengkapnya.

batas keputusan

Sinonim dari nilai minimum klasifikasi.

pohon keputusan (decision tree)

#df

Model supervised learning yang terdiri dari serangkaian conditions dan leaf diatur secara hierarkis. Misalnya, berikut ini adalah pohon keputusan:

Pohon keputusan yang terdiri dari 
empat kondisi yang diatur
          secara hierarkis, yang 
menghasilkan lima daun.

decoder

#language

Secara umum, setiap sistem ML yang melakukan konversi dari representasi internal ke representasi yang lebih mentah, jarang, atau eksternal.

Decoder sering kali merupakan komponen dari model yang lebih besar, di mana mereka sering disambungkan dengan encoder.

Pada tugas urutan-ke-urutan, decoder dimulai dengan status internal yang dihasilkan encoder untuk memprediksi .

Lihat Transformer untuk definisi decoder di dalam arsitektur Transformer.

Lihat Model bahasa besar di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

model dalam

#fundamentals

Jaringan neural yang berisi lebih dari satu lapisan tersembunyi.

Model dalam juga disebut jaringan neural dalam.

Berbeda dengan model lebar.

yang sangat populer

Sinonim dari model dalam.

Deep Q-Network (DQN)

#rl

Di Q-learning, jaringan neural yang mendalam yang memprediksi fungsi Q.

Critic adalah sinonim untuk Deep Q-Network.

paritas demografi

#fairness

Metrik keadilan yang terpenuhi jika hasil klasifikasi model tidak bergantung pada diberi atribut sensitif.

Misalnya, jika Lilliput dan Brobdingnagian berlaku untuk Universitas Glubbdubdrib, paritas demografis tercapai jika persentase Liliput yang diakui sama dengan persentase penduduk Brobdingnagia diterima, terlepas dari apakah satu kelompok rata-rata lebih memenuhi syarat dari yang lain.

Berbeda dengan peluang yang disamakan dan kesetaraan peluang, yang memungkinkan hasil klasifikasi secara agregat bergantung pada atribut sensitif, tetapi tidak mengizinkan hasil klasifikasi untuk label kebenaran dasar agar bergantung pada atribut sensitif. Lihat "Menerangi diskriminasi dengan machine learning yang lebih cerdas" untuk visualisasi mengeksplorasi konsekuensi saat mengoptimalkan paritas demografis.

Lihat Keadilan: demografi paritas di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

penghilang kebisingan

#language

Pendekatan umum untuk self-supervised learning dalam hal ini:

  1. Derau ditambahkan secara artifisial ke set data.
  2. Model mencoba menghapus derau.

Dengan penghilangan noise, Anda dapat mempelajari contoh tak berlabel. Set data asli berfungsi sebagai target atau label dan data yang bising sebagai input.

Beberapa model bahasa yang disamarkan menggunakan penghilang noise sebagai berikut:

  1. Kebisingan ditambahkan secara artifisial ke kalimat tak berlabel dengan menutupi beberapa token-nya.
  2. Model mencoba memprediksi token asli.

fitur padat

#fundamentals

Fitur yang sebagian besar atau semua nilainya bukan nol, biasanya Tensor yang terdiri dari nilai floating point. Misalnya, Tensor 10 elemen padat karena 9 nilainya bukan nol:

8 3 7 5 2 4 0 4 9 6

Berbeda dengan fitur renggang.

lapisan padat

Sinonim dari lapisan terhubung sepenuhnya.

kedalaman

#fundamentals

Jumlah nilai berikut dalam jaringan neural:

Misalnya, jaringan neural dengan lima lapisan tersembunyi dan satu lapisan output memiliki kedalaman 6.

Perhatikan bahwa lapisan input tidak {i>pengaruh depth<i}.

jaringan neural konvolusional yang dapat dipisahkan depthwise (sepCNN)

#image

Jaringan neural konvolusional arsitektur berdasarkan Inception, tetapi modul Inception diganti dengan depthwise separable konvolusi. Juga dikenal sebagai Xception.

Convolution yang dapat dipisahkan secara mendalam (juga disingkat sebagai konvolusi yang dapat dipisahkan) memasukkan konvolusi 3D standar ke dalam dua operasi konvolusi terpisah yang lebih efisien secara komputasi: pertama, konvolusi mendalam, dengan kedalaman 1 (n ✕ n ✕ 1), lalu kedua, konvolusi searah dengan panjang dan lebar 1 (1 ✕ 1 diperlukan n).

Untuk mempelajari lebih lanjut, lihat Xception: Deep Learning dengan Depthwise Separable Konvolusi.

label turunan

Sinonim dari label proxy.

perangkat

#TensorFlow
#GoogleCloud

Istilah yang kelebihan beban dengan dua kemungkinan definisi berikut:

  1. Kategori hardware yang dapat menjalankan sesi TensorFlow, termasuk CPU, GPU, dan TPU.
  2. Saat melatih model ML pada chip akselerator (GPU atau TPU), bagian dari sistem yang benar-benar memanipulasi tensor dan sematan. Perangkat berjalan pada chip akselerator. Sebaliknya, host biasanya berjalan pada CPU.

privasi diferensial

Dalam machine learning, pendekatan anonimisasi untuk melindungi data sensitif apa pun (misalnya, informasi pribadi seseorang) yang disertakan dalam set pelatihan agar tidak diekspos. Pendekatan ini memastikan bahwa model tidak mempelajari atau mengingat banyak hal tentang perorangan. Hal ini dilakukan dengan pengambilan sampel dan menambahkan derau selama model untuk mengaburkan titik data individual, mengurangi risiko paparan data pelatihan yang sensitif.

Privasi diferensial juga digunakan di luar machine learning. Misalnya, ilmuwan data terkadang menggunakan privasi diferensial untuk melindungi privasi saat menghitung statistik penggunaan produk untuk demografi yang berbeda.

pengurangan dimensi

Mengurangi jumlah dimensi yang digunakan untuk mewakili fitur tertentu dalam vektor fitur, biasanya dengan melakukan konversi ke vektor penyematan.

dimensi

Istilah yang berlebihan yang memiliki salah satu definisi berikut:

  • Jumlah tingkat koordinat dalam Tensor. Contoh:

    • Skalar memiliki dimensi nol; misalnya ["Hello"].
    • Vektor memiliki satu dimensi; misalnya [3, 5, 7, 11].
    • Matriks memiliki dua dimensi; misalnya [[2, 4, 18], [5, 7, 14]]. Anda dapat secara unik menentukan sel tertentu dalam vektor satu dimensi dengan satu koordinat; Anda memerlukan dua koordinat untuk menentukan sel tertentu dalam matriks dua dimensi.
  • Jumlah entri dalam vektor fitur.

  • Jumlah elemen dalam lapisan embedding.

perintah langsung

#language
#generativeAI

Sinonim dari zero-shot prompting.

fitur diskrit (discrete fitur)

#fundamentals

Fitur dengan serangkaian kemungkinan nilai yang terbatas. Misalnya, fitur yang nilainya mungkin hanya hewan, sayuran, atau mineral fitur diskrit (atau kategorikal).

Berbeda dengan fitur berkelanjutan.

model diskriminatif

Model yang memprediksi label dari himpunan satu atau fitur lainnya. Secara lebih formal, model diskriminatif menentukan probabilitas bersyarat dari {i>output<i} dengan mempertimbangkan fitur dan weights; yaitu:

p(output | features, weights)

Misalnya, model yang memprediksi apakah email merupakan spam dari fitur dan bobot adalah model diskriminatif.

Sebagian besar model supervised learning, termasuk klasifikasi dan regresi, merupakan model diskriminatif.

Berbeda dengan model generatif.

diskriminator

Sistem yang menentukan apakah contoh asli atau palsu.

Atau, subsistem dalam jaringan saraf generatif jaringan yang menentukan apakah contoh yang dibuat oleh generator adalah asli atau palsu.

Lihat Discriminator di materi GAN untuk informasi lebih lanjut.

dampak yang berbeda

#fairness

Membuat keputusan tentang orang-orang yang berdampak pada populasi yang berbeda subkelompok secara tidak proporsional. Ini biasanya mengacu pada situasi di mana proses pengambilan keputusan algoritma merugikan atau menguntungkan beberapa sub-kelompok lebih banyak daripada yang lain.

Misalnya, anggaplah suatu algoritma yang menentukan kelayakan untuk sebuah pinjaman rumah mini lebih mungkin untuk mengklasifikasi mereka sebagai "tidak memenuhi syarat" jika alamat surat mereka berisi kode pos Anda. Jika Liliputan Big-Endian lebih cenderung memiliki dengan kode pos ini daripada Little-Endian Lilliputians, maka algoritma ini mungkin menghasilkan dampak yang berbeda.

Berbeda dengan perlakuan yang berbeda, yang berfokus pada kesenjangan yang terjadi ketika karakteristik subkelompok adalah input eksplisit untuk proses pengambilan keputusan berbasis algoritma.

perlakuan berbeda

#fairness

Subjek Pemfaktoran atribut sensitif ke dalam proses pengambilan keputusan algoritma sehingga sub-kelompok yang berbeda orang diperlakukan secara berbeda.

Misalnya, pertimbangkan sebuah algoritma yang menentukan Lilliputians kelayakan untuk mendapatkan kredit pemilikan rumah mini berdasarkan data yang mereka berikan dalam permohonan pinjaman mereka. Jika algoritma menggunakan ID Afiliasi Lilliputian sebagai Big-Endian atau Little-Endian sebagai input, menerapkan perlakuan yang berbeda di sepanjang dimensi tersebut.

Berbeda dengan dampak yang berbeda, yang berfokus pada disparitas dalam dampak sosial dari keputusan berbasis algoritma pada subkelompok, terlepas dari apakah subgrup tersebut merupakan input untuk model atau tidak.

distilasi

#generativeAI

Proses pengurangan ukuran satu model (dikenal sebagai pengajar) menjadi model yang lebih kecil (disebut siswa) yang mengemulasi prediksi model asli dengan setia mungkin. Distilasi berguna karena model yang lebih kecil memiliki dua manfaat utama dibandingkan model (yaitu pengajar):

  • Waktu inferensi yang lebih cepat
  • Pengurangan penggunaan memori dan energi

Namun, prediksi siswa biasanya tidak sebaik terhadap prediksi pengajar.

Distilasi melatih model siswa untuk meminimalkan fungsi loss berdasarkan perbedaan antara output dari prediksi model siswa dan pengajar.

Bandingkan dan buat perbedaan nyata distilasi dengan istilah berikut:

Lihat LLM: Fine-tuning, distilasi, dan perintah teknik di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

distribusi

Frekuensi dan rentang nilai yang berbeda untuk feature atau label. Distribusi merekam seberapa besar kemungkinan nilai tertentu.

Gambar berikut menunjukkan histogram dari dua distribusi yang berbeda:

  • Di sebelah kiri, distribusi kekayaan hukum kekuasaan versus jumlah orang yang memiliki kekayaan tersebut.
  • Di sebelah kanan, distribusi normal tinggi versus jumlah orang yang memiliki ketinggian tersebut.

Dua histogram. Satu histogram menunjukkan distribusi 
hukum kekuatan dengan
          pada sumbu x dan jumlah orang yang memiliki kekayaan tersebut di
          sumbu y. Kebanyakan orang hanya memiliki sedikit kekayaan, dan beberapa orang memiliki
          banyak kekayaan. Histogram lainnya menunjukkan distribusi normal
          dengan tinggi pada sumbu x dan jumlah orang yang memiliki tinggi tersebut
          pada sumbu y. Kebanyakan orang berkumpul di suatu tempat yang dekat dengan nilai rata-rata.

Memahami distribusi setiap fitur dan label dapat membantu Anda menentukan cara untuk menormalisasi nilai dan mendeteksi outlier.

Frasa di luar distribusi mengacu pada nilai yang tidak muncul di kolom {i>dataset<i} atau sangat langka. Misalnya, gambar planet Saturnus akan dianggap keluar dari distribusi untuk {i>dataset <i}yang terdiri dari gambar kucing.

pengelompokan divisif

#clustering

Lihat pengelompokan hierarkis.

pengurangan sampel

#image

Istilah yang berlebihan yang dapat berarti salah satu dari hal berikut:

  • Mengurangi jumlah informasi dalam fitur dalam untuk melatih model dengan lebih efisien. Misalnya, sebelum melatih model pengenalan citra, pengurangan sampel resolusi tinggi gambar ke format resolusi yang lebih rendah.
  • Melatih untuk persentase yang sangat rendah dari orang yang terlalu banyak terwakili class untuk meningkatkan pelatihan model bagi kelas yang kurang terwakili. Misalnya, dalam kelas tidak seimbang set data, model cenderung mempelajari banyak hal tentang kelas mayor dan tidak cukup memahami kelas minoritas. Downsampling membantu menyeimbangkan jumlah pelatihan pada kelas mayoritas dan minoritas.

Lihat Set Data: Tidak Seimbang set data di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

DQN

#rl

Singkatan dari Deep Q-Network.

regularisasi dengan pelolosan

Bentuk regularisasi yang berguna dalam pelatihan jaringan neural. Regularisasi dengan pelarian menghapus pilihan acak dari sejumlah unit yang tetap dalam sebuah jaringan untuk satu langkah gradien. Semakin banyak unit yang keluar, semakin kuat regularisasi. Hal ini setara dengan melatih jaringan untuk mengemulasi ansambel yang sangat besar dari jaringan yang lebih kecil secara eksponensial. Untuk detail selengkapnya, lihat Dropout: Cara Sederhana untuk Mencegah Jaringan Neural Overfitting.

dinamis

#fundamentals

Sesuatu dilakukan secara sering atau terus-menerus. Istilah dinamis dan online adalah sinonim dari machine learning. Berikut adalah penggunaan umum dinamis dan online di mesin pembelajaran:

  • Model dinamis (atau model online) adalah model yang sering dilatih ulang atau terus-menerus.
  • Pelatihan dinamis (atau pelatihan online) adalah proses pelatihan secara berkala atau berkelanjutan.
  • Inferensi dinamis (atau inferensi online) adalah proses menghasilkan prediksi sesuai permintaan.

model dinamis

#fundamentals

Model yang sering (bahkan mungkin berkelanjutan) dilatih ulang. Model dinamis adalah "pembelajar seumur hidup" sehingga terus beradaptasi dengan data yang berkembang. Model dinamis juga dikenal sebagai model online.

Berbeda dengan model statis.

E

eksekusi segera

#TensorFlow

Lingkungan pemrograman TensorFlow tempat operasi langsung dijalankan. Sebaliknya, operasi yang disebut eksekusi grafik tidak berjalan sampai secara eksplisit dievaluasi. Eksekusi yang bersemangat adalah antarmuka imperatif, seperti kode dalam sebagian besar bahasa pemrograman. Program eksekusi yang bersemangat adalah umumnya jauh lebih mudah untuk di-{i>debug<i} daripada program eksekusi grafik.

penghentian awal

#fundamentals

Metode untuk regularisasi yang melibatkan akhir pelatihan sebelum kerugian pelatihan selesai menurun. Di penghentian awal, Anda sengaja menghentikan pelatihan model saat kerugian pada set data validasi mulai increase; yaitu, ketika Performa generalisasi memburuk.

jarak penggerak bumi (EMD)

Ukuran kesamaan relatif dari dua distribusi. Semakin rendah jarak penggerak bumi, semakin mirip distribusinya.

edit jarak

#language

Pengukuran seberapa mirip dua {i>string<i} teks satu sama lain. Dalam machine learning, edit jarak berguna karena mudah untuk komputasi, dan cara efektif untuk membandingkan dua {i>string<i} yang dikenal serupa atau untuk menemukan {i>string<i} yang mirip dengan {i>string<i} tertentu.

Ada beberapa definisi jarak edit, masing-masing menggunakan string yang berbeda operasional bisnis. Misalnya, Jarak Levenshtein mempertimbangkan operasi penghapusan, penyisipan, dan penggantian yang paling sedikit.

Misalnya, jarak Levenshtein antara kata "hati" dan "dart" adalah 3 karena 3 edit berikut adalah perubahan paling sedikit untuk mengubah satu kata ke yang lain:

  1. hati → deart (ganti "h" dengan "d")
  2. deart → dart (hapus "e")
  3. dart → dart (masukkan "s")

Notasi Einsum

Notasi efisien untuk menjelaskan cara dua tensor harus digabungkan. Tensor-tensor tersebut dikombinasikan dengan mengalikan elemen-elemen dari satu tensor oleh elemen tensor lain, lalu menjumlahkan hasilnya. Notasi Einsum menggunakan simbol untuk mengidentifikasi sumbu setiap tensor, dan simbol yang sama diatur ulang untuk menentukan bentuk tensor baru yang dihasilkan.

NumPy menyediakan implementasi Einsum umum.

lapisan embedding

#language
#fundamentals

Lapisan tersembunyi khusus yang dilatih pada fitur kategoris berdimensi tinggi untuk secara bertahap mempelajari vektor embedding dimensi yang lebih rendah. Channel memungkinkan jaringan neural untuk melatih jauh lebih lebih efisien dibandingkan melatih fitur kategorikal berdimensi tinggi.

Misalnya, saat ini Bumi mendukung sekitar 73.000 spesies pohon. Misalkan spesies pohon adalah fitur dalam model Anda, jadi model lapisan input menyertakan vektor one-hot 73.000 elemen yang panjang. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array berisi 73.000 elemen. 6.232 elemen pertama menyimpan nilai
     0. Elemen berikutnya memiliki nilai 1. 66.767 elemen terakhir dipertahankan
     nilainya nol.

Array 73.000 elemen sangat panjang. Jika Anda tidak menambahkan lapisan embedding ke model, pelatihan akan sangat memakan waktu karena mengalikan 72.999 angka nol. Mungkin Anda memilih lapisan embedding dari 12 dimensi. Akibatnya, lapisan embedding akan secara bertahap mempelajari vektor embedding baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar ke lapisan embedding.

Lihat Embedding di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

ruang embedding

#language

Ruang vektor dimensi d yang ditampilkan dari dimensi yang lebih tinggi akan dipetakan ke ruang vektor. Idealnya, ruang embedding berisi struktur yang memberikan hasil matematis yang bermakna; misalnya, dalam ruang embedding yang ideal, penambahan dan pengurangan embedding dapat menyelesaikan tugas analogi kata.

Produk dot dari dua embedding adalah ukuran kesamaannya.

vektor embedding

#language

Secara umum, array bilangan floating point yang diambil dari apa pun lapisan tersembunyi yang mendeskripsikan input ke lapisan tersembunyi tersebut. Sering kali, vektor embedding adalah array angka floating point yang dilatih dalam lapisan embedding. Misalnya, lapisan embedding harus mempelajari vektor embedding untuk masing-masing dari 73.000 spesies pohon di Bumi. Mungkin array berikut adalah vektor embedding untuk pohon baobab:

Array dari 12 elemen, masing-masing berisi bilangan floating point
          antara 0,0 dan 1,0.

Vektor embedding bukanlah sekumpulan angka acak. Lapisan embedding menentukan nilai-nilai ini melalui pelatihan, mirip dengan cara neural network mempelajari bobot lain selama pelatihan. Setiap elemen dari array adalah peringkat terhadap beberapa karakteristik dari spesies pohon. Yang mana mewakili spesies pohon karakteristik? Sangat sulit yang dapat ditentukan oleh manusia.

Bagian luar biasa secara matematis dari vektor embedding adalah bahwa item memiliki kumpulan angka floating point yang serupa. Misalnya, serupa spesies pohon memiliki kumpulan angka floating point yang lebih mirip daripada spesies pohon yang berbeda. Kayu merah dan sequoia adalah spesies pohon yang terkait, sehingga mereka akan memiliki kumpulan angka mengambang yang lebih mirip daripada redwood dan pohon kelapa. Angka-angka dalam vektor embedding akan berubah setiap kali Anda melatih ulang model, bahkan jika Anda melatih ulang model dengan input yang identik.

fungsi distribusi kumulatif empiris (eCDF atau EDF)

Fungsi distribusi kumulatif berdasarkan pengukuran empiris dari set data nyata. Nilai atribut fungsi di titik mana pun di sepanjang sumbu x adalah fraksi pengamatan di set data yang kurang dari atau sama dengan nilai yang ditentukan.

minimalisasi risiko empiris (ERM)

Memilih fungsi yang meminimalkan kerugian pada set pelatihan. Kontras dengan minimalisasi risiko struktural.

pembuat enkode

#language

Secara umum, setiap sistem ML yang melakukan konversi dari resource mentah, sparse, atau eksternal representasi data menjadi representasi yang lebih terproses, lebih padat, atau lebih internal.

Encoder sering kali menjadi komponen dari model yang lebih besar, yang seringkali disambungkan dengan decoder. Beberapa Transformer menyambungkan encoder dengan decoder, meskipun Transformer lain hanya menggunakan encoder atau hanya decoder.

Beberapa sistem menggunakan output encoder sebagai input untuk klasifikasi atau jaringan regresif.

Dalam tugas urutan ke urutan, encoder mengambil urutan input dan menampilkan status internal (vektor). Lalu, decoder menggunakan status internal tersebut untuk memprediksi urutan berikutnya.

Lihat Transformer untuk mengetahui definisi encoder di arsitektur Transformer.

Lihat LLM: Yang dimaksud dengan bahasa besar model di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

ansambel

Kumpulan model yang dilatih secara independen dan prediksinya dirata-ratakan atau diagregasikan. Dalam banyak kasus, suatu ansambel menghasilkan prediksi dibandingkan model tunggal. Sebagai contoh, random forest adalah ansambel yang dibangun dari beberapa pohon keputusan. Perhatikan bahwa tidak semua hutan keputusan adalah ansambel.

Lihat Acak Hutan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

entropi

#df

Di beberapa teori informasi, deskripsi tentang bagaimana tingkat probabilitas yang tidak dapat diprediksi distribusinya. Atau, entropi juga didefinisikan sebagai berapa banyak informasi yang terdapat dalam setiap contoh. Suatu distribusi memiliki entropi tertinggi ketika semua nilai variabel acak memiliki kemungkinan yang sama.

Entropi kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label pada masalah klasifikasi biner) memiliki formula berikut:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dalam hal ini:

  • H adalah entropi.
  • p adalah pecahan dari "1" contoh.
  • q adalah pecahan dari "0" contoh. Perhatikan bahwa q = (1 - p)
  • log umumnya adalah log2. Dalam hal ini, entropi sedikit.

Misalnya, anggap saja hal berikut:

  • 100 contoh berisi nilai "1"
  • 300 contoh berisi nilai "0"

Oleh karena itu, nilai entropinya adalah:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per contoh

Set yang seimbang sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki entropi 1,0 bit per contoh. Saat kumpulan menjadi lebih tidak seimbang, entropinya bergerak menuju 0,0.

Dalam pohon keputusan, entropi membantu merumuskan pengumpulan informasi untuk membantu pemisah pilih kondisi selama pertumbuhan pohon keputusan klasifikasi.

Bandingkan entropi dengan:

Entropi sering disebut entropi Shannon.

Lihat Pemisah yang tepat untuk klasifikasi biner dengan angka baru di materi Pengambilan Keputusan Hutan untuk informasi lebih lanjut.

lingkungan

#rl

Dalam reinforcement learning, dunia yang berisi agent dan memungkinkan agen untuk mengamati negara bagian dunia tersebut. Misalnya, dunia yang terwakili bisa berupa permainan seperti catur, atau dunia fisik seperti labirin. Saat agen menerapkan tindakan pada lingkungan, kemudian transisi lingkungan antar status.

episode

#rl

Dalam Reinforcement Learning, setiap upaya yang dilakukan berulang kali agen untuk mempelajari lingkungan.

epoch

#fundamentals

Tiket pelatihan lengkap untuk seluruh set pelatihan sehingga setiap contoh telah diproses satu kali.

Satu epoch mewakili N/ukuran tumpukan iterasi pelatihan, dengan N sebagai jumlah total contoh.

Misalnya, anggaplah berikut ini:

  • Set data terdiri dari 1.000 contoh.
  • Ukuran tumpukan adalah 50 contoh.

Oleh karena itu, satu epoch memerlukan 20 iterasi:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Lihat Regresi linear: Hyperparameter di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kebijakan epsilon greedy

#rl

Dalam reinforcement learning, kebijakan yang mengikuti kebijakan acak dengan probabilitas epsilon atau kebijakan serakah. Sebagai contoh, jika epsilon 0.9, maka kebijakan tersebut mengikuti kebijakan acak 90% dari waktu dan kebijakan 10% sepanjang waktu.

Selama episode berturut-turut, algoritma mengurangi nilai epsilon secara berurutan untuk beralih dari mengikuti kebijakan acak menjadi mengikuti kebijakan yang serakah. Menurut menggeser kebijakan, agen mula-mula secara acak mengeksplorasi lingkungan dan kemudian mengeksploitasi hasil eksplorasi secara acak.

kesetaraan peluang

#fairness

Metrik keadilan untuk menilai apakah suatu model memprediksi hasil yang diinginkan dengan sama baik untuk semua nilai atribut sensitif. Dengan kata lain, jika hasil yang diinginkan untuk model adalah kelas positif, sasarannya adalah memastikan rasio positif benar menjadi hal yang sama untuk semua kelompok.

Kesetaraan peluang terkait dengan peluang yang disamakan, yang mengharuskan rasio positif benar dan rasio positif palsu (PP) sama untuk semua kelompok.

Misalkan Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagians ke program matematika yang ketat. Liliput sekolah menengah atas menawarkan kurikulum kelas matematika yang mumpuni, dan sebagian besar siswa memenuhi kualifikasi untuk program universitas. Brobdingnagians sekolah menengah tidak menawarkan kelas matematika sama sekali, dan hasilnya, jauh lebih sedikit siswa mereka memenuhi syarat. Kesetaraan peluang terpenuhi untuk label yang dipilih "diterima" sehubungan dengan kewarganegaraan (Lilliputian atau Brobdingnagian) jika siswa yang memenuhi syarat memiliki kemungkinan yang sama untuk diterima terlepas dari apakah mereka berasal dari Liliput atau Brobdingnagia.

Misalnya, misalkan 100 Liliput dan 100 Brobdingnagia berlaku untuk Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 1. Pendaftar (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 3
Ditolak 45 7
Total 90 10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 7/10 = 70%
Persentase total siswa Liliput yang diterima: (45+3)/100 = 48%

 

Tabel 2. Pelamar Brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 9
Ditolak 5 81
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 81/90 = 90%
Persentase total mahasiswa Brobdingnagian yang diterima: (5+9)/100 = 14%

Contoh sebelumnya memenuhi kesetaraan peluang untuk dapat diterima siswa yang memenuhi syarat karena berasal dari Lilliputians dan Brobdingnagians yang memenuhi syarat memiliki peluang 50% untuk diterima.

Meskipun kesetaraan peluang terpenuhi, dua metrik keadilan berikut tidak puas:

  • paritas demografis: Liliput dan Brobdingnagian diterima di universitas dengan tarif yang berbeda; 48% siswa Liliput diterima, tetapi hanya 14% siswa Mahasiswa Brobdingnagian diizinkan.
  • peluang yang disamakan: Meskipun memenuhi syarat Lilliput dan siswa Brobdingnagian keduanya memiliki peluang yang sama untuk diterima, batasan tambahan yang tidak memenuhi syarat dan Kedua orang Brobdingnagia memiliki peluang yang sama untuk ditolak tidak puas. Lilliput yang tidak memenuhi syarat memiliki tingkat penolakan 70%, sedangkan Brobdingnagian yang tidak memenuhi syarat memiliki rasio penolakan 90%.

Lihat Keadilan: Kesetaraan peluang di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

peluang yang disamakan

#fairness

Metrik keadilan untuk menilai apakah model memprediksi hasil secara setara untuk semua nilai atribut sensitif dengan terhadap kelas positif dan kelas negatif—bukan hanya satu kelas atau kelas lainnya secara eksklusif. Dengan kata lain, rasio positif benar dan rasio negatif palsu harus sama untuk semua grup.

Peluang yang sama terkait dengan kesetaraan peluang, yang hanya berfokus tingkat kesalahan untuk satu kelas (positif atau negatif).

Sebagai contoh, misalkan Universitas Glubbdubdrib mengakui baik Lilliput maupun Brobdingnagians ke program matematika yang ketat. Liliput sekunder sekolah menawarkan kurikulum kelas matematika yang tangguh, dan sebagian besar siswa memenuhi kualifikasi untuk program universitas. Brobdingnagians sekunder sekolah tidak menawarkan kelas matematika sama sekali, sehingga jauh lebih sedikit siswanya memenuhi syarat. Peluang yang disamakan terpenuhi asalkan tidak peduli apakah pemohon merupakan Lilliput atau Brobdingnagia, jika ia memenuhi kualifikasi, mereka memiliki kesempatan yang sama untuk mengikuti program tersebut, dan jika tidak memenuhi syarat, mereka memiliki kemungkinan yang sama untuk ditolak.

Misalkan 100 Lilliput dan 100 Brobdingnagian berlaku untuk Glubbdubdrib Keputusan terkait universitas dan penerimaan dibuat sebagai berikut:

Tabel 3. Pendaftar (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 2
Ditolak 45 8
Total 90 10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 8/10 = 80%
Persentase total siswa Liliput yang diterima: (45+2)/100 = 47%

 

Tabel 4. Pelamar Brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 18
Ditolak 5 72
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 72/90 = 80%
Persentase total mahasiswa Brobdingnagian yang diterima: (5+18)/100 = 23%

Peluang yang setara puas karena Lilliputian dan Brobdingnagian yang memenuhi syarat siswa keduanya memiliki peluang 50% untuk diterima, dan siswa yang tidak memenuhi syarat dan Brobdingnagian memiliki peluang 80% untuk ditolak.

Peluang yang disamakan didefinisikan secara formal dalam "Kesetaraan Opportunity in supervised Learning" sebagai berikut: "prediktif {/9} memenuhi peluang yang disamakan sehubungan dengan ke atribut yang dilindungi A dan hasil Y jika ⁠ dan A independen, bersyarat pada Y."

Pengestimasi

#TensorFlow

TensorFlow API yang tidak digunakan lagi. Gunakan tf.keras sebagai gantinya Observer.

Evals

#language
#generativeAI

Terutama digunakan sebagai singkatan dari evaluasi LLM. Secara lebih luas, evals adalah singkatan untuk segala bentuk evaluasi.

evaluasi

#language
#generativeAI

Proses mengukur kualitas model atau membandingkan berbagai model satu sama lain.

Untuk mengevaluasi supervised machine learning Anda biasanya menilainya berdasarkan set validasi dan set pengujian. Mengevaluasi LLM biasanya melibatkan penilaian kualitas dan keamanan yang lebih luas.

contoh

#fundamentals

Nilai dari satu baris fitur dan mungkin label. Contoh dalam supervised learning terbagi menjadi dua kategori umum:

  • Contoh berlabel terdiri dari satu atau beberapa fitur dan label. Contoh berlabel digunakan selama pelatihan.
  • Contoh tak berlabel terdiri dari satu atau lebih banyak fitur tetapi tanpa label. Contoh tak berlabel digunakan selama inferensi.

Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca pada nilai ujian siswa. Berikut adalah tiga contoh berlabel:

Fitur Label
Suhu Kelembapan Tekanan Skor tes
15 47 998 Baik
19 34 1020 Luar biasa
18 92 1012 Buruk

Berikut adalah tiga contoh tak berlabel:

Suhu Kelembapan Tekanan  
12 62 1014  
21 47 1017  
19 41 1021  

Baris set data biasanya merupakan sumber mentah untuk contoh tersebut. Yaitu, sebuah contoh biasanya terdiri dari satu {i>subset <i}kolom dalam {i>dataset <i}tersebut. Lebih lanjut, fitur-fitur dalam contoh juga dapat mencakup fitur sintetis, seperti persilangan fitur.

Lihat Pembelajaran yang Diawasi di kursus Pengantar Machine Learning untuk mendapatkan informasi lebih lanjut.

nikmati pemutaran ulang

#rl

Dalam reinforcement learning, teknik DQN digunakan untuk mengurangi korelasi temporal dalam data pelatihan. Agen menyimpan transisi status dalam buffering replay, lalu mengambil sampel transisi dari buffer replay untuk membuat data pelatihan.

bias pelaku eksperimen

#fairness

Lihat bias konfirmasi.

masalah gradien meledak

#seq

Kecenderungan untuk gradien dalam deep neural network (terutama jaringan saraf berulang) menjadi sangat curam (tinggi). Gradien curam sering menyebabkan pembaruan yang sangat besar ke bobot setiap node dalam yang sangat populer.

Model yang mengalami masalah gradien yang meledak menjadi sulit atau tidak mungkin dilatih. Pemangkasan gradien dapat memitigasi masalah ini.

Bandingkan dengan masalah gradien hilang.

F

P1

"Gabungan" metrik klasifikasi biner yang bergantung pada presisi dan recall. Berikut ini formulanya:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Misalnya, dengan hal berikut:

  • presisi = 0,6
  • perolehan = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Jika presisi dan perolehan cukup mirip (seperti dalam contoh sebelumnya), F1 mendekati rata-ratanya. Ketika presisi dan perolehan berbeda secara signifikan, F1 akan lebih dekat dengan nilai yang lebih rendah. Contoh:

  • presisi = 0,9
  • perolehan = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

batasan keadilan

#fairness
Menerapkan batasan pada algoritma untuk memastikan satu atau lebih definisi keadilan terpenuhi. Contoh batasan keadilan meliputi:

metrik keadilan

#fairness

Definisi matematis dari "keadilan" yang dapat diukur. Beberapa metrik keadilan yang umum digunakan meliputi:

Banyak metrik keadilan yang sama-sama bersifat eksklusif; lihat inkompatibilitas metrik keadilan.

negatif palsu (FN)

#fundamentals

Contoh saat model salah memprediksi kelas negatif. Misalnya, model memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email sebenarnya adalah spam.

rasio negatif palsu

Proporsi contoh positif sebenarnya yang tidak seharusnya oleh model memprediksi kelas negatif. Formula berikut menghitung nilai salah {i>negative rate<i} (rasio negatif):

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Lihat Batas dan tingkat kebingungan matriks di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

positif palsu (PP)

#fundamentals

Contoh saat model salah memprediksi kelas positif. Misalnya, model ini memprediksi pesan email tertentu adalah spam (kelas positif), tetapi pesan email sebenarnya bukan spam.

Lihat Batas dan tingkat kebingungan matriks di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

rasio positif palsu (FPR)

#fundamentals

Proporsi contoh negatif aktual yang tidak seharusnya oleh model memprediksi kelas positif. Formula berikut menghitung nilai salah rasio positif:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Rasio positif palsu adalah sumbu x dalam kurva KOP.

Lihat Klasifikasi: ROC dan AUC di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fitur

#fundamentals

Variabel input ke model machine learning. Contoh terdiri dari satu atau beberapa fitur. Misalnya, anggaplah Anda sedang melatih untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Tabel berikut menampilkan tiga contoh, yang masing-masing berisi tiga fitur dan satu label:

Fitur Label
Suhu Kelembapan Tekanan Skor tes
15 47 998 92
19 34 1020 84
18 92 1012 87

Berbeda dengan label.

Lihat Pembelajaran yang Diawasi dalam kursus Pengantar Machine Learning untuk mendapatkan informasi lebih lanjut.

persilangan fitur

#fundamentals

Fitur sintetis yang dibentuk dengan "persilangan" fitur kategoris atau bucket.

Misalnya, pertimbangkan "perkiraan suasana hati" yang mewakili suhu di salah satu dari empat kategori berikut:

  • freezing
  • chilly
  • temperate
  • warm

Dan mewakili kecepatan angin di salah satu dari tiga bucket berikut:

  • still
  • light
  • windy

Tanpa persilangan fitur, model linear akan berlatih secara independen pada masing-masing sebelum tujuh kelompok yang berbeda. Misalnya, model dilatih freezing terpisah dari pelatihan, misalnya, windy.

Atau, Anda dapat membuat persilangan fitur suhu dan kecepatan angin. Fitur sintetis ini akan memiliki 12 kemungkinan nilai-nilai:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Berkat persilangan fitur, model ini dapat mempelajari perbedaan mood antara freezing-windy hari dan freezing-still hari.

Jika Anda membuat fitur sintetis dari dua fitur yang masing-masing memiliki bucket berbeda, persilangan fitur yang dihasilkan akan memiliki jumlah yang besar kombinasi yang mungkin. Misalnya, jika satu fitur memiliki 1.000 bucket dan fitur lainnya memiliki 2.000 bucket, persilangan fitur yang dihasilkan memiliki 2.000.000 bucket.

Secara formal, salib adalah Produk Kartesius.

Persilangan fitur sebagian besar digunakan dengan model linear dan jarang digunakan dengan jaringan neural.

Lihat Data kategoris: Fitur silang di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

rekayasa fitur

#fundamentals
#TensorFlow

Proses yang melibatkan langkah-langkah berikut:

  1. Menentukan fitur yang mungkin berguna dalam melatih model.
  2. Mengonversi data mentah dari {i>dataset<i} ke versi yang efisien dari fitur-fitur tersebut.

Misalnya, Anda dapat menentukan bahwa temperature mungkin berguna aplikasi baru. Kemudian, Anda dapat bereksperimen dengan pengelompokan untuk mengoptimalkan apa yang dapat dipelajari model dari berbagai rentang temperature.

Rekayasa fitur terkadang disebut ekstraksi fitur atau fitur.

Lihat Data numerik: Cara model menyerap data menggunakan fitur vektor di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

ekstraksi fitur

Istilah yang berlebihan yang memiliki salah satu definisi berikut:

tingkat kepentingan fitur

#df

Sinonim dari variabel penting.

set fitur

#fundamentals

Grup fitur machine learning Anda model berlatih. Misalnya, kode pos, ukuran properti, dan kondisi properti terdiri dari set fitur sederhana untuk model yang memprediksi harga perumahan.

spesifikasi fitur

#TensorFlow

Menjelaskan informasi yang diperlukan untuk mengekstrak data fitur dari buffering protokol tf.Example. Karena tf.Example protocol buffer hanyalah kontainer untuk data, Anda harus menentukan hal berikut:

  • Data yang akan diekstrak (yaitu, kunci untuk fitur)
  • Tipe data (misalnya, float atau int)
  • Panjang (tetap atau variabel)

vektor fitur

#fundamentals

Array nilai feature yang terdiri dari contoh. Vektor fitur dimasukkan selama pelatihan dan selama inferensi. Misalnya, vektor fitur untuk model dengan dua fitur diskrit mungkin:

[0.92, 0.56]

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan satu lapisan output.
          Lapisan input berisi dua node, salah satunya berisi nilai
          0,92 dan lainnya berisi nilai 0,56.

Setiap contoh memberikan nilai yang berbeda untuk vektor fitur, sehingga vektor fitur untuk contoh berikutnya bisa seperti:

[0.73, 0.49]

Rekayasa fitur menentukan cara menampilkan fitur dalam vektor fitur. Misalnya, fitur kategoris biner dengan lima nilai yang mungkin dapat direpresentasikan dengan enkode one-hot. Dalam hal ini, bagian dari vektor fitur untuk contoh tertentu akan terdiri dari empat angka nol dan 1,0 tunggal di posisi ketiga, sebagai berikut:

[0.0, 0.0, 1.0, 0.0, 0.0]

Sebagai contoh lain, misalkan model Anda terdiri dari tiga fitur:

  • fitur kategori biner dengan lima nilai kemungkinan yang diwakili dengan enkode one-hot; misalnya: [0.0, 1.0, 0.0, 0.0, 0.0]
  • fitur kategori biner lainnya dengan tiga kemungkinan nilai yang diwakili dengan enkode one-hot; misalnya: [0.0, 0.0, 1.0]
  • fitur {i>floating-point<i}; misalnya: 8.3.

Dalam hal ini, vektor fitur untuk setiap contoh akan direpresentasikan sebanyak sembilan nilai. Dengan mempertimbangkan nilai contoh dalam daftar sebelumnya, {i>feature vector<i} akan menjadi:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Lihat Data numerik: Cara model menyerap data menggunakan fitur vektor di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fitur

Proses pengekstrakan fitur dari sumber input, seperti dokumen atau video, dan memetakan fitur tersebut ke dalam vektor fitur.

Beberapa pakar ML menggunakan fitur sebagai sinonim untuk rekayasa fitur atau ekstraksi fitur.

federated learning

Pendekatan machine learning terdistribusi yang melatih model machine learning yang menggunakan terdesentralisasi contoh yang ada di perangkat seperti smartphone. Dalam federated learning, sebagian perangkat mendownload model saat ini dari server koordinasi pusat. Perangkat menggunakan contoh yang disimpan pada perangkat untuk melakukan perbaikan pada model. Perangkat kemudian mengupload peningkatan model (tetapi bukan contoh pelatihan) pada model yang lebih baik, yang digabungkan dengan update lain untuk menghasilkan global. Setelah agregasi, pembaruan model yang dihitung oleh perangkat tidak lagi diperlukan, dan dapat dibuang.

Karena contoh pelatihan tidak pernah diupload, federated learning mengikuti prinsip privasi, pengumpulan data yang terfokus, dan minimalisasi data.

Untuk mengetahui informasi selengkapnya tentang federated learning, lihat tutorial ini.

feedback loop

#fundamentals

Dalam machine learning, situasi ketika prediksi model memengaruhi data pelatihan untuk model yang sama atau model lain. Misalnya, model yang merekomendasikan film akan memengaruhi film yang ditonton orang, yang selanjutnya akan memengaruhi model rekomendasi film berikutnya.

Lihat Sistem ML Produksi: Pertanyaan untuk tanya di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

jaringan saraf alur maju (feedforward neural network) (FFN)

Jaringan neural tanpa koneksi siklis atau rekursif. Misalnya, jaringan neural dalam tradisional jaringan saraf alur maju. Berbeda dengan neural berulang jaringan, yang bersifat siklik.

pemelajaran beberapa tahap ( few-shot learning)

Pendekatan {i>machine learning<i}, yang sering digunakan untuk klasifikasi objek, dirancang untuk melatih pengklasifikasi yang efektif hanya dari contoh pelatihan.

Lihat juga pembelajaran satu kali dan pembelajaran zero-shot.

few-shot prompting

#language
#generativeAI

Perintah yang berisi lebih dari satu contoh ("beberapa") mendemonstrasikan bagaimana model bahasa besar (LLM) harus merespons. Misalnya, {i>prompt<i} panjang berikut berisi dua contoh yang menunjukkan model bahasa besar tentang cara menjawab kueri.

Bagian dari satu perintah Catatan
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang perlu dijawab oleh LLM.
Prancis: EUR Satu contoh.
Inggris Raya: GBP Contoh lain.
India: Kueri sebenarnya.

{i>Fed-shot prompting<i} umumnya memberikan hasil yang lebih diinginkan daripada zero-shot prompting dan one-shot prompting. Namun, few-shot prompting memerlukan prompt yang lebih panjang.

Few-shot prompting adalah bentuk pembelajaran beberapa tahap diterapkan ke pembelajaran berbasis perintah.

Lihat Perintah teknik di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Biola

#language

Library konfigurasi Python-first yang menetapkan fungsi dan kelas tanpa kode atau infrastruktur yang invasif. Untuk Pax—dan codebase ML lainnya—fungsi dan class merepresentasikan model dan pelatihan hyperparameter.

Bola mengasumsikan bahwa codebase machine learning biasanya dibagi menjadi:

  • Kode pustaka, yang menetapkan layer dan pengoptimal.
  • "Perekat" set data kode, yang memanggil {i>library<i} dan menghubungkan semuanya.

Fiddle menangkap struktur panggilan kode glue dalam model yang dapat berubah.

fine-tuning

#language
#image
#generativeAI

Tahap pelatihan kedua, khusus tugas yang dilakukan pada model terlatih guna menyaring parameternya untuk kasus penggunaan tertentu. Misalnya, urutan pelatihan lengkap untuk beberapa model bahasa besar (LLM) adalah sebagai berikut:

  1. Pra-pelatihan: Latih model bahasa besar dengan set data umum yang luas, seperti semua halaman Wikipedia bahasa Inggris.
  2. Fine-tuning: Latih model terlatih untuk melakukan tugas tertentu, seperti menanggapi pertanyaan medis. Fine-tuning biasanya melibatkan ratusan atau ribuan contoh yang fokus pada tugas tertentu.

Contoh lain, urutan pelatihan lengkap untuk model gambar besar adalah berikut ini:

  1. Pelatihan awal: Melatih model gambar besar pada gambar umum yang luas seperti semua gambar di Wikimedia commons.
  2. Fine-tuning: Latih model terlatih untuk melakukan tugas tertentu, seperti membuat gambar {i>orca<i}.

Fine-tuning dapat memerlukan kombinasi dari strategi berikut:

  • Memodifikasi semua model terlatih yang ada parameter. Hal ini terkadang disebut perbaikan penuh.
  • Hanya mengubah beberapa parameter model terlatih yang ada (biasanya, lapisan yang paling dekat dengan lapisan output), sembari mempertahankan parameter lain yang sudah ada (biasanya, lapisan terdekat dengan lapisan input). Lihat parameter-efficient tuning.
  • Menambahkan lebih banyak lapisan, biasanya di atas lapisan yang ada yang paling dekat dengan lapisan output.

Fine-tuning adalah bentuk pembelajaran transfer. Dengan demikian, fine-tuning mungkin menggunakan fungsi kerugian yang berbeda atau model yang berbeda dibandingkan dengan yang digunakan untuk melatih model terlatih. Misalnya, Anda dapat menyesuaikan model gambar besar yang sudah dilatih sebelumnya untuk menghasilkan model regresi yang menampilkan jumlah burung pada gambar input.

Bandingkan dan buat perbedaan nyata penyempurnaan dengan istilah berikut:

Lihat Fine-tuning di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Flax

#language

Aplikasi open source berperforma tinggi library untuk deep learning yang dibangun di atas JAX. Flax menyediakan fungsi untuk pelatihan jaringan neural, serta sebagai metode untuk mengevaluasi kinerjanya.

Flaxformer

#language

Transformer open source perpustakaan, dibangun di Flax, yang dirancang terutama untuk natural language processing dan penelitian multimodal.

lupakan gerbang

#seq

Bagian dari Memori Jangka Pendek sel yang mengatur aliran informasi melalui sel. Melupakan gate mempertahankan konteks dengan menentukan informasi yang akan dihapus dari status sel.

softmax penuh

Sinonim dari softmax.

Berbeda dengan sampling kandidat.

lapisan terhubung seluruhnya

Lapisan tersembunyi tempat setiap node berada yang terhubung ke setiap node di lapisan tersembunyi berikutnya.

Lapisan yang terhubung sepenuhnya juga dikenal sebagai lapisan padat.

transformasi fungsi

Fungsi yang menggunakan fungsi sebagai input dan menampilkan fungsi yang diubah sebagai output. JAX menggunakan transformasi fungsi.

G

GAN

Singkatan dari generative adversarial (permukaan generatif) jaringan.

generalisasi

#fundamentals

Kemampuan model untuk membuat prediksi yang benar pada data yang sebelumnya tidak terlihat. Model yang dapat menggeneralisasi adalah kebalikan model yang melakukan overfitting.

Gemini

#language
#image
#generativeAI

Ekosistem yang terdiri dari AI tercanggih Google. Elemen-elemen ekosistem ini termasuk:

  • Berbagai model Gemini.
  • Antarmuka percakapan interaktif ke model Gemini. Pengguna mengetik perintah dan Gemini akan merespons perintah tersebut.
  • Beragam API Gemini.
  • Berbagai produk bisnis berdasarkan model Gemini; misalnya, Gemini untuk Google Cloud.

Model Gemini

#language
#image
#generativeAI

Teknologi berbasis Transformer termutakhir dari Google model multimodal. Model Gemini dikhususkan dirancang untuk berintegrasi dengan agen.

Pengguna dapat berinteraksi dengan model Gemini dengan berbagai cara, termasuk melalui antarmuka dialog interaktif dan melalui SDK.

kurva generalisasi

#fundamentals

Plot kerugian pelatihan dan kerugian validasi sebagai fungsi dari jumlah iterasi.

Kurva generalisasi dapat membantu Anda mendeteksi kemungkinan overfitting. Misalnya, kurva generalisasi menunjukkan overfitting karena kerugian validasi pada akhirnya menjadi jauh lebih tinggi daripada kerugian pelatihan.

Grafik Kartesius yang mana sumbu y diberi label kerugian dan sumbu x
          diberi label iterasi. Dua plot muncul. Satu plot menunjukkan
          kerugian pelatihan dan yang lainnya 
menunjukkan kerugian validasi.
          Kedua plot dimulai dengan cara serupa, tetapi kerugian pelatihan pada akhirnya
          turun jauh lebih rendah
daripada kerugian validasi.

model linear tergeneralisasi

Generalisasi regresi kuadrat terkecil besar, yang didasarkan pada Gaussia derau, ke jenis model berdasarkan jenis derau lainnya, seperti Derau poisson atau derau kategorikal. Contoh model linear tergeneralisasi meliputi:

Parameter dari model linear tergeneralisasi dapat ditemukan melalui pengoptimalan konveks.

Model linear tergeneralisasi menunjukkan properti berikut:

  • Prediksi rata-rata dari model regresi kuadrat terkecil yang optimal adalah sama dengan label rata-rata pada data pelatihan.
  • Probabilitas rata-rata yang diprediksi oleh regresi logistik optimal sama dengan label rata-rata pada data pelatihan.

Kemampuan model linear tergeneralisasi dibatasi oleh fiturnya. Tidak suka model dalam, sedangkan model linear tergeneralisasi tidak bisa “mempelajari fitur baru”.

jaringan saraf generatif berlawanan (Gan)

Sistem untuk membuat data baru yang dibuat oleh generator data dan diskriminator menentukan apakah data yang dibuat valid atau tidak valid.

AI generatif

#language
#image
#generativeAI

Bidang transformatif yang terus berkembang tanpa definisi formal. Meskipun demikian, sebagian besar pakar setuju bahwa model AI generatif dapat membuat ("buat") konten yang merupakan semua hal berikut:

  • kompleks
  • koheren
  • asli

Misalnya, model AI generatif dapat membuat model esai atau gambar.

Beberapa teknologi lama, termasuk LSTMs dan RNN, juga dapat menghasilkan respons asli dan konten yang koheren. Beberapa ahli melihat teknologi sebelumnya sebagai AI generatif, sementara yang lain merasa bahwa AI generatif sejati membutuhkan {i>output<i} daripada yang dapat dihasilkan oleh teknologi sebelumnya.

Berbeda dengan ML prediktif.

model generatif

Secara praktis, model yang melakukan salah satu hal berikut:

  • Membuat (menghasilkan) contoh baru dari set data pelatihan. Misalnya, model generatif dapat membuat puisi setelah pelatihan pada set data puisi. Bagian generator dari jaringan saraf generatif berlawanan termasuk dalam kategori ini.
  • Menentukan probabilitas bahwa sebuah contoh baru berasal dari set pelatihan, atau dibuat dari mekanisme yang sama dengan yang dibuat set pelatihan. Misalnya, setelah pelatihan set data yang terdiri dari kalimat bahasa Inggris, model generatif dapat menentukan probabilitas bahwa masukan baru adalah kalimat bahasa Inggris yang valid.

Model generatif dapat secara teoretis memahami distribusi contoh atau fitur tertentu dalam set data. Definisinya yaitu:

p(examples)

Model unsupervised learning adalah model generatif.

Berbeda dengan model diskriminatif.

generator

Subsistem dalam jaringan saraf generatif jaringan yang akan membuat contoh baru.

Berbeda dengan model diskriminatif.

ketidakmurnian gini

#df

Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari ketidakmurnian gini atau entropi untuk menyusun kondisi untuk klasifikasi hierarki keputusan. Pengumpulan informasi berasal dari entropi. Tidak ada istilah setara yang diterima secara universal untuk metrik yang berasal dari ketidakmurnian gini; Namun, metrik tanpa nama ini sama pentingnya dengan perolehan informasi.

Kotoran gini juga disebut indeks gini, atau gini saja.

set data emas

Kumpulan data yang diseleksi secara manual yang mencatat kebenaran dasar. Tim dapat menggunakan satu atau beberapa set data emas untuk mengevaluasi kualitas model.

Beberapa {i>dataset<i} emas menangkap subdomain yang berbeda dari kebenaran nyata. Misalnya, set data emas untuk klasifikasi gambar dapat menangkap kondisi pencahayaan dan resolusi gambar.

GPT (Transformer Terlatih Generatif)

#language

Keluarga berbasis Transformer model bahasa besar (LLM) yang dikembangkan oleh OpenAI.

Varian GPT dapat berlaku untuk beberapa modalitas, termasuk:

  • pembuatan gambar (misalnya, ImageGPT)
  • pembuatan teks ke gambar (misalnya, DALL-E).

gradien

Vektor turunan parsial yang terkait dengan semua variabel independen. Dalam machine learning, gradien vektor turunan parsial fungsi model. Titik gradien ke arah pendakian paling curam.

akumulasi gradien

Teknik propagasi mundur yang memperbarui parameter hanya sekali per epoch, bukan sekali per iterasi sebelumnya. Setelah memproses setiap tumpukan mini, gradien akumulasi hanya memperbarui total gradien yang berjalan. Kemudian, setelah memproses tumpukan mini terakhir dalam epoch, sistem akhirnya memperbarui parameter berdasarkan total semua perubahan gradien.

Akumulasi gradien berguna saat ukuran tumpukan adalah sangat besar dibandingkan dengan jumlah memori yang tersedia untuk pelatihan. Ketika memori menjadi masalah, kecenderungan alaminya adalah mengurangi ukuran tumpukan. Namun, mengurangi ukuran tumpukan dalam propagasi mundur normal akan meningkatkan jumlah pembaruan parameter. Akumulasi gradien memungkinkan model untuk menghindari masalah memori tetapi tetap berlatih secara efisien.

gradient boosted (decision) tree (GBT)

#df

Jenis hutan keputusan yang:

peningkatan gradien

#df

Algoritma pelatihan di mana model yang lemah dilatih secara iteratif meningkatkan kualitas (mengurangi kerugian) dari model yang kuat. Misalnya, model yang lemah bisa menjadi model pohon keputusan linear atau kecil. Model kuat menjadi jumlah dari semua model lemah yang dilatih sebelumnya.

Dalam bentuk peningkatan gradien yang paling sederhana, pada setiap iterasi, model yang lemah dilatih untuk memprediksi gradien kerugian dari model yang kuat. Lalu, output model kuat diperbarui dengan mengurangi gradien yang diprediksi, mirip dengan penurunan gradien.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dalam hal ini:

  • $F_{0}$ adalah model kuat awal.
  • $F_{i+1}$ adalah model kuat berikutnya.
  • $F_{i}$ adalah model kuat saat ini.
  • $\xi$ adalah nilai antara 0,0 dan 1,0 yang disebut penyusutan, yang setara dengan kecepatan pembelajaran dalam penurunan gradien.
  • $f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian $F_{i}$.

Variasi modern dari peningkatan gradien juga mencakup turunan kedua (Hessian) tentang kerugian dalam komputasi mereka.

Pohon keputusan biasanya digunakan sebagai model yang lemah dalam penguatan gradien. Lihat pohon (keputusan) yang ditingkatkan gradien.

pemotongan gradien

#seq

Mekanisme yang umum digunakan untuk memitigasi masalah gradien yang meledak secara artifisial membatasi (memotong) nilai maksimum gradien saat menggunakan penurunan gradien untuk melatih model.

penurunan gradien

#fundamentals

Teknik matematis untuk meminimalkan kerugian. Penurunan gradien disesuaikan secara iteratif bobot dan bias, secara bertahap menemukan kombinasi terbaik untuk meminimalkan kerugian.

Penurunan gradien bersifat lebih tua—jauh lebih tua—dibandingkan machine learning.

grafik

#TensorFlow

Di TensorFlow, spesifikasi komputasi. Node dalam grafik merepresentasikan operasi. Tepi diarahkan dan merepresentasikan penerusan hasil dari suatu operasi (Tensor) sebagai operand ke operasi lain. Gunakan TensorBoard untuk memvisualisasikan grafik.

eksekusi grafik

#TensorFlow

Lingkungan pemrograman TensorFlow tempat program pertama kali dibuat grafik lalu mengeksekusi semua atau sebagian dari grafik tersebut. Grafik eksekusi adalah mode eksekusi default di TensorFlow 1.x.

Berbeda dengan eager execution.

kebijakan serakah

#rl

Dalam reinforcement learning, kebijakan yang selalu memilih tindakan dengan laba tertinggi yang diperkirakan.

kebenaran nyata

#fundamentals

Realitas.

Hal yang benar-benar terjadi.

Sebagai contoh, pertimbangkan klasifikasi biner model yang memprediksi apakah seorang mahasiswa di tahun pertama kuliah akan lulus dalam waktu enam tahun. Kebenaran dasar model ini adalah apakah bukan siswa yang benar-benar lulus dalam enam tahun.

bias atribusi golongan

#fairness

Mengasumsikan bahwa apa yang benar bagi seseorang juga benar bagi semua orang dalam kelompok tersebut. Efek dari bias atribusi golongan dapat diperburuk jika pengambilan sampel praktis digunakan untuk pengumpulan data. Dalam sampel yang tidak representatif, atribusi mungkin dibuat tidak sesuai dengan kenyataan.

Lihat juga bias kehomogenan luar golongan dan bias dalam golongan.

H

halusinasi

#language

Produksi {i>output<i} yang tampak masuk akal tetapi faktual salah oleh AI generatif yang dimaksudkan untuk pernyataan tentang dunia nyata. Misalnya, model AI generatif yang mengklaim bahwa Barack Obama meninggal pada tahun 1865 sedang berhalusinasi.

hashing

Dalam machine learning, mekanisme untuk pengelompokan data kategorik, terutama ketika jumlah kategori sangat besar, tetapi jumlah kategori yang benar-benar muncul dalam {i>dataset<i} relatif kecil.

Misalnya, Bumi adalah rumah bagi sekitar 73.000 spesies pohon. Anda dapat mewakili masing-masing dari 73.000 spesies pohon di 73.000 bucket. Alternatifnya, jika hanya 200 dari spesies pohon tersebut yang benar-benar muncul dalam sebuah {i>dataset<i}, Anda dapat menggunakan {i>hashing<i} untuk membagi spesies pohon ke dalam mungkin 500 bucket.

Satu bucket dapat berisi beberapa spesies pohon. Misalnya, {i>hashing<i} dapat menempatkan baobab dan maple merah—dua genetik yang berbeda spesies, ke dalam bucket yang sama. Terlepas dari itu, {i>hashing<i} masih merupakan cara yang baik untuk memetakan kumpulan kategori besar ke dalam jumlah bucket yang dipilih. {i>Hashing<i} mengubah fitur kategorikal yang memiliki banyak kemungkinan nilai ke dalam jumlah nilai yang lebih kecil dengan mengelompokkan determenistik.

heuristik

Solusi sederhana dan cepat diterapkan untuk suatu masalah. Misalnya, "Dengan heuristik, kami mencapai akurasi 86%. Ketika kita beralih ke dalam jaringan neural dalam, akurasi naik hingga 98%."

lapisan tersembunyi

#fundamentals

Lapisan dalam jaringan neural antara lapisan input (fitur) dan lapisan output (prediksi). Setiap lapisan tersembunyi terdiri dari satu atau beberapa neuron. Misalnya, jaringan neural berikut berisi dua lapisan tersembunyi, yang pertama dengan tiga neuron dan yang kedua dengan dua neuron:

Empat lapisan. Lapisan pertama adalah lapisan input yang berisi dua
          baru. Lapisan kedua adalah lapisan 
tersembunyi yang berisi tiga
          neuron. Lapisan ketiga adalah lapisan tersembunyi yang berisi dua
          neuron. Lapisan keempat adalah lapisan output. Setiap fitur
          memiliki tiga tepi, yang masing-masing 
mengarah ke neuron yang berbeda
          di lapisan kedua. Setiap neuron di lapisan kedua
          memiliki dua tepi, yang masing-masing 
mengarah ke neuron yang berbeda
          di lapisan ketiga. Setiap neuron di lapisan ketiga berisi
          satu tepi, masing-masing menunjuk ke lapisan output.

Jaringan neural dalam berisi lebih dari satu {i>hidden layer<i}. Misalnya, ilustrasi sebelumnya adalah analisis deep neural jaringan karena model berisi dua lapisan tersembunyi.

pengelompokan hierarkis

#clustering

Kategori algoritma pengelompokan yang membuat hierarki klaster. Pengelompokan hierarkis sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis hierarki algoritma pengklasteran (clustering):

  • Pengelompokan aglomeratif menetapkan setiap contoh ke clusternya sendiri terlebih dahulu, dan secara iteratif menggabungkan klaster terdekat untuk membuat hierarki hierarki.
  • Pengelompokan divisif mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, lalu secara iteratif membagi cluster ke dalam pohon hierarkis.

Berbeda dengan pengelompokan berbasis sentroid.

kerugian engsel

Kelompok fungsi loss untuk klasifikasi yang dirancang untuk menemukan batas keputusan sejauh mungkin dari setiap contoh pelatihan, sehingga bisa memaksimalkan margin antara contoh dan batas. KSVMs menggunakan kerugian engsel (atau fungsi terkait, seperti kerugian engsel kuadrat). Untuk klasifikasi biner, fungsi engsel kerugian didefinisikan sebagai berikut:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

dengan y adalah label yang sebenarnya, -1 atau +1, dan y' adalah output mentah dari model pengklasifikasi:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Akibatnya, plot kerugian engsel versus (y * y') akan terlihat sebagai berikut:

Suatu plot Kartesius yang terdiri dari dua ruas garis bergabung. Yang pertama
          ruas garis dimulai di (-3, 4) dan berakhir di (1, 0). Baris kedua
          segmen dimulai di (1, 0) dan berlanjut tanpa batas dengan kemiringan
          dari 0.

bias historis

#fairness

Jenis bias yang sudah ada di dunia dan memiliki berhasil menuju ke sebuah {i>dataset<i}. Bias ini memiliki kecenderungan untuk mencerminkan stereotip budaya, ketidaksetaraan demografis, dan prasangka terhadap kelompok sosial.

Misalnya, pertimbangkan model klasifikasi yang memprediksi apakah pemohon pinjaman akan bawaan atau tidak pada pinjaman mereka, yang dilatih berdasarkan data historis default pinjaman dari tahun 1980-an dari bank-bank lokal menjadi berbagai komunitas. Jika pelamar lama dari Komunitas A enam kali lebih banyak cenderung default pada pinjaman mereka dibandingkan pemohon dari Komunitas B, dapat mempelajari bias historis yang menyebabkan model cenderung tidak menyetujui pinjaman di Komunitas A, bahkan jika kondisi historis yang di rasio bawaan yang lebih tinggi di komunitas itu tidak lagi relevan.

data pisahan

Contoh sengaja tidak digunakan ("dipisah") selama pelatihan. Set data validasi dan set data pengujian adalah contoh data pisahan. Data pisahan membantu mengevaluasi kemampuan model Anda dalam menggeneralisasi ke data selain yang menjadi bahan pelatihan model ini. Kekalahan di set holdout memberikan perkiraan kerugian pada {i>dataset<i} yang tidak terlihat dibandingkan dengan kerugian pada set pelatihan.

host

#TensorFlow
#GoogleCloud

Saat melatih model ML pada chip akselerator (GPU atau TPU), bagian dari sistem yang mengontrol kedua hal berikut:

  • Aliran kode keseluruhan.
  • Ekstraksi dan transformasi pipeline input.

Host biasanya berjalan pada CPU, bukan pada chip akselerator; tindakan device memanipulasi tensor di dan chip akselerator.

hyperparameter (hyperparameter)

#fundamentals

Variabel yang Anda atau layanan penyesuaian hyperparameter menyesuaikan model selama pelatihan model berturut-turut. Misalnya, kecepatan pembelajaran adalah hyperparameter. Anda dapat mengatur kecepatan pembelajaran ke 0,01 sebelum satu sesi pelatihan. Jika Anda menentukan bahwa 0,01 terlalu tinggi, Anda mungkin bisa mengatur pembelajaran nilai untuk 0,003 untuk sesi pelatihan berikutnya.

Sebaliknya, parameter adalah berbagai bobot dan bias yang ditentukan oleh model belajar selama pelatihan.

bidang-hiper

Batas yang memisahkan ruang menjadi dua subruang. Misalnya, sebuah garis bidang-hiper dalam dua dimensi dan bidang adalah bidang-hiper dalam tiga dimensi. Biasanya dalam machine learning, bidang-hiper (hyperplane) adalah batas yang memisahkan ruang dimensi tinggi. Kernel Support Vector Machines digunakan bidang-hiper untuk memisahkan kelas positif dari kelas negatif, sering kali dalam ruang dimensi tinggi.

I

i.i.d.

Singkatan dari didistribusikan secara independen dan identik.

pengenalan gambar

#image

Proses yang mengklasifikasikan objek, pola, atau konsep dalam sebuah gambar. Pengenalan citra juga dikenal sebagai klasifikasi gambar.

Untuk informasi selengkapnya, lihat Praktik ML: Klasifikasi Gambar.

set data tidak seimbang

Sinonim dari set data kelas tidak seimbang.

bias implisit

#fairness

Secara otomatis membuat asosiasi atau asumsi berdasarkan pikiran seseorang model dan memori. Bias implisit dapat memengaruhi hal berikut:

  • Cara data dikumpulkan dan diklasifikasikan.
  • Cara sistem machine learning dirancang dan dikembangkan.

Misalnya, ketika menyusun pengklasifikasi untuk mengidentifikasi foto pernikahan, seorang insinyur dapat menggunakan keberadaan gaun putih dalam foto sebagai fitur. Namun, gaun putih telah menjadi kebiasaan hanya selama era tertentu dan dalam budaya tertentu.

Lihat juga bias konfirmasi.

imputasi

Bentuk singkat komputasi nilai.

inkompatibilitas metrik keadilan

#fairness

Gagasan bahwa beberapa gagasan tentang perlakuan yang adil tidak kompatibel satu sama lain dan tidak dapat dipenuhi secara bersamaan. Akibatnya, tidak ada satu pun metrik universal untuk mengukur keadilan yang dapat diterapkan pada semua masalah ML.

Meskipun hal ini mungkin tampak mengecewakan, tetapi inkompatibilitas metrik keadilan tidak berarti bahwa upaya perlakuan yang adil tidak membuahkan hasil. Sebaliknya, hal ini menyarankan bahwa keadilan harus didefinisikan secara kontekstual untuk masalah ML tertentu, dengan tujuan mencegah bahaya khusus untuk kasus penggunaannya.

Lihat "Di (im)kemungkinan keadilan" untuk diskusi yang lebih mendetail tentang topik ini.

pembelajaran dalam konteks

#language
#generativeAI

Sinonim dari few-shot prompting.

terdistribusi secara independen dan identik (i.i.d)

#fundamentals

Data yang diambil dari distribusi yang tidak berubah, dan di mana setiap nilai tidak bergantung pada nilai yang telah digambar sebelumnya. AI adalah gas ideal mesin pembelajaran—konstruk matematis yang berguna tetapi hampir tidak pernah ditemukan secara pasti di dunia nyata. Misalnya, distribusi pengunjung ke laman web mungkin i.i.d. dalam jangka waktu yang singkat; yaitu, distribusi tidak berubah selama jendela singkat itu dan kunjungan seseorang biasanya terlepas dari kunjungan orang lain. Namun, jika Anda memperluas periode waktu tersebut, perbedaan musiman dalam pengunjung halaman web mungkin muncul.

Lihat juga nonstasioneritas.

keadilan individu

#fairness

Metrik keadilan yang memeriksa apakah individu serupa diklasifikasikan hasil yang sama. Misalnya, Brobdingnagian Academy mungkin ingin memuaskan keadilan individu dengan memastikan bahwa dua siswa dengan nilai yang sama dan nilai ujian yang terstandardisasi sama kemungkinan untuk mendapatkan akses masuk.

Perhatikan bahwa keadilan individu sepenuhnya bergantung pada cara Anda mendefinisikan "kesamaan" (dalam hal ini, nilai dan nilai ujian), dan Anda dapat berisiko memperkenalkan masalah keadilan baru jika metrik kesamaan Anda meleset penting (seperti ketelitian kurikulum siswa).

Lihat "Keadilan Melalui Kesadaran" untuk diskusi yang lebih mendetail tentang keadilan individu.

inferensi

#fundamentals

Dalam machine learning, proses pembuatan prediksi dengan menerapkan model terlatih ke contoh tak berlabel.

Inferensi memiliki arti yang agak berbeda dalam statistik. Lihat Artikel Wikipedia tentang inferensi statistik untuk mengetahui detailnya.

jalur inferensi

#df

Dalam pohon keputusan, selama inferensi, rute yang diambil contoh tertentu dari root ke kondisi lain, yang diakhiri dengan daun. Misalnya, pada pohon keputusan berikut, model panah yang lebih tebal menunjukkan jalur inferensi untuk contoh dengan nilai fitur:

  • x = 7
  • y = 12
  • z = -3

Jalur inferensi dalam ilustrasi berikut melalui tiga kondisi sebelum mencapai daun (Zeta).

Pohon keputusan yang terdiri dari empat kondisi dan lima daun.
          Kondisi root adalah (x > 0). Karena jawabannya adalah Ya,
          jalur inferensi dimulai dari {i>root<i} ke kondisi berikutnya (y > 0).
          Karena jawabannya adalah Ya, jalur inferensi kemudian bergerak ke
          kondisi berikutnya (z > 0). Karena jawabannya adalah Tidak, jalur inferensinya
          sampai ke {i>node<i} terminalnya, yaitu {i>leaf<i} (Zeta).

Tiga panah tebal menunjukkan jalur inferensi.

perolehan informasi

#df

Di hutan keputusan, perbedaan antara entropi node dan bobot (berdasarkan jumlah contoh) jumlah entropi node turunannya. Entropi node adalah entropi contoh dalam node tersebut.

Misalnya, pertimbangkan nilai entropi berikut:

  • entropi node induk = 0,6
  • entropi satu simpul turunan dengan 16 contoh yang relevan = 0,2
  • entropi simpul turunan lain dengan 24 contoh yang relevan = 0,1

Jadi 40% dari contoh ada di satu simpul turunan dan 60% ada di node turunan lainnya. Jadi:

  • jumlah entropi tertimbang node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Jadi, informasi yang diperoleh adalah:

  • perolehan informasi = entropi node induk - jumlah entropi tertimbang dari node turunan
  • perolehan informasi = 0,6 - 0,14 = 0,46

Sebagian besar pemisah berupaya membuat kondisi yang memaksimalkan perolehan informasi.

bias dalam golongan (in-group bias)

#fairness

Menunjukkan keberpihakan pada kelompok atau karakteristik milik seseorang. Jika penguji atau pelabel terdiri dari teman-teman developer machine learning, keluarga, atau kolega, maka bias dalam kelompok dapat membatalkan pengujian produk atau {i>dataset <i}tersebut.

Bias dalam golongan adalah bentuk bias atribusi golongan. Lihat juga bias kehomogenan luar golongan.

generator input

Mekanisme di mana data dimuat ke dalam jaringan neural.

Generator {i>input<i} dapat dianggap sebagai komponen yang bertanggung jawab untuk memproses data mentah menjadi tensor yang diiterasi untuk menghasilkan batch untuk pelatihan, evaluasi, dan inferensi.

lapisan input

#fundamentals

Lapisan dari jaringan neural yang menyimpan vektor fitur. Yaitu, lapisan input memberikan contoh untuk pelatihan atau inferensi. Misalnya, lapisan input di lapisan neural network terdiri dari dua fitur:

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan lapisan output.

kondisi dalam ditetapkan

#df

Dalam pohon keputusan, kondisi yang menguji keberadaan satu item dalam set item. Misalnya, berikut ini adalah kondisi dalam set:

  house-style in [tudor, colonial, cape]

Selama inferensi, jika nilai fitur gaya rumah adalah tudor atau colonial atau cape, maka kondisi ini bernilai Ya. Jika nilai fitur gaya rumah adalah hal lain (misalnya, ranch), maka kondisi ini bernilai Tidak.

Kondisi yang telah ditetapkan biasanya menghasilkan pohon keputusan yang lebih efisien daripada kondisi yang menguji fitur enkode one-hot.

instance

Sinonim dari contoh.

tuning instruksi

#generativeAI

Bentuk fine-tuning yang meningkatkan Kemampuan model AI generatif untuk mengikuti petunjuk. Tuning instruksi melibatkan pelatihan model pada serangkaian berisi petunjuk petunjuk, biasanya mencakup berbagai berbagai macam tugas. Model yang telah disesuaikan dengan instruksi yang dihasilkan kemudian cenderung membuat respons yang berguna untuk perintah zero-shot di berbagai tugas.

Bandingkan dan kontraskan dengan:

penafsiran

#fundamentals

Kemampuan untuk menjelaskan atau menyajikan alasan model ML dalam istilah yang dapat dimengerti oleh manusia.

Sebagian besar model regresi linear, misalnya, sangat agar dapat ditafsirkan. (Anda hanya perlu melihat bobot terlatih untuk setiap feature.) Hutan keputusan juga sangat mudah ditafsirkan. Namun, beberapa model memerlukan visualisasi yang canggih agar dapat ditafsirkan.

Anda dapat menggunakan Alat Penafsiran Pembelajaran (LIT) untuk menafsirkan model ML.

perjanjian antar-penilai

Pengukuran seberapa sering pelabel manusia setuju saat melakukan tugas. Jika pelabel tidak setuju, petunjuk tugas mungkin perlu ditingkatkan. Juga terkadang disebut sebagai perjanjian antar-anotator atau keandalan antar-penilai. Lihat juga Cohen kappa, yang merupakan salah satu pengukuran kesepakatan antar-pelabel yang paling populer.

irisan atas union (IoU)

#image

Perpotongan dari dua himpunan dibagi dengan gabungannya. Di machine learning tugas deteksi gambar, IoU digunakan untuk mengukur akurasi prediksi kotak pembatas sehubungan dengan Kotak pembatas ground-truth. Dalam hal ini, IoU untuk dua kotak adalah rasio antara area yang tumpang tindih dan total area, dan nilainya berkisar dari 0 (tidak ada tumpang tindih kotak pembatas yang diprediksi dan kebenaran dasar kotak pembatas) ke 1 (kotak pembatas yang diprediksi dan kotak pembatas kebenaran dasar memiliki koordinat yang sama persis).

Misalnya, pada gambar di bawah ini:

  • Kotak pembatas yang diprediksi (koordinat yang membatasi tempat model memprediksi meja malam dalam lukisan) ditampilkan dengan warna ungu.
  • Kotak pembatas kebenaran dasar (koordinat yang membatasi tempat malam dalam gambar itu sebenarnya) berada di garis batas warna hijau.

Van Gogh melukis Kamar Tidur Vincent di Arles, dengan dua lukisan berbeda
          kotak pembatas di sekeliling meja malam di samping tempat tidur. Kebenaran dasar
          kotak pembatas (berwarna hijau) mengelilingi meja malam dengan sempurna. Tujuan
          kotak pembatas yang diprediksi (dalam warna ungu) di-offset 50% ke bawah dan ke kanan
          di kotak pembatas kebenaran dasar; cakupannya mencakup
perempat kanan bawah
          dari meja malam, tapi 
melewatkan sisa meja.

Di sini, perpotongan kotak pembatas untuk prediksi dan kebenaran dasar (kiri bawah) adalah 1, dan gabungan kotak pembatas untuk prediksi dan kebenaran dasar (di bawah kanan) adalah 7, sehingga IoU adalah \(\frac{1}{7}\).

Gambar sama seperti di atas, tetapi setiap kotak pembatas dibagi menjadi empat
          kuadran. Ada total tujuh kuadran, sebagai kanan bawah
          kotak pembatas kebenaran dasar di sudut kiri atas
          kuadran dari kotak pembatas yang diprediksi saling tumpang tindih. Ini
          yang tumpang tindih (disorot dengan warna hijau) mewakili
          persimpangan, dan memiliki luas 1. Gambar sama seperti di atas, tetapi setiap kotak pembatas dibagi menjadi empat
          kuadran. Ada total tujuh kuadran, sebagai kanan bawah
          kotak pembatas kebenaran dasar di sudut kiri atas
          kuadran dari kotak pembatas yang diprediksi saling tumpang tindih.
          Seluruh interior yang diapit oleh kedua kotak pembatas
          (disorot dengan warna hijau) mewakili gabungan, dan memiliki
          area seluas 7.

IoU

Singkatan dari intersection over union.

matriks item

#recsystems

Dalam sistem rekomendasi, matriks vektor penyematan yang dihasilkan oleh faktorisasi matriks yang menyimpan sinyal laten tentang setiap item. Setiap baris matriks item memiliki nilai laten tunggal untuk semua item. Misalnya, pertimbangkan sistem rekomendasi film. Setiap kolom di matriks item mewakili satu film. Sinyal laten mungkin mewakili genre, atau mungkin lebih sulit untuk diinterpretasikan sinyal yang melibatkan interaksi kompleks antara genre, bintang, usia film, atau faktor lainnya.

Matriks item memiliki jumlah kolom yang sama dengan target matriks yang sedang difaktorkan. Misalnya, jika film sistem rekomendasi yang mengevaluasi 10.000 judul film, matriks item akan memiliki 10.000 kolom.

item

#recsystems

Dalam sistem rekomendasi, entitas yang yang direkomendasikan oleh sistem. Misalnya, video adalah item yang disimpan oleh video direkomendasikan, sementara buku adalah item yang direkomendasikan oleh toko buku.

iterasi

#fundamentals

Pembaruan tunggal parameter model—yang bobot dan bias—selama pelatihan. Ukuran tumpukan menentukan berapa banyak contoh yang diproses model dalam satu iterasi. Contohnya, jika ukuran tumpukan adalah 20, maka model akan memproses 20 contoh sebelum menyesuaikan parameter.

Saat melatih jaringan neural, satu iterasi melibatkan dua penerusan berikut:

  1. Penerusan maju untuk mengevaluasi kerugian pada satu batch.
  2. Penerusan mundur (propagasi mundur) untuk menyesuaikan parameter model berdasarkan kerugian dan kecepatan pemelajaran.

J

JAX

{i>Array computing library<i}, yang menyatukan XLA (Accelerated Linear Algebra) dan diferensiasi otomatis untuk komputasi numerik berperforma tinggi. JAX memberikan solusi API untuk menulis kode numerik yang dipercepat dengan transformasi composable. JAX menyediakan fitur seperti:

  • grad (diferensiasi otomatis)
  • jit (kompilasi tepat waktu)
  • vmap (vektorisasi atau pengelompokan otomatis)
  • pmap (paralelisasi)

JAX adalah bahasa untuk mengekspresikan dan membuat transformasi kode, analog—tetapi cakupannya jauh lebih besar—dengan NumPy Python library. (Bahkan, pustaka .numpy di bawah JAX memiliki fungsi yang setara, tetapi versi library Python NumPy yang sepenuhnya ditulis ulang.)

JAX sangat cocok untuk mempercepat berbagai tugas machine learning dengan mentransformasi model dan data menjadi bentuk yang sesuai untuk paralelisme di seluruh GPU dan TPU chip akselerator.

Flax, Optax, Pax, dan banyak lagi library ini dibangun di infrastruktur JAX.

K

Keras

API machine learning Python yang populer. Keras berjalan di beberapa framework deep learning, termasuk TensorFlow, tersedia sebagai tf.keras.

Kernel Support Vector Machines (KSVMs)

Sebuah algoritma klasifikasi yang bertujuan untuk memaksimalkan margin antara positif dan kelas negatif dengan memetakan vektor data input ke ruang dimensi yang lebih tinggi. Sebagai contoh, pertimbangkan klasifikasi masalah di mana set data input memiliki seratus fitur. Untuk memaksimalkan margin antara positif dan negatif, KSVM dapat secara internal memetakan fitur-fitur tersebut menjadi satu juta dimensi. KSVMs menggunakan fungsi kerugian yang disebut kerugian engsel.

keypoint

#image

Koordinat fitur tertentu dalam gambar. Misalnya, untuk pengenalan citra yang membedakan spesies bunga, titik kunci mungkin adalah pusat dari setiap kelopak, batang, benang sari, dan seterusnya.

validasi silang k-fold

Algoritma untuk memprediksi kemampuan model untuk menggeneralisasi ke data baru. k dalam k-fold mengacu pada jumlah grup yang sama dengan tempat Anda membagi contoh {i>dataset<i}; yaitu, Anda melatih dan menguji model k time Anda. Untuk setiap putaran pelatihan dan pengujian, kelompok yang berbeda adalah set pengujian, dan semua kelompok yang tersisa menjadi atur. Setelah k putaran pelatihan dan pengujian, Anda menghitung rata-rata dan standar deviasi dari metrik uji yang dipilih.

Misalnya, anggap saja {i>dataset<i} Anda berisi 120 contoh. Selanjutnya misalkan, Anda memutuskan untuk menetapkan k ke 4. Oleh karena itu, setelah mengacak contoh, Anda membagi {i>dataset<i} menjadi empat kelompok yang sama yang terdiri dari 30 contoh dan melakukan empat pelatihan dan pengujian:

Set data yang dibagi menjadi empat kelompok contoh yang sama. Di Putaran 1,
          tiga kelompok pertama digunakan untuk 
pelatihan dan kelompok terakhir
          digunakan untuk pengujian. Di Putaran 2, dua grup pertama dan grup terakhir
          grup digunakan untuk pelatihan, sedangkan grup ketiga digunakan untuk
          pengujian. Di Putaran 3, grup pertama dan dua grup terakhir adalah
          digunakan untuk pelatihan, sedangkan kelompok kedua 
digunakan untuk pengujian.
          Di Tahap 4, grup pertama digunakan untuk pengujian, sedangkan grup akhir
          tiga kelompok digunakan untuk pelatihan.

Misalnya, Rataan Kuadrat Kesalahan (MSE) mungkin merupakan metrik yang paling bermakna untuk model regresi linear. Oleh karena itu, Anda akan menemukan rata-rata dan standar deviasi dari MSE di keempat putaran.

k-mean

#clustering

Algoritma pengelompokan populer yang mengelompokkan contoh dalam unsupervised learning. Algoritma k-means pada dasarnya melakukan hal berikut:

  • Secara iteratif menentukan titik tengah k terbaik (yang diketahui sebagai sentroid).
  • Menetapkan setiap contoh ke sentroid terdekat. Contoh tersebut yang terdekat sentroid yang sama milik kelompok yang sama.

Algoritma k-means memilih lokasi sentroid untuk meminimalkan kuadrat jarak dari setiap contoh ke sentroid terdekatnya.

Misalnya, pertimbangkan plot tinggi {i>dog<i} ke lebar {i>dog<i} berikut ini:

Plot Kartesius dengan beberapa lusin titik data.

Jika k=3, algoritma k-means akan menentukan tiga sentroid. Setiap contoh ditugaskan ke sentroid terdekatnya, yang menghasilkan tiga kelompok:

Plot Kartesius yang sama seperti dalam ilustrasi sebelumnya, kecuali
          dengan menambahkan tiga sentroid.
          Titik data sebelumnya dikelompokkan 
menjadi tiga kelompok yang berbeda,
          di mana setiap kelompok mewakili titik data yang terdekat dengan
          sentroid.

Bayangkan bahwa sebuah pabrik ingin menentukan ukuran yang ideal untuk {i>sweater <i}sedang, dan besar untuk. Tiga sentroid mengidentifikasi nilai rata-rata tinggi dan lebar rata-rata setiap dog di cluster tersebut. Jadi, produsen mungkin harus mendasarkan ukuran sweter pada ketiga sentroid tersebut. Perlu diketahui bahwa sentroid cluster biasanya bukan contoh dalam cluster.

Ilustrasi sebelumnya menunjukkan k-means hanya untuk contoh dengan dua fitur (tinggi dan lebar). Perhatikan bahwa k-means dapat mengelompokkan contoh di banyak fitur.

median k

#clustering

Algoritma pengelompokan yang terkait erat dengan k-means. Tujuan perbedaan praktis di antara keduanya adalah sebagai berikut:

  • Dalam k-means, sentroid ditentukan dengan meminimalkan jumlah dari kotak jarak antara kandidat sentroid dan masing-masing contoh-contohnya.
  • Dalam k-median, sentroid ditentukan dengan meminimalkan jumlah dari jarak antara kandidat sentroid dan setiap contohnya.

Perhatikan bahwa definisi jarak juga berbeda:

  • k-means bergantung pada Jarak Euclidean dari sentroid ke sebuah contoh. (Dalam dua dimensi, diagram Euclidean jarak berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-means antara (2,2) dan (5,-2) akan menjadi:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah dari delta absolut di setiap dimensi. Misalnya, grafik k-median jarak antara (2,2) dan (5,-2) adalah:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularisasi L0

#fundamentals

Jenis regularisasi yang mengganjar jumlah total bobot yang bukan nol dalam model. Misalnya, model yang memiliki 11 bobot bukan nol akan diberi sanksi lebih dari model serupa yang memiliki 10 bobot yang bukan nol.

Regularisasi L0 terkadang disebut regularisasi norma L0.

Kerugian L1

#fundamentals

Fungsi kerugian yang menghitung nilai absolut perbedaan antara nilai label aktual dan nilai yang diprediksi oleh model. Misalnya, berikut adalah penghitungan kerugian L1 untuk tumpukan lima contoh:

Nilai sebenarnya dari contoh Nilai prediksi model Nilai absolut delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = kerugian L1

Kerugian L1 kurang sensitif terhadap outlier dari L2 kerugian.

Error Rata-rata Absolut adalah nilai rata-rata Kerugian L1 per contoh.

Regularisasi L1

#fundamentals

Jenis regularisasi yang memberikan sanksi bobot sebanding dengan jumlah nilai absolut bobotnya. Regularisasi L1 membantu mendorong bobot yang tidak relevan atau fitur yang hampir tidak relevan dengan tepat 0. Fitur dengan bobot 0 secara efektif dihapus dari model.

Berbeda dengan L2 regularisasi.

Kerugian L2

#fundamentals

Fungsi kerugian yang menghitung kuadrat perbedaan antara nilai label aktual dan nilai yang diprediksi oleh model. Misalnya, berikut adalah penghitungan kerugian L2 untuk tumpukan lima contoh:

Nilai sebenarnya dari contoh Nilai prediksi model Kuadrat delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = kerugian L2

Karena kuadrat, kerugian L2 memperkuat pengaruh outlier. Artinya, kerugian L2 bereaksi lebih kuat terhadap prediksi buruk daripada L1 kalah. Misalnya, kerugian L1 untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu {i>outlier <i}menyebabkan 9 dari 16 kasus.

Model regresi biasanya menggunakan kerugian L2 sebagai fungsi kerugian.

Rataan Kuadrat Kesalahan adalah rata-rata Kerugian L2 per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L2.

Regularisasi L2

#fundamentals

Jenis regularisasi yang memberikan sanksi bobot sebanding dengan jumlah kuadrat bobot. Regularisasi L2 membantu mendorong bobot outlier (yang dengan nilai negatif positif atau rendah yang tinggi) lebih dekat ke 0 tetapi tidak cukup ke 0. Fitur dengan nilai yang sangat mendekati 0 tetap berada dalam model tetapi tidak terlalu memengaruhi prediksi model.

Regularisasi L2 selalu meningkatkan generalisasi dalam model linear.

Berbeda dengan regularisasi L1.

label

#fundamentals

Di supervised machine learning, "jawaban" atau "hasil" bagian dari contoh.

Setiap contoh berlabel terdiri dari satu atau beberapa fitur dan label. Misalnya, di folder spam kumpulan data deteksi, label mungkin akan berupa "spam" atau "bukan spam." Dalam {i>dataset <i}curah hujan, label mungkin berupa jumlah yang turun selama periode tertentu.

contoh berlabel

#fundamentals

Contoh yang berisi satu atau beberapa fitur dan label. Misalnya, tabel berikut menunjukkan tiga contoh berlabel dari model penilaian rumah, masing-masing dengan tiga fitur dan satu label:

Jumlah kamar Jumlah kamar mandi Usia rumah Harga rumah (label)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Membandingkan contoh berlabel dengan contoh tidak berlabel

kebocoran label

Cacat desain model yang mana fitur menjadi proxy untuk label. Misalnya, pertimbangkan klasifikasi biner yang memprediksi apakah calon pelanggan akan membeli produk tertentu atau tidak. Misalkan salah satu fitur untuk model adalah nilai Boolean bernama SpokeToCustomerAgent. Selanjutnya anggaplah bahwa agen pelanggan hanya ditetapkan setelah calon pelanggan benar-benar membeli Google. Selama pelatihan, model akan dengan cepat mempelajari antara SpokeToCustomerAgent dan label.

lambda

#fundamentals

Sinonim dari derajat regularisasi.

Lambda adalah istilah yang berlebihan. Di sini kita berfokus pada dalam regularisasi.

LaMDA (Language Model for Dialogue Applications/Model Bahasa untuk Aplikasi Dialog)

#language

Berbasis Transformer model bahasa besar (LLM) yang dikembangkan oleh Google dan dilatih pada set data dialog besar yang dapat menghasilkan respons percakapan yang realistis.

LaMDA: percakapan terobosan kami teknologi memberikan ringkasan.

{i>landmark<i}

#image

Sinonim dari keypoint.

model bahasa

#language

Model yang memperkirakan probabilitas token atau urutan token yang terjadi dalam urutan token yang lebih panjang.

model bahasa besar

#language

Setidaknya, model bahasa memiliki jumlah parameter. Secara lebih informal, apa pun Model bahasa berbasis Transformer, seperti Gemini atau GPT.

ruang laten

#language

Sinonim dari ruang penyematan.

lapisan

#fundamentals

Sekumpulan neuron dalam jaringan neural. Tiga jenis lapisan yang umum adalah sebagai berikut:

Misalnya, ilustrasi berikut menunjukkan jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
          lapisan output. Lapisan input terdiri dari dua fitur. Yang pertama
          lapisan tersembunyi terdiri dari tiga neuron dan lapisan tersembunyi kedua
          terdiri dari dua neuron. Lapisan output terdiri dari satu node.

Di TensorFlow, lapisan juga merupakan fungsi Python yang menggunakan Tensors dan opsi konfigurasi sebagai input serta menghasilkan tensor lain sebagai output.

Layers API (tf.layers)

#TensorFlow

TensorFlow API untuk membuat jaringan neural deep sebagai komposisi lapisan. Layers API memungkinkan Anda membangun jenis lapisan, seperti:

Layers API mengikuti konvensi Keras layer API. Artinya, selain awalan yang berbeda, semua fungsi di Layers API memiliki nama dan tanda tangan yang sama dengan pasangannya di Keras Layers API.

daun

#df

Endpoint apa pun dalam hierarki keputusan. Tidak seperti condition, leaf tidak melakukan pengujian. Sebaliknya, sebuah leaf adalah prediksi yang mungkin. {i>Leaf<i} juga merupakan terminal node dari jalur inferensi.

Misalnya, pohon keputusan berikut memiliki tiga daun:

Pohon keputusan dengan dua kondisi yang menyebabkan tiga daun.

Learning Interpretability Tool (LIT)

Sebuah alat visualisasi data dan pemahaman model yang interaktif.

Anda dapat menggunakan LIT open source untuk menafsirkan model atau untuk memvisualisasikan teks, gambar, dan data tabulasi.

kecepatan pembelajaran

#fundamentals

Bilangan floating point yang memberi tahu penurunan gradien seberapa kuat algoritma untuk menyesuaikan bobot dan bias pada iterasi. Misalnya, kecepatan pembelajaran 0,3 akan menyesuaikan bobot dan bias tiga kali lebih kuat daripada kecepatan pemelajaran sebesar 0,1.

Kecepatan pembelajaran adalah hyperparameter utama. Jika Anda menetapkan kecepatan pembelajaran terlalu rendah, pelatihan akan memakan waktu terlalu lama. Jika Anda mengatur kecepatan pemelajaran terlalu tinggi, penurunan gradien sering kali mengalami kesulitan mencapai konvergensi.

regresi kuadrat terkecil

Model regresi linear dilatih dengan meminimalkan L2 kerugian.

linier

#fundamentals

Hubungan antara dua atau lebih variabel yang dapat direpresentasikan hanya melalui penjumlahan dan perkalian.

Plot hubungan linier adalah sebuah garis.

Berbeda dengan nonlinear.

model linear

#fundamentals

Model yang menetapkan satu bobot per fitur untuk membuat prediksi. (Model linear juga menyertakan bias.) Sebaliknya, hubungan fitur dengan prediksi dalam model dalam umumnya bersifat nonlinear.

Model linear biasanya lebih mudah dilatih dan banyak lagi dapat ditafsirkan daripada model dalam. Namun, model mendalam dapat mempelajari hubungan kompleks antara fitur.

Regresi linear dan regresi logistik adalah dua jenis model linear.

regresi linear

#fundamentals

Jenis model machine learning yang memenuhi dua kondisi berikut:

  • Model ini adalah model linear.
  • Prediksinya adalah nilai floating point. (Ini adalah regresi dari regresi linear.)

Menemukan perbedaan regresi linear dengan regresi logistik. Selain itu, membandingkan regresi dengan klasifikasi.

LIT

Singkatan dari Learning Interpretability Tool (LIT), yang sebelumnya dikenal sebagai Alat Penafsiran Bahasa.

LLM

#language
#generativeAI

Singkatan dari model bahasa besar.

Evaluasi LLM (evaluasi)

#language
#generativeAI

Satu set metrik dan tolok ukur untuk menilai kinerja model bahasa besar (LLM). Pada dasarnya, Evaluasi LLM:

  • Membantu peneliti mengidentifikasi area di mana LLM perlu ditingkatkan.
  • Bermanfaat untuk membandingkan berbagai LLM dan mengidentifikasi LLM terbaik tugas tertentu.
  • Membantu memastikan bahwa LLM aman dan etis untuk digunakan.

regresi logistik

#fundamentals

Jenis model regresi yang memprediksi probabilitas. Model regresi logistik memiliki karakteristik berikut:

  • Labelnya kategoris. Istilah logistik Regresi biasanya mengacu pada regresi logistik biner, yaitu pada model yang menghitung probabilitas label dengan dua nilai yang mungkin. Varian yang kurang umum, regresi logistik multinomial, menghitung probabilitas untuk label dengan lebih dari dua kemungkinan nilai.
  • Fungsi kerugian selama pelatihan adalah Kerugian Log. (Beberapa unit Kehilangan Log dapat ditempatkan secara paralel untuk label dengan lebih dari dua kemungkinan nilai).
  • Model tersebut memiliki arsitektur linear, bukan deep neural network. Namun, definisi selanjutnya dari model dalam yang memprediksi probabilitas untuk label kategoris.

Misalnya, pertimbangkan model regresi logistik yang menghitung kemungkinan email input itu spam atau bukan spam. Selama inferensi, misalkan model memprediksi 0,72. Oleh karena itu, memperkirakan:

  • Kemungkinan email tersebut adalah spam sebesar 72%.
  • Peluang 28% email tersebut bukan spam.

Model regresi logistik menggunakan arsitektur dua langkah berikut:

  1. Model ini menghasilkan prediksi mentah (y') dengan menerapkan fungsi linear fitur input.
  2. Model ini menggunakan prediksi mentah tersebut sebagai input untuk fungsi sigmoid, yang mengonversi prediksi terhadap nilai antara 0 dan 1, eksklusif.

Seperti model regresi lainnya, model regresi logistik dapat memprediksi angka. Namun, angka ini biasanya menjadi bagian dari klasifikasi biner model sebagai berikut:

  • Jika angka yang diprediksi lebih besar dari nilai minimum klasifikasi, nilai model klasifikasi biner memprediksi kelas positif.
  • Jika angka yang diprediksi kurang dari batas klasifikasi, model klasifikasi biner memprediksi kelas negatif.

logits

Vektor prediksi mentah (tidak dinormalisasi) yang klasifikasi model, yang biasanya kemudian diteruskan ke fungsi normalisasi. Jika model menyelesaikan klasifikasi kelas jamak logits biasanya menjadi input ke fungsi softmax. Fungsi softmax kemudian menghasilkan vektor dari (dinormalisasi) probabilitas dengan satu nilai untuk setiap kemungkinan kelas.

Kerugian Log

#fundamentals

Fungsi kerugian yang digunakan dalam biner regresi logistik.

log-peluang

#fundamentals

Logaritma dari peluang beberapa peristiwa.

Memori Jangka Pendek (LSTM)

#seq

Jenis sel di dalam jaringan saraf berulang yang digunakan untuk memproses urutan data dalam aplikasi seperti pengenalan tulis tangan, mesin penerjemahan, dan pemberian teks pada gambar. LSTM mengatasi masalah gradien hilang yang terjadi ketika pelatihan RNN karena urutan data yang panjang (long data) dengan mempertahankan riwayat status memori internal berdasarkan input dan konteks baru dari sel sebelumnya dalam RNN.

LoRA

#language
#generativeAI

Singkatan dari Adaptasi Peringkat Rendah.

kalah

#fundamentals

Selama pelatihan untuk model yang diawasi, ukuran seberapa jauh prediksi model berasal dari label-nya.

Fungsi kerugian menghitung kerugian.

agregator kerugian

Jenis algoritma machine learning yang meningkatkan performa dari model dengan menggabungkan prediksi dari beberapa model dan menggunakan prediksi tersebut untuk membuat sebuah prediksi. Hasilnya, agregator kerugian dapat mengurangi varians prediksi dan meningkatkan akurasi prediksi.

kurva penyimpangan

#fundamentals

Plot kerugian sebagai fungsi dari jumlah pelatihan iterasi. Plot berikut menunjukkan kerugian yang khas kurva:

Grafik Kartesius kerugian versus iterasi pelatihan, yang menunjukkan
          penurunan kerugian yang cepat untuk iterasi awal, diikuti dengan penurunan
          menurun, dan kemudian kemiringan datar selama iterasi akhir.

Kurva kerugian dapat membantu menentukan kapan model Anda konvergen atau overfitting.

Kurva kerugian dapat memplot semua jenis kerugian berikut:

Lihat juga kurva generalisasi.

fungsi loss

#fundamentals

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada kumpulan contoh. Fungsi kerugian menampilkan kerugian yang lebih rendah untuk model yang membuat prediksi yang baik daripada untuk model yang membuat prediksi yang buruk.

Tujuan pelatihan biasanya adalah untuk meminimalkan kerugian akibat fungsi kerugian akan dikembalikan.

Ada berbagai jenis fungsi kerugian. Pilih kerugian yang sesuai fungsi untuk jenis model yang sedang Anda bangun. Contoh:

permukaan penyimpangan

Grafik berat versus penurunan. Tujuan Penurunan gradien untuk menemukan bobot yang permukaan penyimpangannya berada pada minimum lokal.

Adaptasi Peringkat Rendah (LoRA)

#language
#generativeAI

Sebuah algoritma untuk melakukan parameter-efficient tuning yang fine-tune hanya subset dari parameter model bahasa besar. LoRA memberikan manfaat berikut:

  • Menyesuaikan lebih cepat daripada teknik yang memerlukan fine-tuning semua model parameter.
  • Mengurangi biaya komputasi inferensi dalam yang sudah di-fine-tune.

Model yang disesuaikan dengan LoRA mempertahankan atau meningkatkan kualitas prediksinya.

LoRA memungkinkan beberapa versi khusus dari sebuah model.

LSTM

#seq

Singkatan dari Long Short-Term Memory.

M

machine learning

#fundamentals

Program atau sistem yang melatih model dari data input. Model yang dilatih dapat membuat prediksi yang berguna dari data baru (yang tidak pernah terlihat sebelumnya) yang diambil dari distribusi yang sama dengan yang digunakan untuk melatih model.

Machine learning juga mengacu pada bidang studi yang berkaitan dengan program atau sistem ini.

kelas mayoritas

#fundamentals

Label yang lebih umum dalam set data kelas tidak seimbang. Misalnya, diberikan sebuah {i>dataset<i} yang berisi 99% label negatif dan 1% label positif, label negatif adalah kelas mayoritas.

Berbeda dengan kelas minoritas.

Proses keputusan Markov (MDP)

#rl

Grafik yang mewakili model pengambilan keputusan di mana keputusan (atau tindakan) diambil untuk menavigasi urutan status dengan asumsi bahwa Pembekuan properti Markov. Di beberapa reinforcement learning, transisi ini antar-negara bagian akan menampilkan reward numerik.

Properti Markov

#rl

Properti lingkungan tertentu, di mana status sepenuhnya ditentukan oleh informasi yang implisit dalam status saat ini dan tindakan agen.

model bahasa yang disamarkan

#language

Model bahasa yang memprediksi probabilitas token kandidat untuk mengisi bagian yang kosong secara berurutan. Sebagai contoh, model bahasa yang disamarkan dapat menghitung probabilitas kata kandidat untuk mengganti garis bawah dalam kalimat berikut:

____ di topi itu kembali.

Literatur biasanya menggunakan {i>string<i} "MASK" bukan garis bawah. Contoh:

"MASK" dalam topi itu kembali.

Sebagian besar model bahasa yang disamarkan dan modern bersifat dua arah.

Matplotlib

Library pemetaan 2D Python open source. matplotlib membantu Anda memvisualisasikan berbagai aspek machine learning.

faktorisasi matriks

#recsystems

Dalam matematika, mekanisme untuk menemukan matriks yang perkalian titiknya mendekati matriks target.

Dalam sistem rekomendasi, matriks target sering kali menahan rating pada item. Misalnya, target matriks untuk sistem rekomendasi film mungkin terlihat seperti berikut ini, di mana bilangan bulat positif adalah rating pengguna dan 0 berarti bahwa pengguna tidak menilai film tersebut:

  Casablanca Kisah Philadelphia Black Panther Perempuan Wonder Fiksi Pulp
Pengguna 1 5,0 3.0 0,0 2.0 0,0
Pengguna 2 4.0 0,0 0,0 1.0 5,0
Pengguna 3 3.0 1.0 4.0 5,0 0,0

Sistem rekomendasi film bertujuan untuk memprediksi peringkat pengguna film tanpa rating. Misalnya, apakah Pengguna 1 akan menyukai Black Panther?

Salah satu pendekatan untuk sistem rekomendasi adalah menggunakan matriks faktorisasi untuk menghasilkan dua matriks berikut:

  • Matriks pengguna, dibentuk dari jumlah pengguna X jumlah dimensi embedding.
  • Matriks item, dibentuk sesuai jumlah embedding dimensi X jumlah item.

Misalnya, menggunakan faktorisasi matriks pada tiga pengguna dan lima item kita dapat menghasilkan matriks pengguna dan matriks item berikut:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Produk titik dari matriks pengguna dan matriks item menghasilkan rekomendasi matriks yang tidak hanya berisi peringkat pengguna asli tetapi juga prediksi untuk film yang belum ditonton oleh setiap pengguna. Misalnya, pertimbangkan rating Pengguna 1 untuk Casablanca, yaitu 5,0. Titik produk yang sesuai dengan sel tersebut dalam matriks rekomendasi harus semoga sekitar 5,0, dan ini:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Yang lebih penting, apakah Pengguna 1 akan menyukai Black Panther? Mengambil produk titik yang sesuai dengan baris pertama dan kolom ketiga menghasilkan peringkat 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Faktorisasi matriks biasanya menghasilkan matriks pengguna dan matriks item yang, jika digabungkan, secara signifikan lebih ringkas daripada matriks target.

Rata-rata Error Absolut (MAE)

Rata-rata kerugian per contoh saat kerugian L1 adalah data Hitung Error Absolut Rata-rata sebagai berikut:

  1. Hitung kerugian L1 untuk batch.
  2. Bagi kerugian L1 dengan jumlah contoh dalam batch.

Misalnya, pertimbangkan penghitungan kerugian L1 pada yang berisi lima contoh berikut:

Nilai sebenarnya dari contoh Nilai prediksi model Kerugian (selisih antara aktual dan prediksi)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = kerugian L1

Jadi, kerugian L1 adalah 8 dan jumlah contohnya adalah 5. Oleh karena itu, Error Absolut Rata-rata adalah:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Membandingkan Error Rata-rata Absolut dengan Rataan Kuadrat Error dan Error Akar Rata-Rata Kuadrat.

Rata-rata Kuadrat Kesalahan (MSE)

Rata-rata kerugian per contoh saat kerugian L2 adalah data Hitung Rata-rata Kesalahan Kuadrat sebagai berikut:

  1. Hitung kerugian L2 untuk batch.
  2. Bagi kerugian L2 dengan jumlah contoh dalam batch.

Misalnya, pertimbangkan kerugian pada batch lima contoh berikut:

Nilai sebenarnya Prediksi model Kerugian Kerugian kuadrat
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = kerugian L2

Oleh karena itu, Rata-rata Kuadrat Error adalah:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Rataan Kuadrat Error adalah pengoptimal pelatihan populer, khususnya untuk regresi linear.

Membedakan {i>Mean Squared Error<i} dengan Error Absolut Rata-Rata dan Error Akar Rata-Rata Kuadrat.

TensorFlow Playground menggunakan Rata-rata Error Kuadrat untuk menghitung nilai kerugian.

mesh

#TensorFlow
#GoogleCloud

Dalam pemrograman paralel ML, istilah yang terkait dengan penetapan data dan ke chip TPU, dan menentukan cara nilai ini akan disharding atau direplikasi.

Mesh adalah istilah yang berlebihan yang dapat berarti salah satu dari hal berikut:

  • Tata letak fisik chip TPU.
  • Konstruksi logis abstrak untuk memetakan data dan model ke TPU keripik.

Dalam kedua kasus tersebut, mesh ditentukan sebagai bentuk.

pembelajaran meta

#language

Bagian dari machine learning yang menemukan atau meningkatkan kualitas algoritma pembelajaran. Sistem pembelajaran meta juga dapat bertujuan melatih model untuk dengan cepat mempelajari tugas dari sejumlah kecil data atau dari pengalaman yang diperoleh dalam tugas sebelumnya. Algoritma pembelajaran meta umumnya mencoba untuk mencapai hal-hal berikut:

  • Meningkatkan atau mempelajari fitur rekayasa tangan (seperti penginisialisasi atau pengoptimal).
  • Meningkatkan efisiensi data dan komputasi.
  • Meningkatkan generalisasi.

Meta-learning terkait dengan few-shot learning.

metrik

#TensorFlow

Statistik yang penting bagi Anda.

Tujuan adalah metrik yang diperlukan sistem machine learning dioptimalkan.

Metrics API (tf.metrics)

TensorFlow API untuk mengevaluasi model. Misalnya, tf.metrics.accuracy menentukan seberapa sering prediksi model cocok dengan label.

batch mini

#fundamentals

Subset kecil yang dipilih secara acak dari tumpukan yang diproses dalam satu iterasi. Ukuran tumpukan dari tumpukan mini biasanya antara 10 dan 1.000 contoh.

Misalnya, seluruh set pelatihan (kumpulan lengkap) terdiri dari 1.000 contoh. Selanjutnya anggap saja bahwa Anda mengatur ukuran tumpukan setiap tumpukan mini menjadi 20. Oleh karena itu, setiap iterasi menentukan kerugian pada 20 dari 1.000 contoh secara acak dan kemudian akan menyesuaikan bobot dan bias sebagaimana mestinya.

Jauh lebih efisien untuk menghitung kerugian pada tumpukan mini daripada kerugian pada semua contoh dalam batch lengkap.

penurunan gradien stokastik mini-batch

Algoritma penurunan gradien yang menggunakan kumpulan mini. Dengan kata lain, stokastik mini-batch penurunan gradien memperkirakan gradien berdasarkan subset kecil dari data pelatihan. Penurunan gradien stokastik reguler menggunakan batch mini berukuran 1.

kerugian minimax

Fungsi kerugian untuk jaringan saraf generatif berlawanan, berdasarkan entropi silang antara distribusi data yang dihasilkan dan data aktual.

Kerugian minimax digunakan dalam makalah pertama untuk menjelaskan jaringan saraf generatif berlawanan.

kelas minoritas

#fundamentals

Label yang kurang umum dalam set data kelas tidak seimbang. Misalnya, diberikan sebuah {i>dataset<i} yang berisi 99% label negatif dan 1% label positif, label positif adalah kelas minoritas.

Berbeda dengan kelas mayoritas.

perpaduan pakar

#language
#generativeAI

Skema untuk meningkatkan efisiensi jaringan neural dengan menggunakan hanya subset parameternya (dikenal sebagai pakar) untuk memproses token atau contoh input tertentu. J jaringan gerbang merutekan setiap token input atau contoh ke pakar yang tepat.

Untuk mengetahui detailnya, lihat salah satu makalah berikut:

ML

Singkatan dari machine learning.

MMIT

#language
#image
#generativeAI

Singkatan dari penyesuaian petunjuk multimodal.

MNIST

#image

{i>Dataset<i} domain publik yang dikompilasi oleh LeCun, Cortes, dan Burges yang berisi 60.000 gambar, setiap gambar menunjukkan bagaimana manusia secara manual menulis digit dari 0–9. Tiap gambar disimpan sebagai susunan bilangan bulat 28x28, dengan setiap bilangan bulat adalah nilai hitam putih antara 0 dan 255, inklusif.

MNIST adalah set data kanonis untuk machine learning, yang sering digunakan untuk menguji machine learning. Untuk mengetahui detailnya, lihat Database MNIST untuk Digit Tulisan Tangan.

modalitas

#language

Kategori data tingkat tinggi. Misalnya, angka, teks, gambar, video, dan audio adalah lima modalitas yang berbeda.

model

#fundamentals

Secara umum, konstruksi matematis apa pun yang memproses data input dan mengembalikan {i>output<i} tersebut. Diungkapkan secara berbeda, model adalah seperangkat parameter dan struktur yang diperlukan suatu sistem untuk membuat prediksi. Di supervised machine learning, model mengambil contoh sebagai input dan menyimpulkan prediksi sebagai output. Dalam supervised machine learning, modelnya agak berbeda. Contoh:

  • Model regresi linear terdiri dari kumpulan bobot dan bias.
  • Model jaringan neural terdiri dari:
    • Kumpulan lapisan tersembunyi, yang masing-masing berisi satu atau lebih banyak neuron.
    • Bobot dan bias yang terkait dengan setiap neuron.
  • Model hierarki keputusan terdiri dari:
    • Bentuk pohon; yaitu, pola di mana kondisi-kondisi dan daun-daunnya terhubung.
    • Kondisi dan keluarnya.

Anda dapat menyimpan, memulihkan, atau membuat salinan model.

Unsupervised machine learning juga menghasilkan model, biasanya fungsi yang dapat memetakan contoh input ke cluster yang paling sesuai.

kapasitas model

Kompleksitas masalah yang dapat dipelajari model. Semakin rumit masalah yang dapat dipelajari model, maka makin tinggi pula kapasitas modelnya. Sebuah kapasitas biasanya akan meningkat seiring dengan jumlah parameter model. Untuk definisi formal kapasitas pengklasifikasi, lihat Dimensi VC.

model cascading

#generativeAI

Sistem yang memilih model ideal untuk inferensi tertentu kueri.

Bayangkan sekelompok model, mulai dari yang sangat besar (banyak parameter) menjadi jauh lebih kecil (parameter yang jauh lebih sedikit). Model yang sangat besar menghabiskan lebih banyak sumber daya komputasi inferensi dibandingkan model yang lebih kecil. Namun, sangat besar model biasanya dapat menyimpulkan permintaan yang lebih kompleks daripada model yang lebih kecil. Penyusunan model menentukan kompleksitas kueri inferensi dan kemudian memilih model yang sesuai untuk melakukan inferensi. Motivasi utama untuk penyaluran model adalah untuk mengurangi biaya inferensi dengan umumnya memilih model yang lebih kecil, dan hanya memilih model yang lebih besar untuk mendapatkan kueri yang kompleks.

Bayangkan sebuah model kecil dijalankan di ponsel dan versi yang lebih besar dari model tersebut berjalan pada server jarak jauh. Proses model yang baik mengurangi biaya dan latensi sebesar yang memungkinkan model yang lebih kecil untuk menangani permintaan sederhana dan hanya memanggil model jarak jauh guna menangani permintaan yang kompleks.

Lihat juga router model.

paralelisme model

#language

Cara untuk menskalakan pelatihan atau inferensi yang menempatkan berbagai bagian dari satu bagian model di berbagai perangkat. Paralelisme model memungkinkan model yang terlalu besar untuk diletakkan di satu perangkat.

Untuk menerapkan paralelisme model, sistem biasanya melakukan hal berikut:

  1. Shard (membagi) model menjadi bagian-bagian yang lebih kecil.
  2. Mendistribusikan pelatihan bagian-bagian yang lebih kecil ke beberapa prosesor. Setiap prosesor melatih bagian modelnya sendiri.
  3. Menggabungkan hasil untuk membuat model tunggal.

Paralelisme model memperlambat pelatihan.

Lihat juga paralelisme data.

router model

#generativeAI

Algoritma yang menentukan model ideal untuk inferensi dalam tingkatan model. {i>Router<i} model itu sendiri biasanya adalah model {i>machine learning<i} yang secara bertahap mempelajari cara memilih model terbaik untuk input tertentu. Namun, {i>router<i} model terkadang bisa lebih sederhana, algoritma non-machine learning.

pelatihan model

Proses menentukan model terbaik.

Momentum

Algoritma penurunan gradien canggih yang bergantung pada langkah pembelajaran tidak hanya pada turunan pada langkah saat ini, tetapi juga pada turunan langkah-langkah yang langsung mendahuluinya. Momentum melibatkan komputasi rata-rata pergerakan gradien yang diberi bobot secara eksponensial dari waktu ke waktu, analog terhadap momentum dalam fisika. Momentum terkadang menghambat pembelajaran tertahan di nilai minimum lokal.

MOE

#language
#image
#generativeAI

Singkatan dari campuran pakar.

klasifikasi multi-kelas

#fundamentals

Dalam supervised learning, masalah klasifikasi dengan set data berisi lebih dari dua class label. Misalnya, label dalam {i>dataset<i} Iris harus berupa salah satu dari berikut ini tiga class:

  • Setosa bunga iris
  • Iris Virginica
  • Pancaran warna iris

Model yang dilatih dengan set data Iris yang memprediksi jenis Iris pada contoh baru sedang melakukan klasifikasi multi-kelas.

Sebaliknya, masalah klasifikasi yang membedakan antara dua adalah model klasifikasi biner. Misalnya, model email yang memprediksi spam atau bukan spam adalah model klasifikasi biner.

Dalam masalah pengklasteran, klasifikasi kelas multi-kelas mengacu pada lebih dari dua klaster.

regresi logistik multi-kelas

Menggunakan regresi logistik dalam Masalah klasifikasi kelas jamak.

self-attention multi-kepala

#language

Perluasan dari perhatian mandiri yang menerapkan mekanisme self-attention beberapa kali untuk setiap posisi dalam urutan input.

Transformers memperkenalkan fitur self-attention multi-head.

model multimodal

#language

Model yang input dan/atau outputnya menyertakan lebih dari satu modalitas. Misalnya, pertimbangkan model yang mengambil gambar dan teks teks (dua modalitas) sebagai fitur, dan menghasilkan skor yang menunjukkan seberapa tepat teks keterangan untuk gambar tersebut. Jadi, input model ini multimodal dan output-nya unimodal.

instruksi multimodal disesuaikan

#language

Model yang disesuaikan dengan petunjuk yang dapat memproses input selain teks, seperti gambar, video, dan audio.

klasifikasi multinomial

Sinonim dari klasifikasi kelas jamak.

regresi multinomial

Sinonim untuk regresi logistik multi-kelas.

melakukan banyak tugas

Teknik machine learning saat satu model dibuat dilatih untuk melakukan beberapa tugas.

Model {i>multitask <i}dibuat dengan melatih data yang sesuai untuk masing-masing tugas yang berbeda. Hal ini memungkinkan model belajar membagikan informasi di seluruh tugas, yang membantu model belajar lebih efektif.

Model yang dilatih untuk beberapa tugas sering kali memiliki kemampuan generalisasi yang lebih baik dan bisa lebih tangguh dalam menangani berbagai jenis data.

T

perangkap NaN

Saat satu angka dalam model Anda menjadi NaN selama pelatihan, yang menyebabkan banyak atau semua angka lain dalam model Anda akhirnya menjadi NaN.

NaN adalah singkatan dari Not a Number.

natural language understanding

#language

Menentukan niat pengguna berdasarkan apa yang diketik atau dikatakan pengguna. Misalnya, mesin telusur menggunakan natural language understanding untuk menentukan apa yang dicari pengguna berdasarkan apa yang diketik atau dikatakan pengguna.

kelas negatif

#fundamentals

Dalam klasifikasi biner, satu class disebut disebut positif dan yang lainnya disebut negatif. Kelas positif adalah hal atau peristiwa yang akan diuji oleh model dan kelas negatifnya adalah kemungkinan lainnya. Contoh:

  • Kelas negatif dalam tes medis bisa jadi "bukan Tumor".
  • Kelas negatif dalam pengklasifikasi email mungkin "bukan spam".

Berbeda dengan kelas positif.

sampling negatif

Sinonim dari sampling kandidat.

Neural Architecture Search (NAS)

Teknik untuk merancang arsitektur aplikasi secara otomatis jaringan neural. Algoritma NAS dapat mengurangi jumlah waktu dan resource yang diperlukan untuk melatih jaringan neural.

NAS biasanya menggunakan:

  • Ruang penelusuran, yang merupakan sekumpulan kemungkinan arsitektur.
  • Fungsi kebugaran, yang merupakan ukuran seberapa baik arsitektur yang berfungsi pada tugas tertentu.

Algoritma NAS sering dimulai dengan serangkaian kemungkinan arsitektur dan secara bertahap memperluas ruang pencarian saat algoritma mempelajari lebih lanjut tentang apa arsitektur itu efektif. Fungsi kebugaran biasanya didasarkan pada performa arsitektur pada set pelatihan, dan algoritmanya yang biasanya dilatih menggunakan reinforcement learning.

Algoritma NAS telah terbukti efektif dalam menemukan performa tinggi arsitektur untuk berbagai tugas, termasuk layanan gambar klasifikasi, klasifikasi teks, dan terjemahan mesin.

alur maju

#fundamentals

Sebuah Model berisi setidaknya satu lapisan tersembunyi. Jaringan neural dalam adalah jenis jaringan neural yang berisi lebih dari satu lapisan tersembunyi. Misalnya, diagram berikut menunjukkan jaringan neural dalam yang berisi dua lapisan tersembunyi.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
          lapisan output.

Setiap neuron di jaringan neural terhubung ke semua simpul di lapisan berikutnya. Misalnya, dalam diagram sebelumnya, perhatikan bahwa ketiga neuron di lapisan tersembunyi pertama secara terpisah terhubung ke kedua neuron di lapisan tersembunyi kedua.

Jaringan neural yang diimplementasikan pada komputer kadang-kadang disebut jaringan neural artifisial untuk membedakannya dari jaringan saraf yang ditemukan di otak dan sistem saraf lainnya.

Beberapa jaringan neural dapat meniru hubungan nonlinear yang sangat kompleks antara fitur yang berbeda dan labelnya.

Lihat juga jaringan neural konvolusional dan jaringan saraf berulang.

neuron

#fundamentals

Dalam machine learning, unit yang berbeda dalam lapisan tersembunyi dari jaringan neural. Setiap neuron melakukan hal-hal berikut tindakan dua langkah:

  1. Menghitung jumlah berbobot nilai input yang dikalikan dengan bobotnya yang sesuai.
  2. Meneruskan jumlah tertimbang sebagai input ke fungsi aktivasi.

Sebuah neuron di lapisan tersembunyi pertama menerima {i>input<i} dari nilai fitur di lapisan input. Neuron di lapisan tersembunyi di luar yang pertama menerima input dari neuron di lapisan tersembunyi sebelumnya. Misalnya, neuron di lapisan tersembunyi kedua menerima input dari neuron di lapisan tersembunyi pertama.

Ilustrasi berikut menyoroti dua neuron dan input.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
          lapisan output. Dua neuron disorot: satu di bagian pertama
          lapisan tersembunyi dan satu lagi 
di lapisan tersembunyi kedua. Yang disorot
          neuron di lapisan tersembunyi pertama menerima 
input dari kedua fitur,
          di lapisan input. Neuron yang disorot di lapisan tersembunyi kedua
          menerima input dari ketiga neuron pada
          feedforward.

Sebuah neuron di jaringan saraf meniru perilaku neuron di otak dan bagian lain dari sistem saraf.

N-gram

#seq
#language

Rangkaian N kata yang diurutkan. Misalnya, truly madly bernilai 2 gram. Karena benar-benar berbeda 2 gram dengan benar-benar gila.

T Nama untuk jenis N-gram ini Contoh
2 bigram atau 2 gram untuk pergi, pergi, makan siang, makan malam
3 trigram atau 3 gram makan terlalu banyak, tiga tikus tunanetra, bel berbunyi
4 4 gram berjalan di taman, terkena debu, dan anak itu makan miju-miju

Banyak natural language understanding model bergantung pada N-gram untuk memprediksi kata berikutnya yang akan diketik pengguna atau katakan. Misalnya, anggaplah pengguna mengetik three blind. Model NLU berdasarkan trigram kemungkinan akan memprediksi bahwa selanjutnya pengguna akan mengetik mice.

Bedakan N-gram dengan kantong kata, yang kumpulan kata yang tidak diurutkan.

NLU

#language

Singkatan dari bahasa natural pemahaman.

node (pohon keputusan)

#df

Di pohon keputusan, setiap condition atau leaf.

Pohon keputusan dengan dua kondisi dan tiga daun.

node (jaringan neural)

#fundamentals

neuron dalam lapisan tersembunyi.

node (grafik TensorFlow)

#TensorFlow

Operasi dalam grafik TensorFlow.

kebisingan

Secara garis besar, segala sesuatu yang mengaburkan sinyal dalam {i>dataset<i}. Suara Bising dapat dimasukkan ke dalam data dengan berbagai cara. Contoh:

  • Pelabel manual melakukan kesalahan dalam pelabelan.
  • Manusia dan instrumen salah mencatat atau menghilangkan nilai fitur.

kondisi non-biner

#df

Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan hasil:

Kondisi (number_of_legs = ?) yang menghasilkan tiga kemungkinan
          hasil pengujian tersebut. Satu hasil (number_of_legs = 8) mengarah ke daun
          yang dinamakan spider. Hasil kedua (number_of_legs = 4) mengarah ke
          daun bernama {i>dog<i}. Hasil ketiga (number_of_legs = 2) mengarah ke
          daun bernama penguin.

nonlinear

#fundamentals

Hubungan antara dua atau lebih variabel yang tidak dapat direpresentasikan hanya melalui penjumlahan dan perkalian. Hubungan linear bisa direpresentasikan sebagai garis; hubungan nonlinear tidak dapat direpresentasikan sebagai sebuah garis. Misalnya, perhatikan dua model yang masing-masing berhubungan satu fitur ke satu label. Model di sebelah kiri adalah linear dan model di sebelah kanan adalah nonlinear:

Dua plot. Satu plot adalah sebuah
garis, jadi ini adalah hubungan linear.
          Plot lainnya adalah kurva, jadi ini adalah hubungan nonlinier.

bias abstain

#fairness

Lihat bias seleksi.

nonstasioneritas

#fundamentals

Fitur yang nilainya berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, perhatikan contoh nonstasioneritas berikut:

  • Jumlah pakaian renang yang dijual di toko tertentu bervariasi sesuai musim.
  • Jumlah buah tertentu yang dipanen di wilayah tertentu adalah nol sepanjang tahun, tetapi besar untuk periode waktu yang singkat.
  • Karena perubahan iklim, suhu rata-rata tahunan mengalami perubahan.

Berbeda dengan stasioneritas.

normalisasi

#fundamentals

Secara garis besar, proses konversi rentang aktual variabel ke dalam rentang nilai standar, seperti:

  • -1 hingga +1
  • 0:1
  • Skor Z (kira-kira, -3 hingga +3)

Sebagai contoh, anggaplah kisaran nilai aktual dari fitur tertentu 800 hingga 2.400. Sebagai bagian dari rekayasa fitur, Anda dapat menormalisasi nilai aktual ke kisaran standar, seperti sebagai -1 hingga +1.

Normalisasi adalah tugas umum di rekayasa fitur. Model biasanya berlatih lebih cepat (dan menghasilkan prediksi yang lebih baik) saat setiap fitur numerik dalam vektor fitur memiliki rentang yang kurang lebih sama.

deteksi hal baru

Proses menentukan apakah sebuah contoh baru (baru) berasal dari hal yang sama distribusi sebagai set pelatihan. Dengan kata lain, setelah pelatihan pada set pelatihan, deteksi kebaruan menentukan apakah baru (selama inferensi atau selama pelatihan tambahan) adalah outlier.

Berbeda dengan deteksi pencilan.

data numerik

#fundamentals

Fitur yang direpresentasikan sebagai bilangan bulat atau bilangan bernilai nyata. Misalnya, model penilaian rumah mungkin akan mewakili ukuran rumah (dalam kaki persegi atau meter persegi) sebagai data numerik. Merepresentasikan sebuah fitur sebagai data numerik menunjukkan bahwa nilai fitur itu memiliki hubungan matematika dengan label. Artinya, jumlah meter persegi sebuah rumah mungkin memiliki beberapa hubungan matematis dengan nilai rumah.

Tidak semua data bilangan bulat harus direpresentasikan sebagai data numerik. Misalnya, kode pos di beberapa bagian dunia adalah bilangan bulat; namun, pos bilangan bulat kode tidak boleh direpresentasikan sebagai data numerik dalam model. Hal itu karena seorang kode pos 20000 tidak dua kali (atau setengah) lebih kuat daripada kode pos 10.000. Selain itu, meskipun kode pos yang berbeda benar-benar berkorelasi dengan perbedaan nilai real estate, kita tidak dapat mengasumsikan bahwa nilai real estate pada 20000 dua kali lebih bernilai dibandingkan nilai real estate pada kode pos 10000. Kode pos harus direpresentasikan sebagai data kategorik sebagai gantinya.

Fitur numerik kadang-kadang disebut fitur berkelanjutan.

NumPy

Sebuah library matematika open source yang menyediakan operasi array yang efisien dalam Python. pandas dibangun di NumPy.

O

tujuan

Metrik yang coba dioptimalkan oleh algoritme Anda.

fungsi objektif

Formula matematika atau metrik yang ingin dioptimalkan oleh model. Misalnya, fungsi objektif untuk Regresi linear biasanya Rata-rata Kerugian Kuadrat. Oleh karena itu, saat melatih model regresi linear, pelatihan bertujuan untuk meminimalkan Rata-rata kuadrat kerugian.

Dalam beberapa kasus, tujuannya adalah untuk memaksimalkan fungsi objektif. Misalnya, jika fungsi objektif adalah akurasi, tujuannya adalah untuk memaksimalkan akurasi.

Lihat juga kerugian.

kondisi miring

#df

Dalam pohon keputusan, condition yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar merupakan fitur, maka berikut ini adalah kondisi miring:

  height > width

Berbeda dengan kondisi rata sumbu.

offline

#fundamentals

Sinonim dari statis.

inferensi offline

#fundamentals

Proses model yang menghasilkan sekumpulan prediksi dan kemudian melakukan {i>caching<i} (menyimpan) prediksi tersebut. Aplikasi kemudian dapat mengakses pernyataan yang disimpulkan prediksi dari cache, bukan menjalankan ulang model.

Misalnya, pertimbangkan model yang menghasilkan prakiraan cuaca lokal (prediksi) setiap empat jam sekali. Setelah setiap model berjalan, sistem menyimpan semua prakiraan cuaca lokal ke dalam cache. Aplikasi cuaca mengambil prakiraan cuaca dari cache.

Inferensi offline juga disebut inferensi statis.

Berbeda dengan inferensi online.

encoding one-hot

#fundamentals

Merepresentasikan data kategoris sebagai vektor di mana:

  • Satu elemen ditetapkan ke 1.
  • Semua elemen lainnya ditetapkan ke 0.

Pengkodean {i>one-hot<i} biasanya digunakan untuk merepresentasikan {i>string<i} atau ID yang memiliki serangkaian kemungkinan nilai yang terbatas. Sebagai contoh, anggap sebuah fitur kategorikal tertentu bernama Scandinavia memiliki lima kemungkinan nilai:

  • "Denmark"
  • "Swedia"
  • "Norwegia"
  • "Finlandia"
  • "Islandia"

Enkode one-hot dapat mewakili masing-masing dari lima nilai sebagai berikut:

country Vektor
"Denmark" 1 0 0 0 0
"Swedia" 0 1 0 0 0
"Norwegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islandia" 0 0 0 0 1

Berkat encoding one-hot, model dapat mempelajari koneksi yang berbeda berdasarkan masing-masing dari kelima negara.

Merepresentasikan fitur sebagai data numerik adalah alternatif untuk enkode one-hot. Sayangnya, mewakili Negara-negara di Skandinavia secara numerik bukanlah pilihan yang baik. Misalnya, pertimbangkan representasi numerik berikut ini:

  • "Denmark" adalah 0
  • "Swedia" adalah 1
  • "Norwegia" adalah 2
  • "Finlandia" adalah 3
  • "Islandia" adalah 4

Dengan pengkodean numerik, model akan menafsirkan nilai mentah secara matematis dan akan mencoba melatih angka-angka itu. Namun, Islandia tidak dua kali lipat (atau setengahnya) sesuatu seperti Norwegia, sehingga model ini sampai pada beberapa kesimpulan yang aneh.

pemelajaran satu kali

Pendekatan {i>machine learning<i}, yang sering digunakan untuk klasifikasi objek, yang dirancang untuk mempelajari pengklasifikasi yang efektif dari satu contoh pelatihan.

Lihat juga pembelajaran beberapa tahap dan pembelajaran zero-shot.

metode one-shot prompting

#language
#generativeAI

Perintah yang berisi satu contoh yang menunjukkan cara model bahasa besar akan merespons. Misalnya, prompt berikut berisi satu contoh yang menunjukkan model bahasa besar model ini harus menjawab kueri.

Bagian dari satu perintah Catatan
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang perlu dijawab oleh LLM.
Prancis: EUR Satu contoh.
India: Kueri sebenarnya.

Bandingkan dan bedakan one-shot prompting dengan istilah berikut:

satu vs. semua

#fundamentals

Mengingat masalah klasifikasi dengan kelas N, larutan yang terdiri dari N dan pengklasifikasi biner—satu pengklasifikasi biner untuk setiap hasil yang mungkin. Misalnya, dengan model yang mengklasifikasikan contoh seperti hewan, sayur, atau mineral, solusi satu vs. semua akan memberikan berikut tiga pengklasifikasi biner terpisah:

  • hewan versus bukan hewan
  • sayuran versus bukan sayur
  • mineral versus bukan mineral

online

#fundamentals

Sinonim dari dinamis.

inferensi online

#fundamentals

Menghasilkan prediksi sesuai permintaan. Misalnya, anggaplah aplikasi meneruskan input ke model dan mengeluarkan permintaan untuk prediksi. Sistem yang menggunakan inferensi {i>online<i} merespons permintaan dengan menjalankan model (dan menampilkan prediksi ke aplikasi).

Berbeda dengan inferensi offline.

operasi (op)

#TensorFlow

Di TensorFlow, prosedur apa pun yang memanipulasi, atau menghancurkan Tensor. Sebagai misalnya, perkalian matriks adalah operasi yang menggunakan dua Tensor sebagai input dan menghasilkan satu Tensor sebagai output.

Optax

Library pemrosesan dan pengoptimalan gradien untuk JAX. Optax memfasilitasi penelitian dengan menyediakan fondasi yang dapat digabungkan ulang dengan cara kustom untuk mengoptimalkan model parametrik seperti deep neural network. Tujuan lainnya termasuk:

  • Menyediakan implementasi yang dapat dibaca, teruji dengan baik, dan efisien dari komponen inti.
  • Meningkatkan produktivitas dengan memungkinkan penggabungan bahan-bahan tingkat rendah menjadi pengoptimal khusus (atau komponen pemrosesan gradien lainnya).
  • Mempercepat penerapan ide-ide baru dengan memudahkan siapa saja untuk berkontribusi.

pengoptimal

Implementasi spesifik dari penurunan gradien algoritme. Pengoptimal populer mencakup:

  • AdaGrad, yang merupakan singkatan dari ADAptive GRADient descent.
  • Adam, yang merupakan singkatan dari ADAptive dengan Momentum.

bias homogenitas di luar golongan

#fairness

Kecenderungan untuk melihat anggota di luar kelompok lebih mirip daripada anggota dalam grup ketika membandingkan sikap, nilai, ciri kepribadian, dan karakteristik. Dalam grup mengacu pada orang yang berinteraksi dengan Anda secara rutin; out-group mengacu pada orang yang tidak berinteraksi dengan Anda secara rutin. Jika Anda membuat {i>dataset<i} dengan meminta orang-orang untuk memberikan atribut tentang luar kelompok, atribut tersebut mungkin kurang bernuansa dan lebih stereotip. daripada atribut yang dicantumkan peserta untuk orang-orang dalam kelompok mereka.

Misalnya, Liliput mungkin menggambarkan rumah penduduk Liliput lainnya dengan sangat mendetail, menyebutkan perbedaan kecil dalam gaya arsitektur, {i>window<i}, pintu, dan ukurannya. Namun, Liliput yang sama mungkin hanya mendeklarasikan bahwa Semua penghuni Brobdingnagia tinggal di rumah yang identik.

Bias kehomogenan luar golongan adalah bentuk bias atribusi golongan.

Lihat juga bias dalam golongan.

deteksi pencilan

Proses mengidentifikasi outlier dalam suatu set pelatihan.

Berbeda dengan deteksi baru.

kekecualian

Nilai yang berbeda dari sebagian besar nilai lainnya. Dalam machine learning, setiap berikut ini adalah pencilan:

  • Data input yang nilainya lebih dari 3 deviasi standar dari nilai rata-rata.
  • Bobot dengan nilai absolut yang tinggi.
  • Nilai yang diprediksi relatif jauh dari nilai sebenarnya.

Misalnya, widget-price adalah fitur dari model tertentu. Asumsikan bahwa rata-rata widget-price adalah 7 Euro dengan simpangan baku sebesar 1 Euro. Contoh berisi widget-price sebesar 12 Euro atau 2 Euro oleh karena itu akan dianggap {i>outlier <i} karena masing-masing harga tersebut lima deviasi standar dari nilai {i>mean<i}.

Pencilan sering disebabkan oleh kesalahan ketik atau kesalahan {i>input<i} lainnya. Dalam kasus lain, {i>outliers <i}bukanlah kesalahan; bagaimanapun juga, nilai lima deviasi standar dari nilai rata-rata jarang terjadi tetapi hampir tidak mungkin.

Pencilan sering menyebabkan masalah dalam pelatihan model. Pembuatan klip adalah salah satu cara untuk mengelola {i>outlier<i}.

evaluasi luar biasa (evaluasi OOB)

#df

Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan terhadap contoh yang tidak digunakan selama pelatihan tentang pohon keputusan tersebut. Misalnya, di kolom berikut ini, perhatikan bahwa sistem melatih setiap pohon keputusan pada sekitar dua pertiga contoh, lalu mengevaluasinya berdasarkan sepertiga dari contoh yang tersisa.

Hutan keputusan yang terdiri dari tiga pohon keputusan.
          Satu pohon keputusan mempelajari dua pertiga contoh
          dan kemudian menggunakan sepertiga sisanya 
untuk evaluasi OOB.
          Pohon keputusan kedua dilatih di dua pertiga yang berbeda
          contoh dari pohon keputusan sebelumnya, dan kemudian
          menggunakan sepertiga yang berbeda untuk evaluasi OOB
          pohon keputusan sebelumnya.

Evaluasi {i>out-of-bag<i} adalah metode konservatif yang efisien dan konservatif perkiraan mekanisme validasi silang. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, satu model dilatih. Karena pengisian menahan beberapa data dari setiap pohon selama pelatihan, evaluasi OOB dapat data itu untuk memperkirakan validasi silang.

lapisan output

#fundamentals

"Terakhir" lapisan jaringan neural. Lapisan output berisi prediksi.

Ilustrasi berikut menunjukkan deep neural network kecil dengan input dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
          lapisan output. Lapisan input terdiri dari dua fitur. Yang pertama
          lapisan tersembunyi terdiri dari tiga neuron dan lapisan tersembunyi kedua
          terdiri dari dua neuron. Lapisan output terdiri dari satu node.

overfitting

#fundamentals

Membuat model yang sesuai dengan data pelatihan terlalu dekat sehingga model gagal membuat prediksi yang benar pada data baru.

Regularisasi dapat mengurangi overfitting. Pelatihan pada set pelatihan yang besar dan beragam juga dapat mengurangi overfitting.

pengambilan sampel berlebih

Menggunakan kembali contoh dari class minoritas di set data kelas tidak seimbang untuk buat set pelatihan yang lebih seimbang.

Sebagai contoh, pertimbangkan klasifikasi biner masalah yang mana rasio kelas mayoritas dengan kelas minoritas adalah 5.000:1. Jika {i>dataset<i} berisi satu juta contoh, maka {i>dataset<i} itu hanya berisi sekitar 200 contoh kelas minoritas, yang mungkin terlalu sedikit contoh untuk pelatihan yang efektif. Untuk mengatasi kekurangan ini, Anda mungkin melakukan oversampling (menggunakan kembali) 200 contoh tersebut beberapa kali, contoh yang memadai untuk pelatihan yang berguna.

Anda perlu berhati-hati terhadap penggunaan overfitting yang berlebihan saat {i>oversampling<i}.

Berbeda dengan undersampling.

P

data terpaket

Sebuah pendekatan untuk menyimpan data dengan lebih efisien.

Data yang dikemas menyimpan data dengan menggunakan format terkompresi atau beberapa cara lain yang memungkinkan komputer itu diakses dengan lebih efisien. Data yang dikemas meminimalkan jumlah memori dan komputasi yang diperlukan untuk mengaksesnya, sehingga menghasilkan pelatihan yang lebih cepat dan inferensi model yang lebih efisien.

Data yang dikemas sering digunakan dengan teknik lain, seperti pengayaan data dan regularisasi, yang semakin meningkatkan performa model.

pandas

#fundamentals

API analisis data berorientasi kolom yang dibuat di atas numpy. Banyak framework machine learning, termasuk TensorFlow, mendukung struktur data pandas sebagai input. Lihat dokumentasi pandas untuk mengetahui detailnya.

parameter

#fundamentals

Bobot dan bias yang dipelajari model selama pelatihan. Misalnya, di regresi linear, parameternya terdiri dari bias (b) dan semua bobot (w1, w2, dan seterusnya) dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sebaliknya, hyperparameter adalah nilai yang yang Anda (atau layanan penyesuaian hyperparameter) ke model. Misalnya, kecepatan pembelajaran adalah hyperparameter.

parameter-efficient tuning

#language
#generativeAI

Serangkaian teknik untuk mengoptimalkan berbagai model bahasa terlatih (PLM) lebih efisien daripada penyesuaian penuh. Parameter-efficient tuning biasanya melakukan penyesuaian yang jauh lebih sedikit parameter daripada menyetel fine-tuning, namun umumnya menghasilkan model bahasa besar yang berfungsi juga (atau hampir sama) model bahasa besar yang dibangun dari fine-tuning.

Bandingkan dan buat perbedaan nyata penyesuaian parameter yang efisien dengan:

Parameter-efficient tuning juga dikenal sebagai parameter-efficient tuning.

Server Parameter (PS)

#TensorFlow

Tugas yang melacak parameter model dalam yang terdistribusi.

pembaruan parameter

Operasi penyesuaian parameter model selama pelatihan, biasanya dalam satu iterasi penurunan gradien.

turunan parsial

Turunan yang mana semua kecuali satu variabel dianggap sebagai konstanta. Misalnya, turunan parsial f(x, y) terhadap x adalah turunan f yang dianggap sebagai fungsi x saja (yaitu, menjaga y ). Turunan parsial f yang terkait dengan x hanya berfokus pada bagaimana x mengubah dan mengabaikan semua variabel lain dalam persamaan.

bias partisipasi

#fairness

Sinonim dari bias non-respons. Lihat bias seleksi.

strategi partisi

Algoritma yang membagi variabel-variabel server parameter.

Pax

Framework pemrograman yang dirancang untuk melatih skala besar model jaringan neural begitu besar bahwa keduanya menjangkau beberapa TPU chip akselerator slice atau pod.

Pax di-build di Flax, yang di-build di JAX.

Diagram yang menunjukkan posisi Pax dalam stack software.
          Pax dibangun di atas JAX. Pax sendiri terdiri dari tiga
          lapisan berbeda. Lapisan bawah berisi TensorStore dan Flax.
          Lapisan tengah berisi Optax dan Flaxformer. Atas
          berisi Praxis Modeling Library. {i>Fiddle<i} dibuat
          selain Pax.

perseptron

Sebuah sistem (baik perangkat keras atau perangkat lunak) yang menggunakan satu atau lebih nilai input, menjalankan fungsi pada jumlah input berbobot, dan menghitung satu nilai output. Dalam machine learning, fungsinya biasanya nonlinear, seperti ReLU, ReLU, atau tanh. Misalnya, perseptron berikut bergantung pada fungsi sigmoid untuk memproses tiga nilai input:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Dalam ilustrasi berikut, perseptron mengambil tiga input, yang masing-masing itu sendiri dimodifikasi oleh bobot sebelum memasuki perceptron:

Perceptron yang menggunakan 3 input, masing-masing dikalikan dengan
          bobot. Perceptron menghasilkan satu nilai.

Perseptron adalah neuron di jaringan neural.

performa

Istilah yang memiliki banyak arti sebagai berikut:

  • Makna standar dalam rekayasa perangkat lunak. Yaitu: Seberapa cepat (atau efisien) apakah perangkat lunak ini berjalan?
  • Makna dalam machine learning. Di sini, performa menjawab pertanyaan berikut: Seberapa benar model ini? Yaitu, seberapa bagus prediksi modelnya?

tingkat kepentingan variabel permutation

#df

Jenis variabel kepentingan yang mengevaluasi peningkatan error prediksi model setelah mengubah nilai fitur. Nilai penting variabel permutasi adalah variabel independen model metrik.

perpleksitas

Salah satu ukuran terkait seberapa baik model menyelesaikan tugasnya. Misalnya, tugas Anda adalah membaca beberapa huruf pertama dari sebuah kata pengguna sedang mengetik di {i>keyboard<i} ponsel, dan menawarkan daftar kemungkinan kata penyelesaian. Perpleksitas, P, untuk tugas ini adalah sekitar jumlah perkiraan yang perlu Anda tawarkan agar daftar Anda dapat berisi kata yang coba diketik pengguna.

Perpleksitas terkait dengan entropi silang sebagai berikut:

$$P= 2^{-\text{cross entropy}}$$

pipeline

Infrastruktur yang berkaitan dengan algoritma machine learning. Suatu Pipeline termasuk mengumpulkan data, memasukkan data ke dalam file data pelatihan, melatih satu atau beberapa model, dan mengekspor model tersebut ke produksi.

pipeline

#language

Bentuk paralelisme model di mana model dibagi menjadi beberapa tahap yang berurutan dan setiap tahap dijalankan di perangkat yang berbeda. Saat sebuah tahap memproses satu batch, bisa berfungsi di batch berikutnya.

Lihat juga pelatihan bertahap.

{i>Pjit<i}

Fungsi JAX yang membagi kode untuk dijalankan di beberapa chip akselerator. Pengguna meneruskan fungsi ke {i>pjit<i}, yang menampilkan fungsi yang memiliki semantik setara tetapi dikompilasi menjadi komputasi XLA yang berjalan di beberapa perangkat (seperti GPU atau core TPU).

{i>pjit <i}memungkinkan pengguna untuk melakukan sharding komputasi tanpa menulis ulang partisi SPMD.

Mulai Maret 2023, pjit telah digabungkan dengan jit. Rujuk ke Array terdistribusi dan otomatis paralelisasi untuk mengetahui detail selengkapnya.

PLM

#language
#generativeAI

Singkatan dari model bahasa terlatih.

pmap

Fungsi JAX yang menjalankan salinan fungsi input di beberapa perangkat hardware (CPU, GPU, atau TPU), dengan nilai input yang berbeda. pmap bergantung pada SPMD.

kebijakan

#rl

Dalam reinforcement learning, pemetaan probabilistik agen dari status ke tindakan.

penggabungan

#image

Mengurangi matriks (atau matriks) yang dibuat oleh lapisan konvolusional ke matriks yang lebih kecil. Penggabungan biasanya melibatkan pengambilan nilai maksimum atau rata-rata di seluruh area gabungan. Misalnya, kita memiliki berikut matriks 3x3:

Matriks 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Operasi penggabungan, seperti operasi konvolusional, membagi menjadi irisan dan kemudian menggeser operasi konvolusional tersebut dengan langkah. Misalnya, operasi penggabungan matriks konvolusional dibagi menjadi 2 x 2 potongan dengan panjang 1x1. Seperti yang digambarkan oleh diagram berikut, empat operasi penggabungan terjadi. Bayangkan setiap operasi penggabungan mengambil nilai maksimum empat dalam irisan itu:

Matriks inputnya adalah 3x3 dengan nilai: [[5,3,1], [8,2,5], [9,4,3]].
          Submatriks 2x2 kiri atas dari matriks input adalah [[5,3], [8,2]], jadi
          operasi penggabungan kiri atas menghasilkan nilai 8 (yang merupakan
          maksimal 5, 3, 8, dan 2). Submatriks 2x2 kanan atas dari input
          adalah [[3,1], [2,5]], sehingga operasi penggabungan kanan atas menghasilkan
          nilai 5. Submatriks 2x2 kiri bawah dari matriks input adalah
          [[8,2], [9,4]], sehingga operasi penggabungan kiri bawah menghasilkan nilai
          9. Submatriks 2x2 kanan bawah dari matriks input adalah
          [[2,5], [4,3]], sehingga operasi penggabungan kanan bawah menghasilkan nilai
          5. Singkatnya, operasi penggabungan menghasilkan matriks 2 x 2
          [[8,5], [9,5]].

Penggabungan membantu menegakkan invariansi translasi dalam matriks input.

Penggabungan untuk aplikasi visi dikenal lebih formal sebagai penggabungan spasial. Penerapan deret waktu biasanya mengacu pada penggabungan sebagai penggabungan sementara. Secara kurang formal, penggabungan sering kali disebut subsampling atau downsampling.

encoding posisi

#language

Teknik untuk menambahkan informasi tentang posisi token secara berurutan ke embedding token. Model transformer menggunakan posisi pengkodean untuk lebih memahami hubungan antara berbagai bagian dari .

Implementasi umum dari pengkodean posisi{i> <i}menggunakan fungsi sinusoidal. (Secara khusus, frekuensi dan amplitudo fungsi sinusoidal ditentukan oleh posisi token dalam urutan.) Teknik ini memungkinkan model Transformer untuk belajar menangani berbagai bagian berurutan berdasarkan posisinya.

kelas positif

#fundamentals

Class yang akan diuji.

Misalnya, kelas positif dalam model kanker mungkin adalah "tumor". Kelas positif dalam pengklasifikasi email mungkin adalah "spam".

Berbeda dengan kelas negatif.

pascapemrosesan

#fairness
#fundamentals

Menyesuaikan output model setelah model dijalankan. Pascapemrosesan dapat digunakan untuk menegakkan batasan keadilan tanpa memodifikasi model itu sendiri.

Misalnya, seseorang mungkin menerapkan pascapemrosesan ke pengklasifikasi biner dengan menetapkan batas klasifikasi sehingga kesetaraan peluang tetap dipertahankan untuk beberapa atribut dengan memeriksa rasio positif benar adalah sama untuk semua nilai atribut tersebut.

PR AUC (area di bawah kurva PR)

Area dalam interpolasi kurva presisi-recall, yang diperoleh dengan pemetaan (recall, presisi) poin untuk nilai yang berbeda dari nilai minimum klasifikasi. Tergantung cara itu dihitung, PR AUC mungkin setara dengan presisi rata-rata model.

Praxis

Library ML inti berperforma tinggi dari Pax. Praksis sering yang disebut "Library lapisan".

Praxis tidak hanya berisi definisi untuk class Layer, tetapi sebagian besar komponen pendukungnya, termasuk:

Praxis memberikan definisi untuk class Model.

presisi

Metrik untuk model klasifikasi yang menjawab pertanyaan berikut:

Ketika model memprediksi kelas positif, berapa persentase prediksi yang benar?

Berikut ini formulanya:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dalam hal ini:

  • positif benar berarti model dengan benar memprediksi class positif.
  • positif palsu berarti model tersebut salah memprediksi class positif.

Misalnya, sebuah model membuat 200 prediksi positif. Dari 200 prediksi positif ini:

  • 150 adalah positif benar.
  • 50 adalah positif palsu.

Dalam hal ini:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Berbeda dengan akurasi dan perolehan.

Lihat Klasifikasi: Akurasi, perolehan, presisi, dan terkait metrik untuk informasi selengkapnya.

kurva presisi-recall

Kurva presisi versus recall dengan perbedaan nilai minimum klasifikasi.

prediksi

#fundamentals

Output model. Contoh:

  • Prediksi model klasifikasi biner adalah prediksi atau kelas negatif.
  • Prediksi model klasifikasi multi-class adalah satu class.
  • Prediksi model regresi linear adalah angka.

bias prediksi

Nilai yang menunjukkan seberapa jauh rata-rata dari prediksi adalah dari rata-rata label dalam set data.

Harap bedakan dengan istilah bias dalam model machine learning atau dengan bias dalam etika dan keadilan.

ML prediktif

Semua sistem machine learning standar ("klasik")

Istilah ML prediktif tidak memiliki definisi formal. Sebaliknya, istilah tersebut membedakan kategori sistem ML yang tidak didasarkan pada AI generatif.

paritas prediktif

#fairness

Metrik keadilan yang memeriksa apakah, untuk pengklasifikasi tertentu, kecepatan presisi setara untuk subgrup yang dipertimbangkan.

Misalnya, model yang memprediksi penerimaan perguruan tinggi akan memuaskan paritas prediktif untuk kebangsaan jika tingkat presisinya sama untuk Lilliput dan Brobdingnagians.

Paritas prediktif terkadang juga disebut paritas rasio prediktif.

Lihat "Definisi Keadilan Explained" (bagian 3.2.1) untuk diskusi yang lebih rinci tentang paritas prediktif.

paritas rasio prediktif

#fairness

Nama lain untuk paritas prediktif.

pra-pemrosesan

#fairness
Memproses data sebelum digunakan untuk melatih model. Pra-pemrosesan dapat sesederhana menghapus kata-kata dari korpus teks bahasa Inggris yang tidak muncul dalam kamus bahasa Inggris, atau bisa serumit penyampaian titik data dengan cara yang menghilangkan banyak atribut yang berkorelasi dengan atribut sensitif. Pra-pemrosesan dapat membantu memenuhi batasan keadilan.

model terlatih

#language
#image
#generativeAI

Model atau komponen model (seperti vektor penyematan) yang telah dilatih. Terkadang, Anda akan memasukkan vektor embedding terlatih ke jaringan neural. Pada lain waktu, model Anda akan melatih embedding vektor itu sendiri, daripada mengandalkan embeddings terlatih.

Istilah model bahasa terlatih mengacu pada model bahasa besar yang telah melewati pra-pelatihan.

latihan awal

#language
#image
#generativeAI

Pelatihan awal model pada set data besar. Beberapa model terlatih adalah raksasa yang ceroboh dan biasanya harus ditingkatkan melalui pelatihan tambahan. Misalnya, pakar ML mungkin melatih model bahasa besar (LLM) di set data teks yang luas, seperti semua halaman berbahasa Inggris di Wikipedia. Setelah pelatihan awal, model yang dihasilkan mungkin akan ditingkatkan kualitasnya melalui salah satu teknik:

keyakinan sebelumnya

Apa yang Anda yakini tentang data sebelum Anda mulai melatihnya. Misalnya, regularisasi L2 bergantung pada keyakinan sebelumnya bahwa bobot harus kecil dan normal didistribusikan di sekitar nol.

model regresi probabilistik

Model regresi yang tidak hanya menggunakan bobot untuk setiap fitur, tetapi juga ketidakpastian mengenai bobot tersebut. Model regresi probabilistik menghasilkan prediksi dan ketidakpastian prediksi tersebut. Sebagai contoh, model regresi probabilistik mungkin menghasilkan prediksi 325 dengan deviasi standar 12. Untuk mengetahui informasi selengkapnya tentang regresi probabilistik lihat halaman Colab ini di tensorflow.org.

fungsi kepadatan probabilitas

Fungsi yang mengidentifikasi frekuensi sampel data benar-benar nilai tertentu. Jika nilai set data adalah floating point berkelanjutan angka, pencocokan persis jarang terjadi. Namun, mengintegrasikan model fungsi kepadatan dari nilai x ke nilai y menghasilkan frekuensi yang diharapkan sampel data antara x dan y.

Misalnya, pertimbangkan distribusi normal yang memiliki rata-rata 200 dan deviasi standar 30. Untuk menentukan frekuensi sampel data yang diharapkan berada dalam kisaran 211,4 hingga 218,7, Anda dapat mengintegrasikan fungsi kepadatan untuk distribusi normal dari 211,4 ke 218,7.

perintah

#language
#generativeAI

Semua teks yang dimasukkan sebagai input pada model bahasa besar untuk mengondisikan model agar berperilaku dengan cara tertentu. Perintah bisa sesingkat frasa atau panjangnya bebas (misalnya, seluruh teks novel). Perintah dapat dikelompokkan ke dalam beberapa kategori, termasuk yang ditampilkan dalam tabel berikut:

Kategori perintah Contoh Catatan
Pertanyaan Seberapa cepat merpati bisa terbang?
Petunjuk Tulis puisi lucu tentang arbitrase. Prompt yang meminta model bahasa besar untuk melakukan sesuatu.
Contoh Terjemahkan kode Markdown ke HTML. Contoh:
{i>Markdown<i}: * item daftar
HTML: <ul> <li>daftar item</li> &lt;/ul&gt;
Kalimat pertama dalam contoh perintah ini adalah instruksi. sisa perintah adalah contohnya.
Peran Menjelaskan mengapa penurunan gradien digunakan dalam pelatihan machine learning untuk mendapatkan gelar PhD di bidang Fisika. Bagian pertama dari kalimat itu adalah instruksi; frasa "mendapatkan gelar PhD di bidang Fisika" adalah bagian peran.
Input sebagian untuk diselesaikan model Perdana Menteri Inggris Raya tinggal di Perintah input parsial dapat berakhir secara tiba-tiba (seperti yang terjadi pada contoh ini) atau diakhiri dengan garis bawah.

Model AI generatif dapat merespons perintah dengan teks, kode, gambar, sematan, video...hampir apa saja.

pembelajaran berbasis perintah

#language
#generativeAI

Kemampuan model tertentu yang memungkinkan mereka beradaptasi perilakunya sebagai respons terhadap input teks arbitrer (perintah). Dalam paradigma pembelajaran berbasis perintah yang umum, model bahasa besar (LLM) merespons perintah dengan menghasilkan teks. Misalnya, anggaplah pengguna memasukkan perintah berikut:

Ringkaslah Hukum Ketiga Gerak Newton.

Model yang mampu melakukan pembelajaran berbasis perintah tidak dilatih secara khusus untuk menjawab perintah sebelumnya. Sebaliknya, model “mengetahui” banyak fakta tentang fisika, banyak tentang aturan bahasa umum, dan banyak hal tentang apa yang jawaban yang bermanfaat. Pengetahuan tersebut cukup untuk memberikan (semoga) yang bermanfaat ke suatu jawaban tertentu. Masukan tambahan dari manusia ("Jawaban itu terlalu rumit." atau "Apa itu reaksi?") memungkinkan beberapa sistem pembelajaran berbasis perintah untuk secara bertahap meningkatkan kegunaan jawaban mereka.

desain prompt

#language
#generativeAI

Sinonim dari rekayasa perintah.

rekayasa perintah

#language
#generativeAI

Seni membuat perintah yang menghasilkan respons yang diinginkan dari model bahasa besar. Manusia menjalankan perintah teknik. Menulis perintah yang terstruktur dengan baik adalah bagian penting dalam memastikan respons yang berguna dari model bahasa besar. Prompt Engineering bergantung pada banyak faktor, termasuk:

Lihat Pengantar desain prompt untuk mengetahui detail selengkapnya tentang cara menulis perintah yang bermanfaat.

Prompt Design adalah sinonim untuk Prompt Engineering.

prompt tuning

#language
#generativeAI

Mekanisme parameter-efficient tuning yang mempelajari "awalan" bahwa sistem menambahkan perintah sebenarnya.

Salah satu variasi prompt tuning—terkadang disebut tuning awalan—adalah untuk tambahkan awalan di setiap lapisan. Sebaliknya, sebagian besar prompt tuning menambahkan awalan ke lapisan input.

label proxy

#fundamentals

Data yang digunakan untuk memperkirakan label yang tidak tersedia secara langsung dalam set data.

Misalnya, Anda harus melatih model untuk memprediksi karyawan tingkat stres. {i>Dataset<i} Anda berisi banyak fitur prediktif tetapi tidak memiliki label bernama tingkat stres. Tidak berkecil hati, Anda memilih "kecelakaan di tempat kerja" sebagai label proxy untuk tingkat stres. Lagi pula, karyawan yang berada dalam tekanan tinggi akan menjadi lebih kecelakaan daripada karyawan yang menenangkan. Atau iya kan? Kemungkinan kecelakaan di tempat kerja bisa saja naik turun karena berbagai alasan.

Sebagai contoh kedua, misalkan Anda ingin apakah hujan? menjadi label Boolean untuk set data Anda, tetapi set data Anda tidak berisi data hujan. Jika foto tersedia, Anda mungkin membuat foto orang-orang membawa payung sebagai label proxy untuk apakah hujan? Apakah itu label {i>proxy<i} yang bagus? Mungkin, tetapi orang-orang di beberapa budaya mungkin lebih mungkin membawa payung untuk melindungi dari sinar matahari daripada hujan.

Label proxy sering kali tidak sempurna. Jika memungkinkan, pilih label yang sebenarnya daripada label {i>proxy<i}. Meskipun demikian, jika label sebenarnya tidak ada, pilih proxy label dengan sangat hati-hati, memilih kandidat label {i>proxy<i} yang paling tidak buruk.

proxy (atribut sensitif)

#fairness
Atribut yang digunakan sebagai pengganti atribut sensitif. Sebagai contoh, kode pos individu dapat digunakan sebagai {i>proxy<i} untuk pendapatan mereka, ras, atau etnis.

fungsi murni

Fungsi yang outputnya hanya didasarkan pada inputnya, dan yang tidak memiliki sisi yang dihasilkan. Secara khusus, fungsi murni tidak menggunakan atau mengubah status global, seperti isi file atau nilai variabel di luar fungsi.

Fungsi murni dapat digunakan untuk membuat kode yang aman untuk thread, yang bermanfaat saat sharding kode model di beberapa chip akselerator.

Metode transformasi fungsi JAX memerlukan bahwa fungsi input adalah fungsi murni.

T

Fungsi Q

#rl

Dalam reinforcement learning, fungsi yang memprediksi laba yang diharapkan dari tindakan dalam status, lalu mengikuti kebijakan tertentu.

Fungsi Q juga dikenal sebagai fungsi nilai status-tindakan.

Q-learning

#rl

Dalam reinforcement learning, algoritma yang mengizinkan agen untuk mempelajari fungsi Q yang optimal dari Proses keputusan Markov dengan menerapkan Persamaan Bellman. Model proses keputusan Markov lingkungan.

kuantil

Setiap bucket dalam bucketing kuantil.

pengelompokan kuantil

Mendistribusikan nilai fitur ke dalam bucket sehingga setiap bucket berisi jumlah contoh yang sama (atau hampir sama). Misalnya, gambar berikut membagi 44 poin menjadi 4 bucket, yang masing-masing berisi 11 poin. Agar setiap kelompok dalam gambar berisi jumlah titik yang sama, beberapa bucket memiliki lebar nilai x yang berbeda.

44 titik data dibagi menjadi 4 bucket yang masing-masing berisi 11 poin.
          Meskipun setiap kelompok berisi 
jumlah {i>data point<i} yang sama,
          beberapa bucket berisi rentang nilai fitur yang lebih luas daripada
          bucket.

kuantisasi

Istilah yang berlebihan yang dapat digunakan dengan salah satu cara berikut:

  • Mengimplementasikan bucket kuantil pada fitur tertentu.
  • Mengubah data menjadi angka nol dan satu untuk penyimpanan, pelatihan, dan dan menyimpulkan. Karena data Boolean lebih andal terhadap {i>noise<i} dan kesalahan daripada format lain, kuantisasi dapat meningkatkan ketepatan model. Teknik kuantisasi meliputi pembulatan, pemotongan, dan binning.
  • Mengurangi jumlah bit yang digunakan untuk menyimpan kunci parameter. Misalnya, parameter model adalah disimpan sebagai angka floating point 32-bit. Kuantisasi mengonversi parameter dari 32 bit menjadi 4, 8, atau 16 bit. Kuantisasi mengurangi berikut ini:

    • Penggunaan komputasi, memori, disk, dan jaringan
    • Waktu untuk menyimpulkan predikasi
    • Konsumsi daya

    Namun, kuantisasi terkadang menurunkan ketepatan terhadap prediksi yang di-output oleh model.

antrean

#TensorFlow

Operation TensorFlow yang menerapkan data antrean karena ada berbagai struktur penetapan harga. Biasanya digunakan dalam I/O.

R

RAG

#fundamentals

Singkatan dari pembuatan berbasis pengambilan.

hutan acak

#df

Ansambel pohon keputusan dalam di mana setiap pohon keputusan dilatih dengan derau acak tertentu, seperti pengisian bagasi.

Forest acak adalah jenis hutan keputusan.

kebijakan acak

#rl

Dalam reinforcement learning, kebijakan yang memilih tindakan secara acak.

peringkat

Jenis supervised learning yang tujuannya adalah untuk mengurutkan daftar item.

peringkat (ordinalitas)

Posisi ordinal suatu kelas dalam masalah machine learning yang mengkategorikan dari yang tertinggi hingga terendah. Misalnya, peringkat perilaku sistem dapat mengurutkan penghargaan dari yang tertinggi (steak) hingga terendah (kale layu).

peringkat (Tensor)

#TensorFlow

Jumlah dimensi dalam Tensor. Misalnya, skalar memiliki peringkat 0, vektor memiliki peringkat 1, dan matriks memiliki peringkat 2.

Harap bedakan dengan peringkat (ordinalitas).

pelabel

#fundamentals

Manusia yang memberikan label untuk contoh. "Annotator" adalah nama lain untuk penilai.

recall

Metrik untuk model klasifikasi yang menjawab pertanyaan berikut:

Saat kebenaran dasar adalah kelas positif, persentase prediksi yang model mengidentifikasi dengan benar sebagai class positif?

Berikut ini formulanya:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dalam hal ini:

  • positif benar berarti model dengan benar memprediksi class positif.
  • negatif palsu berarti bahwa model keliru memprediksi kelas negatif.

Misalnya, model Anda membuat 200 prediksi dengan contoh kebenaran dasar adalah kelas positif. Dari 200 prediksi ini:

  • 180 adalah positif benar.
  • 20 adalah negatif palsu.

Dalam hal ini:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Lihat Klasifikasi: Akurasi, perolehan, presisi, dan terkait metrik untuk informasi selengkapnya.

sistem rekomendasi

#recsystems

Sistem yang memilih satu set yang relatif kecil untuk setiap pengguna yang diinginkan items dari korpus besar. Misalnya, sistem rekomendasi video mungkin merekomendasikan dua video dari korpus yang berisi 100.000 video, memilih Casablanca dan The Philadelphia Story untuk satu pengguna, dan Wonder Woman serta Black Panther untuk yang lain. Sistem rekomendasi video mungkin mendasarkan rekomendasinya pada faktor-faktor seperti:

  • Film yang telah dinilai atau ditonton oleh pengguna yang serupa.
  • Genre, sutradara, aktor, demografi target...

Unit Linear Terarah (ULT)

#fundamentals

Fungsi aktivasi dengan perilaku berikut:

  • Jika inputnya negatif atau nol, maka output-nya adalah 0.
  • Jika input bernilai positif, maka output-nya sama dengan input.

Contoh:

  • Jika inputnya adalah -3, maka output-nya adalah 0.
  • Jika inputnya adalah +3, maka output-nya adalah 3,0.

Berikut adalah plot ULT:

Plot kartesian dari dua baris. Baris pertama memiliki konstanta
          nilai y 0, berjalan di sepanjang sumbu x dari - tak terhingga,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, jadi
          rentangnya mulai dari 0,0 hingga + tak terhingga,+tak terhingga.

ULT adalah fungsi aktivasi yang sangat populer. Meskipun perilakunya sederhana, ULT masih mengaktifkan jaringan neural untuk mempelajari nonlinear hubungan antara fitur dan label.

jaringan saraf berulang

#seq

Jaringan neural yang sengaja menjalankan beberapa waktu, di mana bagian dari setiap proses dimasukkan ke proses berikutnya. Secara khusus, Anda bisa lapisan tersembunyi dari proses sebelumnya memberikan bagian dari input ke lapisan tersembunyi yang sama di proses berikutnya. Jaringan saraf berulang sangat berguna untuk mengevaluasi urutan, sehingga lapisan tersembunyi dapat belajar dari jaringan neural sebelumnya di bagian awal urutannya.

Misalnya, gambar berikut menunjukkan jaringan saraf berulang yang berjalan empat kali. Perhatikan bahwa nilai yang dipelajari di lapisan tersembunyi dari proses pertama menjadi bagian dari input untuk lapisan tersembunyi yang sama sesi kedua. Demikian pula, nilai yang dipelajari di lapisan tersembunyi pada proses kedua menjadi bagian dari input untuk lapisan tersembunyi yang sama proses ketiga. Dengan cara ini, jaringan saraf berulang secara bertahap melatih dan memprediksi makna keseluruhan urutan, bukan hanya artinya setiap kata.

RNN yang berjalan empat kali untuk memproses empat kata input.

model regresi

#fundamentals

Secara informal, model yang menghasilkan prediksi numerik. (Sebaliknya, model klasifikasi menghasilkan class prediction.) Misalnya, berikut ini adalah semua model regresi:

  • Model yang memprediksi nilai rumah tertentu, misalnya 423.000 Euro.
  • Model yang memprediksi harapan hidup pohon tertentu, misalnya 23,2 tahun.
  • Model yang memprediksi jumlah hujan yang akan turun di kota tertentu selama enam jam ke depan, seperti 0,18 inci.

Dua jenis model regresi yang umum adalah:

  • Regresi linear, yang menemukan garis yang terbaik menyesuaikan nilai label dengan fitur.
  • Regresi logistik, yang menghasilkan probabilitas antara 0,0 dan 1,0 yang biasanya dipetakan sistem ke kelas prediksi.

Tidak semua model yang menghasilkan prediksi numerik merupakan model regresi. Dalam beberapa kasus, prediksi numerik sebenarnya merupakan model klasifikasi yang kebetulan memiliki nama kelas numerik. Misalnya, model yang memprediksi kode pos numerik adalah model klasifikasi, bukan model regresi.

regularisasi

#fundamentals

Mekanisme apa pun yang mengurangi overfitting. Jenis regularisasi yang populer meliputi:

Regularisasi juga dapat didefinisikan sebagai penalti pada kompleksitas model.

derajat regularisasi

#fundamentals

Angka yang menentukan tingkat kepentingan relatif dari regularisasi selama pelatihan. Menaikkan derajat regularisasi mengurangi overfitting, tetapi dapat mengurangi kekuatan prediktif model. Sebaliknya, mengurangi atau menghilangkan tingkat regularisasi akan meningkatkan {i>overfitting<i}.

Reinforcement Learning (RL)

#rl

Kumpulan algoritma yang mempelajari kebijakan yang optimal, yang tujuannya adalah untuk memaksimalkan laba saat berinteraksi dengan lingkungan. Misalnya, hadiah utama dari sebagian besar game adalah kemenangan. Sistem pembelajaran penguatan dapat menjadi ahli dalam bermain game yang kompleks game dengan mengevaluasi urutan gerakan game sebelumnya yang pada akhirnya yang menghasilkan kemenangan dan kekalahan.

Reinforcement Learning dari Respons Manusia (RLHF)

#generativeAI
#rl

Menggunakan masukan dari penilai manusia untuk meningkatkan kualitas respons model. Misalnya, mekanisme RLHF dapat meminta pengguna menilai kualitas respons dengan emoji 👍 atau ⏾. Sistem kemudian dapat menyesuaikan responsnya di masa mendatang berdasarkan masukan tersebut.

ReLU

#fundamentals

Singkatan dari Unit Linear Terarah.

buffer pemutaran ulang

#rl

Dalam algoritma seperti DQN, memori yang digunakan oleh agen untuk menyimpan transisi status untuk digunakan di rasakan replay.

replika

Salinan set pelatihan atau model, yang biasanya ada di komputer lain. Misalnya, suatu sistem dapat menggunakan strategi untuk menerapkan paralelisme data:

  1. Menempatkan replika model yang ada di beberapa mesin.
  2. Kirim subset yang berbeda dari set pelatihan ke setiap replika.
  3. Gabungkan pembaruan parameter.

bias pelaporan

#fairness

Fakta bahwa frekuensi orang menulis tentang tindakan, hasil, atau properti bukanlah cerminan dari dunia nyata frekuensi atau sejauh mana suatu properti menjadi karakteristik dari suatu kelas individu. Bias pelaporan dapat memengaruhi komposisi data yang dapat dipelajari oleh sistem {i>machine learning<i}.

Misalnya, dalam buku, kata tertawa lebih umum daripada bernapas. Model machine learning yang memperkirakan frekuensi relatif tertawa dan bernapas dari korpus buku mungkin akan menentukan bahwa tertawa lebih umum daripada bernapas.

vektor yang sama

Proses pemetaan data ke fitur yang berguna.

pemeringkatan ulang

#recsystems

Tahap terakhir dalam sistem rekomendasi, di mana item yang dinilai dapat dinilai ulang menurut beberapa (biasanya, non-ML). Pemeringkatan ulang mengevaluasi daftar item yang dihasilkan oleh fase penskoran, dengan mengambil tindakan seperti:

  • Menghilangkan item yang telah dibeli pengguna.
  • Meningkatkan skor item yang lebih baru.

Retrieval-augmented Generation (RAG)

#fundamentals

Teknik untuk meningkatkan kualitas Output model bahasa besar (LLM) dengan mendasarkannya pada sumber pengetahuan yang diambil setelah model dilatih. RAG meningkatkan akurasi respons LLM dengan memberikan LLM yang terlatih akses ke informasi yang diambil dari basis atau dokumen terpercaya.

Motivasi umum untuk menggunakan pembuatan yang didukung pengambilan meliputi:

  • Meningkatkan akurasi faktual respons yang dihasilkan model.
  • Memberi model akses ke pengetahuan yang tidak dilatihnya.
  • Mengubah pengetahuan yang digunakan model.
  • Memungkinkan model mengutip sumber.

Misalnya, anggaplah aplikasi kimia menggunakan PaLM API untuk membuat ringkasan yang terkait dengan kueri pengguna. Saat backend aplikasi menerima kueri, backend akan:

  1. Menelusuri ("mengambil") data yang relevan dengan kueri pengguna.
  2. Menambahkan ("tambahan") data kimia yang relevan ke kueri pengguna.
  3. Meminta LLM membuat ringkasan berdasarkan data yang ditambahkan.

pengembalian

#rl

Dalam Reinforcement Learning, dengan mempertimbangkan kebijakan dan kondisi tertentu, yang ditampilkan adalah jumlah dari semua reward yang diberikan oleh agen yang akan diterima saat mengikuti kebijakan dari state ke akhir episode. Agen memperhitungkan sifat tertunda reward yang diharapkan dengan memberikan diskon pada reward sesuai dengan transisi status yang diperlukan untuk mendapatkan reward.

Oleh karena itu, jika faktor diskonnya adalah \(\gamma\), dan \(r_0, \ldots, r_{N}\) menunjukkan reward hingga akhir episode, lalu penghitungan kembali adalah sebagai berikut:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

reward

#rl

Dalam Reinforcement Learning, hasil numerik dari pengambilan action dalam status, seperti yang ditentukan oleh lingkungan.

regulerisasi batas

Sinonim dari regularisasi L2. Istilah regularisasi batas lebih sering digunakan dalam statistik murni konteks, sedangkan regularisasi L2 lebih sering digunakan machine learning.

RNN

#seq

Singkatan dari recurrent neural network.

Kurva ROC (karakteristik operasi penerima)

#fundamentals

Grafik rasio positif benar versus rasio positif palsu untuk berbagai metrik batas klasifikasi dalam biner Klasifikasi kalimat tunggal,

Bentuk kurva ROC menunjukkan kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Misalkan, model klasifikasi biner secara sempurna memisahkan semua nilai negatif dari semua class positif:

Garis bilangan dengan 8 contoh positif di sisi kanan dan
          7 contoh negatif di sebelah kiri.

Kurva ROC untuk model sebelumnya terlihat seperti berikut:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y
          adalah Rasio Positif Benar. Kurva memiliki bentuk L terbalik. Kurva
          mulai dari (0.0,0.0) dan langsung ke (0.0,1.0). Kemudian kurva
          mulai dari (0.0,1.0)
ke (1.0,1.0).

Sebaliknya, ilustrasi berikut menampilkan grafik regresi logistik mentah untuk model buruk yang tidak dapat memisahkan kelas negatif dari kelas positif:

Garis bilangan dengan contoh positif dan kelas negatif
          tercampur sepenuhnya.

Kurva ROC untuk model ini terlihat seperti berikut:

Kurva ROC, yang sebenarnya merupakan garis lurus dari (0.0,0.0)
          menjadi (1.0,1.0).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan positif dan negatif sampai batas tertentu, tetapi biasanya tidak sempurna. Jadi, kurva KOP yang khas berada di antara dua titik ekstrem:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y
          adalah Rasio Positif Benar. Kurva KOP mendekati busur yang goyang
          menelusuri titik kompas dari Barat ke Utara.

Titik pada kurva ROC yang paling dekat dengan (0.0,1.0) secara teoritis mengidentifikasi batas klasifikasi ideal. Namun, beberapa masalah lain di dunia nyata mempengaruhi pemilihan batas klasifikasi ideal. Misalnya, mungkin negatif palsu (PP) menyebabkan masalah yang jauh lebih besar daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva ROC menjadi nilai floating point tunggal.

pemberian perintah peran

#language
#generativeAI

Bagian opsional dari perintah yang mengidentifikasi target audiens untuk respons model AI generatif. Tanpa peran , model bahasa besar memberikan jawaban yang mungkin berguna atau tidak orang yang mengajukan pertanyaan. Dengan prompt peran, model bahasa dapat menjawab dengan cara yang lebih tepat dan lebih membantu bagi audiens target yang spesifik. Misalnya, bagian prompt peran prompt dicetak tebal:

  • Rangkum artikel ini untuk mendapatkan gelar PhD dalam bidang ekonomi.
  • Menjelaskan cara kerja pasang surut untuk anak berusia sepuluh tahun.
  • Menjelaskan krisis keuangan 2008. Bicaralah sebagaimana Anda mungkin kepada anak kecil, atau golden retriever.

root

#df

Node awal (node pertama kondisi) dalam hierarki keputusan. Berdasarkan konvensi, diagram menempatkan {i>root<i} di bagian atas pohon keputusan. Contoh:

Pohon keputusan dengan dua kondisi dan tiga daun. Tujuan
          kondisi awal (x > 2) adalah {i>root<i}.

direktori root

#TensorFlow

Direktori yang Anda tentukan untuk menghosting subdirektori TensorFlow checkpoint dan file peristiwa dari beberapa model.

{i>Root Mean Squared Error<i} (RMSE)

#fundamentals

Akar kuadrat dari Rataan Kuadrat Error.

invariansi rotasi

#image

Dalam masalah klasifikasi gambar, kemampuan algoritma untuk berhasil mengklasifikasikan gambar bahkan ketika orientasi gambar berubah. Misalnya, algoritma masih dapat mengidentifikasi raket tenis apakah itu mengarah ke atas, menyamping, atau bawah. Perhatikan bahwa invariansi rotasi tidak selalu diinginkan; misalnya, nilai 9 terbalik seharusnya tidak diklasifikasikan sebagai 9.

Lihat juga invarians translasi dan invariansi ukuran.

R-persegi

Metrik regresi yang menunjukkan seberapa besar variasi dalam label disebabkan oleh masing-masing fitur atau set fitur. R-kuadrat adalah nilai antara 0 dan 1, yang dapat Anda interpretasikan sebagai berikut:

  • R-kuadrat 0 berarti bahwa tidak ada variasi label yang disebabkan oleh untuk setiap set fitur.
  • R-kuadrat 1 berarti bahwa semua variasi label disebabkan oleh untuk setiap set fitur.
  • Nilai R-kuadrat antara 0 dan 1 menunjukkan sejauh mana posisi label variasi dapat diprediksi dari fitur atau set fitur tertentu. Misalnya, R-kuadrat 0,10 berarti bahwa 10 persen dari varians dalam label karena set fitur, R-kuadrat 0,20 berarti bahwa 20 persen adalah karena set fitur, dan seterusnya.

R-kuadrat adalah kuadrat dari Korelasi Pearson koefisien antara nilai yang diprediksi model dan kebenaran dasar.

S

bias sampling

#fairness

Lihat bias seleksi.

pengambilan sampel dengan penggantian

#df

Metode untuk memilih item dari kumpulan item kandidat yang item dapat dipilih beberapa kali. Frasa "dengan penggantian" berarti bahwa setelah setiap pilihan, item yang dipilih akan dikembalikan ke kumpulan item kandidat. Metode terbalik, pengambilan sampel tanpa penggantian, berarti bahwa item kandidat hanya dapat dipilih sekali.

Misalnya, pertimbangkan himpunan buah berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Misalkan sistem memilih fig secara acak sebagai item pertama. Jika menggunakan pengambilan sampel dengan pengganti, sistem akan memilih item kedua dari kumpulan berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ya, kelompok itu sama seperti sebelumnya, jadi sistem berpotensi untuk pilih fig lagi.

Jika menggunakan pengambilan sampel tanpa penggantian, setelah diambil, sampel tidak dapat dipilih lagi. Misalnya, jika sistem memilih fig secara acak sebagai sampel pertama, lalu fig tidak dapat dipilih lagi. Oleh karena itu, mengambil sampel kedua dari kumpulan (dikurangi) berikut:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Format yang direkomendasikan untuk menyimpan dan memulihkan model TensorFlow. SavedModel adalah format serialisasi yang tidak tergantung bahasa dan dapat dipulihkan, yang memungkinkan sistem dan alat dengan tingkat lebih tinggi untuk memproduksi, memakai, dan mentransformasi TensorFlow jaringan.

Lihat bab Menyimpan dan Memulihkan di Panduan Programmer TensorFlow untuk mengetahui detail selengkapnya.

Hemat

#TensorFlow

Objek TensorFlow bertanggung jawab untuk menyimpan checkpoint model.

skalar

Satu angka atau satu {i>string<i} yang dapat direpresentasikan sebagai tensor dari peringkat 0. Misalnya, baris kode yang masing-masing menghasilkan satu skalar di TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

penskalaan

Transformasi atau teknik matematis yang menggeser rentang label dan/atau nilai fitur. Beberapa bentuk penskalaan sangat berguna untuk transformasi seperti normalisasi.

Bentuk umum penskalaan yang berguna dalam Machine Learning meliputi:

  • penskalaan linier, yang biasanya menggunakan kombinasi pengurangan dan untuk mengganti nilai asli dengan angka antara -1 dan +1 atau antara 0 dan 1.
  • penskalaan logaritmik, yang menggantikan nilai asli dengan logaritma.
  • Normalisasi skor Z, yang menggantikan nilai awal dengan nilai floating point yang merepresentasikan jumlah deviasi standar dari rerata fitur itu.

scikit-learn

Platform machine learning open source yang populer. Lihat scikit-learn.org.

penskoran

#recsystems

Bagian dari sistem rekomendasi yang memberikan nilai atau peringkat untuk setiap item yang dihasilkan oleh Fase pemilihan kandidat.

bias seleksi

#fairness

Kesalahan dalam kesimpulan yang diambil dari data sampel karena proses seleksi yang menghasilkan perbedaan sistematis antara sampel yang diamati dalam data dan perilaku yang tidak diamati. Terdapat beberapa bentuk bias seleksi:

  • bias cakupan: Populasi yang direpresentasikan dalam set data tidak mencocokkan populasi yang dihasilkan model machine learning prediksi.
  • bias sampling: Data tidak dikumpulkan secara acak dari kelompok target.
  • bias non-respons (juga disebut bias partisipasi): Pengguna dari kelompok tertentu memilih untuk tidak mengikuti survei dengan rasio yang berbeda dari pengguna kelompok lain.

Misalkan Anda membuat model {i> machine learning<i} yang memprediksi kesenangan menonton film. Untuk mengumpulkan data pelatihan, Anda membagikan survei kepada semua orang di baris depan teater menampilkan film. Biasa saja, ini mungkin terdengar cara yang wajar mengumpulkan {i>dataset<i}; Namun, bentuk pengumpulan data ini memperkenalkan bentuk-bentuk bias seleksi berikut ini:

  • bias cakupan: Dengan mengambil sampel dari populasi yang memilih untuk melihat film tersebut, prediksi model Anda mungkin tidak digeneralisasi kepada orang-orang yang tidak mengungkapkan tingkat minat tersebut terhadap film.
  • bias sampling: Daripada pengambilan sampel secara acak dari populasi yang ditargetkan (semua orang yang ada di film), Anda hanya mengambil sampel orang-orang di barisan depan. Mungkin saja orang-orang yang duduk baris depan lebih tertarik dengan film daripada mereka yang ada di baris lainnya.
  • {i>non-response bias<i}: Secara umum, orang-orang dengan pendapat yang kuat cenderung untuk merespons survei opsional lebih sering daripada orang dengan kondisi opini Anda. Karena survei film bersifat opsional, tanggapan lebih cenderung membentuk distribusi bimodal dari distribusi normal (berbentuk lonceng).

self-attention (lapisan ini juga disebut lapisan self-attention)

#language

Lapisan jaringan neural yang mengubah urutan embedding (misalnya, embedding token) menjadi urutan embedding lainnya. Setiap embedding di urutan output dibangun dengan mengintegrasikan informasi dari elemen urutan input melalui mekanisme perhatian.

Bagian self-attention dari self-attention mengacu pada urutan yang hadir untuk itu sendiri daripada beberapa konteks lain. Perhatian penuh adalah salah satu hal utama elemen penyusun untuk Transformers dan menggunakan pencarian kamus terminologi, seperti "query", "key", dan "value".

Lapisan self-attention dimulai dengan urutan representasi input, satu untuk setiap kata. Representasi input untuk kata bisa berupa penyematan. Untuk setiap kata dalam urutan input, jaringan menilai relevansi kata terhadap setiap elemen dalam seluruh urutan kata. Skor relevansi menentukan seberapa banyak representasi akhir kata menggabungkan representasi dari kata-kata lain.

Misalnya, perhatikan kalimat berikut:

Hewan itu tidak menyeberang jalan karena terlalu lelah.

Ilustrasi berikut (dari Transformer: Arsitektur Jaringan Neural Baru untuk Bahasa Memahami) menunjukkan pola atensi lapisan self-attention untuk sebutan it, dengan kegelapan setiap baris yang menunjukkan seberapa besar kontribusi setiap kata terhadap representasi:

Kalimat berikut muncul dua kali: Hewan itu tidak menyeberangi
          karena terlalu lelah. Terdapat garis yang menghubungkan sebutan
          satu kalimat menjadi lima token (The, animal, street, it, dan
          titik) di kalimat lainnya.  Garis di antara
kata ganti itu
          dan kata hewan adalah 
yang paling kuat.

Lapisan self-attention menandai kata-kata yang relevan dengan "it". Di sini yang dipelajari lapisan attention untuk menyoroti kata-kata yang mungkin merujuk pada penetapan bobot tertinggi untuk hewan.

Untuk urutan n token, self-attention mengubah urutan embedding n kali terpisah, sekali di setiap posisi dalam urutan.

Lihat juga perhatian dan multi-head self-attention.

pembelajaran yang diawasi mandiri

Sekelompok teknik untuk mengonversi Masalah unsupervised machine learning masalah supervised machine learning dengan membuat label surrogate dari contoh tidak berlabel.

Beberapa model berbasis Transformer seperti BERT menggunakan pembelajaran yang diawasi mandiri.

Pelatihan yang diawasi mandiri adalah semi-supervised learning.

latihan mandiri

Varian self-supervised learning yang sangat berguna saat semua kondisi berikut terpenuhi:

Pelatihan mandiri dilakukan dengan melakukan iterasi pada dua langkah berikut hingga model berhenti meningkatkan:

  1. Menggunakan supervised machine learning untuk melatih model berdasarkan contoh berlabel.
  2. Gunakan model yang dibuat di Langkah 1 untuk menghasilkan prediksi (label) pada contoh tak berlabel, memindahkan contoh yang memiliki tingkat kepercayaan tinggi contoh berlabel dengan label yang diprediksi.

Perhatikan bahwa setiap iterasi Langkah 2 menambahkan lebih banyak contoh berlabel untuk melatih lagi.

semi-supervised learning

Melatih model pada data di mana beberapa contoh pelatihan memiliki label tetapi yang lain tidak. Salah satu teknik untuk semi-supervised learning adalah menyimpulkan label untuk contoh tak berlabel, lalu melatih label yang disimpulkan untuk membuat model transformer. Semi-supervised learning dapat berguna jika label mahal untuk diperoleh tetapi ada banyak contoh yang tidak berlabel.

Pelatihan mandiri adalah salah satu teknik untuk semi-supervised pembelajaran.

atribut sensitif

#fairness
Atribut manusia yang dapat diberikan pertimbangan khusus untuk hukum, alasan etis, sosial, atau pribadi.

analisis sentimen

#language

Menggunakan algoritma statistik atau machine learning untuk menentukan performa grup sikap keseluruhan—positif atau negatif—terhadap suatu layanan, produk, organisasi, atau topik. Misalnya, menggunakan natural language understanding, algoritma dapat melakukan analisis sentimen pada masukan tekstual dari kuliah perguruan tinggi untuk menentukan sejauh mana mahasiswa umumnya menyukai atau tidak menyukai materi tersebut.

model urutan

#seq

Model yang inputnya memiliki dependensi berurutan. Misalnya, memprediksi video berikutnya yang ditonton dari urutan video yang ditonton sebelumnya.

tugas urutan ke urutan

#language

Tugas yang mengonversi urutan input token menjadi output urutan token. Misalnya, dua jenis populer urutan-ke-urutan tugas adalah:

  • Penerjemah:
    • Contoh urutan input: "Saya cinta kamu".
    • Contoh urutan output: "Je t'aime".
  • Menjawab pertanyaan:
    • Contoh urutan input: "Apakah saya perlu mobil saya di Jakarta?"
    • Contoh urutan output: "No. Simpan mobil Anda di rumah."

porsi

Proses pembuatan model terlatih tersedia untuk memberikan prediksi melalui inferensi online atau inferensi offline.

bentuk (Tensor)

Jumlah elemen di setiap dimensi tensor. Bentuk ini direpresentasikan sebagai daftar bilangan bulat. Misalnya, tensor dua dimensi berikut memiliki bentuk [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow menggunakan format baris-utama (gaya C) untuk mewakili urutan itu sebabnya bentuknya di TensorFlow adalah [3,4], bukan [4,3]. Dengan kata lain, dalam TensorFlow Tensor dua dimensi, bentuk adalah [jumlah baris, jumlah kolom].

Bentuk statis adalah bentuk tensor yang diketahui pada waktu kompilasi.

Bentuk dinamis tidak diketahui pada waktu kompilasi dan oleh karena itu bergantung pada data runtime. Tensor ini bisa direpresentasikan dengan dimensi placeholder di TensorFlow, seperti di [3, ?].

shard

#TensorFlow
#GoogleCloud

Pembagian logis dari set pelatihan atau model. Biasanya, beberapa proses membuat shard dengan membagi contoh atau parameter menjadi (biasanya) potongan yang berukuran sama. Setiap shard kemudian ditetapkan ke mesin yang berbeda.

Sharding model disebut paralelisme model; sharding data disebut paralelisme data.

penyusutan

#df

Hyperparameter di peningkatan gradien yang mengontrol overfitting. Penyusutan pada peningkatan gradien setara dengan kecepatan pembelajaran di penurunan gradien. Penyusutan adalah desimal nilai antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah akan mengurangi overfitting nilai penyusutan yang lebih besar.

fungsi sigmoid

#fundamentals

Fungsi matematika yang "meluncur" nilai input ke dalam rentang yang dibatasi, biasanya 0 hingga 1 atau -1 hingga +1. Yaitu, Anda dapat meneruskan angka berapa pun (dua, satu juta, negatif, apa pun) ke sigmoid dan {i>output-<i}nya akan tetap dalam dan rentang terbatas. Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain
          -tak terhingga hingga +positif, sedangkan nilai y menjangkau rentang hampir 0 hingga
          hampir 1. Jika x adalah 0, y adalah 0,5. Kemiringan kurva selalu
          positif, dengan kemiringan tertinggi 0,0.5 dan perlahan menurun
          kemiringan saat nilai absolut dari x meningkat.

Fungsi sigmoid memiliki beberapa kegunaan dalam machine learning, antara lain:

ukuran kesamaan

#clustering

Dalam algoritma pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip (seberapa mirip) dua contoh tersebut.

satu program / beberapa data (SPMD)

Teknik paralelisme di mana komputasi yang sama dijalankan pada input yang berbeda data secara paralel di perangkat yang berbeda. Tujuan SPMD adalah untuk mendapatkan hasil dengan lebih cepat. Ini adalah gaya pemrograman paralel yang paling umum.

invariansi ukuran

#image

Dalam masalah klasifikasi gambar, kemampuan algoritma untuk berhasil mengklasifikasikan gambar bahkan ketika ukuran gambar berubah. Misalnya, algoritma masih dapat mengidentifikasi {i>cat<i} baik menggunakan 2M {i>pixel<i} atau 200K {i>pixel<i}. Perhatikan bahwa bahkan yang terbaik algoritma klasifikasi gambar masih memiliki batasan praktis tentang invariansi ukuran. Misalnya, algoritma (atau manusia) kemungkinan tidak dapat mengklasifikasikan dengan benar gambar kucing yang hanya menghabiskan 20 {i>pixel<i}.

Lihat juga invarians translasi dan invariansi rotasi.

membuat sketsa

#clustering

Di unsupervised machine learning, kategori algoritma yang melakukan analisis kesamaan awal tentang contoh. Algoritma pembuatan sketsa menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi poin yang mungkin serupa, lalu mengelompokkan mereka ke dalam bucket.

Sketsa mengurangi perhitungan yang diperlukan untuk perhitungan kesamaan pada set data besar. Alih-alih menghitung kesamaan untuk setiap sepasang contoh dalam {i>dataset<i}, kita hanya menghitung kesamaan untuk masing-masing sepasang titik dalam setiap bucket.

skip-gram

#language

n-gram yang dapat menghilangkan (atau "melewati") kata-kata dari aslinya konteks, yang berarti N kata mungkin awalnya tidak berdekatan. Selengkapnya “k-skip-n-gram” saja, adalah n-gram dengan hingga k kata yang mungkin memiliki dilewati.

Misalnya, "rubah cokelat cepat" memiliki kemungkinan 2 gram berikut:

  • "cepat"
  • "cokelat cepat"
  • "rubah cokelat"

"1-lewati-2-gram" adalah pasangan kata yang memiliki paling banyak 1 kata di antara mereka. Oleh karena itu, "rubah cokelat" memiliki 1-skip 2-gram berikut:

  • "cokelat"
  • "rubah cepat"

Selain itu, semua 2 gram juga 1-skip-2-gram, karena lebih sedikit dari satu kata bisa dilewati.

Lewati gram berguna untuk memahami lebih lanjut konteks kata di sekitar. Dalam contoh, "{i>fox<i}" terkait langsung dengan kata "cepat" dalam kumpulan 1-lewati-2-gram, tetapi tidak dalam set 2-gram.

Bantuan untuk latihan lewati gram model penyematan kata.

softmax

#fundamentals

Fungsi yang menentukan probabilitas untuk setiap kemungkinan kelas dalam model klasifikasi multi-class. probabilitas menjumlahkan menjadi tepat 1,0. Misalnya, tabel berikut menunjukkan cara softmax mendistribusikan berbagai probabilitas:

Gambar adalah... Probability
anjing 0,85
kucing 0,13
kuda ,02

Softmax juga disebut full softmax.

Berbeda dengan sampling kandidat.

prompt tuning lembut

#language
#generativeAI

Teknik untuk melakukan tuning model bahasa besar untuk tugas tertentu, tanpa perlu sumber daya fine-tuning. Alih-alih melatih ulang semua bobot dalam model, soft prompt tuning otomatis menyesuaikan perintah untuk mencapai sasaran yang sama.

Diberikan perintah tekstual, prompt tuning ringan biasanya menambahkan embedding token tambahan ke prompt propagasi mundur untuk mengoptimalkan input.

"Sulit" prompt berisi token aktual, bukan embedding token.

fitur renggang

#language
#fundamentals

Fitur yang sebagian besar nilainya nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 adalah jarang. Sebaliknya, fitur padat memiliki nilai yang utamanya tidak bernilai nol atau kosong.

Dalam machine learning, jumlah fitur yang mengejutkan adalah fitur yang jarang. Fitur kategori biasanya berupa fitur renggang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan tentang video yang mungkin ada dalam koleksi video, satu contoh mungkin mengidentifikasi hanya "Casablanca."

Dalam model, Anda biasanya merepresentasikan fitur renggang dengan enkode one-hot. Jika {i>one-hot encoding<i} berukuran besar, Anda dapat menempatkan lapisan embedding di atas lapisan encoding one-hot untuk efisiensi yang lebih besar.

representasi renggang

#language
#fundamentals

Hanya menyimpan posisi elemen bukan nol dalam fitur renggang.

Misalnya, fitur kategori bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Asumsikan lebih lanjut bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk merepresentasikan spesies pohon pada setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0 (untuk mewakili 35 spesies pohon yang tidak ada dalam contoh tersebut). Jadi, representasi one-hot dari maple mungkin terlihat seperti berikut:

Vektor di mana posisi 0 hingga 23 menyimpan nilai 0, posisi
          24 menyimpan nilai 1, dan posisi 25 hingga 35 menyimpan nilai 0.

Atau, representasi sparse hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada di posisi 24, representasi sparse dari maple akan menjadi:

24

Perhatikan bahwa representasi renggang jauh lebih ringkas daripada representasi one-hot merepresentasinya.

vektor renggang

#fundamentals

Vektor yang sebagian besar nilainya adalah nol. Lihat juga sparse feature dan sparsity.

ketersebaran

Jumlah elemen yang ditetapkan ke nol (atau nol) dalam vektor atau matriks yang dibagi dengan jumlah total entri dalam vektor atau matriks tersebut. Misalnya, pikirkan sebuah matriks 100 elemen yang mana 98 sel berisi nol. Perhitungan dari ketersebaran adalah sebagai berikut:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Ketersebaran fitur mengacu pada ketersebaran dari vektor fitur; ketersebaran model mengacu pada ketersebaran dari bobot model.

penggabungan spasial

#image

Lihat penggabungan.

bagian

#df

Di pohon keputusan, nama lain untuk kondisi.

pemisah

#df

Saat melatih pohon keputusan, rutinitas tersebut (dan algoritma) yang bertanggung jawab untuk menemukan condition di setiap node.

SPMD

Singkatan dari single program / multiple data.

kerugian engsel kuadrat

Kuadrat dari kerugian engsel. Kerugian engsel kuadrat memberikan sanksi {i>outlier<i} lebih besar daripada kerugian engsel reguler.

kerugian kuadrat

#fundamentals

Sinonim dari kerugian L2.

pelatihan bertahap

#language

Taktik melatih model dalam urutan tahapan yang berbeda. Tujuannya bisa berupa untuk mempercepat proses pelatihan, atau untuk mencapai kualitas model yang lebih baik.

Ilustrasi pendekatan {i>progressive stacking<i} ditampilkan di bawah ini:

  • Tahap 1 berisi 3 lapisan tersembunyi, tahap 2 berisi 6 lapisan tersembunyi, dan tahap 3 berisi 12 lapisan tersembunyi.
  • Tahap 2 memulai pelatihan dengan bobot yang dipelajari di 3 lapisan tersembunyi dari Tahap 1. Tahap 3 memulai pelatihan dengan bobot yang dipelajari dalam 6 lapisan tersembunyi Tahap 2.

Tiga tahap, yang diberi label Tahap 1, Tahap 2, dan Tahap 3.
          Setiap tahap berisi jumlah lapisan yang berbeda: Tahap 1 berisi
          3 lapisan, Tahap 2 berisi 6 lapisan, dan Tahap 3 berisi 12 lapisan.
          3 lapisan dari Tahap 1 menjadi 3 lapisan pertama di Tahap 2.
          Demikian pula, 6 lapisan dari Tahap 2 
menjadi 6 lapisan pertama dari
          Tahap 3.

Lihat juga pipeline.

dengan status tersembunyi akhir

#rl

Dalam reinforcement learning, nilai parameter yang menggambarkan kondisi saat ini konfigurasi lingkungan yang sama, yang digunakan agen untuk pilih tindakan.

fungsi nilai state-action

#rl

Sinonim dari fungsi Q.

static

#fundamentals

Sesuatu dilakukan sekali, bukan terus-menerus. Istilah statis dan offline adalah sinonim. Berikut adalah penggunaan umum statis dan offline di mesin pembelajaran:

  • model statis (atau model offline) adalah model yang dilatih sekali lalu digunakan selama beberapa waktu.
  • pelatihan statis (atau pelatihan offline) adalah proses melatih model statis.
  • inferensi statis (atau inferensi offline) adalah proses di mana model menghasilkan kumpulan prediksi pada satu waktu.

Berbeda dengan dinamis.

inferensi statis

#fundamentals

Sinonim dari inferensi offline.

stasioneritas

#fundamentals

Fitur yang nilainya tidak berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, fitur yang nilainya terlihat sama pada tahun 2021 dan 2023 menunjukkan stasioneritas.

Dalam dunia nyata, sangat sedikit fitur yang menunjukkan stasioneritas. Fitur genap identik dengan perubahan stabilitas (seperti permukaan laut) dari waktu ke waktu.

Berbeda dengan nonstasioneritas.

langkah

Penerusan maju dan mundur dari satu tumpukan.

Lihat propagasi mundur untuk mengetahui informasi selengkapnya dalam {i>forward pass <i}dan {i>backward pass<i}.

ukuran langkah

Sinonim dari kecepatan pembelajaran.

penurunan gradien stokastik (SGD)

#fundamentals

Algoritma penurunan gradien di mana ukuran tumpukan adalah satu. Dengan kata lain, SGD berlatih di satu contoh yang dipilih secara seragam di acak dari set pelatihan.

langkah

#image

Dalam operasi konvolusional atau penggabungan, delta di setiap dimensi rangkaian irisan input berikutnya. Misalnya, animasi berikut menunjukkan langkah (1,1) selama operasi konvolusional. Oleh karena itu, irisan input berikutnya memulai satu posisi di sebelah kanan input sebelumnya {i>slice<i}. Ketika operasi mencapai tepi kanan, potongan berikutnya adalah ke kiri tetapi satu posisi ke bawah.

Matriks input 5 x 5 dan saringan konvolusional 3 x 3. Karena
     langkah adalah (1,1), maka saringan konvolusional akan diterapkan 9 kali. Yang pertama
     irisan konvolusional mengevaluasi submatriks 3 x 3 kiri atas dari input
     yang dihasilkan. Irisan kedua mengevaluasi lapisan 3x3 tengah atas
     submatriks. Irisan konvolusional ketiga mengevaluasi 3x3 kanan atas
     submatriks.  Irisan keempat mengevaluasi submatriks 3x3 kiri tengah.
     Irisan kelima mengevaluasi submatriks 3x3 tengah. Irisan keenam
     mengevaluasi submatriks 3 x 3 tengah-kanan. Slice ketujuh mengevaluasi
     submatriks 3x3 kiri bawah.  Slice kedelapan mengevaluasi
     submatriks 3 x 3 tengah bawah. Irisan kesembilan mengevaluasi elemen 3x3 kanan bawah
     submatriks.

Contoh sebelumnya menunjukkan jangka dua dimensi. Jika input tiga dimensi, jangka panjangnya juga akan tiga dimensi.

minimalisasi risiko struktural (SRM)

Algoritma yang menyeimbangkan dua sasaran:

  • Kebutuhan untuk membuat model yang paling prediktif (misalnya, kerugian terendah).
  • Kebutuhan untuk menjaga model sesederhana mungkin (misalnya, kuat regularisasi).

Misalnya, fungsi yang meminimalkan kerugian+regularisasi pada adalah algoritma minimalisasi risiko struktural.

Berbeda dengan minimalisasi risiko empiris.

subsampling

#image

Lihat penggabungan.

token subkata

#language

Dalam model bahasa, token yang merupakan {i>substring<i} dari sebuah kata, yang mungkin merupakan seluruh kata.

Misalnya, kata seperti "itemisasi" mungkin dipecah menjadi bagian-bagian "item" (kata akar) dan "{i>ize<i}" (akhiran), yang masing-masing diwakili oleh elemen sebelumnya yang benar. Membagi kata-kata yang tidak umum menjadi potongan-potongan seperti itu, yang disebut subkata, memungkinkan model bahasa untuk beroperasi pada bagian konstituen kata yang lebih umum, seperti awalan dan akhiran.

Sebaliknya, kata-kata umum seperti "pergi" mungkin tidak dipecah dan mungkin diwakili oleh satu token.

ringkasan

#TensorFlow

Di TensorFlow, nilai atau set nilai yang dihitung pada step, yang biasanya digunakan untuk melacak metrik model selama pelatihan.

supervised machine learning

#fundamentals

Melatih model dari fitur dan label yang sesuai. supervised machine learning bersifat analog mempelajari suatu subjek dengan mempelajari serangkaian pertanyaan dan yang sesuai. Setelah menguasai pemetaan antara pertanyaan dan jawaban, siswa kemudian dapat memberikan jawaban untuk hal baru (yang belum pernah dilihat sebelumnya) pertanyaan dengan topik yang sama.

Bandingkan dengan unsupervised machine learning.

fitur sintetis

#fundamentals

Fitur yang tidak ada di antara fitur input, tetapi dirangkai dari satu atau lebih. Metode untuk membuat fitur sintetis meliputi hal berikut:

  • Mengelompokkan fitur berkelanjutan ke dalam bin rentang.
  • Membuat persilangan fitur.
  • Mengalikan (atau membagi) satu nilai fitur dengan nilai fitur lainnya atau dengan sendirinya. Misalnya, jika a dan b adalah fitur input, maka berikut adalah contoh fitur sintetis:
    • ab
    • a2
  • Menerapkan fungsi transendental ke nilai fitur. Misalnya, jika c adalah fitur input, maka berikut ini adalah contoh fitur sintetis:
    • sin(c)
    • ln(c)

Fitur yang dibuat dengan normalisasi atau penskalaan saja tidak dianggap sebagai fitur sintetis.

S

T5

#language

Model transfer teks ke teks diperkenalkan oleh AI Google pada tahun 2020. T5 adalah model encoder-decoder, berdasarkan Arsitektur Transformer, dilatih dengan arsitektur yang {i>dataset<i} aslinya. Alat ini efektif pada berbagai tugas natural language processing, seperti membuat teks, menerjemahkan bahasa, dan menjawab pertanyaan dalam percakapan.

T5 mendapatkan namanya dari lima huruf T dalam "Text-to-Text Transfer Transformer".

T5X

#language

Framework machine learning open source yang dirancang untuk membangun dan melatih natural language processing berskala besar (NLP). T5 diimplementasikan pada codebase T5X (yang dibangun di JAX dan Flax).

Q-learning tabulasi

#rl

Di reinforcement learning, menerapkan Q-learning dengan menggunakan tabel untuk menyimpan Fungsi Q untuk setiap kombinasi status dan tindakan.

target

Sinonim dari label.

jaringan target

#rl

Di Deep Q-learning, sebuah jaringan neural yang merupakan perkiraan jaringan neural utama, tempat jaringan neural utama menerapkan fungsi Q atau kebijakan. Kemudian, Anda dapat melatih jaringan utama pada nilai Q yang diprediksi oleh jaringan. Oleh karena itu, Anda akan mencegah feedback loop yang terjadi saat jaringan pada nilai Q yang diprediksi dengan sendirinya. Dengan menghindari umpan balik ini, stabilitas pelatihan meningkat.

tugas

Masalah yang dapat diselesaikan menggunakan teknik machine learning, seperti:

suhu

#language
#image
#generativeAI

Hyperparameter yang mengontrol tingkat keacakan output model. Suhu yang lebih tinggi menghasilkan lebih banyak {i>output<i} acak, sementara temperatur yang lebih rendah akan menghasilkan lebih sedikit {i>output<i} acak.

Memilih suhu terbaik tergantung pada aplikasi dan properti pilihan output model. Misalnya, Anda akan mungkin menaikkan suhu saat membuat aplikasi yang yang menghasilkan output materi iklan. Sebaliknya, Anda mungkin akan menurunkan suhu saat membangun model yang mengklasifikasikan gambar atau teks untuk meningkatkan akurasi dan konsistensi model.

Suhu sering digunakan dengan softmax.

data temporal

Data yang dicatat pada titik waktu yang berbeda. Misalnya, penjualan mantel musim dingin dicatat untuk setiap hari dalam setahun adalah data temporal.

Tensor

#TensorFlow

Struktur data utama dalam program TensorFlow. Tensor memiliki dimensi N (di mana N bisa sangat besar), struktur data biasanya skalar, vektor, atau matriks. Elemen Tensor dapat menampung bilangan bulat, floating point, atau nilai {i>string<i}.

TensorBoard

#TensorFlow

Dasbor yang menampilkan ringkasan yang disimpan selama eksekusi satu atau program TensorFlow.

TensorFlow

#TensorFlow

Platform machine learning berskala besar dan terdistribusi. Istilah ini juga mengacu pada lapisan API dasar di stack TensorFlow, yang mendukung komputasi umum tentang grafik dataflow.

Meskipun TensorFlow terutama digunakan untuk machine learning, Anda juga dapat menggunakan TensorFlow untuk tugas non-ML yang memerlukan komputasi numerik menggunakan grafik dataflow.

Playground TensorFlow

#TensorFlow

Program yang memvisualisasikan perbedaan antara Model pengaruh hyperparameter (terutama jaringan neural). Buka http://playground.tensorflow.org untuk bereksperimen dengan TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Platform untuk men-deploy model terlatih dalam produksi.

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

{i>Application-specific integrated circuit<i} (ASIC) yang mengoptimalkan performa workload machine learning. ASIC ini di-deploy sebagai beberapa chip TPU di perangkat TPU.

peringkat Tensor

#TensorFlow

Lihat peringkat (Tensor).

bentuk tensor

#TensorFlow

Jumlah elemen yang dimiliki Tensor dalam berbagai dimensi. Misalnya, Tensor [5, 10] memiliki bentuk 5 dalam satu dimensi dan 10 bentuk di bahasa lain.

Ukuran tensor

#TensorFlow

Jumlah total skalar yang terdapat dalam Tensor. Sebagai contoh, Tensor [5, 10] memiliki ukuran 50.

TensorStore

Library untuk membaca dan menulis dokumen secara efisien menulis array multi-dimensi besar.

ketentuan penghentian

#rl

Dalam reinforcement learning, kondisi yang diperlukan menentukan kapan episode berakhir, seperti kapan agen mencapai untuk status tertentu atau melampaui batas jumlah transisi status. Misalnya, di tic-tac-toe (juga yang dikenal sebagai {i>nought<i} dan {i>crosses<i}), episode berakhir baik ketika pemain menandai tiga spasi berturut-turut atau bila semua spasi ditandai.

uji

#df

Di pohon keputusan, nama lain untuk kondisi.

kerugian pengujian

#fundamentals

Metrik yang mewakili kerugian model terhadap set pengujian. Saat membangun model, Anda biasanya mencoba meminimalkan kerugian pengujian. Itu karena kerugian pengujian yang rendah adalah sinyal kualitas yang lebih kuat daripada kerugian pelatihan yang rendah atau kerugian validasi rendah.

Perbedaan yang besar antara kerugian pengujian dan kerugian pelatihan atau kegagalan validasi terkadang menunjukkan bahwa Anda perlu meningkatkan tingkat regularisasi.

set pengujian

Subset set data yang dicadangkan untuk pengujian model terlatih.

Biasanya, Anda membagi contoh dalam {i>dataset<i} ke dalam tiga contoh subset yang berbeda:

Setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh seharusnya tidak termasuk dalam set pelatihan dan set pengujian.

Set pelatihan dan set validasi keduanya terkait erat dengan pelatihan model. Karena set pengujian hanya terkait secara tidak langsung dengan pelatihan, kerugian pengujian adalah metrik yang tidak terlalu bias dan berkualitas lebih tinggi daripada kerugian pelatihan atau kehilangan validasi.

rentang teks

#language

Rentang indeks array yang terkait dengan subbagian tertentu dari string teks. Misalnya, kata good di string Python s="Be good now" menempati rentang teks dari 3 hingga 6.

tf.Example

#TensorFlow

Standar buffering protokol untuk mendeskripsikan data input untuk pelatihan atau inferensi model machine learning.

tf.keras

#TensorFlow

Implementasi Keras yang terintegrasi ke dalam TensorFlow.

ambang batas (untuk pohon keputusan)

#df

Dalam kondisi rata sumbu, nilai yang fitur sedang dibandingkan. Misalnya, 75 adalah nilai minimum dalam kondisi berikut:

grade >= 75

analisis deret waktu

#clustering

Subbidang machine learning dan statistik yang menganalisis data sementara. Berbagai jenis machine learning masalah memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda bisa menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin di masa mendatang per bulan berdasarkan data penjualan historis.

waktu

#seq

Satu "dibuka" sel di dalam jaringan saraf berulang. Misalnya, gambar berikut menunjukkan tiga langkah waktu (dilabeli dengan subskrip t-1, t, dan t+1):

Tiga langkah waktu dalam jaringan saraf berulang. Output dari
          interval waktu pertama menjadi input untuk langkah waktu kedua. Output
          detik waktu kedua menjadi input bagi penghitung waktu ketiga.

token

#language

Dalam model bahasa, unit atom yang digunakan model melatih dan membuat prediksi. Token biasanya merupakan salah satu berikut ini:

  • sebuah kata—misalnya, frasa " seperti kucing" terdiri dari tiga kata token: "dogs", "like", dan "cats".
  • karakter—misalnya, frasa "bike fish" terdiri dari sembilan token karakter. (Perhatikan bahwa spasi kosong dihitung sebagai salah satu token.)
  • subkata—yang satu kata bisa berupa satu token atau beberapa token. Subkata terdiri dari kata akar, awalan, atau akhiran. Misalnya, model bahasa yang menggunakan subkata sebagai token mungkin melihat kata "dogs" sebagai dua token (akar kata "dog" dan akhiran jamak "s"). Hal yang sama model bahasa tertentu mungkin menampilkan satu kata "lebih tinggi" menjadi dua subkata (yang akar kata "tinggi" dengan akhiran "er").

Dalam domain di luar model bahasa, token dapat merepresentasikan jenis satuan atom. Misalnya, dalam computer vision, token mungkin merupakan subset gambar.

Tower

Komponen jaringan neural dalam yang itu sendiri adalah jaringan neural dalam. Dalam beberapa kasus, setiap menara membaca dari sumber data independen, dan menara itu tetap independen sampai mereka output digabungkan dalam lapisan akhir. Dalam kasus lain, (misalnya, di menara encoder dan decoder dari banyak Transformer), menara memiliki koneksi silang satu sama lain.

TPU

#TensorFlow
#GoogleCloud

Singkatan dari Tensor Processing Unit.

chip TPU

#TensorFlow
#GoogleCloud

Akselerator aljabar linear yang dapat diprogram dengan memori bandwidth tinggi pada chip yang dioptimalkan untuk workload machine learning. Beberapa chip TPU di-deploy di perangkat TPU.

Perangkat TPU

#TensorFlow
#GoogleCloud

Papan sirkuit cetak (PCB) dengan beberapa chip TPU, antarmuka jaringan {i>bandwidth<i} tinggi, dan perangkat keras pendingin sistem.

Master TPU

#TensorFlow
#GoogleCloud

Proses koordinasi pusat yang berjalan pada mesin {i>host<i} yang mengirim dan menerima data, hasil, program, performa, dan informasi kesehatan sistem kepada pekerja TPU. Master TPU juga mengelola penyiapan dan penonaktifan perangkat TPU.

Node TPU

#TensorFlow
#GoogleCloud

Resource TPU di Google Cloud dengan Jenis TPU. Node TPU terhubung ke Jaringan VPC dari Jaringan VPC peer. Node TPU adalah resource yang ditentukan dalam Cloud TPU API.

Pod TPU

#TensorFlow
#GoogleCloud

Konfigurasi spesifik perangkat TPU di paket Google pusat data. Semua perangkat di Pod TPU terhubung satu sama lain melalui jaringan berkecepatan tinggi. TPU Pod adalah konfigurasi terbesar dari Perangkat TPU tersedia untuk versi TPU tertentu.

resource TPU

#TensorFlow
#GoogleCloud

Entity TPU di Google Cloud yang Anda buat, kelola, atau gunakan. Sebagai misalnya, node TPU dan jenis TPU adalah resource TPU.

Slice TPU

#TensorFlow
#GoogleCloud

Slice TPU adalah bagian pecahan dari perangkat TPU di Pod TPU. Semua perangkat dalam slice TPU terhubung satu sama lain melalui jaringan berkecepatan tinggi khusus.

Jenis TPU

#TensorFlow
#GoogleCloud

Konfigurasi satu atau beberapa perangkat TPU dengan Versi hardware TPU. Anda memilih jenis TPU saat membuat node TPU di Google Cloud. Misalnya, v2-8 Jenis TPU adalah perangkat TPU v2 tunggal dengan 8 core. Jenis TPU v3-2048 memiliki 256 perangkat TPU v3 dalam jaringan dan total 2048 core. Jenis TPU adalah resource didefinisikan dalam Cloud TPU API.

pekerja TPU

#TensorFlow
#GoogleCloud

Proses yang berjalan pada mesin host dan menjalankan program machine learning di perangkat TPU.

training

#fundamentals

Proses menentukan parameter yang ideal (bobot dan bias) yang terdiri dari model. Selama pelatihan, sistem membaca dalam contoh dan menyesuaikan parameter secara bertahap. Pelatihan menggunakan masing-masing di mana saja dari beberapa kali hingga miliaran kali.

kerugian pelatihan

#fundamentals

Metrik yang mewakili kerugian model selama iterasi pelatihan tertentu. Misalnya, anggaplah fungsi loss adalah Rataan Kuadrat Kesalahan. Mungkin kerugian pelatihan (Rata-rata {i>squared error<i}) untuk iterasi ke-10 adalah 2,2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1,9.

Kurva kerugian menandai kerugian pelatihan versus jumlah iterasi sebelumnya. Kurva kerugian memberikan petunjuk berikut tentang pelatihan:

  • Kemiringan menurun menyiratkan bahwa kualitas model meningkat.
  • Kemiringan ke atas menyiratkan bahwa model semakin buruk.
  • Kemiringan datar menyiratkan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian yang agak ideal berikut menampilkan:

  • Kemiringan ke bawah yang curam selama iterasi awal, yang menyiratkan peningkatan kualitas model yang cepat.
  • Kemiringan yang merata secara bertahap (tetapi masih ke bawah) hingga mendekati ujung pelatihan, yang menyiratkan peningkatan kualitas model yang berkelanjutan lebih lambat selama iterasi awal.
  • Kemiringan datar menjelang akhir pelatihan, yang mengindikasikan konvergensi.

Plot kerugian pelatihan versus iterasi. Kurva kerugian ini dimulai
     dengan kemiringan menurun yang curam. Kemiringan secara bertahap mendatar hingga
     kemiringan menjadi nol.

Meskipun kerugian pelatihan itu penting, lihat juga generalisasi.

diferensiasi performa pelatihan dan penayangan

#fundamentals

Perbedaan antara performa model selama pelatihan dan performa model yang sama selama menayangkan.

set pelatihan

#fundamentals

Subset dari set data yang digunakan untuk melatih model.

Biasanya, contoh dalam {i>dataset<i} dibagi menjadi tiga contoh subset yang berbeda:

Idealnya, setiap contoh dalam {i>dataset<i} hanya boleh dimiliki oleh salah satu {i>subset<i} sebelumnya. Misalnya, satu contoh tidak boleh menjadi milik set pelatihan dan set validasi.

lintasan

#rl

Dalam reinforcement learning, serangkaian tupel yang mewakili urutan transisi status dari agen, di mana setiap tuple sesuai dengan status, action, reward, dan status berikutnya untuk transisi status tertentu.

pemelajaran transfer (transfer learning)

Mentransfer informasi dari satu tugas machine learning ke tugas lainnya. Misalnya, dalam {i>multi-task learning<i}, satu model menyelesaikan beberapa tugas, seperti model dalam yang memiliki node output berbeda untuk tugas yang berbeda. Pemelajaran transfer mungkin melibatkan transfer pengetahuan dari solusi tugas yang lebih sederhana ke tugas yang lebih kompleks, atau melibatkan mentransfer pengetahuan dari tugas di mana ada lebih banyak data ke satu tugas lebih sedikit data.

Sebagian besar sistem machine learning menyelesaikan satu tugas. Pemelajaran transfer adalah langkah kecil menuju kecerdasan buatan di mana sebuah program dapat memecahkan beberapa tugas.

Transformator

#language

Arsitektur jaringan neural yang dikembangkan di Google yang mengandalkan mekanisme perhatian mandiri untuk mengubah urutan embedding input ke dalam urutan output, embedding tanpa mengandalkan konvolusi atau jaringan saraf berulang. Transformator bisa menjadi dipandang sebagai tumpukan lapisan self-attention.

Transformator dapat mencakup salah satu dari berikut ini:

Encoder mengubah urutan embedding menjadi urutan baru panjangnya sama. Encoder berisi N lapisan identik, yang masing-masing berisi dua sub-lapisan. Kedua sub-lapisan ini diterapkan di setiap posisi input urutan embedding, mengubah setiap elemen urutan menjadi set data penyematan. Sub-lapisan encoder pertama menggabungkan informasi dari seluruh urutan input teks. Sub-lapisan encoder kedua mengubah lapisan informasi ke dalam embedding output.

Decoder mengubah urutan embedding input menjadi urutan embedding output, kemungkinan dengan panjang yang berbeda. Decoder juga menyertakan N lapisan identik dengan tiga sub-lapisan, dua di antaranya mirip dengan sub-lapisan encoder. Sub-lapisan decoder ketiga mengambil output encoder dan menerapkan mekanisme perhatian mandiri pada mengumpulkan informasi darinya.

Postingan blog Transformer: Arsitektur Jaringan Neural Baru untuk Bahasa Memahami memberikan pengantar yang baik tentang Transformer.

invariansi translasi

#image

Dalam masalah klasifikasi gambar, kemampuan algoritma untuk berhasil mengklasifikasikan gambar meskipun posisi objek dalam gambar berubah. Misalnya, algoritma masih dapat mengidentifikasi , baik yang berada dalam tengah {i>frame<i} atau di ujung kiri {i>frame<i}.

Lihat juga invariansi ukuran dan invariansi rotasi.

trigram

#seq
#language

N-gram yang mana N=3.

negatif benar (TN)

#fundamentals

Contoh saat model dengan benar memprediksi kelas negatif. Misalnya, model menyimpulkan bahwa pesan email tertentu bukan spam, dan pesan email tersebut sebenarnya bukan spam.

positif benar (TP)

#fundamentals

Contoh saat model dengan benar memprediksi kelas positif. Misalnya, model menyimpulkan bahwa pesan email tertentu adalah spam, dan pesan email itu sebenarnya adalah spam.

rasio positif benar (TPR)

#fundamentals

Sinonim dari recall. Definisinya yaitu:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Rasio positif benar adalah sumbu y dalam kurva KOP.

U

ketidakwaspadaan (terhadap atribut sensitif)

#fairness

Situasi saat atribut sensitif ada, tetapi tidak termasuk dalam data pelatihan. Karena atribut sensitif sering berkorelasi dengan atribut lain dari data, model yang dilatih tanpa kesadaran tentang atribut sensitif masih bisa memiliki dampak yang berbeda sehubungan dengan atribut tersebut, atau melanggar batasan keadilan lainnya.

kurang pas

#fundamentals

Memproduksi model dengan kemampuan prediktif yang buruk karena model belum sepenuhnya memahami kompleksitas data pelatihan. Banyak masalah dapat menyebabkan {i>underfitting<i}, termasuk:

{i>undersampling<i}

Menghapus contoh dari kelas mayor dalam set data kelas tidak seimbang untuk buat set pelatihan yang lebih seimbang.

Misalnya, pertimbangkan {i>dataset<i} di mana rasio kelas mayoritas terhadap class minoritas adalah 20:1. Untuk mengatasi kelas ini ketidakseimbangan, Anda dapat membuat set pelatihan yang terdiri dari semua minoritas contoh class, tetapi hanya sepuluh dari contoh kelas mayoritas, yang akan membuat rasio kelas set pelatihan 2:1. Berkat {i>undersampling<i}, ini lebih set pelatihan yang seimbang mungkin menghasilkan model yang lebih baik. Atau, jika set pelatihan yang lebih seimbang mungkin berisi contoh yang tidak memadai untuk melatih model, yang efektif.

Berbeda dengan oversampling.

searah

#language

Sistem yang hanya mengevaluasi teks yang mendahului bagian target teks. Sebaliknya, sistem dua arah mengevaluasi teks yang mendahului dan mengikuti bagian target teks. Lihat dua arah untuk mengetahui detail selengkapnya.

model bahasa searah

#language

Model bahasa yang mendasarkan probabilitasnya hanya pada token muncul sebelum, bukan setelah, token target. Berbeda dengan model bahasa dua arah.

contoh tak berlabel

#fundamentals

Contoh yang berisi fitur tetapi tidak berisi label. Misalnya, tabel berikut menampilkan tiga contoh tak berlabel dari sebuah rumah model valuasi, masing-masing dengan tiga fitur tetapi tidak memiliki nilai rumah:

Jumlah kamar Jumlah kamar mandi Usia rumah
3 2 15
2 1 72
4 2 34

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Di semi-supervised dan unsupervised learning, contoh tak berlabel digunakan selama pelatihan.

Bedakan contoh tidak berlabel dengan contoh berlabel.

unsupervised machine learning

#clustering
#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya tidak berlabel.

Penggunaan unsupervised machine learning yang paling umum adalah Data cluster ke dalam kelompok contoh yang serupa. Misalnya, unsupervised machine algoritma learning dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input bagi komputer lain algoritma pembelajaran (misalnya, ke layanan rekomendasi musik). Pengelompokan dapat membantu ketika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia lebih memahami data.

Berbeda dengan supervised machine learning.

pemodelan peningkatan

Teknik pemodelan, yang biasa digunakan dalam pemasaran, yang memodelkan "efek kausal" (juga dikenal sebagai "dampak inkremental") dari "perlakuan" pada "individu". Berikut ini dua contoh:

  • Dokter mungkin menggunakan pemodelan peningkatan untuk memprediksi penurunan kematian (efek kausal) dari prosedur medis (perlakuan) tergantung pada usia dan riwayat medis pasien (individu).
  • Pemasar mungkin menggunakan pemodelan peningkatan untuk memprediksi peningkatan probabilitas pembelian (efek kausal) karena iklan (perlakuan) pada seseorang (individu).

Pemodelan peningkatan berbeda dengan klasifikasi atau regresi di beberapa label (misalnya setengah label dalam perlakuan biner) selalu hilang dalam pemodelan peningkatan. Misalnya, seorang pasien dapat menerima atau tidak menerima perawatan; Oleh karena itu, kita hanya dapat mengamati apakah pasien akan sembuh atau tidak sembuh hanya dalam salah satu dari dua situasi ini (tetapi tidak pernah keduanya). Keuntungan utama dari model peningkatan adalah dapat menghasilkan prediksi untuk situasi yang tidak teramati (kontrafaktual) dan menggunakannya untuk efek kausal.

menaikkan bobot

Menerapkan bobot ke class dengan pengurangan sampel sama dengan dengan faktor yang Anda gunakan untuk melakukan pengurangan sampel.

matriks pengguna

#recsystems

Dalam sistem rekomendasi, vektor penyematan yang dihasilkan oleh faktorisasi matriks yang memiliki sinyal laten tentang preferensi pengguna. Setiap baris dari matriks pengguna memiliki informasi tentang nilai kekuatan dari berbagai sinyal laten untuk satu pengguna. Misalnya, pertimbangkan sistem rekomendasi film. Dalam sistem ini, sinyal laten dalam matriks pengguna dapat mewakili kepentingan setiap pengguna genre tertentu, atau mungkin sinyal yang lebih sulit diinterpretasikan yang melibatkan interaksi yang kompleks pada berbagai faktor.

Matriks pengguna memiliki kolom untuk setiap fitur laten dan satu baris untuk setiap pengguna. Artinya, matriks pengguna memiliki jumlah baris yang sama dengan target matriks yang sedang difaktorkan. Misalnya, jika film sistem rekomendasi untuk 1.000.000 pengguna, matriks pengguna akan memiliki 1.000.000 baris.

V

validasi

#fundamentals

Evaluasi awal kualitas model. Validasi memeriksa kualitas prediksi model terhadap set validasi.

Karena set validasi berbeda dari set pelatihan, validasi dapat membantu mencegah overfitting.

Anda mungkin berpikir untuk mengevaluasi model terhadap set validasi sebagai pengujian putaran pertama dan mengevaluasi model terhadap set pengujian sebagai tahap pengujian kedua.

kerugian validasi

#fundamentals

Metrik yang mewakili kerugian model di set validasi selama periode tertentu iterasi pelatihan.

Lihat juga kurva generalisasi.

set validasi

#fundamentals

Subset dari set data yang menjalankan inisialisasi evaluasi terhadap model terlatih. Biasanya, Anda mengevaluasi model terlatih terhadap beberapa set validasi waktu sebelum mengevaluasi model terhadap set pengujian.

Biasanya, Anda membagi contoh dalam {i>dataset<i} ke dalam tiga contoh subset yang berbeda:

Idealnya, setiap contoh dalam {i>dataset<i} hanya boleh dimiliki oleh salah satu {i>subset<i} sebelumnya. Misalnya, satu contoh tidak boleh menjadi milik set pelatihan dan set validasi.

komputasi nilai

Proses mengganti nilai yang hilang dengan pengganti yang dapat diterima. Jika nilai hilang, Anda dapat membuang seluruh contoh atau Anda dapat menggunakan komputasi nilai untuk menyimpan contoh.

Misalnya, pertimbangkan set data yang berisi fitur temperature yang yang seharusnya dicatat setiap jam. Namun, pemeriksaan suhu tidak tersedia untuk jam tertentu. Berikut adalah bagian dari {i>dataset<i}:

Stempel waktu Suhu
1680561000 10
1680564600 12
1680568200 tidak ada
1680571800 20
1680575400 21
1680579000 21

Suatu sistem bisa menghapus contoh yang hilang atau menuding yang hilang pada suhu 12, 16, 18, atau 20, tergantung pada algoritma komputasi.

masalah vanishing gradient

#seq

Kecenderungan gradien lapisan tersembunyi awal beberapa jaringan neural dalam untuk menjadi sangat datar (rendah). Semakin rendah gradien yang semakin rendah menyebabkan perubahan yang lebih kecil pada bobot simpul di jaringan saraf dalam (deep neural network), yang sedikit atau tidak belajar sama sekali. Model yang mengalami masalah gradien hilang menjadi sulit atau tidak mungkin dilatih. Sel Memori Jangka Pendek dapat mengatasi masalah ini.

Bandingkan dengan masalah gradien yang meledak.

tingkat kepentingan variabel

#df

Sekumpulan skor yang menunjukkan kepentingan relatif masing-masing skor feature ke model.

Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika set tingkat kepentingan variabel untuk ketiga fitur tersebut dihitung {size=5.8, age=2.5, style=4.7}, maka ukuran lebih penting pohon keputusan daripada usia atau gaya.

Terdapat berbagai metrik nilai penting variabel, yang dapat memberikan informasi Pakar ML terkait berbagai aspek model.

autoencoder variasional (VAE)

#language

Jenis autoencoder yang memanfaatkan perbedaan tersebut antara input dan output untuk menghasilkan versi input yang dimodifikasi. Autoencoder variasional berguna untuk AI generatif.

VAE didasarkan pada inferensi variasional: sebuah teknik untuk memperkirakan parameter dari model probabilitas.

vektor

Istilah yang sangat berlebihan yang artinya bervariasi di berbagai metode matematika dan ilmiah. Dalam machine learning, vektor memiliki dua properti:

  • Jenis data: Vektor dalam machine learning biasanya menyimpan bilangan floating point.
  • Jumlah elemen: Ini adalah panjang vektor atau dimensinya.

Misalnya, pertimbangkan vektor fitur yang berisi delapan bilangan floating point. Vektor fitur ini memiliki panjang atau dimensi delapan. Perhatikan bahwa vektor machine learning sering kali memiliki dimensi dalam jumlah yang sangat besar.

Anda dapat merepresentasikan berbagai jenis informasi sebagai vektor. Contoh:

  • Setiap posisi di permukaan bumi dapat direpresentasikan sebagai vektor, dengan satu dimensi adalah garis lintang dan dimensi lainnya adalah garis bujur.
  • Harga saat ini dari masing-masing 500 saham dapat direpresentasikan sebagai vektor 500 dimensi.
  • Distribusi probabilitas selama jumlah kelas yang terbatas dapat direpresentasikan sebagai vektor. Sebagai contoh, klasifikasi kelas jamak yang memprediksi salah satu dari tiga warna {i>output<i} (merah, hijau, atau kuning) yang dapat vektor (0.3, 0.2, 0.5) berarti P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Vektor dapat digabungkan; Oleh karena itu, berbagai media dapat direpresentasikan sebagai vektor tunggal. Beberapa model beroperasi langsung pada penyambungan dari banyak encoding one-hot.

Prosesor khusus seperti TPU dioptimalkan untuk berfungsi operasi matematika pada vektor.

Vektor adalah tensor dari peringkat 1.

W

Kerugian Wasserstein

Salah satu fungsi kerugian yang umum digunakan dalam jaringan saraf generatif berlawanan, berdasarkan jarak penggerak bumi antara distribusi data yang dihasilkan dan data nyata.

bobot

#fundamentals

Nilai yang dikalikan model dengan nilai lain. Pelatihan adalah proses menentukan bobot ideal model; inferensi adalah proses penggunaan bobot yang dipelajari tersebut untuk membuat prediksi.

Kotak Alternatif Berbobot (WALS)

#recsystems

Sebuah algoritma untuk meminimalkan fungsi objektif selama faktorisasi matriks di sistem rekomendasi, yang memungkinkan menurunkan bobot dari contoh-contoh yang hilang. WALS meminimalkan bobot kuadrat kesalahan antara matriks asli dan rekonstruksi dengan secara bergantian antara memperbaiki faktorisasi baris dan faktorisasi kolom. Masing-masing pengoptimalan ini dapat diselesaikan dengan pengoptimalan konveks. Untuk mengetahui detailnya, lihat Kursus Sistem Rekomendasi.

jumlah tertimbang

#fundamentals

Jumlah semua nilai input yang relevan dikalikan dengan nilai yang sesuai bobot. Misalnya, anggap input yang relevan terdiri dari hal berikut:

nilai input bobot input
2 -1,3
-1 0,6
3 0,4

Oleh karena itu, jumlah tertimbang adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Jumlah tertimbang adalah argumen input untuk fungsi aktivasi.

model lebar

Model linear yang biasanya memiliki banyak fitur input renggang. Kami menyebutnya sebagai "{i>wide<i}" sejak model tersebut adalah jenis jaringan neural khusus dengan input dalam jumlah besar yang terhubung langsung ke {i>node<i} {i>output<i}. Model lebar sering kali lebih mudah di-debug dan diperiksa daripada model dalam. Meskipun model lebar tidak dapat mengekspresikan nonlinearitas melalui lapisan tersembunyi, model lebar (wide) dapat menggunakan transformasi seperti persilangan fitur dan pengelompokan untuk memodelkan nonlinearitas dengan cara yang berbeda.

Berbeda dengan model dalam.

lebar

Jumlah neuron dalam lapisan tertentu dari jaringan neural.

kebijaksanaan orang banyak

#df

Gagasan bahwa rata-rata opini atau perkiraan kelompok besar ("kerumunan") sering memberikan hasil yang sangat baik. Misalnya, pertimbangkan permainan di mana orang menebak jumlah kacang jeli yang dikemas ke dalam stoples besar. Meskipun sebagian besar tidak akurat, rata-rata semua tebakan yang secara empiris terbukti sangat mendekati dengan jumlah kacang jeli dalam stoples.

Ensembles adalah analog software dari kebijaksanaan banyak orang. Bahkan jika masing-masing model membuat prediksi yang sangat tidak akurat, rata-rata prediksi dari banyak model sering menghasilkan prediksi yang baik. Misalnya, meskipun seorang individu pohon keputusan dapat membuat prediksi yang buruk, hutan keputusan sering kali membuat prediksi yang sangat baik.

embedding kata

#language

Mewakili setiap kata dalam himpunan kata dalam vektor yang disematkan; yaitu, mewakili setiap kata sebagai vektor nilai floating point antara 0,0 dan 1,0. Kata dengan kemiripan memiliki representasi yang lebih mirip daripada kata-kata dengan makna yang berbeda. Misalnya, wortel, seledri, dan mentimun memiliki jumlah relatif yang mirip, yang akan sangat berbeda dengan representasi pesawat, kacamata hitam, dan tempel gigi.

X

XLA (Aljabar Linear yang Dipercepat)

Compiler machine learning open source untuk GPU, CPU, dan akselerator ML.

Compiler XLA mengambil model dari framework ML populer seperti PyTorch, TensorFlow, dan JAX, lalu mengoptimalkannya untuk eksekusi performa tinggi di berbagai platform hardware termasuk GPU, CPU, dan akselerator ML.

Z

pembelajaran zero-shot

Jenis pelatihan machine learning di mana model menyimpulkan prediksi untuk suatu tugas yang belum pernah dilatih secara khusus. Dengan kata lain, model ini diberi nol contoh pelatihan khusus tugas, tetapi diminta melakukan inferensi untuk tugas tersebut.

metode zero-shot prompting

#language
#generativeAI

Perintah yang tidak memberikan contoh cara yang Anda inginkan model bahasa besar untuk merespons. Contoh:

Bagian dari satu perintah Catatan
Apa mata uang resmi negara yang ditentukan? Pertanyaan yang perlu dijawab oleh LLM.
India: Kueri sebenarnya.

Model bahasa besar mungkin merespons dengan salah satu dari hal berikut:

  • Rupee
  • INR
  • Rs
  • Rupee India
  • Rupee
  • Rupee India

Semua jawaban benar, meskipun Anda mungkin lebih memilih format tertentu.

Bandingkan dan bandingkan zero-shot prompting dengan istilah berikut:

Normalisasi skor Z

#fundamentals

Teknik penskalaan yang menggantikan nilai feature dengan nilai floating point yang merepresentasikan jumlah simpangan baku dari rerata fitur tersebut. Misalnya, pertimbangkan fitur yang mean-nya 800 dan yang standarnya deviasi adalah 100. Tabel berikut menunjukkan cara normalisasi skor Z akan memetakan nilai mentah ke skor Z:

Nilai mentah Skor Z
800 0
950 +1,5
575 -2,25

Model machine learning kemudian berlatih dengan skor Z untuk fitur tersebut alih-alih pada nilai mentahnya.