Glosarium Machine Learning: Dasar-Dasar ML

Halaman ini berisi istilah glosarium Dasar-Dasar ML. Untuk semua istilah glosarium, klik di sini.

A

akurasi

#fundamentals

Jumlah prediksi klasifikasi yang benar yang dibagi dengan jumlah total prediksi. Definisinya yaitu:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Misalnya, model yang membuat 40 prediksi benar dan 10 prediksi salah prediksi akan memiliki akurasi:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasifikasi biner memberikan nama tertentu untuk berbagai kategori prediksi yang benar dan prediksi salah. Jadi, rumus akurasi untuk klasifikasi biner adalah sebagai berikut:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dalam hal ini:

Membandingkan dan membedakan akurasi dengan presisi dan penarikan.

fungsi aktivasi

#fundamentals

Fungsi yang memungkinkan jaringan neural untuk mempelajari Hubungan nonlinear (kompleks) antar fitur dan label.

Fungsi aktivasi yang populer mencakup:

Plot fungsi aktivasi tidak pernah berupa garis lurus tunggal. Misalnya, plot fungsi aktivasi ULT terdiri dari dua garis lurus:

Plot kartesian dari dua baris. Baris pertama memiliki konstanta
          nilai y 0, berjalan di sepanjang sumbu x dari - tak terhingga,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, jadi
          rentangnya mulai dari 0,0 hingga + tak terhingga,+tak terhingga.

Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain
          -tak terhingga hingga +positif, sedangkan nilai y menjangkau rentang hampir 0 hingga
          hampir 1. Jika x adalah 0, y adalah 0,5. Kemiringan kurva selalu
          positif, dengan kemiringan tertinggi 0,0.5 dan perlahan menurun
          kemiringan saat nilai absolut dari x meningkat.

kecerdasan buatan

#fundamentals

Program atau model nonmanusia yang dapat menyelesaikan tugas-tugas rumit. Misalnya, program atau model yang menerjemahkan teks atau program atau model yang mengidentifikasi penyakit dari gambar radiologi, keduanya menunjukkan kecerdasan buatan.

Secara formal, machine learning adalah sub-bidang dari buatan AI generatif. Namun, dalam beberapa tahun terakhir, sejumlah organisasi mulai menggunakan istilah kecerdasan buatan dan machine learning secara bergantian.

ABK (Area di bawah kurva ROC)

#fundamentals

Angka antara 0,0 dan 1,0 mewakili Model klasifikasi biner kemampuan untuk memisahkan kelas positif dari kelas negatif. Semakin dekat ABK ke 1,0, semakin baik kemampuan model untuk memisahkan kelas dari satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model pengklasifikasi yang memisahkan kelas positif (oval hijau) dari kelas negatif (persegi panjang ungu) dengan sempurna. Model yang tidak realistis ini memiliki ABK 1,0:

Garis bilangan dengan 8 contoh positif di satu sisi dan
          9 contoh negatif di sisi lain.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk pengklasifikasi yang menampilkan hasil acak. Model ini memiliki ABK 0,5:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contohnya adalah positif, negatif,
          positif, negatif, positif, negatif, positif, negatif, positif
          negatif, positif, negatif.

Ya, model sebelumnya memiliki AUC 0,5, bukan 0,0.

Sebagian besar model berada di antara dua hal ekstrem. Misalnya, model berikut memisahkan positif dari negatif, dan karenanya memiliki AUC antara 0,5 dan 1,0:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contoh adalah negatif, negatif, negatif,
          positif, negatif, positif, positif, negatif, positif, positif,
          positif.

ABK mengabaikan nilai apa pun yang Anda tetapkan nilai minimum klasifikasi. Sebagai gantinya, ABK mempertimbangkan semua batas klasifikasi yang mungkin.

B

propagasi mundur

#fundamentals

Algoritma yang mengimplementasikan penurunan gradien di jaringan neural.

Pelatihan jaringan neural melibatkan banyak iterasi dari siklus dua tahap berikut:

  1. Selama pass maju, sistem akan memproses kumpulan contoh untuk menghasilkan prediksi. Sistem membandingkan masing-masing prediksi ke tiap nilai label. Perbedaan antara prediksi dan nilai labelnya adalah kerugian untuk contoh tersebut. Sistem menggabungkan kerugian untuk semua contoh tersebut untuk menghitung total untuk batch saat ini.
  2. Selama lintas mundur (propagasi mundur), sistem akan mengurangi kerugian sebesar menyesuaikan bobot semua neuron di semua lapisan tersembunyi.

Jaringan neural sering berisi banyak neuron di banyak lapisan tersembunyi. Masing-masing neuron tersebut berkontribusi pada hilangnya keseluruhan dengan cara yang berbeda. Propagasi mundur menentukan apakah akan menambah atau mengurangi bobot diterapkan pada neuron tertentu.

Kecepatan pembelajaran adalah pengganda yang mengontrol sejauh mana setiap {i>back pass<i} menambah atau mengurangi setiap bobot. Kecepatan pembelajaran yang besar akan menambah atau mengurangi setiap bobot lebih dari satu memiliki kecepatan pembelajaran yang rendah.

Dalam istilah kalkulus, propagasi mundur menerapkan aturan chain. dari kalkulus. Artinya, propagasi mundur menghitung turunan parsial dari error dengan terhadap setiap parameter.

Bertahun-tahun yang lalu, praktisi ML harus menulis kode untuk mengimplementasikan propagasi mundur. API ML modern seperti TensorFlow kini mengimplementasikan propagasi mundur untuk Anda. Fiuh!

batch

#fundamentals

Kumpulan contoh yang digunakan dalam satu pelatihan iterasi. Ukuran tumpukan menentukan jumlah contoh dalam batch.

Lihat epoch untuk mengetahui penjelasan tentang keterkaitan suatu batch dengan yaitu sebuah epoch.

ukuran tumpukan

#fundamentals

Jumlah contoh dalam tumpukan. Misalnya, jika ukuran batch adalah 100, maka model akan memproses 100 contoh per iterasi.

Berikut adalah strategi ukuran tumpukan yang populer:

  • Penurunan Gradien Stokastik (SGD), dengan ukuran tumpukan 1.
  • Batch penuh, yang mana ukuran batch adalah jumlah contoh di seluruh set pelatihan. Misalnya, jika set pelatihan berisi satu juta contoh, maka ukuran tumpukannya adalah satu juta contoh. Batch penuh biasanya merupakan strategi yang tidak efisien.
  • tumpukan mini yang ukuran tumpukannya biasanya antara 10 dan 1000. Tumpukan mini biasanya merupakan strategi yang paling efisien.

bias (etika/keadilan)

#fairness
#fundamentals

1. Stereotip, prasangka atau favoritisme terhadap beberapa hal, orang, atau kelompok dibandingkan yang lain. Bias ini dapat mempengaruhi pengumpulan dan interpretasi data, desain sistem, dan bagaimana pengguna berinteraksi dengan suatu sistem. Bentuk dari jenis bias ini meliputi:

2. Kesalahan sistematis yang diperkenalkan oleh prosedur pengambilan sampel atau pelaporan. Bentuk dari jenis bias ini meliputi:

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

bias (matematika) atau istilah bias

#fundamentals

Intersepsi atau offset dari origin. Bias adalah parameter dalam model machine learning, yang disimbolkan oleh salah satu berikut ini:

  • b
  • m0

Misalnya, bias bernilai b dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Pada garis sederhana dua dimensi, bias berarti "perpotongan y". Misalnya, bias garis dalam ilustrasi berikut adalah 2.

Plot garis dengan kemiringan 0,5 dan bias (perpotongan y) 2.

Bias ada karena tidak semua model dimulai dari titik asal (0,0). Misalnya, anggap sebuah taman hiburan biaya 2 Euro untuk masuk dan tambahan 0,5 Euro untuk setiap jam pelanggan menginap. Oleh karena itu, model yang memetakan total biaya memiliki bias 2 karena biaya terendah adalah 2 Euro.

Bias tidak sama dengan bias dalam etika dan keadilan atau bias prediksi.

klasifikasi biner

#fundamentals

Jenis tugas klasifikasi yang memprediksi salah satu dari dua class yang saling eksklusif:

Misalnya, dua model machine learning berikut memiliki performa klasifikasi biner:

  • Model yang menentukan apakah pesan email spam (kelas positif) atau bukan spam (kelas negatif).
  • Model yang mengevaluasi gejala medis untuk menentukan apakah seseorang memiliki penyakit tertentu (kelas positif) atau tidak memiliki penyakit tersebut penyakit (kelas negatif).

Berbeda dengan klasifikasi kelas jamak.

Lihat juga regresi logistik dan nilai minimum klasifikasi.

pengelompokan

#fundamentals

Mengonversi satu fitur menjadi beberapa fitur biner disebut bucket atau bins, umumnya didasarkan pada rentang nilai. Fitur cincang biasanya adalah fitur berkelanjutan.

Misalnya, alih-alih merepresentasikan suhu sebagai satu fitur floating point berkelanjutan, Anda dapat memotong rentang suhu menjadi bucket terpisah, seperti:

  • <= 10 derajat Celsius akan menjadi "dingin" direktori VM dengan bucket.
  • 11 - 24 derajat Celsius akan menjadi "sedang" direktori VM dengan bucket.
  • >= 25 derajat Celsius akan menjadi "hangat" direktori VM dengan bucket.

Model akan memperlakukan setiap nilai dalam bucket yang sama secara identik. Sebagai contoh, nilai 13 dan 22 keduanya berada dalam bucket temperate, sehingga memperlakukan dua nilai secara identik.

C

data kategorik

#fundamentals

Fitur yang memiliki kumpulan spesifik nilai yang mungkin. Misalnya, pertimbangkan fitur kategori bernama traffic-light-state, yang hanya dapat memiliki salah satu dari tiga kemungkinan nilai berikut:

  • red
  • yellow
  • green

Dengan merepresentasikan traffic-light-state sebagai fitur kategori, suatu model dapat mempelajari dampak red, green, dan yellow yang berbeda terhadap perilaku pengemudi.

Fitur kategorik terkadang disebut fitur diskret.

Berbeda dengan data numerik.

class

#fundamentals

Kategori yang dapat mencakup label. Contoh:

  • Dalam model klasifikasi biner yang mendeteksi spam, kedua kelas tersebut mungkin adalah spam dan bukan spam.
  • Dalam model klasifikasi kelas multi-class yang mengidentifikasi jenis, kelasnya mungkin adalah pudel, beagle, pesa, dan seterusnya.

Model klasifikasi memprediksi class. Sebaliknya, model regresi memprediksi jumlah bukan class.

model klasifikasi

#fundamentals

Model yang prediksinya adalah class. Misalnya, berikut ini adalah semua model klasifikasi:

  • Model yang memprediksi bahasa kalimat input (bahasa Prancis? Spanyol? Italia?).
  • Model yang memprediksi spesies pohon (Maple? Ek? Baobab?).
  • Model yang memprediksi kelas positif atau negatif untuk kondisi medis tertentu.

Sebaliknya, model regresi memprediksi angka bukan class.

Dua jenis model klasifikasi yang umum adalah:

batas klasifikasi

#fundamentals

Dalam klasifikasi biner, angka antara 0 dan 1 yang mengubah {i>output<i} mentah dari model regresi logistik menjadi prediksi kelas positif atau kelas negatif. Perhatikan bahwa ambang batas klasifikasi adalah nilai yang dipilih manusia, bukan nilai yang dipilih oleh pelatihan model.

Model regresi logistik menghasilkan nilai mentah antara 0 dan 1. Lalu:

  • Jika nilai mentah ini lebih dari batas klasifikasi, maka kelas positif diprediksi.
  • Jika nilai mentah ini kurang dari batas klasifikasi, maka kelas negatif diprediksi.

Misalnya, batas klasifikasi adalah 0,8. Jika nilai mentah 0,9, maka model memprediksi kelas positif. Jika nilai mentahnya adalah 0,7, maka model ini memprediksi kelas negatif.

Pilihan batas klasifikasi sangat mempengaruhi jumlah positif palsu (PP) dan negatif palsu.

set data kelas tidak seimbang

#fundamentals

{i>Dataset<i} untuk masalah klasifikasi di mana jumlah total label di setiap class berbeda secara signifikan. Sebagai contoh, pertimbangkan {i>dataset<i} klasifikasi biner yang memiliki dua label dibagi sebagai berikut:

  • 1.000.000 label negatif
  • 10 label positif

Rasio label negatif terhadap positif adalah 100.000 berbanding 1, jadi ini adalah set data kelas tidak seimbang.

Sebaliknya, set data berikut tidak kelas tidak seimbang karena rasio label negatif terhadap label positif relatif mendekati 1:

  • 517 label negatif
  • 483 label positif

Set data multi-class juga dapat bersifat tidak seimbang. Misalnya, set data klasifikasi multi-kelas juga tidak seimbang karena satu label memiliki lebih banyak contoh daripada dua lainnya:

  • 1.000.000 label dengan kelas "hijau"
  • 200 label dengan class "ungu"
  • 350 label dengan kelas "oranye"

Lihat juga entropi, kelas mayoritas, dan class minoritas.

penyesuaian nilai

#fundamentals

Teknik untuk menangani outlier dengan melakukan salah satu atau kedua hal berikut:

  • Mengurangi nilai fitur yang lebih besar dari nilai maksimum hingga ke nilai minimum tersebut.
  • Meningkatkan nilai fitur yang kurang dari nilai minimum hingga ke nilai tersebut dan batas minimum.

Misalnya, anggaplah <0,5% nilai untuk fitur tertentu jatuh di luar rentang 40–60. Dalam kasus ini, Anda dapat melakukan tindakan berikut:

  • Potong semua nilai di atas 60 (batas maksimum) menjadi tepat 60.
  • Potong semua nilai di bawah 40 (batas minimum) menjadi tepat 40.

Pencilan dapat merusak model, terkadang menyebabkan bobot yang berlebih selama pelatihan. Beberapa {i>outlier<i} juga dapat merusak metrik seperti akurasi. {i>Clipping<i} adalah teknik umum untuk membatasi kerusakannya.

Pemangkasan gradien gaya nilai gradien dalam rentang yang ditentukan selama pelatihan.

matriks konfusi

#fundamentals

Tabel NxN yang merangkum jumlah prediksi yang benar dan salah yang dibuat oleh model klasifikasi. Misalnya, pertimbangkan matriks konfusi berikut untuk Model klasifikasi biner:

Tumor (diprediksi) Bukan Tumor (diprediksi)
Tumor (kebenaran dasar) 18 (PB) 1 (NP)
Non-Tumor (kebenaran dasar) 6 (PP) 452 (TN)

Matriks konfusi sebelumnya menunjukkan hal berikut:

  • Dari 19 prediksi yang kebenaran dasar-nya adalah Tumor, model dengan benar mengklasifikasikan 18 dan salah diklasifikasikan dengan 1.
  • Dari 458 prediksi yang mana kebenaran dasar adalah Non-Tumor, model diklasifikasikan dengan benar 452 dan salah diklasifikasikan 6.

Matriks konfusi untuk klasifikasi kelas multi-class masalah dapat membantu Anda mengidentifikasi pola kesalahan. Misalnya, pertimbangkan matriks konfusi berikut untuk kelas 3 model klasifikasi kelas multi-kelas yang mengkategorikan tiga jenis iris yang berbeda (Virginica, Versicolor, dan Setosa). Ketika kebenaran dasar adalah Virginica, matriks konfusi menunjukkan bahwa model ini jauh lebih mungkin untuk keliru memprediksi Versicolor daripada Setosa:

  Setosa (diprediksi) Versicolor (diprediksi) Virginica (diprediksi)
Setosa (kebenaran dasar) 88 12 0
Versicolor (kebenaran dasar) 6 141 7
Virginica (kebenaran dasar) 2 27 109

Sebagai contoh lain, matriks konflik dapat mengungkapkan bahwa model yang dilatih mengenali digit tulisan tangan cenderung salah memprediksi 9 bukannya 4, atau salah memprediksi 1 bukannya 7.

Matriks konfusi berisi informasi yang cukup untuk menghitung berbagai metrik performa, termasuk presisi dan recall.

fitur berkelanjutan

#fundamentals

Fitur floating point dengan rentang kemungkinan yang tak terbatas nilai, seperti suhu atau berat.

Berbeda dengan fitur diskret.

konvergensi

#fundamentals

Status yang dicapai saat nilai loss sangat sedikit berubah atau tidak sama sekali di setiap iterasi. Misalnya, kurva kerugian menyarankan konvergensi pada sekitar 700 iterasi:

Plot Kartesius. Sumbu X adalah kerugian. Sumbu Y adalah jumlah pelatihan
          iterasi sebelumnya. Kerugian sangat tinggi selama beberapa iterasi pertama, tetapi
          turun tajam. Setelah sekitar 100 iterasi, kerugian masih
          menurun tetapi secara bertahap. Setelah sekitar 700 iterasi,
          kerugian tetap datar.

Model konvergensi ketika pelatihan tambahan tidak dapat dilakukan memperbaiki model.

Dalam deep learning, nilai kerugian terkadang tetap konstan atau hampir seluruh iterasi sebelum akhirnya menurun. Selama jangka waktu yang lama nilai kerugian yang konstan, untuk sementara Anda mungkin mendapatkan pemahaman palsu tentang konvergensi.

Lihat juga penghentian awal.

D

DataFrame

#fundamentals

Jenis data pandas populer untuk merepresentasikan set data dalam memori.

DataFrame dapat dianalogikan dengan tabel atau {i>spreadsheet<i}. Setiap kolom dari DataFrame memiliki nama ({i>header<i}), dan setiap baris diidentifikasi oleh nomor unik.

Setiap kolom dalam DataFrame terstruktur seperti {i>array 2D<i}, kecuali bahwa setiap kolom dapat diberi tipe datanya sendiri.

Lihat juga dokumen Referensi pandas.DataFrame Google.

{i>dataset<i} atau {i>dataset<i}

#fundamentals

Kumpulan data mentah, biasanya (tetapi tidak secara eksklusif) diatur dalam satu format berikut:

  • spreadsheet
  • file dalam format CSV ({i>comma-separated values<i})

model dalam

#fundamentals

Jaringan neural yang berisi lebih dari satu lapisan tersembunyi.

Model dalam juga disebut jaringan neural dalam.

Berbeda dengan model lebar.

fitur padat

#fundamentals

Fitur yang sebagian besar atau semua nilainya bukan nol, biasanya Tensor yang terdiri dari nilai floating point. Misalnya, Tensor 10 elemen padat karena 9 nilainya bukan nol:

8 3 7 5 2 4 0 4 9 6

Berbeda dengan fitur renggang.

kedalaman

#fundamentals

Jumlah nilai berikut dalam jaringan neural:

Misalnya, jaringan neural dengan lima lapisan tersembunyi dan satu lapisan output memiliki kedalaman 6.

Perhatikan bahwa lapisan input tidak {i>pengaruh depth<i}.

fitur diskrit (discrete fitur)

#fundamentals

Fitur dengan serangkaian kemungkinan nilai yang terbatas. Misalnya, fitur yang nilainya mungkin hanya hewan, sayuran, atau mineral fitur diskrit (atau kategorikal).

Berbeda dengan fitur berkelanjutan.

dinamis

#fundamentals

Sesuatu dilakukan secara sering atau terus-menerus. Istilah dinamis dan online adalah sinonim dari machine learning. Berikut adalah penggunaan umum dinamis dan online di mesin pembelajaran:

  • Model dinamis (atau model online) adalah model yang sering dilatih ulang atau terus-menerus.
  • Pelatihan dinamis (atau pelatihan online) adalah proses pelatihan secara berkala atau berkelanjutan.
  • Inferensi dinamis (atau inferensi online) adalah proses menghasilkan prediksi sesuai permintaan.

model dinamis

#fundamentals

Model yang sering (bahkan mungkin berkelanjutan) dilatih ulang. Model dinamis adalah "pembelajar seumur hidup" sehingga terus beradaptasi dengan data yang berkembang. Model dinamis juga dikenal sebagai model online.

Berbeda dengan model statis.

E

penghentian awal

#fundamentals

Metode untuk regularisasi yang melibatkan akhir pelatihan sebelum kerugian pelatihan selesai menurun. Di penghentian awal, Anda sengaja menghentikan pelatihan model saat kerugian pada set data validasi mulai increase; yaitu, ketika Performa generalisasi memburuk.

lapisan embedding

#language
#fundamentals

Lapisan tersembunyi khusus yang dilatih pada fitur kategoris berdimensi tinggi untuk secara bertahap mempelajari vektor embedding dimensi yang lebih rendah. Channel memungkinkan jaringan neural untuk melatih jauh lebih lebih efisien dibandingkan melatih fitur kategorikal berdimensi tinggi.

Misalnya, saat ini Bumi mendukung sekitar 73.000 spesies pohon. Misalkan spesies pohon adalah fitur dalam model Anda, jadi model lapisan input menyertakan vektor one-hot 73.000 elemen yang panjang. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array berisi 73.000 elemen. 6.232 elemen pertama menyimpan nilai
     0. Elemen berikutnya memiliki nilai 1. 66.767 elemen terakhir dipertahankan
     nilainya nol.

Array 73.000 elemen sangat panjang. Jika Anda tidak menambahkan lapisan embedding ke model, pelatihan akan sangat memakan waktu karena mengalikan 72.999 angka nol. Mungkin Anda memilih lapisan embedding dari 12 dimensi. Akibatnya, lapisan embedding akan secara bertahap mempelajari vektor embedding baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar ke lapisan embedding.

epoch

#fundamentals

Tiket pelatihan lengkap untuk seluruh set pelatihan sehingga setiap contoh telah diproses satu kali.

Satu epoch mewakili N/ukuran tumpukan iterasi pelatihan, dengan N sebagai jumlah total contoh.

Misalnya, anggaplah berikut ini:

  • Set data terdiri dari 1.000 contoh.
  • Ukuran tumpukan adalah 50 contoh.

Oleh karena itu, satu epoch memerlukan 20 iterasi:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

contoh

#fundamentals

Nilai dari satu baris fitur dan mungkin label. Contoh dalam supervised learning terbagi menjadi dua kategori umum:

  • Contoh berlabel terdiri dari satu atau beberapa fitur dan label. Contoh berlabel digunakan selama pelatihan.
  • Contoh tak berlabel terdiri dari satu atau lebih banyak fitur tetapi tanpa label. Contoh tak berlabel digunakan selama inferensi.

Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca pada nilai ujian siswa. Berikut adalah tiga contoh berlabel:

Fitur Label
Suhu Kelembapan Tekanan Skor tes
15 47 998 Baik
19 34 1020 Luar biasa
18 92 1012 Buruk

Berikut adalah tiga contoh tak berlabel:

Suhu Kelembapan Tekanan  
12 62 1014  
21 47 1017  
19 41 1021  

Baris set data biasanya merupakan sumber mentah untuk contoh tersebut. Yaitu, sebuah contoh biasanya terdiri dari satu {i>subset <i}kolom dalam {i>dataset <i}tersebut. Lebih lanjut, fitur-fitur dalam contoh juga dapat mencakup fitur sintetis, seperti persilangan fitur.

F

negatif palsu (FN)

#fundamentals

Contoh saat model salah memprediksi kelas negatif. Misalnya, model memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email sebenarnya adalah spam.

positif palsu (PP)

#fundamentals

Contoh saat model salah memprediksi kelas positif. Misalnya, model ini memprediksi pesan email tertentu adalah spam (kelas positif), tetapi pesan email sebenarnya bukan spam.

rasio positif palsu (FPR)

#fundamentals

Proporsi contoh negatif aktual yang tidak seharusnya oleh model memprediksi kelas positif. Formula berikut menghitung nilai salah rasio positif:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Rasio positif palsu adalah sumbu x dalam kurva KOP.

fitur

#fundamentals

Variabel input ke model machine learning. Contoh terdiri dari satu atau beberapa fitur. Misalnya, anggaplah Anda sedang melatih untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Tabel berikut menampilkan tiga contoh, yang masing-masing berisi tiga fitur dan satu label:

Fitur Label
Suhu Kelembapan Tekanan Skor tes
15 47 998 92
19 34 1020 84
18 92 1012 87

Berbeda dengan label.

persilangan fitur

#fundamentals

Fitur sintetis yang dibentuk dengan "persilangan" fitur kategoris atau bucket.

Misalnya, pertimbangkan "perkiraan suasana hati" yang mewakili suhu di salah satu dari empat kategori berikut:

  • freezing
  • chilly
  • temperate
  • warm

Dan mewakili kecepatan angin di salah satu dari tiga bucket berikut:

  • still
  • light
  • windy

Tanpa persilangan fitur, model linear akan berlatih secara independen pada masing-masing sebelum tujuh kelompok yang berbeda. Misalnya, model dilatih freezing terpisah dari pelatihan, misalnya, windy.

Atau, Anda dapat membuat persilangan fitur suhu dan kecepatan angin. Fitur sintetis ini akan memiliki 12 kemungkinan nilai-nilai:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Berkat persilangan fitur, model ini dapat mempelajari perbedaan mood antara freezing-windy hari dan freezing-still hari.

Jika Anda membuat fitur sintetis dari dua fitur yang masing-masing memiliki bucket berbeda, persilangan fitur yang dihasilkan akan memiliki jumlah yang besar kombinasi yang mungkin. Misalnya, jika satu fitur memiliki 1.000 bucket dan fitur lainnya memiliki 2.000 bucket, persilangan fitur yang dihasilkan memiliki 2.000.000 bucket.

Secara formal, salib adalah Produk Kartesius.

Persilangan fitur sebagian besar digunakan dengan model linear dan jarang digunakan dengan jaringan neural.

rekayasa fitur

#fundamentals
#TensorFlow

Proses yang melibatkan langkah-langkah berikut:

  1. Menentukan fitur yang mungkin berguna dalam melatih model.
  2. Mengonversi data mentah dari {i>dataset<i} ke versi yang efisien dari fitur-fitur tersebut.

Misalnya, Anda dapat menentukan bahwa temperature mungkin berguna aplikasi baru. Kemudian, Anda dapat bereksperimen dengan pengelompokan untuk mengoptimalkan apa yang dapat dipelajari model dari berbagai rentang temperature.

Rekayasa fitur terkadang disebut ekstraksi fitur atau fitur.

set fitur

#fundamentals

Grup fitur machine learning Anda model berlatih. Misalnya, kode pos, ukuran properti, dan kondisi properti terdiri dari set fitur sederhana untuk model yang memprediksi harga perumahan.

vektor fitur

#fundamentals

Array nilai feature yang terdiri dari contoh. Vektor fitur dimasukkan selama pelatihan dan selama inferensi. Misalnya, vektor fitur untuk model dengan dua fitur diskrit mungkin:

[0.92, 0.56]

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan satu lapisan output.
          Lapisan input berisi dua node, salah satunya berisi nilai
          0,92 dan lainnya berisi nilai 0,56.

Setiap contoh memberikan nilai yang berbeda untuk vektor fitur, sehingga vektor fitur untuk contoh berikutnya bisa seperti:

[0.73, 0.49]

Rekayasa fitur menentukan cara menampilkan fitur dalam vektor fitur. Misalnya, fitur kategoris biner dengan lima nilai yang mungkin dapat direpresentasikan dengan enkode one-hot. Dalam hal ini, bagian dari vektor fitur untuk contoh tertentu akan terdiri dari empat angka nol dan 1,0 tunggal di posisi ketiga, sebagai berikut:

[0.0, 0.0, 1.0, 0.0, 0.0]

Sebagai contoh lain, misalkan model Anda terdiri dari tiga fitur:

  • fitur kategori biner dengan lima nilai kemungkinan yang diwakili dengan enkode one-hot; misalnya: [0.0, 1.0, 0.0, 0.0, 0.0]
  • fitur kategori biner lainnya dengan tiga kemungkinan nilai yang diwakili dengan enkode one-hot; misalnya: [0.0, 0.0, 1.0]
  • fitur {i>floating-point<i}; misalnya: 8.3.

Dalam hal ini, vektor fitur untuk setiap contoh akan direpresentasikan sebanyak sembilan nilai. Dengan mempertimbangkan nilai contoh dalam daftar sebelumnya, {i>feature vector<i} akan menjadi:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

feedback loop

#fundamentals

Dalam machine learning, situasi ketika prediksi model memengaruhi data pelatihan untuk model yang sama atau model lain. Misalnya, model yang merekomendasikan film akan memengaruhi film yang ditonton orang, yang selanjutnya akan memengaruhi model rekomendasi film berikutnya.

G

generalisasi

#fundamentals

Kemampuan model untuk membuat prediksi yang benar pada data yang sebelumnya tidak terlihat. Model yang dapat menggeneralisasi adalah kebalikan model yang melakukan overfitting.

kurva generalisasi

#fundamentals

Plot kerugian pelatihan dan kerugian validasi sebagai fungsi dari jumlah iterasi.

Kurva generalisasi dapat membantu Anda mendeteksi kemungkinan overfitting. Misalnya, kurva generalisasi menunjukkan overfitting karena kerugian validasi pada akhirnya menjadi jauh lebih tinggi daripada kerugian pelatihan.

Grafik Kartesius yang mana sumbu y diberi label kerugian dan sumbu x
          diberi label iterasi. Dua plot muncul. Satu plot menunjukkan
          kerugian pelatihan dan yang lainnya 
menunjukkan kerugian validasi.
          Kedua plot dimulai dengan cara serupa, tetapi kerugian pelatihan pada akhirnya
          turun jauh lebih rendah
daripada kerugian validasi.

penurunan gradien

#fundamentals

Teknik matematis untuk meminimalkan kerugian. Penurunan gradien disesuaikan secara iteratif bobot dan bias, secara bertahap menemukan kombinasi terbaik untuk meminimalkan kerugian.

Penurunan gradien bersifat lebih tua—jauh lebih tua—dibandingkan machine learning.

kebenaran nyata

#fundamentals

Realitas.

Hal yang benar-benar terjadi.

Sebagai contoh, pertimbangkan klasifikasi biner model yang memprediksi apakah seorang mahasiswa di tahun pertama kuliah akan lulus dalam waktu enam tahun. Kebenaran dasar model ini adalah apakah bukan siswa yang benar-benar lulus dalam enam tahun.

H

lapisan tersembunyi

#fundamentals

Lapisan dalam jaringan neural antara lapisan input (fitur) dan lapisan output (prediksi). Setiap lapisan tersembunyi terdiri dari satu atau beberapa neuron. Misalnya, jaringan neural berikut berisi dua lapisan tersembunyi, yang pertama dengan tiga neuron dan yang kedua dengan dua neuron:

Empat lapisan. Lapisan pertama adalah lapisan input yang berisi dua
          baru. Lapisan kedua adalah lapisan 
tersembunyi yang berisi tiga
          neuron. Lapisan ketiga adalah lapisan tersembunyi yang berisi dua
          neuron. Lapisan keempat adalah lapisan output. Setiap fitur
          memiliki tiga tepi, yang masing-masing 
mengarah ke neuron yang berbeda
          di lapisan kedua. Setiap neuron di lapisan kedua
          memiliki dua tepi, yang masing-masing 
mengarah ke neuron yang berbeda
          di lapisan ketiga. Setiap neuron di lapisan ketiga berisi
          satu tepi, masing-masing menunjuk ke lapisan output.

Jaringan neural dalam berisi lebih dari satu {i>hidden layer<i}. Misalnya, ilustrasi sebelumnya adalah analisis deep neural jaringan karena model berisi dua lapisan tersembunyi.

hyperparameter (hyperparameter)

#fundamentals

Variabel yang Anda atau layanan penyesuaian hyperparameter menyesuaikan model selama pelatihan model berturut-turut. Misalnya, kecepatan pembelajaran adalah hyperparameter. Anda dapat mengatur kecepatan pembelajaran ke 0,01 sebelum satu sesi pelatihan. Jika Anda menentukan bahwa 0,01 terlalu tinggi, Anda mungkin bisa mengatur pembelajaran nilai untuk 0,003 untuk sesi pelatihan berikutnya.

Sebaliknya, parameter adalah berbagai bobot dan bias yang ditentukan oleh model belajar selama pelatihan.

I

terdistribusi secara independen dan identik (i.i.d)

#fundamentals

Data yang diambil dari distribusi yang tidak berubah, dan di mana setiap nilai tidak bergantung pada nilai yang telah digambar sebelumnya. AI adalah gas ideal mesin pembelajaran—konstruk matematis yang berguna tetapi hampir tidak pernah ditemukan secara pasti di dunia nyata. Misalnya, distribusi pengunjung ke laman web mungkin i.i.d. dalam jangka waktu yang singkat; yaitu, distribusi tidak berubah selama jendela singkat itu dan kunjungan seseorang biasanya terlepas dari kunjungan orang lain. Namun, jika Anda memperluas periode waktu tersebut, perbedaan musiman dalam pengunjung halaman web mungkin muncul.

Lihat juga nonstasioneritas.

inferensi

#fundamentals

Dalam machine learning, proses pembuatan prediksi dengan menerapkan model terlatih ke contoh tak berlabel.

Inferensi memiliki arti yang agak berbeda dalam statistik. Lihat Artikel Wikipedia tentang inferensi statistik untuk mengetahui detailnya.

lapisan input

#fundamentals

Lapisan dari jaringan neural yang menyimpan vektor fitur. Yaitu, lapisan input memberikan contoh untuk pelatihan atau inferensi. Misalnya, lapisan input di lapisan neural network terdiri dari dua fitur:

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan lapisan output.

penafsiran

#fundamentals

Kemampuan untuk menjelaskan atau menyajikan alasan model ML dalam istilah yang dapat dimengerti oleh manusia.

Sebagian besar model regresi linear, misalnya, sangat agar dapat ditafsirkan. (Anda hanya perlu melihat bobot terlatih untuk setiap feature.) Hutan keputusan juga sangat mudah ditafsirkan. Namun, beberapa model memerlukan visualisasi yang canggih agar dapat ditafsirkan.

Anda dapat menggunakan Alat Penafsiran Pembelajaran (LIT) untuk menafsirkan model ML.

iterasi

#fundamentals

Pembaruan tunggal parameter model—yang bobot dan bias—selama pelatihan. Ukuran tumpukan menentukan berapa banyak contoh yang diproses model dalam satu iterasi. Contohnya, jika ukuran tumpukan adalah 20, maka model akan memproses 20 contoh sebelum menyesuaikan parameter.

Saat melatih jaringan neural, satu iterasi melibatkan dua penerusan berikut:

  1. Penerusan maju untuk mengevaluasi kerugian pada satu batch.
  2. Penerusan mundur (propagasi mundur) untuk menyesuaikan parameter model berdasarkan kerugian dan kecepatan pemelajaran.

L

Regularisasi L0

#fundamentals

Jenis regularisasi yang mengganjar jumlah total bobot yang bukan nol dalam model. Misalnya, model yang memiliki 11 bobot bukan nol akan diberi sanksi lebih dari model serupa yang memiliki 10 bobot yang bukan nol.

Regularisasi L0 terkadang disebut regularisasi norma L0.

Kerugian L1

#fundamentals

Fungsi kerugian yang menghitung nilai absolut perbedaan antara nilai label aktual dan nilai yang diprediksi oleh model. Misalnya, berikut adalah penghitungan kerugian L1 untuk tumpukan lima contoh:

Nilai sebenarnya dari contoh Nilai prediksi model Nilai absolut delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = kerugian L1

Kerugian L1 kurang sensitif terhadap outlier dari L2 kerugian.

Error Rata-rata Absolut adalah nilai rata-rata Kerugian L1 per contoh.

Regularisasi L1

#fundamentals

Jenis regularisasi yang memberikan sanksi bobot sebanding dengan jumlah nilai absolut bobotnya. Regularisasi L1 membantu mendorong bobot yang tidak relevan atau fitur yang hampir tidak relevan dengan tepat 0. Fitur dengan bobot 0 secara efektif dihapus dari model.

Berbeda dengan L2 regularisasi.

Kerugian L2

#fundamentals

Fungsi kerugian yang menghitung kuadrat perbedaan antara nilai label aktual dan nilai yang diprediksi oleh model. Misalnya, berikut adalah penghitungan kerugian L2 untuk tumpukan lima contoh:

Nilai sebenarnya dari contoh Nilai prediksi model Kuadrat delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = kerugian L2

Karena kuadrat, kerugian L2 memperkuat pengaruh outlier. Artinya, kerugian L2 bereaksi lebih kuat terhadap prediksi buruk daripada L1 kalah. Misalnya, kerugian L1 untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu {i>outlier <i}menyebabkan 9 dari 16 kasus.

Model regresi biasanya menggunakan kerugian L2 sebagai fungsi kerugian.

Rataan Kuadrat Kesalahan adalah rata-rata Kerugian L2 per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L2.

Regularisasi L2

#fundamentals

Jenis regularisasi yang memberikan hukuman bobot sebanding dengan jumlah kuadrat bobot. Regularisasi L2 membantu mendorong bobot outlier (yang dengan nilai negatif positif atau rendah yang tinggi) lebih dekat ke 0 tetapi tidak cukup ke 0. Fitur dengan nilai yang sangat mendekati 0 tetap berada dalam model tetapi tidak terlalu memengaruhi prediksi model.

Regularisasi L2 selalu meningkatkan generalisasi dalam model linear.

Berbeda dengan regularisasi L1.

label

#fundamentals

Di supervised machine learning, "jawaban" atau "hasil" bagian dari contoh.

Setiap contoh berlabel terdiri dari satu atau beberapa fitur dan label. Misalnya, di folder spam kumpulan data deteksi, label mungkin akan berupa "spam" atau "bukan spam." Dalam {i>dataset <i}curah hujan, label mungkin berupa jumlah yang turun selama periode tertentu.

contoh berlabel

#fundamentals

Contoh yang berisi satu atau beberapa fitur dan label. Misalnya, tabel berikut menunjukkan tiga contoh berlabel dari model penilaian rumah, masing-masing dengan tiga fitur dan satu label:

Jumlah kamar Jumlah kamar mandi Usia rumah Harga rumah (label)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Membandingkan contoh berlabel dengan contoh tidak berlabel

lambda

#fundamentals

Sinonim dari derajat regularisasi.

Lambda adalah istilah yang berlebihan. Di sini kita berfokus pada dalam regularisasi.

lapisan

#fundamentals

Sekumpulan neuron dalam jaringan neural. Tiga jenis lapisan yang umum adalah sebagai berikut:

Misalnya, ilustrasi berikut menunjukkan jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
          lapisan output. Lapisan input terdiri dari dua fitur. Yang pertama
          lapisan tersembunyi terdiri dari tiga neuron dan lapisan tersembunyi kedua
          terdiri dari dua neuron. Lapisan output terdiri dari satu node.

Di TensorFlow, lapisan juga merupakan fungsi Python yang menggunakan Tensors dan opsi konfigurasi sebagai input serta menghasilkan tensor lain sebagai output.

kecepatan pembelajaran

#fundamentals

Bilangan floating point yang memberi tahu penurunan gradien seberapa kuat algoritma untuk menyesuaikan bobot dan bias pada iterasi. Misalnya, kecepatan pembelajaran 0,3 akan menyesuaikan bobot dan bias tiga kali lebih kuat daripada kecepatan pemelajaran sebesar 0,1.

Kecepatan pembelajaran adalah hyperparameter utama. Jika Anda menetapkan kecepatan pembelajaran terlalu rendah, pelatihan akan memakan waktu terlalu lama. Jika Anda mengatur kecepatan pemelajaran terlalu tinggi, penurunan gradien sering kali mengalami kesulitan mencapai konvergensi.

linier

#fundamentals

Hubungan antara dua atau lebih variabel yang dapat direpresentasikan hanya melalui penjumlahan dan perkalian.

Plot hubungan linier adalah sebuah garis.

Berbeda dengan nonlinear.

model linear

#fundamentals

Model yang menetapkan satu bobot per fitur untuk membuat prediksi. (Model linear juga menyertakan bias.) Sebaliknya, hubungan fitur dengan prediksi dalam model dalam umumnya bersifat nonlinear.

Model linear biasanya lebih mudah dilatih dan banyak lagi dapat ditafsirkan daripada model dalam. Namun, model mendalam dapat mempelajari hubungan kompleks antara fitur.

Regresi linear dan regresi logistik adalah dua jenis model linear.

regresi linear

#fundamentals

Jenis model machine learning yang memenuhi dua kondisi berikut:

  • Model ini adalah model linear.
  • Prediksinya adalah nilai floating point. (Ini adalah regresi dari regresi linear.)

Menemukan perbedaan regresi linear dengan regresi logistik. Selain itu, membandingkan regresi dengan klasifikasi.

regresi logistik

#fundamentals

Jenis model regresi yang memprediksi probabilitas. Model regresi logistik memiliki karakteristik berikut:

  • Labelnya kategoris. Istilah logistik Regresi biasanya mengacu pada regresi logistik biner, yaitu pada model yang menghitung probabilitas label dengan dua nilai yang mungkin. Varian yang kurang umum, regresi logistik multinomial, menghitung probabilitas untuk label dengan lebih dari dua kemungkinan nilai.
  • Fungsi kerugian selama pelatihan adalah Kerugian Log. (Beberapa unit Kehilangan Log dapat ditempatkan secara paralel untuk label dengan lebih dari dua kemungkinan nilai).
  • Model tersebut memiliki arsitektur linear, bukan deep neural network. Namun, definisi selanjutnya dari model dalam yang memprediksi probabilitas untuk label kategoris.

Misalnya, pertimbangkan model regresi logistik yang menghitung kemungkinan email input itu spam atau bukan spam. Selama inferensi, misalkan model memprediksi 0,72. Oleh karena itu, memperkirakan:

  • Kemungkinan email tersebut adalah spam sebesar 72%.
  • Peluang 28% email tersebut bukan spam.

Model regresi logistik menggunakan arsitektur dua langkah berikut:

  1. Model ini menghasilkan prediksi mentah (y') dengan menerapkan fungsi linear fitur input.
  2. Model ini menggunakan prediksi mentah tersebut sebagai input untuk fungsi sigmoid, yang mengonversi prediksi terhadap nilai antara 0 dan 1, eksklusif.

Seperti model regresi lainnya, model regresi logistik dapat memprediksi angka. Namun, angka ini biasanya menjadi bagian dari klasifikasi biner model sebagai berikut:

  • Jika angka yang diprediksi lebih besar dari nilai minimum klasifikasi, nilai model klasifikasi biner memprediksi kelas positif.
  • Jika angka yang diprediksi kurang dari batas klasifikasi, model klasifikasi biner memprediksi kelas negatif.

Kerugian Log

#fundamentals

Fungsi kerugian yang digunakan dalam biner regresi logistik.

log-peluang

#fundamentals

Logaritma dari peluang beberapa peristiwa.

kalah

#fundamentals

Selama pelatihan untuk model yang diawasi, ukuran seberapa jauh prediksi model berasal dari label-nya.

Fungsi kerugian menghitung kerugian.

kurva penyimpangan

#fundamentals

Plot kerugian sebagai fungsi dari jumlah pelatihan iterasi. Plot berikut menunjukkan kerugian yang khas kurva:

Grafik Kartesius kerugian versus iterasi pelatihan, yang menunjukkan
          penurunan kerugian yang cepat untuk iterasi awal, diikuti dengan penurunan
          menurun, dan kemudian kemiringan datar selama iterasi akhir.

Kurva kerugian dapat membantu menentukan kapan model Anda konvergen atau overfitting.

Kurva kerugian dapat memplot semua jenis kerugian berikut:

Lihat juga kurva generalisasi.

fungsi loss

#fundamentals

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada kumpulan contoh. Fungsi kerugian menampilkan kerugian yang lebih rendah untuk model yang membuat prediksi yang baik daripada untuk model yang membuat prediksi yang buruk.

Tujuan pelatihan biasanya adalah untuk meminimalkan kerugian akibat fungsi kerugian akan dikembalikan.

Ada berbagai jenis fungsi kerugian. Pilih kerugian yang sesuai fungsi untuk jenis model yang sedang Anda bangun. Contoh:

M

machine learning

#fundamentals

Program atau sistem yang melatih model dari data input. Model yang dilatih dapat membuat prediksi yang berguna dari data baru (yang tidak pernah terlihat sebelumnya) yang diambil dari distribusi yang sama dengan yang digunakan untuk melatih model.

Machine learning juga mengacu pada bidang studi yang berkaitan dengan program atau sistem ini.

kelas mayoritas

#fundamentals

Label yang lebih umum dalam set data kelas tidak seimbang. Misalnya, diberikan sebuah {i>dataset<i} yang berisi 99% label negatif dan 1% label positif, label negatif adalah kelas mayoritas.

Berbeda dengan kelas minoritas.

batch mini

#fundamentals

Subset kecil yang dipilih secara acak dari tumpukan yang diproses dalam satu iterasi. Ukuran tumpukan dari tumpukan mini biasanya antara 10 dan 1.000 contoh.

Misalnya, seluruh set pelatihan (kumpulan lengkap) terdiri dari 1.000 contoh. Selanjutnya anggap saja bahwa Anda mengatur ukuran tumpukan setiap tumpukan mini menjadi 20. Oleh karena itu, setiap iterasi menentukan kerugian pada 20 dari 1.000 contoh secara acak dan kemudian akan menyesuaikan bobot dan bias sebagaimana mestinya.

Jauh lebih efisien untuk menghitung kerugian pada tumpukan mini daripada kerugian pada semua contoh dalam batch lengkap.

kelas minoritas

#fundamentals

Label yang kurang umum dalam set data kelas tidak seimbang. Misalnya, diberikan sebuah {i>dataset<i} yang berisi 99% label negatif dan 1% label positif, label positif adalah kelas minoritas.

Berbeda dengan kelas mayoritas.

model

#fundamentals

Secara umum, konstruksi matematis apa pun yang memproses data input dan mengembalikan {i>output<i} tersebut. Diungkapkan secara berbeda, model adalah seperangkat parameter dan struktur yang diperlukan suatu sistem untuk membuat prediksi. Di supervised machine learning, model mengambil contoh sebagai input dan menyimpulkan prediksi sebagai output. Dalam supervised machine learning, modelnya agak berbeda. Contoh:

  • Model regresi linear terdiri dari kumpulan bobot dan bias.
  • Model jaringan neural terdiri dari:
    • Kumpulan lapisan tersembunyi, yang masing-masing berisi satu atau lebih banyak neuron.
    • Bobot dan bias yang terkait dengan setiap neuron.
  • Model hierarki keputusan terdiri dari:
    • Bentuk pohon; yaitu, pola di mana kondisi-kondisi dan daun-daunnya terhubung.
    • Kondisi dan keluarnya.

Anda dapat menyimpan, memulihkan, atau membuat salinan model.

Unsupervised machine learning juga menghasilkan model, biasanya fungsi yang dapat memetakan contoh input ke cluster yang paling sesuai.

klasifikasi multi-kelas

#fundamentals

Dalam supervised learning, masalah klasifikasi dengan set data berisi lebih dari dua class label. Misalnya, label dalam {i>dataset<i} Iris harus berupa salah satu dari berikut ini tiga class:

  • Setosa bunga iris
  • Iris Virginica
  • Pancaran warna iris

Model yang dilatih dengan set data Iris yang memprediksi jenis Iris pada contoh baru sedang melakukan klasifikasi multi-kelas.

Sebaliknya, masalah klasifikasi yang membedakan antara dua adalah model klasifikasi biner. Misalnya, model email yang memprediksi spam atau bukan spam adalah model klasifikasi biner.

Dalam masalah pengklasteran, klasifikasi kelas multi-kelas mengacu pada lebih dari dua klaster.

T

kelas negatif

#fundamentals

Dalam klasifikasi biner, satu class disebut disebut positif dan yang lainnya disebut negatif. Kelas positif adalah hal atau peristiwa yang akan diuji oleh model dan kelas negatifnya adalah kemungkinan lainnya. Contoh:

  • Kelas negatif dalam tes medis bisa jadi "bukan Tumor".
  • Kelas negatif dalam pengklasifikasi email mungkin "bukan spam".

Berbeda dengan kelas positif.

alur maju

#fundamentals

Sebuah Model berisi setidaknya satu lapisan tersembunyi. Jaringan neural dalam adalah jenis jaringan neural yang berisi lebih dari satu lapisan tersembunyi. Misalnya, diagram berikut menunjukkan jaringan neural dalam yang berisi dua lapisan tersembunyi.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
          lapisan output.

Setiap neuron di jaringan neural terhubung ke semua simpul di lapisan berikutnya. Misalnya, dalam diagram sebelumnya, perhatikan bahwa ketiga neuron di lapisan tersembunyi pertama secara terpisah terhubung ke kedua neuron di lapisan tersembunyi kedua.

Jaringan neural yang diimplementasikan pada komputer kadang-kadang disebut jaringan neural artifisial untuk membedakannya dari jaringan saraf yang ditemukan di otak dan sistem saraf lainnya.

Beberapa jaringan neural dapat meniru hubungan nonlinear yang sangat kompleks antara fitur yang berbeda dan labelnya.

Lihat juga jaringan neural konvolusional dan jaringan saraf berulang.

neuron

#fundamentals

Dalam machine learning, unit yang berbeda dalam lapisan tersembunyi dari jaringan neural. Setiap neuron melakukan hal-hal berikut tindakan dua langkah:

  1. Menghitung jumlah berbobot nilai input yang dikalikan dengan bobotnya yang sesuai.
  2. Meneruskan jumlah tertimbang sebagai input ke fungsi aktivasi.

Sebuah neuron di lapisan tersembunyi pertama menerima {i>input<i} dari nilai fitur di lapisan input. Neuron di lapisan tersembunyi di luar yang pertama menerima input dari neuron di lapisan tersembunyi sebelumnya. Misalnya, neuron di lapisan tersembunyi kedua menerima input dari neuron di lapisan tersembunyi pertama.

Ilustrasi berikut menyoroti dua neuron dan input.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
          lapisan output. Dua neuron disorot: satu di bagian pertama
          lapisan tersembunyi dan satu lagi 
di lapisan tersembunyi kedua. Yang disorot
          neuron di lapisan tersembunyi pertama menerima 
input dari kedua fitur,
          di lapisan input. Neuron yang disorot di lapisan tersembunyi kedua
          menerima input dari ketiga neuron pada
          feedforward.

Sebuah neuron di jaringan saraf meniru perilaku neuron di otak dan bagian lain dari sistem saraf.

node (jaringan neural)

#fundamentals

neuron dalam lapisan tersembunyi.

nonlinear

#fundamentals

Hubungan antara dua atau lebih variabel yang tidak dapat direpresentasikan hanya melalui penjumlahan dan perkalian. Hubungan linear bisa direpresentasikan sebagai garis; hubungan nonlinear tidak dapat direpresentasikan sebagai sebuah garis. Misalnya, perhatikan dua model yang masing-masing berhubungan satu fitur ke satu label. Model di sebelah kiri adalah linear dan model di sebelah kanan adalah nonlinear:

Dua plot. Satu plot adalah sebuah
garis, jadi ini adalah hubungan linear.
          Plot lainnya adalah kurva, jadi ini adalah hubungan nonlinier.

nonstasioneritas

#fundamentals

Fitur yang nilainya berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, perhatikan contoh nonstasioneritas berikut:

  • Jumlah pakaian renang yang dijual di toko tertentu bervariasi sesuai musim.
  • Jumlah buah tertentu yang dipanen di wilayah tertentu adalah nol sepanjang tahun, tetapi besar untuk periode waktu yang singkat.
  • Karena perubahan iklim, suhu rata-rata tahunan mengalami perubahan.

Berbeda dengan stasioneritas.

normalisasi

#fundamentals

Secara garis besar, proses konversi rentang aktual variabel ke dalam rentang nilai standar, seperti:

  • -1 hingga +1
  • 0:1
  • distribusi normal

Sebagai contoh, anggaplah kisaran nilai aktual dari fitur tertentu 800 hingga 2.400. Sebagai bagian dari rekayasa fitur, Anda dapat menormalisasi nilai aktual ke kisaran standar, seperti sebagai -1 hingga +1.

Normalisasi adalah tugas umum di rekayasa fitur. Model biasanya berlatih lebih cepat (dan menghasilkan prediksi yang lebih baik) saat setiap fitur numerik dalam vektor fitur memiliki rentang yang kurang lebih sama.

data numerik

#fundamentals

Fitur yang direpresentasikan sebagai bilangan bulat atau bilangan bernilai nyata. Misalnya, model penilaian rumah mungkin akan mewakili ukuran rumah (dalam kaki persegi atau meter persegi) sebagai data numerik. Merepresentasikan sebuah fitur sebagai data numerik menunjukkan bahwa nilai fitur itu memiliki hubungan matematika dengan label. Artinya, jumlah meter persegi sebuah rumah mungkin memiliki beberapa hubungan matematis dengan nilai rumah.

Tidak semua data bilangan bulat harus direpresentasikan sebagai data numerik. Misalnya, kode pos di beberapa bagian dunia adalah bilangan bulat; namun, pos bilangan bulat kode tidak boleh direpresentasikan sebagai data numerik dalam model. Hal itu karena seorang kode pos 20000 tidak dua kali (atau setengah) lebih kuat daripada kode pos 10.000. Selain itu, meskipun kode pos yang berbeda benar-benar berkorelasi dengan perbedaan nilai real estate, kita tidak dapat mengasumsikan bahwa nilai real estate pada 20000 dua kali lebih bernilai dibandingkan nilai real estate pada kode pos 10000. Kode pos harus direpresentasikan sebagai data kategorik sebagai gantinya.

Fitur numerik kadang-kadang disebut fitur berkelanjutan.

O

offline

#fundamentals

Sinonim dari statis.

inferensi offline

#fundamentals

Proses model yang menghasilkan sekumpulan prediksi dan kemudian melakukan {i>caching<i} (menyimpan) prediksi tersebut. Aplikasi kemudian dapat mengakses pernyataan yang disimpulkan prediksi dari cache, bukan menjalankan ulang model.

Misalnya, pertimbangkan model yang menghasilkan prakiraan cuaca lokal (prediksi) setiap empat jam sekali. Setelah setiap model berjalan, sistem menyimpan semua prakiraan cuaca lokal ke dalam cache. Aplikasi cuaca mengambil prakiraan cuaca dari cache.

Inferensi offline juga disebut inferensi statis.

Berbeda dengan inferensi online.

encoding one-hot

#fundamentals

Merepresentasikan data kategoris sebagai vektor di mana:

  • Satu elemen ditetapkan ke 1.
  • Semua elemen lainnya ditetapkan ke 0.

Pengkodean {i>one-hot<i} biasanya digunakan untuk merepresentasikan {i>string<i} atau ID yang memiliki serangkaian kemungkinan nilai yang terbatas. Sebagai contoh, anggap sebuah fitur kategorikal tertentu bernama Scandinavia memiliki lima kemungkinan nilai:

  • "Denmark"
  • "Swedia"
  • "Norwegia"
  • "Finlandia"
  • "Islandia"

Enkode one-hot dapat mewakili masing-masing dari lima nilai sebagai berikut:

country Vektor
"Denmark" 1 0 0 0 0
"Swedia" 0 1 0 0 0
"Norwegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islandia" 0 0 0 0 1

Berkat encoding one-hot, model dapat mempelajari koneksi yang berbeda berdasarkan masing-masing dari kelima negara.

Merepresentasikan fitur sebagai data numerik adalah alternatif untuk enkode one-hot. Sayangnya, mewakili Negara-negara di Skandinavia secara numerik bukanlah pilihan yang baik. Misalnya, pertimbangkan representasi numerik berikut ini:

  • "Denmark" adalah 0
  • "Swedia" adalah 1
  • "Norwegia" adalah 2
  • "Finlandia" adalah 3
  • "Islandia" adalah 4

Dengan pengkodean numerik, model akan menafsirkan nilai mentah secara matematis dan akan mencoba melatih angka-angka itu. Namun, Islandia tidak dua kali lipat (atau setengahnya) sesuatu seperti Norwegia, sehingga model ini sampai pada beberapa kesimpulan yang aneh.

satu vs. semua

#fundamentals

Mengingat masalah klasifikasi dengan kelas N, larutan yang terdiri dari N dan pengklasifikasi biner—satu pengklasifikasi biner untuk setiap hasil yang mungkin. Misalnya, dengan model yang mengklasifikasikan contoh seperti hewan, sayur, atau mineral, solusi satu vs. semua akan memberikan berikut tiga pengklasifikasi biner terpisah:

  • hewan versus bukan hewan
  • sayuran versus bukan sayur
  • mineral versus bukan mineral

online

#fundamentals

Sinonim dari dinamis.

inferensi online

#fundamentals

Menghasilkan prediksi sesuai permintaan. Misalnya, anggaplah aplikasi meneruskan input ke model dan mengeluarkan permintaan untuk prediksi. Sistem yang menggunakan inferensi {i>online<i} merespons permintaan dengan menjalankan model (dan menampilkan prediksi ke aplikasi).

Berbeda dengan inferensi offline.

lapisan output

#fundamentals

"Terakhir" lapisan jaringan neural. Lapisan output berisi prediksi.

Ilustrasi berikut menunjukkan deep neural network kecil dengan input dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
          lapisan output. Lapisan input terdiri dari dua fitur. Yang pertama
          lapisan tersembunyi terdiri dari tiga neuron dan lapisan tersembunyi kedua
          terdiri dari dua neuron. Lapisan output terdiri dari satu node.

overfitting

#fundamentals

Membuat model yang sesuai dengan data pelatihan terlalu dekat sehingga model gagal membuat prediksi yang benar pada data baru.

Regularisasi dapat mengurangi overfitting. Pelatihan pada set pelatihan yang besar dan beragam juga dapat mengurangi overfitting.

P

pandas

#fundamentals

API analisis data berorientasi kolom yang dibuat di atas numpy. Banyak framework machine learning, termasuk TensorFlow, mendukung struktur data pandas sebagai input. Lihat dokumentasi pandas untuk mengetahui detailnya.

parameter

#fundamentals

Bobot dan bias yang dipelajari model selama pelatihan. Misalnya, di regresi linear, parameternya terdiri dari bias (b) dan semua bobot (w1, w2, dan seterusnya) dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sebaliknya, hyperparameter adalah nilai yang Anda (atau layanan pengalihan hyperparameter) ke model. Misalnya, kecepatan pembelajaran adalah hyperparameter.

kelas positif

#fundamentals

Class yang akan diuji.

Misalnya, kelas positif dalam model kanker mungkin adalah "tumor". Kelas positif dalam pengklasifikasi email mungkin adalah "spam".

Berbeda dengan kelas negatif.

pascapemrosesan

#fairness
#fundamentals

Menyesuaikan output model setelah model dijalankan. Pascapemrosesan dapat digunakan untuk menegakkan batasan keadilan tanpa memodifikasi model itu sendiri.

Misalnya, seseorang mungkin menerapkan pascapemrosesan ke pengklasifikasi biner dengan menetapkan batas klasifikasi sehingga kesetaraan peluang tetap dipertahankan untuk beberapa atribut dengan memeriksa rasio positif benar adalah sama untuk semua nilai atribut tersebut.

prediksi

#fundamentals

Output model. Contoh:

  • Prediksi model klasifikasi biner adalah prediksi atau kelas negatif.
  • Prediksi model klasifikasi multi-class adalah satu class.
  • Prediksi model regresi linear adalah angka.

label proxy

#fundamentals

Data yang digunakan untuk memperkirakan label yang tidak tersedia secara langsung dalam set data.

Misalnya, Anda harus melatih model untuk memprediksi karyawan tingkat stres. {i>Dataset<i} Anda berisi banyak fitur prediktif tetapi tidak memiliki label bernama tingkat stres. Tidak berkecil hati, Anda memilih "kecelakaan di tempat kerja" sebagai label proxy untuk tingkat stres. Lagi pula, karyawan yang berada dalam tekanan tinggi akan menjadi lebih kecelakaan daripada karyawan yang menenangkan. Atau iya kan? Kemungkinan kecelakaan di tempat kerja bisa saja naik turun karena berbagai alasan.

Sebagai contoh kedua, misalkan Anda ingin apakah hujan? menjadi label Boolean untuk set data Anda, tetapi set data Anda tidak berisi data hujan. Jika foto tersedia, Anda mungkin membuat foto orang-orang membawa payung sebagai label proxy untuk apakah hujan? Apakah itu label {i>proxy<i} yang bagus? Mungkin, tetapi orang-orang di beberapa budaya mungkin lebih mungkin membawa payung untuk melindungi dari sinar matahari daripada hujan.

Label proxy sering kali tidak sempurna. Jika memungkinkan, pilih label yang sebenarnya daripada label {i>proxy<i}. Meskipun demikian, jika label sebenarnya tidak ada, pilih proxy label dengan sangat hati-hati, memilih kandidat label {i>proxy<i} yang paling tidak buruk.

R

RAG

#fundamentals

Singkatan dari pembuatan berbasis pengambilan.

pelabel

#fundamentals

Manusia yang memberikan label untuk contoh. "Annotator" adalah nama lain untuk penilai.

Unit Linear Terarah (ULT)

#fundamentals

Fungsi aktivasi dengan perilaku berikut:

  • Jika inputnya negatif atau nol, maka output-nya adalah 0.
  • Jika input bernilai positif, maka output-nya sama dengan input.

Contoh:

  • Jika inputnya adalah -3, maka output-nya adalah 0.
  • Jika inputnya adalah +3, maka output-nya adalah 3,0.

Berikut adalah plot ULT:

Plot kartesian dari dua baris. Baris pertama memiliki konstanta
          nilai y 0, berjalan di sepanjang sumbu x dari - tak terhingga,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, jadi
          rentangnya mulai dari 0,0 hingga + tak terhingga,+tak terhingga.

ULT adalah fungsi aktivasi yang sangat populer. Meskipun perilakunya sederhana, ULT masih mengaktifkan jaringan neural untuk mempelajari nonlinear hubungan antara fitur dan label.

model regresi

#fundamentals

Secara informal, model yang menghasilkan prediksi numerik. (Sebaliknya, model klasifikasi menghasilkan class prediction.) Misalnya, berikut ini adalah semua model regresi:

  • Model yang memprediksi nilai rumah tertentu, misalnya 423.000 Euro.
  • Model yang memprediksi harapan hidup pohon tertentu, misalnya 23,2 tahun.
  • Model yang memprediksi jumlah hujan yang akan turun di kota tertentu selama enam jam ke depan, seperti 0,18 inci.

Dua jenis model regresi yang umum adalah:

  • Regresi linear, yang menemukan garis yang terbaik menyesuaikan nilai label dengan fitur.
  • Regresi logistik, yang menghasilkan probabilitas antara 0,0 dan 1,0 yang biasanya dipetakan sistem ke kelas prediksi.

Tidak semua model yang menghasilkan prediksi numerik merupakan model regresi. Dalam beberapa kasus, prediksi numerik sebenarnya merupakan model klasifikasi yang kebetulan memiliki nama kelas numerik. Misalnya, model yang memprediksi kode pos numerik adalah model klasifikasi, bukan model regresi.

regularisasi

#fundamentals

Mekanisme apa pun yang mengurangi overfitting. Jenis regularisasi yang populer meliputi:

Regularisasi juga dapat didefinisikan sebagai penalti pada kompleksitas model.

derajat regularisasi

#fundamentals

Angka yang menentukan tingkat kepentingan relatif dari regularisasi selama pelatihan. Menaikkan derajat regularisasi mengurangi overfitting, tetapi dapat mengurangi kekuatan prediktif model. Sebaliknya, mengurangi atau menghilangkan tingkat regularisasi akan meningkatkan {i>overfitting<i}.

ReLU

#fundamentals

Singkatan dari Unit Linear Terarah.

Retrieval-augmented Generation (RAG)

#fundamentals

Teknik untuk meningkatkan kualitas Output model bahasa besar (LLM) dengan mendasarkannya pada sumber pengetahuan yang diambil setelah model dilatih. RAG meningkatkan akurasi respons LLM dengan memberikan LLM yang terlatih akses ke informasi yang diambil dari basis atau dokumen terpercaya.

Motivasi umum untuk menggunakan pembuatan yang didukung pengambilan meliputi:

  • Meningkatkan akurasi faktual respons yang dihasilkan model.
  • Memberi model akses ke pengetahuan yang tidak dilatihnya.
  • Mengubah pengetahuan yang digunakan model.
  • Memungkinkan model mengutip sumber.

Misalnya, anggaplah aplikasi kimia menggunakan PaLM API untuk membuat ringkasan yang terkait dengan kueri pengguna. Saat backend aplikasi menerima kueri, backend akan:

  1. Menelusuri ("mengambil") data yang relevan dengan kueri pengguna.
  2. Menambahkan ("tambahan") data kimia yang relevan ke kueri pengguna.
  3. Meminta LLM membuat ringkasan berdasarkan data yang ditambahkan.

Kurva ROC (karakteristik operasi penerima)

#fundamentals

Grafik rasio positif benar versus rasio positif palsu untuk berbagai metrik batas klasifikasi dalam biner Klasifikasi kalimat tunggal,

Bentuk kurva ROC menunjukkan kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Misalkan, model klasifikasi biner secara sempurna memisahkan semua nilai negatif dari semua class positif:

Garis bilangan dengan 8 contoh positif di sisi kanan dan
          7 contoh negatif di sebelah kiri.

Kurva ROC untuk model sebelumnya terlihat seperti berikut:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y
          adalah Rasio Positif Benar. Kurva memiliki bentuk L terbalik. Kurva
          mulai dari (0.0,0.0) dan langsung ke (0.0,1.0). Kemudian kurva
          mulai dari (0.0,1.0)
ke (1.0,1.0).

Sebaliknya, ilustrasi berikut menampilkan grafik regresi logistik mentah untuk model buruk yang tidak dapat memisahkan kelas negatif dari kelas positif:

Garis bilangan dengan contoh positif dan kelas negatif
          tercampur sepenuhnya.

Kurva ROC untuk model ini terlihat seperti berikut:

Kurva ROC, yang sebenarnya merupakan garis lurus dari (0.0,0.0)
          menjadi (1.0,1.0).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan positif dan negatif sampai batas tertentu, tetapi biasanya tidak sempurna. Jadi, kurva KOP yang khas berada di antara dua titik ekstrem:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y
          adalah Rasio Positif Benar. Kurva KOP mendekati busur yang goyang
          menelusuri titik kompas dari Barat ke Utara.

Titik pada kurva ROC yang paling dekat dengan (0.0,1.0) secara teoritis mengidentifikasi batas klasifikasi ideal. Namun, beberapa masalah lain di dunia nyata mempengaruhi pemilihan batas klasifikasi ideal. Misalnya, mungkin negatif palsu (PP) menyebabkan masalah yang jauh lebih besar daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva ROC menjadi nilai floating point tunggal.

{i>Root Mean Squared Error<i} (RMSE)

#fundamentals

Akar kuadrat dari Rataan Kuadrat Error.

S

fungsi sigmoid

#fundamentals

Fungsi matematika yang "meluncur" nilai input ke dalam rentang yang dibatasi, biasanya 0 hingga 1 atau -1 hingga +1. Yaitu, Anda dapat meneruskan angka berapa pun (dua, satu juta, negatif, apa pun) ke sigmoid dan {i>output-<i}nya akan tetap dalam dan rentang terbatas. Plot fungsi aktivasi sigmoid terlihat seperti berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain
          -tak terhingga hingga +positif, sedangkan nilai y menjangkau rentang hampir 0 hingga
          hampir 1. Jika x adalah 0, y adalah 0,5. Kemiringan kurva selalu
          positif, dengan kemiringan tertinggi 0,0.5 dan perlahan menurun
          kemiringan saat nilai absolut dari x meningkat.

Fungsi sigmoid memiliki beberapa kegunaan dalam machine learning, antara lain:

softmax

#fundamentals

Fungsi yang menentukan probabilitas untuk setiap kemungkinan kelas dalam model klasifikasi multi-class. probabilitas menjumlahkan menjadi tepat 1,0. Misalnya, tabel berikut menunjukkan cara softmax mendistribusikan berbagai probabilitas:

Gambar adalah... Probability
anjing 0,85
Cat 0,13
kuda ,02

Softmax juga disebut full softmax.

Berbeda dengan sampling kandidat.

fitur renggang

#language
#fundamentals

Fitur yang sebagian besar nilainya nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 adalah jarang. Sebaliknya, fitur padat memiliki nilai yang utamanya tidak bernilai nol atau kosong.

Dalam machine learning, jumlah fitur yang mengejutkan adalah fitur yang jarang. Fitur kategori biasanya berupa fitur renggang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan tentang video yang mungkin ada dalam koleksi video, satu contoh mungkin mengidentifikasi hanya "Casablanca."

Dalam model, Anda biasanya merepresentasikan fitur renggang dengan enkode one-hot. Jika {i>one-hot encoding<i} berukuran besar, Anda dapat menempatkan lapisan embedding di atas lapisan encoding one-hot untuk efisiensi yang lebih besar.

representasi renggang

#language
#fundamentals

Hanya menyimpan posisi elemen bukan nol dalam fitur renggang.

Misalnya, fitur kategori bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Asumsikan lebih lanjut bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk merepresentasikan spesies pohon pada setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0 (untuk mewakili 35 spesies pohon yang tidak ada dalam contoh tersebut). Jadi, representasi one-hot dari maple mungkin terlihat seperti berikut:

Vektor di mana posisi 0 hingga 23 menyimpan nilai 0, posisi
          24 menyimpan nilai 1, dan posisi 25 hingga 35 menyimpan nilai 0.

Atau, representasi sparse hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada di posisi 24, representasi sparse dari maple akan menjadi:

24

Perhatikan bahwa representasi renggang jauh lebih ringkas daripada representasi one-hot merepresentasinya.

vektor renggang

#fundamentals

Vektor yang sebagian besar nilainya adalah nol. Lihat juga sparse feature dan sparsity.

kerugian kuadrat

#fundamentals

Sinonim dari kerugian L2.

static

#fundamentals

Sesuatu dilakukan sekali, bukan terus-menerus. Istilah statis dan offline adalah sinonim. Berikut adalah penggunaan umum statis dan offline di mesin pembelajaran:

  • model statis (atau model offline) adalah model yang dilatih sekali lalu digunakan selama beberapa waktu.
  • pelatihan statis (atau pelatihan offline) adalah proses melatih model statis.
  • inferensi statis (atau inferensi offline) adalah proses di mana model menghasilkan kumpulan prediksi pada satu waktu.

Berbeda dengan dinamis.

inferensi statis

#fundamentals

Sinonim dari inferensi offline.

stasioneritas

#fundamentals

Fitur yang nilainya tidak berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, fitur yang nilainya terlihat sama pada tahun 2021 dan 2023 menunjukkan stasioneritas.

Dalam dunia nyata, sangat sedikit fitur yang menunjukkan stasioneritas. Fitur genap identik dengan perubahan stabilitas (seperti permukaan laut) dari waktu ke waktu.

Berbeda dengan nonstasioneritas.

penurunan gradien stokastik (SGD)

#fundamentals

Algoritma penurunan gradien di mana ukuran tumpukan adalah satu. Dengan kata lain, SGD berlatih di satu contoh yang dipilih secara seragam di acak dari set pelatihan.

supervised machine learning

#fundamentals

Melatih model dari fitur dan label yang sesuai. supervised machine learning bersifat analog mempelajari suatu subjek dengan mempelajari serangkaian pertanyaan dan yang sesuai. Setelah menguasai pemetaan antara pertanyaan dan jawaban, siswa kemudian dapat memberikan jawaban untuk hal baru (yang belum pernah dilihat sebelumnya) pertanyaan dengan topik yang sama.

Bandingkan dengan unsupervised machine learning.

fitur sintetis

#fundamentals

Fitur yang tidak ada di antara fitur input, tetapi dirangkai dari satu atau lebih. Metode untuk membuat fitur sintetis meliputi hal berikut:

  • Mengelompokkan fitur berkelanjutan ke dalam bin rentang.
  • Membuat persilangan fitur.
  • Mengalikan (atau membagi) satu nilai fitur dengan nilai fitur lainnya atau dengan sendirinya. Misalnya, jika a dan b adalah fitur input, maka berikut adalah contoh fitur sintetis:
    • ab
    • a2
  • Menerapkan fungsi transendental ke nilai fitur. Misalnya, jika c adalah fitur input, maka berikut ini adalah contoh fitur sintetis:
    • sin(c)
    • ln(c)

Fitur yang dibuat dengan normalisasi atau penskalaan saja tidak dianggap sebagai fitur sintetis.

S

kerugian pengujian

#fundamentals

Metrik yang mewakili kerugian model terhadap set pengujian. Saat membangun model, Anda biasanya mencoba meminimalkan kerugian pengujian. Itu karena kerugian pengujian yang rendah adalah sinyal kualitas yang lebih kuat daripada kerugian pelatihan yang rendah atau kerugian validasi rendah.

Perbedaan yang besar antara kerugian pengujian dan kerugian pelatihan atau kegagalan validasi terkadang menunjukkan bahwa Anda perlu meningkatkan tingkat regularisasi.

training

#fundamentals

Proses menentukan parameter yang ideal (bobot dan bias) yang terdiri dari model. Selama pelatihan, sistem membaca dalam contoh dan menyesuaikan parameter secara bertahap. Pelatihan menggunakan masing-masing di mana saja dari beberapa kali hingga miliaran kali.

kerugian pelatihan

#fundamentals

Metrik yang mewakili kerugian model selama iterasi pelatihan tertentu. Misalnya, anggaplah fungsi loss adalah Rataan Kuadrat Kesalahan. Mungkin kerugian pelatihan (Rata-rata {i>squared error<i}) untuk iterasi ke-10 adalah 2,2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1,9.

Kurva kerugian menandai kerugian pelatihan versus jumlah iterasi sebelumnya. Kurva kerugian memberikan petunjuk berikut tentang pelatihan:

  • Kemiringan menurun menyiratkan bahwa kualitas model meningkat.
  • Kemiringan ke atas menyiratkan bahwa model semakin buruk.
  • Kemiringan datar menyiratkan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian yang agak ideal berikut menampilkan:

  • Kemiringan ke bawah yang curam selama iterasi awal, yang menyiratkan peningkatan kualitas model yang cepat.
  • Kemiringan yang merata secara bertahap (tetapi masih ke bawah) hingga mendekati ujung pelatihan, yang menyiratkan peningkatan kualitas model yang berkelanjutan lebih lambat selama iterasi awal.
  • Kemiringan datar menjelang akhir pelatihan, yang mengindikasikan konvergensi.

Plot kerugian pelatihan versus iterasi. Kurva kerugian ini dimulai
     dengan kemiringan menurun yang curam. Kemiringan secara bertahap mendatar hingga
     kemiringan menjadi nol.

Meskipun kerugian pelatihan itu penting, lihat juga generalisasi.

diferensiasi performa pelatihan dan penayangan

#fundamentals

Perbedaan antara performa model selama pelatihan dan performa model yang sama selama menayangkan.

set pelatihan

#fundamentals

Subset dari set data yang digunakan untuk melatih model.

Biasanya, contoh dalam {i>dataset<i} dibagi menjadi tiga contoh subset yang berbeda:

Idealnya, setiap contoh dalam {i>dataset<i} hanya boleh dimiliki oleh salah satu {i>subset<i} sebelumnya. Misalnya, satu contoh tidak boleh menjadi milik set pelatihan dan set validasi.

negatif benar (TN)

#fundamentals

Contoh saat model dengan benar memprediksi kelas negatif. Misalnya, model menyimpulkan bahwa pesan email tertentu bukan spam, dan pesan email tersebut sebenarnya bukan spam.

positif benar (TP)

#fundamentals

Contoh saat model dengan benar memprediksi kelas positif. Misalnya, model menyimpulkan bahwa pesan email tertentu adalah spam, dan pesan email itu sebenarnya adalah spam.

rasio positif benar (TPR)

#fundamentals

Sinonim dari recall. Definisinya yaitu:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Rasio positif benar adalah sumbu y dalam kurva KOP.

U

kurang pas

#fundamentals

Memproduksi model dengan kemampuan prediktif yang buruk karena model belum sepenuhnya memahami kompleksitas data pelatihan. Banyak masalah dapat menyebabkan {i>underfitting<i}, termasuk:

contoh tak berlabel

#fundamentals

Contoh yang berisi fitur tetapi tidak berisi label. Misalnya, tabel berikut menampilkan tiga contoh tak berlabel dari sebuah rumah model valuasi, masing-masing dengan tiga fitur tetapi tidak memiliki nilai rumah:

Jumlah kamar Jumlah kamar mandi Usia rumah
3 2 15
2 1 72
4 2 34

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Di semi-supervised dan unsupervised learning, contoh tak berlabel digunakan selama pelatihan.

Bedakan contoh tidak berlabel dengan contoh berlabel.

unsupervised machine learning

#clustering
#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya tidak berlabel.

Penggunaan unsupervised machine learning yang paling umum adalah Data cluster ke dalam kelompok contoh yang serupa. Misalnya, unsupervised machine algoritma learning dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input bagi komputer lain algoritma pembelajaran (misalnya, ke layanan rekomendasi musik). Pengelompokan dapat membantu ketika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia lebih memahami data.

Berbeda dengan supervised machine learning.

V

validasi

#fundamentals

Evaluasi awal kualitas model. Validasi memeriksa kualitas prediksi model terhadap set validasi.

Karena set validasi berbeda dari set pelatihan, validasi dapat membantu mencegah overfitting.

Anda mungkin berpikir untuk mengevaluasi model terhadap set validasi sebagai pengujian putaran pertama dan mengevaluasi model terhadap set pengujian sebagai tahap pengujian kedua.

kerugian validasi

#fundamentals

Metrik yang mewakili kerugian model di set validasi selama periode tertentu iterasi pelatihan.

Lihat juga kurva generalisasi.

set validasi

#fundamentals

Subset dari set data yang menjalankan inisialisasi evaluasi terhadap model terlatih. Biasanya, Anda mengevaluasi model terlatih terhadap beberapa set validasi waktu sebelum mengevaluasi model terhadap set pengujian.

Biasanya, Anda membagi contoh dalam {i>dataset<i} ke dalam tiga contoh subset yang berbeda:

Idealnya, setiap contoh dalam {i>dataset<i} hanya boleh dimiliki oleh salah satu {i>subset<i} sebelumnya. Misalnya, satu contoh tidak boleh menjadi milik set pelatihan dan set validasi.

W

bobot

#fundamentals

Nilai yang dikalikan model dengan nilai lain. Pelatihan adalah proses menentukan bobot ideal model; inferensi adalah proses penggunaan bobot yang dipelajari tersebut untuk membuat prediksi.

jumlah tertimbang

#fundamentals

Jumlah semua nilai input yang relevan dikalikan dengan nilai yang sesuai bobot. Misalnya, anggap input yang relevan terdiri dari hal berikut:

nilai input bobot input
2 -1,3
-1 0,6
3 0,4

Oleh karena itu, jumlah tertimbang adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Jumlah tertimbang adalah argumen input untuk fungsi aktivasi.

Z

Normalisasi skor Z

#fundamentals

Teknik penskalaan yang menggantikan nilai feature dengan nilai floating point yang merepresentasikan jumlah simpangan baku dari rerata fitur tersebut. Misalnya, pertimbangkan fitur yang mean-nya 800 dan yang standarnya deviasi adalah 100. Tabel berikut menunjukkan cara normalisasi skor Z akan memetakan nilai mentah ke skor Z:

Nilai mentah Skor Z
800 0
950 +1,5
575 -2,25

Model machine learning kemudian berlatih dengan skor Z untuk fitur tersebut alih-alih pada nilai mentahnya.