Glosarium Machine Learning: Dasar-Dasar ML

Halaman ini berisi istilah glosarium Dasar-Dasar ML. Untuk semua istilah glosarium, klik di sini.

J

akurasi

#fundamentals

Jumlah prediksi klasifikasi yang benar dibagi dengan jumlah total prediksi. Definisinya yaitu:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Misalnya, model yang membuat 40 prediksi benar dan 10 prediksi yang salah akan memiliki akurasi:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasifikasi biner memberikan nama tertentu untuk berbagai kategori prediksi benar dan prediksi yang salah. Jadi, formula akurasi untuk klasifikasi biner adalah sebagai berikut:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dalam hal ini:

Membandingkan dan membedakan akurasi dengan presisi dan perolehan.

fungsi aktivasi

#fundamentals

Fungsi yang memungkinkan jaringan neural mempelajari hubungan nonlinear (kompleks) antara fitur dan label.

Fungsi aktivasi yang populer mencakup:

Plot fungsi aktivasi tidak pernah berupa garis lurus tunggal. Misalnya, plot fungsi aktivasi ULT terdiri dari dua garis lurus:

Plot kartesius dua baris. Baris pertama memiliki nilai konstanta y
          0, berjalan di sepanjang sumbu x dari -tak terhingga,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, sehingga garisnya dimulai dari 0,0 ke +tak terbatas,+tak terhingga.

Plot fungsi aktivasi sigmoid terlihat sebagai berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain -tak terhingga hingga +positif, sementara nilai y menjangkau rentang hampir 0 hingga hampir 1. Jika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi pada 0,0,5 dan kemiringan bertahap menurun secara bertahap seiring peningkatan nilai absolut x.

kecerdasan buatan

#fundamentals

Program atau model non-manusia yang dapat menyelesaikan tugas-tugas rumit. Misalnya, program atau model yang menerjemahkan teks atau program atau model yang mengidentifikasi penyakit dari gambar radiologi menunjukkan kecerdasan buatan.

Secara formal, machine learning adalah sub-bidang kecerdasan buatan. Namun, dalam beberapa tahun terakhir, beberapa organisasi mulai menggunakan istilah kecerdasan buatan dan machine learning secara bergantian.

ABK (Area di bawah kurva KOP)

#fundamentals

Angka antara 0,0 dan 1,0 yang mewakili kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Semakin dekat AUC ke 1,0, semakin baik kemampuan model untuk memisahkan class dari satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model pengklasifikasi yang memisahkan class positif (oval hijau) dari class negatif (kotak ungu) dengan sempurna. Model yang tidak realistis ini memiliki ABK 1,0:

Garis bilangan dengan 8 contoh positif di satu sisi dan
          9 contoh negatif di sisi lainnya.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk model pengklasifikasi yang menghasilkan hasil acak. Model ini memiliki AUC 0,5:

Baris bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contohnya adalah positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif negatif, positif, negatif.

Ya, model sebelumnya memiliki ABK 0,5, bukan 0,0.

Sebagian besar model berada di antara dua hal ekstrem. Misalnya, model berikut agak memisahkan positif dari negatif, sehingga memiliki ABK antara 0,5 dan 1,0:

Baris bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contohnya adalah negatif, negatif, negatif, negatif,
          positif, negatif, positif, positif, negatif, positif, positif,
          positif.

ABK mengabaikan nilai apa pun yang Anda tetapkan untuk nilai minimum klasifikasi. Sebagai gantinya, ABK mempertimbangkan semua batas klasifikasi yang memungkinkan.

B

propagasi mundur

#fundamentals

Algoritme yang menerapkan penurunan gradien dalam jaringan neural.

Melatih jaringan neural melibatkan banyak iterasi dari siklus dua penerusan berikut:

  1. Selama forward pass, sistem memproses batch contoh untuk menghasilkan prediksi. Sistem membandingkan setiap prediksi dengan setiap nilai label. Perbedaan antara prediksi dan nilai label adalah kerugian untuk contoh tersebut. Sistem menggabungkan kerugian untuk semua contoh guna menghitung total kerugian untuk batch saat ini.
  2. Selama lewat mundur (propagasi mundur), sistem mengurangi kerugian dengan menyesuaikan bobot semua neuron di semua lapisan tersembunyi.

Jaringan neural sering kali mengandung banyak neuron di banyak lapisan tersembunyi. Setiap neuron tersebut berkontribusi pada hilangnya secara keseluruhan dengan cara yang berbeda. Propagasi mundur menentukan apakah akan menambah atau mengurangi bobot yang diterapkan pada neuron tertentu.

Kecepatan pembelajaran adalah pengganda yang mengontrol derajat peningkatan atau penurunan setiap bobot oleh setiap penerusan mundur. Kecepatan pembelajaran yang besar akan meningkatkan atau menurunkan setiap bobot lebih dari kecepatan pemelajaran yang kecil.

Dalam istilah kalkulus, propagasi mundur menerapkan aturan rantai kalkulus. Artinya, propagasi mundur menghitung turunan parsial dari error terkait dengan setiap parameter. Untuk mengetahui detail selengkapnya, lihat tutorial di Kursus Singkat Machine Learning ini.

Bertahun-tahun yang lalu, praktisi ML harus menulis kode untuk menerapkan propagasi mundur. ML API modern seperti TensorFlow sekarang mengimplementasikan propagasi mundur untuk Anda. Fiuh!

batch

#fundamentals

Kumpulan contoh yang digunakan dalam satu iterasi pelatihan. Ukuran tumpukan menentukan jumlah contoh dalam batch.

Lihat epoch untuk mengetahui penjelasan tentang hubungan batch dengan epoch.

ukuran tumpukan

#fundamentals

Jumlah contoh dalam kumpulan. Misalnya, jika ukuran tumpukan adalah 100, model akan memproses 100 contoh per iterasi.

Berikut adalah strategi ukuran tumpukan yang populer:

  • Penurunan Gradien Stokastik (SGD), dengan ukuran tumpukan 1.
  • batch penuh, dengan ukuran tumpukan adalah jumlah contoh dalam seluruh set pelatihan. Misalnya, jika set pelatihan berisi satu juta contoh, ukuran tumpukan akan menjadi satu juta contoh. Batch penuh biasanya merupakan strategi yang tidak efisien.
  • mini-batch dengan ukuran tumpukan biasanya antara 10 hingga 1.000. Mini-batch biasanya merupakan strategi yang paling efisien.

bias (etika/keadilan)

#fairness
#fundamentals

1. Stereotip, prasangka atau favoritisme terhadap beberapa hal, orang, atau kelompok dibandingkan yang lain. Bias ini dapat memengaruhi pengumpulan dan interpretasi data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk-bentuk dari jenis bias ini meliputi:

2. Error sistematis yang diperkenalkan oleh prosedur pengambilan sampel atau pelaporan. Bentuk-bentuk dari jenis bias ini meliputi:

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

bias (matematika) atau istilah bias

#fundamentals

Intersep atau offset dari asal. Bias adalah parameter dalam model machine learning, yang disimbolkan oleh salah satu hal berikut:

  • b
  • m0

Misalnya, bias adalah b dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dalam garis dua dimensi yang sederhana, bias berarti "titik potong sumbu y". Misalnya, bias garis dalam ilustrasi berikut adalah 2.

Plot garis dengan kemiringan 0,5 dan bias (titik potong sumbu y) 2.

Bias ada karena tidak semua model dimulai dari titik asal (0,0). Misalnya, sebuah taman hiburan berharga 2 Euro untuk masuk dan tambahan 0,5 Euro untuk setiap jam pelanggan menginap. Oleh karena itu, model yang memetakan total biaya memiliki bias 2 karena biaya terendah adalah 2 Euro.

Bias jangan disalahartikan dengan bias dalam etika dan keadilan atau bias prediksi.

klasifikasi biner

#fundamentals

Jenis tugas klasifikasi yang memprediksi salah satu dari dua class yang sama-sama eksklusif:

Misalnya, dua model machine learning berikut masing-masing melakukan klasifikasi biner:

  • Model yang menentukan apakah pesan email merupakan spam (kelas positif) atau bukan spam (kelas negatif).
  • Model yang mengevaluasi gejala medis untuk menentukan apakah seseorang memiliki penyakit tertentu (kelas positif) atau tidak memiliki penyakit tersebut (kelas negatif).

Berbeda dengan klasifikasi multi-kelas.

Lihat juga regresi logistik dan nilai minimum klasifikasi.

pembuatan bucket

#fundamentals

Mengonversi satu fitur menjadi beberapa fitur biner yang disebut bucket atau bin, biasanya didasarkan pada rentang nilai. Fitur yang terpotong biasanya merupakan fitur berkelanjutan.

Misalnya, daripada merepresentasikan suhu sebagai fitur floating point tunggal berkelanjutan, Anda dapat membagi rentang suhu menjadi bucket terpisah, seperti:

  • <= 10 derajat Celsius akan menjadi bucket "cold".
  • 11 - 24 derajat Celsius akan menjadi suhu "sedang".
  • >= 25 derajat Celsius akan menjadi suhu "hangat".

Model ini akan memperlakukan setiap nilai dalam bucket yang sama secara identik. Misalnya, nilai 13 dan 22 berada di bucket sedang, sehingga model memperlakukan kedua nilai tersebut secara identik.

C

data kategoris

#fundamentals

Fitur yang memiliki kumpulan spesifik nilai yang memungkinkan. Misalnya, pertimbangkan fitur kategori bernama traffic-light-state, yang hanya dapat memiliki salah satu dari tiga kemungkinan nilai berikut:

  • red
  • yellow
  • green

Dengan merepresentasikan traffic-light-state sebagai fitur kategoris, model dapat mempelajari dampak yang berbeda dari red, green, dan yellow terhadap perilaku pengemudi.

Fitur kategoris terkadang disebut fitur diskret.

Berbeda dengan data numerik.

class

#fundamentals

Kategori yang dapat diikuti oleh label. Contoh:

  • Dalam model klasifikasi biner yang mendeteksi spam, dua kelas tersebut mungkin spam dan bukan spam.
  • Dalam model klasifikasi kelas multi yang mengidentifikasi ras, kelasnya mungkin adalah pudel, beagle, pug, dan selanjutnya.

Model klasifikasi memprediksi class. Sebaliknya, model regresi memprediksi angka, bukan class.

model klasifikasi

#fundamentals

model yang prediksinya adalah model. Misalnya, berikut adalah semua model klasifikasi:

  • Model yang memprediksi bahasa kalimat input (bahasa Prancis? Bahasa Spanyol? Italia?).
  • Model yang memprediksi spesies pohon (Maple? Oak? Baobab?).
  • Model yang memprediksi kelas positif atau negatif untuk kondisi medis tertentu.

Sebaliknya, model regresi memprediksi angka, bukan class.

Dua jenis model klasifikasi umum adalah:

batas klasifikasi

#fundamentals

Dalam klasifikasi biner, angka antara 0 dan 1 yang mengubah output mentah model regresi logistik menjadi prediksi kelas positif atau kelas negatif. Perlu diperhatikan bahwa batas klasifikasi adalah nilai yang dipilih manusia, bukan nilai yang dipilih oleh pelatihan model.

Model regresi logistik menghasilkan nilai mentah antara 0 dan 1. Kemudian:

  • Jika nilai mentah ini lebih besar dari batas klasifikasi, kelas positif akan diprediksi.
  • Jika nilai mentah ini kurang dari batas klasifikasi, kelas negatif akan diprediksi.

Misalnya, anggaplah batas klasifikasi adalah 0,8. Jika nilai mentahnya adalah 0,9, maka model akan memprediksi class positif. Jika nilai mentahnya adalah 0,7, maka model akan memprediksi kelas negatif.

Pilihan batas klasifikasi sangat memengaruhi jumlah positif palsu dan negatif palsu.

set data kelas tidak seimbang

#fundamentals

Set data untuk masalah klasifikasi yang jumlah total label setiap kelas berbeda secara signifikan. Misalnya, perhatikan set data klasifikasi biner yang dua labelnya dibagi sebagai berikut:

  • 1.000.000 label negatif
  • 10 label positif

Rasio label negatif terhadap positif adalah 100.000 berbanding 1, jadi ini adalah set data kelas tidak seimbang.

Sebaliknya, set data berikut tidak kelas tidak seimbang karena rasio label negatif terhadap label positif relatif mendekati 1:

  • 517 label negatif
  • 483 label positif

{i>Dataset<i} multi-kelas juga dapat menjadi tidak seimbang kelasnya. Misalnya, set data klasifikasi kelas jamak berikut juga tidak seimbang karena satu label memiliki lebih banyak contoh daripada dua label lainnya:

  • 1.000.000 label dengan kelas "green"
  • 200 label dengan class "ungu"
  • 350 label dengan kelas "oranye"

Lihat juga entropi, kelas mayoritas, dan kelas minoritas.

pemotongan

#fundamentals

Teknik untuk menangani outlier dengan melakukan salah satu atau kedua hal berikut:

  • Mengurangi nilai feature yang lebih besar dari nilai minimum maksimum ke nilai minimum maksimum tersebut.
  • Meningkatkan nilai fitur yang kurang dari nilai minimum hingga nilai minimum tersebut.

Misalnya, anggaplah <0,5% nilai untuk fitur tertentu berada di luar rentang 40–60. Dalam hal ini, Anda dapat melakukan hal berikut:

  • Memotong semua nilai di atas 60 (nilai minimum maksimum) menjadi tepat 60.
  • Memotong semua nilai di bawah 40 (nilai minimum) menjadi tepat 40.

Pencilan dapat merusak model, terkadang menyebabkan bobot meluap selama pelatihan. Beberapa pencilan juga dapat merusak metrik seperti akurasi secara drastis. {i>Clipping<i} adalah teknik umum untuk membatasi kerusakan.

Pemotongan gradien memaksa nilai gradien dalam rentang yang ditentukan selama pelatihan.

matriks konfusi

#fundamentals

Tabel NxN yang meringkas jumlah prediksi benar dan salah yang dibuat oleh model klasifikasi. Misalnya, pertimbangkan matriks konfusi berikut untuk model klasifikasi biner:

Tumor (diprediksi) Non-Tumor (diprediksi)
Tumor (kebenaran dasar) 18 (TP) 1 (FN)
Non-Tumor (kebenaran dasar) 6 (FP) 452 (TN)

Matriks konfusi sebelumnya menunjukkan hal berikut:

  • Dari 19 prediksi yang mana kebenaran dasar adalah Tumor, model ini mengklasifikasikan 18 dengan benar dan salah mengklasifikasikan 1.
  • Dari 458 prediksi yang kebenaran dasarnya adalah Non-Tumor, model tersebut mengklasifikasikan 452 dengan benar dan salah mengklasifikasikan 6.

Matriks konfusi untuk masalah klasifikasi kelas jamak dapat membantu Anda mengidentifikasi pola kesalahan. Misalnya, pertimbangkan matriks konfusi berikut untuk model klasifikasi multi-kelas 3 kelas yang mengategorikan tiga jenis iris yang berbeda (Virginica, Versicolor, dan Setosa). Saat kebenaran dasar adalah Virginica, matriks kebingungan menunjukkan bahwa model jauh lebih mungkin untuk salah memprediksi Versicolor daripada Setosa:

  Setosa (diprediksi) Versicolor (diprediksi) Virginica (diprediksi)
Setosa (kebenaran dasar) 88 12 0
Versicolor (kebenaran dasar) 6 141 7
Virginica (kebenaran dasar) 2 27 109

Satu contoh lainnya, matriks konfusi dapat mengungkapkan bahwa model yang dilatih untuk mengenali angka tulisan tangan cenderung salah memprediksi 9 bukan 4, atau secara keliru memprediksi 1, bukan 7.

Matriks kebingungan berisi informasi yang memadai untuk menghitung berbagai metrik performa, termasuk presisi dan perolehan.

fitur berkelanjutan

#fundamentals

Fitur floating point dengan rentang nilai yang memungkinkan dan tak terbatas, seperti suhu atau bobot.

Berbeda dengan fitur diskret.

konvergensi

#fundamentals

Status yang dicapai saat nilai loss berubah sangat sedikit atau tidak berubah sama sekali dengan setiap iterasi. Misalnya, kurva kerugian berikut menunjukkan konvergensi pada sekitar 700 iterasi:

Plot Kartesius. Sumbu X adalah kerugian. Sumbu Y adalah jumlah iterasi pelatihan. Kerugian sangat tinggi selama beberapa iterasi pertama, tetapi menurun tajam. Setelah sekitar 100 iterasi, kerugian masih akan terus menurun, tetapi secara bertahap lebih bertahap. Setelah sekitar 700 iterasi, kerugian tetap stabil.

Model diarahkan saat pelatihan tambahan tidak akan meningkatkan kualitas model.

Dalam deep learning, nilai kerugian terkadang tetap konstan atau hampir sama untuk banyak iterasi sebelum akhirnya turun. Selama jangka waktu yang panjang ketika terjadi nilai kerugian konstan, untuk sementara Anda mungkin merasakan konvergensi palsu.

Lihat juga penghentian awal.

D

DataFrame

#fundamentals

Jenis data pandas yang populer untuk merepresentasikan set data dalam memori.

DataFrame dapat dianalogikan dengan tabel atau {i>spreadsheet<i}. Setiap kolom DataFrame memiliki nama (header), dan setiap baris diidentifikasi dengan nomor unik.

Setiap kolom dalam DataFrame terstruktur seperti array 2D, hanya saja setiap kolom dapat diberi jenis datanya sendiri.

Lihat juga halaman referensi pandas.DataFrame resmi.

set data atau set data

#fundamentals

Kumpulan data mentah, umumnya (tetapi tidak secara eksklusif) disusun dalam salah satu format berikut:

  • {i>spreadsheet<i}
  • file dalam format CSV ({i>comma-separated values<i})

model dalam

#fundamentals

Jaringan neural yang berisi lebih dari satu lapisan tersembunyi.

Model dalam juga disebut jaringan neural dalam.

Berbeda dengan model lebar.

fitur padat

#fundamentals

Fitur yang sebagian besar atau semua nilai bukan nol, biasanya Tensor dari nilai floating point. Misalnya, Tensor 10 elemen berikut cukup padat karena 9 dari nilainya bukan nol:

8 3 7 5 2 4 0 4 9 6

Berbeda dengan fitur renggang.

kedalaman

#fundamentals

Jumlah hal berikut dalam jaringan neural:

Misalnya, jaringan neural dengan lima lapisan tersembunyi dan satu lapisan output memiliki kedalaman 6.

Perhatikan bahwa lapisan input tidak memengaruhi kedalaman.

fitur diskret (discrete feature)

#fundamentals

Fitur dengan serangkaian kemungkinan nilai yang terbatas. Misalnya, fitur yang nilainya hanya dapat berupa hewan, nabati, atau mineral adalah fitur diskret (atau kategoris).

Berbeda dengan fitur berkelanjutan.

dinamis

#fundamentals

Sesuatu yang sering atau terus-menerus dilakukan. Istilah dinamis dan online adalah sinonim dalam machine learning. Berikut adalah penggunaan umum dinamis dan online dalam machine learning:

  • Model dinamis (atau model online) adalah model yang dilatih ulang secara rutin atau terus-menerus.
  • Pelatihan dinamis (atau pelatihan online) adalah proses pelatihan secara rutin atau berkelanjutan.
  • Inferensi dinamis (atau inferensi online) adalah proses menghasilkan prediksi sesuai permintaan.

model dinamis

#fundamentals

model yang sering (bahkan terus-menerus) dilatih ulang. Model dinamis adalah “pembelajar sepanjang hayat” yang terus-menerus beradaptasi dengan data yang terus berkembang. Model dinamis juga dikenal sebagai model online.

Berbeda dengan model statis.

E

penghentian awal

#fundamentals

Metode untuk regularisasi yang melibatkan penghentian pelatihan sebelum kerugian pelatihan selesai menurun. Pada penghentian awal, Anda sengaja berhenti melatih model saat kerugian pada set data validasi mulai meningkat, yaitu saat performa generalisasi memburuk.

Lapisan embedding

#language
#fundamentals

lapisan tersembunyi khusus yang melatih fitur kategoris berdimensi tinggi untuk secara bertahap mempelajari vektor penyematan dimensi yang lebih rendah. Lapisan sematan memungkinkan jaringan neural untuk berlatih jauh lebih efisien daripada jika hanya melatih fitur kategoris berdimensi tinggi.

Misalnya, saat ini Bumi mendukung sekitar 73.000 spesies pohon. Misalkan spesies pohon adalah fitur dalam model Anda, sehingga lapisan input model Anda menyertakan vektor one-hot dengan panjang 73.000 elemen. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array berisi 73.000 elemen. 6.232 elemen pertama memiliki nilai
     0. Elemen berikutnya memiliki nilai 1. 66.767 elemen terakhir memiliki
     nilai nol.

Array berisi 73.000 elemen sangat panjang. Jika Anda tidak menambahkan lapisan embedding ke model, pelatihan akan memakan waktu sangat lama karena mengalikan 72.999 angka nol. Mungkin Anda memilih lapisan embedding yang terdiri dari 12 dimensi. Dengan demikian, lapisan embedding secara bertahap akan mempelajari vektor embedding baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar untuk lapisan embedding.

epoch

#fundamentals

Pass pelatihan penuh pada seluruh set pelatihan sehingga setiap contoh telah diproses satu kali.

Epoch mewakili iterasi pelatihan N/ukuran batch, dengan N adalah jumlah total contoh.

Misalnya, anggap saja hal berikut ini:

  • Set data terdiri dari 1.000 contoh.
  • Ukuran tumpukannya adalah 50 contoh.

Oleh karena itu, satu epoch memerlukan 20 iterasi:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

contoh

#fundamentals

Nilai satu baris fitur dan mungkin label. Contoh dalam supervised learning dibagi menjadi dua kategori umum:

  • Contoh berlabel terdiri dari satu atau beberapa fitur dan label. Contoh berlabel digunakan selama pelatihan.
  • Contoh tak berlabel terdiri dari satu atau beberapa fitur, tetapi tanpa label. Contoh tak berlabel digunakan selama inferensi.

Misalnya, Anda melatih sebuah model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Berikut ini tiga contoh berlabel:

Fitur Label
Suhu Kelembapan Tekanan Skor tes
15 47 998 Baik
19 34 1020 Sangat baik
18 92 1012 Buruk

Berikut adalah tiga contoh tidak berlabel:

Suhu Kelembapan Tekanan  
12 62 1014  
21 47 1017  
19 41 1021  

Baris set data biasanya merupakan sumber mentah sebagai contoh. Artinya, contoh biasanya terdiri dari subset kolom dalam set data. Selain itu, fitur dalam contoh juga dapat mencakup fitur sintetis, seperti persilangan fitur.

F

negatif palsu (FN)

#fundamentals

Contoh yang mana model salah memprediksi kelas negatif. Misalnya, model ini memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email tersebut sebenarnya adalah spam.

positif palsu (PP)

#fundamentals

Contoh yang mana model salah memprediksi kelas positif. Misalnya, model ini memprediksi bahwa pesan email tertentu adalah spam (kelas positif), tetapi pesan email tersebut sebenarnya bukan spam.

rasio positif palsu (FPR)

#fundamentals

Proporsi contoh negatif aktual yang mana model salah memprediksi class positif. Formula berikut menghitung rasio positif palsu (PP):

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Rasio positif palsu adalah sumbu x dalam kurva KOP.

fitur

#fundamentals

Variabel input ke model machine learning. Contoh terdiri dari satu atau beberapa fitur. Misalnya, Anda melatih sebuah model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Tabel berikut menunjukkan tiga contoh, yang masing-masing berisi tiga fitur dan satu label:

Fitur Label
Suhu Kelembapan Tekanan Skor tes
15 47 998 92
19 34 1020 84
18 92 1012 87

Berbeda dengan label.

persilangan fitur

#fundamentals

Fitur sintetis yang dibentuk oleh fitur kategoris atau bucket "crossing".

Misalnya, pertimbangkan model "perkiraan mood" yang mewakili suhu di salah satu dari empat bucket berikut:

  • freezing
  • chilly
  • temperate
  • warm

Dan mewakili kecepatan angin di salah satu dari tiga bucket berikut:

  • still
  • light
  • windy

Tanpa persilangan fitur, model linear akan berlatih secara independen pada masing-masing dari tujuh bucket sebelumnya. Jadi, model dilatih pada, misalnya, freezing secara terpisah dari pelatihan di, misalnya, windy.

Atau, Anda dapat membuat persilangan fitur suhu dan kecepatan angin. Fitur sintetis ini akan memiliki 12 kemungkinan nilai berikut:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Berkat persilangan fitur, model ini dapat mempelajari perbedaan mood antara freezing-windy hari dan freezing-still hari.

Jika Anda membuat fitur sintetis dari dua fitur yang masing-masing memiliki banyak bucket berbeda, persilangan fitur yang dihasilkan akan memiliki sejumlah besar kemungkinan kombinasi. Misalnya, jika satu fitur memiliki 1.000 bucket dan fitur lainnya memiliki 2.000 bucket, persilangan fitur yang dihasilkan memiliki 2.000.000 bucket.

Secara formal, tanda silang adalah produk Kartesius.

Persilangan fitur sebagian besar digunakan dengan model linear dan jarang digunakan dengan jaringan neural.

rekayasa fitur

#fundamentals
#TensorFlow

Proses yang melibatkan langkah-langkah berikut:

  1. Menentukan fitur mana yang mungkin berguna dalam melatih model.
  2. Mengonversi data mentah dari set data menjadi versi yang efisien dari fitur-fitur tersebut.

Misalnya, Anda mungkin menentukan bahwa temperature mungkin fitur yang berguna. Kemudian, Anda dapat bereksperimen dengan bucketing untuk mengoptimalkan hal yang dapat dipelajari model dari berbagai rentang temperature.

Rekayasa fitur terkadang disebut ekstraksi fitur.

set fitur

#fundamentals

Kumpulan fitur yang dilatih dengan model machine learning. Misalnya, kode pos, ukuran properti, dan kondisi properti mungkin terdiri dari set fitur sederhana untuk model yang memprediksi harga rumah.

vektor fitur

#fundamentals

Array nilai feature yang terdiri dari contoh. Vektor fitur adalah input selama pelatihan dan selama inferensi. Misalnya, vektor fitur untuk model dengan dua fitur diskret mungkin adalah:

[0.92, 0.56]

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan satu lapisan output.
          Lapisan input berisi dua node, satu berisi nilai
          0,92 dan satunya lagi berisi nilai 0,56.

Setiap contoh memiliki nilai yang berbeda untuk vektor fitur, sehingga vektor fitur untuk contoh berikutnya dapat berupa:

[0.73, 0.49]

Rekayasa fitur menentukan cara merepresentasikan fitur dalam vektor fitur. Misalnya, fitur kategoris biner dengan lima kemungkinan nilai dapat direpresentasikan dengan encoding one-hot. Dalam hal ini, bagian dari vektor fitur untuk contoh tertentu akan terdiri dari empat angka nol dan satu 1,0 di posisi ketiga, sebagai berikut:

[0.0, 0.0, 1.0, 0.0, 0.0]

Sebagai contoh lainnya, misalkan model Anda terdiri dari tiga fitur:

  • fitur kategoris biner dengan lima kemungkinan nilai yang diwakili dengan encoding one-hot; misalnya: [0.0, 1.0, 0.0, 0.0, 0.0]
  • fitur kategoris biner lainnya dengan tiga kemungkinan nilai yang diwakili dengan encoding one-hot; misalnya: [0.0, 0.0, 1.0]
  • fitur floating point; misalnya: 8.3.

Dalam hal ini, vektor fitur untuk setiap contoh akan direpresentasikan oleh sembilan nilai. Dengan mempertimbangkan contoh nilai dalam daftar sebelumnya, vektor fitur adalah:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Umpan balik

#fundamentals

Dalam machine learning, situasi ketika prediksi model memengaruhi data pelatihan untuk model yang sama atau model lain. Misalnya, model yang merekomendasikan film akan memengaruhi film yang ditonton orang, yang kemudian akan memengaruhi model rekomendasi film berikutnya.

G

generalisasi

#fundamentals

Kemampuan model untuk membuat prediksi yang benar pada data baru yang sebelumnya tidak terlihat. Model yang dapat melakukan generalisasi adalah kebalikan dari model yang overfit.

kurva generalisasi

#fundamentals

Plot kehilangan pelatihan dan kehilangan validasi sebagai fungsi dari jumlah iterasi.

Kurva generalisasi dapat membantu Anda mendeteksi kemungkinan overfit. Misalnya, kurva generalisasi berikut menunjukkan overfit karena kerugian validasi pada akhirnya menjadi jauh lebih tinggi daripada kerugian pelatihan.

Grafik Kartesius dengan sumbu y diberi label &#39;kerugian&#39; dan sumbu x
          diberi label &#39;iterasi&#39;. Dua plot muncul. Satu plot menunjukkan kerugian pelatihan dan yang lainnya menunjukkan kerugian validasi.
          Kedua plot dimulai dengan cara yang sama, tetapi kerugian pelatihan pada akhirnya turun jauh lebih rendah daripada kerugian validasi.

penurunan gradien

#fundamentals

Teknik matematika untuk meminimalkan kerugian. Penurunan gradien secara berulang menyesuaikan bobot dan bias, sehingga secara bertahap menemukan kombinasi terbaik untuk meminimalkan kerugian.

Penurunan gradien lebih tua—jauh, jauh lebih tua—daripada machine learning.

kebenaran dasar

#fundamentals

Realitas.

Hal yang benar-benar terjadi.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah siswa di tahun pertama universitas akan lulus dalam waktu enam tahun. Kebenaran dasar model ini adalah apakah siswa tersebut benar-benar lulus dalam waktu enam tahun atau tidak.

H

Lapisan tersembunyi

#fundamentals

Lapisan dalam jaringan neural di antara lapisan input (fitur) dan lapisan output (prediksi). Setiap lapisan tersembunyi terdiri dari satu atau beberapa neuron. Misalnya, jaringan neural berikut berisi dua lapisan tersembunyi, lapisan pertama berisi tiga neuron, dan lapisan kedua berisi dua neuron:

Empat lapisan. Lapisan pertama adalah lapisan input yang berisi dua fitur. Lapisan kedua adalah lapisan tersembunyi yang berisi tiga
 neuron. Lapisan ketiga adalah lapisan tersembunyi yang berisi dua
 neuron. Lapisan keempat adalah lapisan output. Setiap fitur
          berisi tiga tepi, yang masing-masing menunjuk ke neuron yang berbeda
          di lapisan kedua. Setiap neuron di lapisan kedua berisi dua tepi, yang masing-masing menunjuk ke neuron yang berbeda di lapisan ketiga. Setiap neuron di lapisan ketiga berisi
 satu tepi, yang masing-masing mengarah ke lapisan output.

Jaringan neural dalam berisi lebih dari satu lapisan tersembunyi. Misalnya, ilustrasi sebelumnya adalah jaringan deep neural karena model berisi dua lapisan tersembunyi.

hyperparameter

#fundamentals

Variabel yang Anda atau layanan penyesuaian hyperparameterdisesuaikan selama berturut-turut pelatihan model. Misalnya, kecepatan pembelajaran adalah hyperparameter. Anda dapat menetapkan kecepatan pembelajaran ke 0,01 sebelum satu sesi pelatihan. Jika Anda menentukan bahwa 0,01 terlalu tinggi, Anda mungkin dapat menetapkan kecepatan pembelajaran ke 0,003 untuk sesi pelatihan berikutnya.

Sebaliknya, parameter adalah berbagai bobot dan bias yang dipelajari oleh model selama pelatihan.

I

terdistribusi secara independen dan identik (i.i.d)

#fundamentals

Data diambil dari distribusi yang tidak berubah, dan setiap nilai yang diambil tidak bergantung pada nilai yang telah digambar sebelumnya. I.i.d. adalah gas ideal machine learning—sebuah konstruksi matematika yang berguna, tetapi hampir tidak pernah benar-benar ditemukan di dunia nyata. Misalnya, distribusi pengunjung ke halaman web dapat dilakukan pada jangka waktu singkat; yaitu, distribusi tidak berubah selama periode singkat tersebut dan kunjungan satu orang umumnya tidak bergantung pada kunjungan orang lain. Namun, jika Anda memperluas jangka waktu tersebut, perbedaan musiman pada pengunjung halaman web dapat muncul.

Lihat juga nonstasioneritas.

inferensi

#fundamentals

Dalam machine learning, proses pembuatan prediksi dengan menerapkan model terlatih ke contoh tak berlabel.

Inferensi memiliki arti yang agak berbeda dalam statistik. Lihat artikel Wikipedia tentang inferensi statistik untuk mengetahui detailnya.

Lapisan input

#fundamentals

Lapisan dari jaringan neural yang menyimpan vektor fitur. Artinya, lapisan input memberikan contoh untuk pelatihan atau inferensi. Misalnya, lapisan input dalam jaringan neural berikut terdiri dari dua fitur:

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan lapisan output.

interpretabilitas

#fundamentals

Kemampuan untuk menjelaskan atau menyajikan alasan model ML dalam istilah yang dapat dipahami kepada manusia.

Sebagian besar model regresi linear, misalnya, sangat dapat diinterpretasikan. (Anda hanya perlu melihat bobot terlatih untuk setiap fitur.) Hutan keputusan juga sangat mudah ditafsirkan. Namun, beberapa model memerlukan visualisasi yang canggih agar dapat diinterpretasikan.

Anda dapat menggunakan Learning Interpretability Tool (LIT) untuk menafsirkan model ML.

iterasi

#fundamentals

Pembaruan tunggal parameter modelbobot dan bias model—selama pelatihan. Ukuran tumpukan menentukan jumlah contoh yang diproses oleh model dalam satu iterasi. Misalnya, jika ukuran tumpukan adalah 20, model akan memproses 20 contoh sebelum menyesuaikan parameter.

Saat melatih jaringan neural, satu iterasi akan melibatkan dua penerusan berikut:

  1. Forward pass untuk mengevaluasi kerugian di satu batch.
  2. Tahap mundur (propagasi mundur) untuk menyesuaikan parameter model berdasarkan kerugian dan kecepatan pemelajaran.

L

Regularisasi L0

#fundamentals

Jenis regularisasi yang menghukum jumlah total bobot bukan nol dalam model. Misalnya, model yang memiliki 11 bobot bukan nol akan mendapat sanksi lebih besar daripada model serupa yang memiliki 10 bobot bukan nol.

Regularisasi L0 terkadang disebut regularisasi norm L0.

Kalah L1

#fundamentals

Fungsi kerugian yang menghitung nilai absolut perbedaan antara nilai label sebenarnya dan nilai yang diprediksi oleh model. Misalnya, berikut adalah perhitungan kerugian L1 untuk batch dari lima contoh:

Nilai sebenarnya dari contoh Prediksi nilai model Nilai absolut delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 loss

Kerugian L1 kurang sensitif terhadap outlier daripada kerugian L2.

Error Absolut Rata-Rata adalah kerugian L1 rata-rata per contoh.

Regularisasi L1

#fundamentals

Jenis regularisasi yang menghukum bobot secara proporsional dengan jumlah nilai absolut bobot. Regularisasi L1 membantu mendorong bobot fitur yang tidak relevan atau yang kurang relevan menjadi persis 0. Fitur dengan bobot 0 dihapus secara efektif dari model.

Berbeda dengan regularisasi L2.

Turun L2

#fundamentals

Fungsi kerugian yang menghitung kuadrat perbedaan antara nilai label sebenarnya dan nilai yang diprediksi oleh model. Misalnya, berikut adalah perhitungan kerugian L2 untuk batch dari lima contoh:

Nilai sebenarnya dari contoh Prediksi nilai model Kuadrat delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 loss

Karena kuadrat, kerugian L2 memperkuat pengaruh outlier. Artinya, kerugian L2 bereaksi lebih kuat terhadap prediksi buruk daripada kerugian L1. Misalnya, loss L1 untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu {i>outlier <i} menyumbang 9 dari 16.

Model regresi biasanya menggunakan kerugian L2 sebagai fungsi kerugian.

Rataan Kuadrat Error adalah kerugian L2 rata-rata per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L2.

Regularisasi L2

#fundamentals

Jenis regularisasi yang menghukum bobot secara proporsional dengan jumlah persegi bobot. Regularisasi L2 membantu mendorong bobot outlier (dengan nilai positif tinggi atau negatif rendah) mendekati 0, tetapi tidak cukup ke 0. Fitur dengan nilai yang sangat mendekati 0 tetap berada dalam model, tetapi tidak terlalu memengaruhi prediksi model.

Regularisasi L2 selalu meningkatkan generalisasi dalam model linear.

Berbeda dengan regularisasi L1.

label

#fundamentals

Di supervised machine learning, bagian "jawaban" atau "hasil" dari contoh.

Setiap contoh berlabel terdiri dari satu atau beberapa fitur dan label. Misalnya, dalam set data deteksi spam, labelnya mungkin berupa "spam" atau "bukan spam". Dalam set data curah hujan, label mungkin berupa jumlah curah hujan yang turun selama periode tertentu.

contoh berlabel

#fundamentals

Contoh yang berisi satu atau beberapa fitur dan label. Misalnya, tabel berikut menunjukkan tiga contoh berlabel dari model valuasi rumah, masing-masing dengan tiga fitur dan satu label:

Jumlah kamar Jumlah kamar mandi Usia rumah Harga rumah (label)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Kontras contoh berlabel dengan contoh tak berlabel.

lambda

#fundamentals

Sinonim dari derajat regularisasi.

Lambda adalah istilah yang berlebihan. Di sini kita berfokus pada definisi istilah dalam regularisasi.

lapisan

#fundamentals

Kumpulan neuron dalam jaringan neural. Tiga jenis lapisan umum adalah sebagai berikut:

Misalnya, ilustrasi berikut menunjukkan jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
          lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua terdiri dari dua neuron. Lapisan output terdiri dari satu node.

Di TensorFlow, lapisan juga merupakan fungsi Python yang menggunakan Tensor dan opsi konfigurasi sebagai input dan menghasilkan tensor lain sebagai output.

kecepatan pembelajaran

#fundamentals

Bilangan floating point yang memberi tahu algoritma penurunan gradien seberapa kuat penyesuaian bobot dan bias pada setiap iterasi. Misalnya, kecepatan pembelajaran 0,3 akan menyesuaikan bobot dan bias tiga kali lebih kuat daripada kecepatan pembelajaran 0,1.

Kecepatan pembelajaran adalah hyperparameter utama. Jika Anda menetapkan kecepatan pembelajaran terlalu rendah, pelatihan akan memakan waktu terlalu lama. Jika Anda menetapkan kecepatan pemelajaran terlalu tinggi, penurunan gradien sering kali mengalami kesulitan dalam mencapai konvergensi.

linier

#fundamentals

Hubungan antara dua variabel atau lebih yang dapat direpresentasikan hanya melalui penjumlahan dan perkalian.

Plot hubungan linear adalah sebuah garis.

Berbeda dengan nonlinear.

model linear

#fundamentals

model yang menetapkan satu model per model untuk membuat model. (Model linear juga menggabungkan bias.) Sebaliknya, hubungan fitur dengan prediksi dalam model dalam umumnya nonlinear.

Model linear biasanya lebih mudah dilatih dan lebih dapat ditafsirkan daripada model dalam. Namun, model mendalam dapat mempelajari hubungan yang kompleks antar fitur.

Regresi linear dan regresi logistik adalah dua jenis model linear.

regresi linear

#fundamentals

Jenis model machine learning yang memenuhi kedua hal berikut:

  • Model ini adalah model linear.
  • Prediksi adalah nilai floating point. (Ini adalah bagian regresi dari regresi linear.)

Bandingkan regresi linear dengan regresi logistik. Selain itu, perbedaankan regresi dengan klasifikasi.

regresi logistik

#fundamentals

Jenis model regresi yang memprediksi probabilitas. Model regresi logistik memiliki karakteristik berikut:

  • Labelnya bersifat kategoris. Istilah regresi logistik biasanya mengacu pada regresi logistik biner, yaitu, untuk model yang menghitung probabilitas label dengan dua kemungkinan nilai. Varian yang kurang umum, regresi logistik multinomial, menghitung probabilitas untuk label yang memiliki lebih dari dua kemungkinan nilai.
  • Fungsi kerugian selama pelatihan adalah Kerugian Log. (Beberapa unit Kerugian Log dapat ditempatkan secara paralel untuk label yang memiliki lebih dari dua kemungkinan nilai.)
  • Model memiliki arsitektur linear, bukan jaringan neural dalam. Namun, bagian lain dari definisi ini juga berlaku untuk model dalam yang memprediksi probabilitas untuk label kategoris.

Misalnya, pertimbangkan model regresi logistik yang menghitung probabilitas email input merupakan spam atau bukan spam. Selama inferensi, misalkan model memprediksi 0,72. Oleh karena itu, model ini memperkirakan:

  • Kemungkinan email tersebut adalah spam sebesar 72%.
  • Kemungkinan email bukan spam adalah 28%.

Model regresi logistik menggunakan arsitektur dua langkah berikut:

  1. Model ini menghasilkan prediksi mentah (y') dengan menerapkan fungsi linear fitur input.
  2. Model ini menggunakan prediksi mentah tersebut sebagai input untuk fungsi sigmoid, yang mengonversi prediksi mentah menjadi nilai antara 0 dan 1, secara eksklusif.

Seperti model regresi lainnya, model regresi logistik memprediksi angka. Namun, angka ini biasanya menjadi bagian dari model klasifikasi biner sebagai berikut:

  • Jika angka yang diprediksi lebih besar dari nilai minimum klasifikasi, model klasifikasi biner akan memprediksi kelas positif.
  • Jika angka yang diprediksi kurang dari batas klasifikasi, model klasifikasi biner akan memprediksi kelas negatif.

Kerugian Log

#fundamentals

Fungsi kerugian yang digunakan dalam regresi logistik biner.

log-peluang

#fundamentals

Logaritma peluang beberapa peristiwa.

kalah

#fundamentals

Selama pelatihan dari model yang diawasi, ukuran seberapa jauh prediksi model dari label-nya.

Fungsi kerugian menghitung kerugian.

kurva loss

#fundamentals

Plot kerugian sebagai fungsi dari jumlah iterasi pelatihan. Plot berikut menunjukkan kurva kerugian yang umum:

Grafik kerugian versus iterasi pelatihan Kartesius, yang menunjukkan penurunan kerugian yang cepat untuk iterasi awal, diikuti dengan penurunan bertahap, lalu kemiringan datar selama iterasi akhir.

Kurva penurunan dapat membantu Anda menentukan kapan model Anda konvergen atau overfit.

Kurva kerugian dapat menggambarkan semua jenis kerugian berikut:

Lihat juga kurva generalisasi.

fungsi loss

#fundamentals

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada batch contoh. Fungsi kerugian menampilkan kerugian yang lebih rendah untuk model yang membuat prediksi baik daripada untuk model yang membuat prediksi yang buruk.

Tujuan pelatihan biasanya adalah untuk meminimalkan kerugian yang dihasilkan oleh fungsi kerugian.

Ada berbagai jenis fungsi kerugian. Pilih fungsi loss yang sesuai untuk jenis model yang Anda build. Contoh:

S

machine learning

#fundamentals

Program atau sistem yang melatih sebuah model dari data input. Model yang dilatih dapat membuat prediksi yang berguna dari data baru (yang belum pernah dilihat sebelumnya) yang diambil dari distribusi yang sama dengan yang digunakan untuk melatih model.

Machine learning juga mengacu pada bidang studi yang berkaitan dengan program atau sistem ini.

kelas mayoritas

#fundamentals

Label yang lebih umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi label negatif 99% dan label positif 1%, label negatif adalah kelas mayoritas.

Berbeda dengan kelas minoritas.

tumpukan mini

#fundamentals

Subset kecil yang dipilih secara acak dari batch yang diproses dalam satu iterasi. Ukuran tumpukan dari tumpukan mini biasanya antara 10 dan 1.000 contoh.

Misalnya, seluruh set pelatihan (batch penuh) terdiri dari 1.000 contoh. Selanjutnya, misalkan Anda menetapkan ukuran tumpukan untuk setiap tumpukan mini ke 20. Oleh karena itu, setiap iterasi menentukan kerugian pada 20 acak dari 1.000 contoh,lalu menyesuaikan bobot dan bias sebagaimana mestinya.

Jauh lebih efisien untuk menghitung kerugian pada batch mini daripada kerugian pada semua contoh dalam batch penuh.

kelas minoritas

#fundamentals

Label yang kurang umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi label negatif 99% dan label positif 1%, label positif adalah kelas minoritas.

Berbeda dengan class utama.

model

#fundamentals

Secara umum, setiap konstruksi matematis yang memproses data input dan menampilkan output. Dengan kata lain, model adalah kumpulan parameter dan struktur yang diperlukan sistem untuk membuat prediksi. Di supervised machine learning, model menggunakan contoh sebagai input dan menyimpulkan prediksi sebagai output. Dalam supervised machine learning, modelnya agak berbeda. Contoh:

  • Model regresi linear terdiri dari kumpulan bobot dan bias.
  • Model jaringan neural terdiri dari:
    • Kumpulan lapisan tersembunyi, masing-masing berisi satu atau beberapa neuron.
    • Bobot dan bias yang terkait dengan setiap neuron.
  • Model hierarki keputusan terdiri dari:
    • Bentuk pohon; yaitu pola yang menghubungkan kondisi dan daun.
    • Kondisi dan berangkat.

Anda dapat menyimpan, memulihkan, atau membuat salinan model.

Unsupervised machine learning juga menghasilkan model, biasanya fungsi yang dapat memetakan contoh input ke cluster yang paling sesuai.

klasifikasi multi-kelas

#fundamentals

Dalam supervised learning, masalah klasifikasi yang set datanya berisi lebih dari dua class label. Misalnya, label dalam set data Iris harus merupakan salah satu dari tiga class berikut:

  • Iris setosa
  • Iris Virginica
  • Versicolor iris

Model yang dilatih pada set data Iris yang memprediksi jenis Iris pada contoh baru adalah melakukan klasifikasi multi-kelas.

Sebaliknya, masalah klasifikasi yang membedakan persis dua class adalah model klasifikasi biner. Misalnya, model email yang memprediksi spam atau bukan spam adalah model klasifikasi biner.

Dalam masalah pengklasteran, klasifikasi multi-class mengacu pada lebih dari dua klaster.

N

kelas negatif

#fundamentals

Dalam klasifikasi biner, satu kelas disebut positif dan kelas lainnya disebut negatif. Class positif adalah hal atau peristiwa yang diuji oleh model dan class negatif adalah kemungkinan lainnya. Contoh:

  • Kelas negatif dalam tes medis mungkin "bukan tumor".
  • Kelas negatif dalam pengklasifikasi email mungkin "bukan spam".

Berbeda dengan kelas positif.

alur maju

#fundamentals

model yang berisi setidaknya satu model. Jaringan neural dalam adalah jenis jaringan neural yang berisi lebih dari satu lapisan tersembunyi. Misalnya, diagram berikut menunjukkan jaringan neural dalam yang berisi dua lapisan tersembunyi.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
          lapisan output.

Setiap neuron dalam jaringan neural terhubung ke semua node di lapisan berikutnya. Misalnya, pada diagram sebelumnya, perhatikan bahwa masing-masing dari tiga neuron di lapisan tersembunyi pertama terhubung secara terpisah ke kedua neuron dalam lapisan tersembunyi kedua.

Jaringan neural yang diterapkan di komputer terkadang disebut jaringan neural buatan untuk membedakannya dari jaringan saraf yang ada di otak dan sistem saraf lainnya.

Beberapa jaringan neural dapat meniru hubungan nonlinear yang sangat kompleks antara fitur dan label yang berbeda.

Lihat juga jaringan neural konvolusional dan jaringan neural berulang.

neuron

#fundamentals

Dalam machine learning, unit yang berbeda dalam lapisan tersembunyi dari jaringan neural. Setiap neuron melakukan tindakan dua langkah berikut:

  1. Menghitung jumlah terbobot dari nilai input dikalikan dengan bobot yang sesuai.
  2. Meneruskan jumlah berbobot sebagai input ke fungsi aktivasi.

Neuron di lapisan tersembunyi pertama menerima input dari nilai fitur dalam lapisan input. Neuron di lapisan tersembunyi mana pun selain yang pertama menerima input dari neuron dalam lapisan tersembunyi sebelumnya. Misalnya, neuron di lapisan tersembunyi kedua menerima input dari neuron di lapisan tersembunyi pertama.

Ilustrasi berikut menyoroti dua neuron dan inputnya.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
          lapisan output. Dua neuron ditandai: satu di lapisan tersembunyi pertama dan satu di lapisan tersembunyi kedua. Neuron yang ditandai
          di lapisan tersembunyi pertama menerima input dari kedua fitur
          di lapisan input. Neuron yang ditandai pada lapisan tersembunyi kedua menerima input dari masing-masing ketiga neuron di lapisan tersembunyi pertama.

Neuron di jaringan neural meniru perilaku neuron di otak dan bagian lain dari sistem saraf.

{i>node<i} (jaringan neural)

#fundamentals

neuron di lapisan tersembunyi.

nonlinear

#fundamentals

Hubungan antara dua variabel atau lebih yang tidak dapat dinyatakan hanya melalui penjumlahan dan perkalian. Hubungan linear dapat direpresentasikan sebagai garis; hubungan nonlinear tidak dapat direpresentasikan sebagai garis. Misalnya, bayangkan dua model yang masing-masing menghubungkan satu fitur dengan satu label. Model di sebelah kiri adalah linear, dan model di sebelah kanan adalah nonlinear:

Dua plot. Satu plot adalah garis, jadi ini adalah hubungan linear.
          Plot lainnya adalah kurva, jadi ini adalah hubungan nonlinear.

nonstasioneritas

#fundamentals

Fitur yang nilainya berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, perhatikan contoh nonstasioneritas berikut:

  • Jumlah pakaian renang yang dijual di toko tertentu bervariasi menurut musim.
  • Jumlah buah tertentu yang dipanen di wilayah tertentu adalah nol untuk sebagian besar tahun, tetapi besar dalam jangka waktu yang singkat.
  • Akibat perubahan iklim, suhu rata-rata tahunan bergeser.

Berbeda dengan stasioneritas.

normalisasi

#fundamentals

Secara garis besar, proses mengonversi rentang nilai variabel yang sebenarnya menjadi rentang nilai standar, seperti:

  • -1 hingga +1
  • 0 hingga 1
  • distribusi normal

Misalnya, anggaplah rentang nilai aktual fitur tertentu adalah 800 hingga 2.400. Sebagai bagian dari rekayasa fitur, Anda dapat menormalisasi nilai sebenarnya ke rentang standar, seperti -1 hingga +1.

Normalisasi adalah tugas umum dalam rekayasa fitur. Model biasanya berlatih lebih cepat (dan menghasilkan prediksi yang lebih baik) ketika setiap fitur numerik dalam vektor fitur memiliki rentang yang kurang lebih sama.

data numerik

#fundamentals

Fitur direpresentasikan sebagai bilangan bulat atau angka bernilai riil. Misalnya, model valuasi rumah mungkin akan mewakili ukuran rumah (dalam kaki persegi atau meter persegi) sebagai data numerik. Merepresentasikan fitur sebagai data numerik menunjukkan bahwa nilai fitur memiliki hubungan matematika dengan label. Artinya, jumlah meter persegi di rumah mungkin memiliki beberapa hubungan matematika dengan nilai rumah.

Tidak semua data integer harus direpresentasikan sebagai data numerik. Misalnya, kode pos di beberapa bagian dunia adalah bilangan bulat; namun, kode pos bilangan bulat tidak boleh direpresentasikan sebagai data numerik dalam model. Hal ini karena kode pos 20000 tidak dua kali (atau setengah) sama kuatnya dengan kode pos 10000. Selain itu, meskipun kode pos yang berbeda benar-benar berkorelasi dengan nilai real estate yang berbeda, kita tidak dapat berasumsi bahwa nilai real estate pada kode pos 20000 dua kali lebih berharga dibandingkan nilai real estate pada kode pos 10000. Kode pos harus direpresentasikan sebagai data kategoris.

Fitur numerik terkadang disebut fitur berkelanjutan.

O

offline

#fundamentals

Sinonim untuk statis.

inferensi offline

#fundamentals

Proses model yang menghasilkan sekumpulan prediksi, kemudian meng-cache (menyimpan) prediksi tersebut. Selanjutnya, aplikasi dapat mengakses prediksi yang diinginkan dari cache, bukan menjalankan ulang model.

Misalnya, pertimbangkan model yang menghasilkan prakiraan cuaca lokal (prediksi) sekali setiap empat jam. Setelah setiap model berjalan, sistem akan menyimpan semua prakiraan cuaca lokal ke dalam cache. Aplikasi cuaca mengambil prakiraan dari cache.

Inferensi offline juga disebut inferensi statis.

Berbeda dengan inferensi online.

encoding one-hot

#fundamentals

Merepresentasikan data kategoris sebagai vektor di mana:

  • Satu elemen ditetapkan ke 1.
  • Semua elemen lainnya ditetapkan ke 0.

Enkode satu-hot biasanya digunakan untuk merepresentasikan string atau ID yang memiliki kemungkinan rangkaian nilai yang terbatas. Misalnya, fitur kategoris tertentu bernama Scandinavia memiliki lima kemungkinan nilai:

  • "Denmark"
  • "Swedia"
  • "Norwegia"
  • "Finlandia"
  • "Islandia"

Encoding one-hot dapat mewakili kelima nilai sebagai berikut:

country Vektor
"Denmark" 1 0 0 0 0
"Swedia" 0 1 0 0 0
"Norwegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islandia" 0 0 0 0 1

Berkat encoding one-hot, model dapat mempelajari koneksi yang berbeda berdasarkan masing-masing dari lima negara.

Merepresentasikan fitur sebagai data numerik adalah alternatif encoding one-hot. Sayangnya, merepresentasikan negara-negara Skandinavia secara numerik bukanlah pilihan yang baik. Misalnya, perhatikan representasi numerik berikut:

  • "Denmark" adalah 0
  • "Swedia" adalah 1
  • "Norwegia" adalah 2
  • "Finlandia" adalah 3
  • "Islandia" adalah 4

Dengan encoding numerik, model akan menafsirkan angka mentah secara matematis dan akan mencoba melatih angka tersebut. Namun, Islandia sebenarnya tidak dua kali (atau setengah dari) sesuatu dari Norwegia, sehingga model ini akan sampai pada beberapa kesimpulan yang aneh.

satu-vs.-semua

#fundamentals

Dalam masalah klasifikasi dengan class N, solusi yang terdiri dari N pengklasifikasi biner terpisah—satu pengklasifikasi biner untuk setiap kemungkinan hasil. Misalnya, dalam model yang mengklasifikasikan contoh sebagai hewan, sayuran, atau mineral, solusi satu vs. semua akan memberikan tiga pengklasifikasi biner terpisah berikut:

  • hewan vs. bukan hewan
  • sayuran vs. bukan sayuran
  • mineral vs. bukan mineral

online

#fundamentals

Sinonim untuk dinamis.

inferensi online

#fundamentals

Menghasilkan prediksi sesuai permintaan. Misalnya, anggaplah sebuah aplikasi meneruskan input ke model dan mengeluarkan permintaan untuk prediksi. Sistem yang menggunakan inferensi online merespons permintaan dengan menjalankan model (dan menampilkan prediksi ke aplikasi).

Berbeda dengan inferensi offline.

Lapisan output

#fundamentals

Lapisan "terakhir" dari jaringan neural. Lapisan output berisi prediksi.

Ilustrasi berikut menunjukkan jaringan neural dalam yang kecil dengan lapisan input, dua lapisan tersembunyi, dan lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
          lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua terdiri dari dua neuron. Lapisan output terdiri dari satu node.

overfit

#fundamentals

Membuat model yang sangat cocok dengan data pelatihan sehingga model gagal membuat prediksi yang benar pada data baru.

Regularisasi dapat mengurangi overfit. Pelatihan dengan set pelatihan yang besar dan beragam juga dapat mengurangi overfit.

P

pandas

#fundamentals

API analisis data berorientasi kolom yang di-build berdasarkan numpy. Banyak framework machine learning, termasuk TensorFlow, mendukung struktur data pandas sebagai input. Lihat dokumentasi pandas untuk mengetahui detailnya.

parameter

#fundamentals

Bobot dan bias yang dipelajari model selama pelatihan. Misalnya, dalam model regresi linear, parameter terdiri dari bias (b) dan semua bobot (w1, w2, dan seterusnya) dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sebaliknya, hyperparameter adalah nilai yang Anda (atau layanan perubahan hyperparameter) yang diberikan ke model. Misalnya, kecepatan pembelajaran adalah hyperparameter.

kelas positif

#fundamentals

Kelas yang sedang Anda uji.

Misalnya, kelas positif dalam model kanker mungkin adalah "tumor". Kelas positif dalam pengklasifikasi email mungkin adalah "spam".

Berbeda dengan kelas negatif.

pascapemrosesan

#fairness
#fundamentals

Menyesuaikan output model setelah model dijalankan. Pasca-pemrosesan dapat digunakan untuk menerapkan batasan keadilan tanpa mengubah model itu sendiri.

Misalnya, seseorang dapat menerapkan pascapemrosesan ke pengklasifikasi biner dengan menetapkan batas klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa bahwa rasio positif benar sama untuk semua nilai atribut tersebut.

prediksi

#fundamentals

Output model. Contoh:

  • Prediksi model klasifikasi biner adalah kelas positif atau kelas negatif.
  • Prediksi model klasifikasi multi-class adalah satu class.
  • Prediksi model regresi linear adalah angka.

label proxy

#fundamentals

Data yang digunakan untuk memperkirakan label yang tidak tersedia secara langsung dalam set data.

Misalnya, Anda harus melatih sebuah model untuk memprediksi tingkat stres karyawan. Set data Anda berisi banyak fitur prediktif, tetapi tidak berisi label bernama level stres. Baik, Anda memilih "kecelakaan di tempat kerja" sebagai label proxy untuk tingkat stres. Lagi pula, karyawan yang mengalami stres tinggi lebih banyak mengalami lebih banyak kecelakaan daripada karyawan yang tenang. Atau mereka? Mungkin kecelakaan di tempat kerja dapat naik turun karena berbagai alasan.

Sebagai contoh kedua, misalkan Anda ingin apakah hujan? menjadi label Boolean untuk set data Anda, tetapi set data Anda tidak berisi data hujan. Jika foto tersedia, Anda dapat membuat gambar orang yang membawa payung sebagai label proxy untuk apakah hujan? Apakah itu label {i> proxy<i} yang baik? Mungkin, tetapi orang-orang di beberapa budaya mungkin lebih mungkin membawa payung untuk melindungi dari sinar matahari daripada hujan.

Label {i>proxy<i} sering kali tidak sempurna. Jika memungkinkan, pilih label sebenarnya daripada label proxy. Meskipun begitu, ketika label sebenarnya tidak ada, pilih label proxy dengan sangat hati-hati, dengan memilih kandidat label proxy yang paling tidak buruk.

R

pelabel

#fundamentals

Manusia yang memberikan label untuk contoh. "Annotator" adalah nama lain untuk pelabel.

Unit Linear Terarah (ReLU)

#fundamentals

Fungsi aktivasi dengan perilaku berikut:

  • Jika input negatif atau nol, maka outputnya adalah 0.
  • Jika input bernilai positif, maka output-nya sama dengan input-nya.

Contoh:

  • Jika inputnya adalah -3, maka output-nya adalah 0.
  • Jika inputnya +3, maka output-nya adalah 3,0.

Berikut adalah plot ULT:

Plot kartesius dua baris. Baris pertama memiliki nilai konstanta y
          0, berjalan di sepanjang sumbu x dari -tak terhingga,0 hingga 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, sehingga garisnya dimulai dari 0,0 ke +tak terbatas,+tak terhingga.

ULT adalah fungsi aktivasi yang sangat populer. Meskipun perilakunya sederhana, ReLU masih memungkinkan jaringan neural untuk mempelajari hubungan nonlinear antara fitur dan label.

model regresi

#fundamentals

Secara informal, model yang menghasilkan prediksi numerik. (Sebaliknya, model klasifikasi menghasilkan prediksi class.) Misalnya, berikut adalah semua model regresi:

  • Model yang memprediksi nilai rumah tertentu, seperti 423.000 Euro.
  • Model yang memprediksi harapan hidup pohon tertentu, seperti 23,2 tahun.
  • Model yang memprediksi jumlah hujan yang akan turun di kota tertentu selama enam jam ke depan, misalnya 0,18 inci.

Dua jenis model regresi yang umum adalah:

  • Regresi linear, yang menemukan garis yang paling sesuai dengan nilai label ke fitur.
  • Regresi logistik, yang menghasilkan probabilitas antara 0,0 dan 1,0 yang biasanya dipetakan sistem ke prediksi class.

Tidak semua model yang menghasilkan prediksi numerik merupakan model regresi. Dalam beberapa kasus, prediksi numerik sebenarnya hanyalah model klasifikasi yang kebetulan memiliki nama class numerik. Misalnya, model yang memprediksi kode pos numerik adalah model klasifikasi, bukan model regresi.

regularisasi

#fundamentals

Mekanisme apa pun yang mengurangi overfit. Jenis regularisasi yang populer mencakup:

Regularisasi juga dapat didefinisikan sebagai penalti dari kompleksitas model.

laju regularisasi

#fundamentals

Angka yang menentukan nilai penting relatif regularisasi selama pelatihan. Meningkatkan rasio regularisasi akan mengurangi overfit, tetapi dapat mengurangi daya prediktif model. Sebaliknya, mengurangi atau menghilangkan derajat regularisasi akan meningkatkan overfit.

ReLU

#fundamentals

Singkatan dari Unit Linear Terarah.

generasi augmented-pengambilan

#fundamentals

Arsitektur software yang biasa digunakan pada aplikasi model bahasa besar (LLM). Motivasi umum untuk menggunakan generasi yang ditingkatkan pengambilannya meliputi:

  • Meningkatkan akurasi faktual dari respons yang dihasilkan model
  • Memberi model akses ke pengetahuan yang tidak dilatihnya
  • Mengubah pengetahuan yang digunakan model
  • Memungkinkan model mengutip sumber

Misalnya, anggaplah aplikasi kimia menggunakan PaLM API untuk membuat ringkasan yang terkait dengan kueri pengguna. Saat backend aplikasi menerima kueri, backend pertama-tama menelusuri ("mengambil") data yang relevan dengan kueri pengguna, menambahkan ("augment") data kimia yang relevan ke kueri pengguna, dan menyuruh LLM untuk membuat ringkasan berdasarkan data yang ditambahkan.

Kurva ROC (karakteristik operasi penerima)

#fundamentals

Grafik rasio positif benar vs. rasio positif palsu untuk nilai minimum klasifikasi yang berbeda dalam klasifikasi biner.

Bentuk kurva KOP menunjukkan kemampuan model klasifikasi biner untuk memisahkan class positif dari class negatif. Misalkan, model klasifikasi biner memisahkan semua class negatif dari semua class positif dengan sempurna:

Garis bilangan dengan 8 contoh positif di sisi kanan dan
          7 contoh negatif di sebelah kiri.

Kurva KOP untuk model sebelumnya terlihat sebagai berikut:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y
          adalah Rasio Positif Benar. Kurva memiliki bentuk L terbalik. Kurva dimulai pada (0.0,0.0) dan lurus ke atas ke (0.0,1.0). Kemudian kurva
          berubah dari (0.0,1.0) menjadi (1.0,1.0).

Sebaliknya, ilustrasi berikut menampilkan nilai regresi logistik mentah untuk model buruk yang tidak dapat memisahkan class negatif dari class positif sama sekali:

Garis bilangan dengan contoh positif dan class negatif
          benar-benar bercampur.

Kurva KOP untuk model ini terlihat seperti berikut:

Kurva KOP, yang sebenarnya merupakan garis lurus dari (0.0,0.0)
          ke (1.0,1.0).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan kelas positif dan negatif sampai tingkat tertentu, tetapi biasanya tidak secara sempurna. Jadi, kurva KOP biasanya berada di antara dua titik ekstrem:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y
          adalah Rasio Positif Benar. Kurva KOP mendekati busur goyang yang melintasi titik kompas dari Barat ke Utara.

Titik pada kurva KOP yang paling dekat dengan (0.0,1.0) secara teoritis mengidentifikasi batas klasifikasi ideal. Namun, beberapa masalah dunia nyata lainnya memengaruhi pemilihan batas klasifikasi ideal. Misalnya, mungkin negatif palsu menyebabkan lebih banyak rasa sakit daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva KOP menjadi satu nilai floating point.

Error Akar Rataan Kuadrat (RMSE)

#fundamentals

Akar kuadrat dari Rata-Rata Kuadrat Galat.

S

fungsi sigmoid

#fundamentals

Fungsi matematika yang "menyingkat" nilai input ke dalam rentang yang dibatasi, biasanya 0 hingga 1 atau -1 hingga +1. Artinya, Anda dapat meneruskan angka apa pun (dua, satu juta, miliar negatif, berapa pun) ke sigmoid dan output-nya akan tetap berada dalam rentang yang dibatasi. Plot fungsi aktivasi sigmoid terlihat sebagai berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain -tak terhingga hingga +positif, sementara nilai y menjangkau rentang hampir 0 hingga hampir 1. Jika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi pada 0,0,5 dan kemiringan bertahap menurun secara bertahap seiring peningkatan nilai absolut x.

Fungsi sigmoid memiliki beberapa kegunaan dalam machine learning, termasuk:

softmax

#fundamentals

Fungsi yang menentukan probabilitas untuk setiap kemungkinan class dalam model klasifikasi multi-class. Jumlah probabilitas bertambah hingga 1,0. Misalnya, tabel berikut menunjukkan cara softmax mendistribusikan berbagai probabilitas:

Gambar adalah... Probability
anjing .85
cat .13
kuda ,02

Softmax juga disebut full softmax.

Berbeda dengan sampling kandidat.

fitur sparse

#language
#fundamentals

Fitur yang nilainya sebagian besar nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 bersifat renggang. Sebaliknya, fitur padat memiliki nilai yang utamanya bukan nol atau kosong.

Dalam machine learning, sejumlah besar fitur adalah fitur yang renggang. Fitur kategoris biasanya merupakan fitur renggang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan kemungkinan video dalam pustaka video, satu contoh mungkin hanya mengidentifikasi "Casablanca".

Pada model, Anda biasanya merepresentasikan fitur renggang dengan encoding one-hot. Jika encoding one-hot berukuran besar, Anda dapat menempatkan lapisan penyematan di atas encoding one-hot untuk lebih efisien.

representasi renggang

#language
#fundamentals

Hanya menyimpan position(s) elemen bukan nol dalam fitur sparse.

Misalnya, fitur kategoris bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Asumsikan lebih lanjut bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk mewakili spesies pohon pada setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0s (untuk mewakili 35 spesies pohon bukan dalam contoh tersebut). Jadi, representasi one-hot maple mungkin terlihat seperti berikut:

Vektor di mana posisi 0 hingga 23 memiliki nilai 0, posisi
          24 memiliki nilai 1, dan posisi 25 hingga 35 memiliki nilai 0.

Atau, representasi renggang hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada di posisi 24, representasi renggang maple akan menjadi:

24

Perhatikan bahwa representasi renggang jauh lebih ringkas daripada representasi satu panas.

vektor jarang

#fundamentals

Vektor yang nilainya sebagian besar adalah nol. Lihat juga fitur reng dan ketersebaran.

kerugian kuadrat

#fundamentals

Sinonim dari L2 loss.

static

#fundamentals

Sesuatu dilakukan sekali, bukan terus-menerus. Istilah statis dan offline adalah sinonim. Berikut adalah penggunaan umum statis dan offline dalam machine learning:

  • model statis (atau model offline) adalah model yang dilatih sekali, lalu digunakan untuk sementara waktu.
  • pelatihan statis (atau pelatihan offline) adalah proses pelatihan model statis.
  • inferensi statis (atau inferensi offline) adalah proses ketika model menghasilkan batch prediksi pada satu waktu.

Berbeda dengan dinamis.

inferensi statis

#fundamentals

Sinonim untuk inferensi offline.

stasioneritas

#fundamentals

Fitur yang nilainya tidak berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, fitur yang nilainya terlihat sama pada tahun 2021 dan 2023 menunjukkan stasioneritas.

Dalam dunia nyata, sangat sedikit fitur yang menunjukkan stasioneritas. Bahkan fitur yang identik dengan stabilitas (seperti permukaan laut) berubah dari waktu ke waktu.

Berbeda dengan nonstasioneritas.

penurunan gradien stokastik (SGD)

#fundamentals

Algoritme penurunan gradien dengan ukuran tumpukan adalah satu. Dengan kata lain, SGD berlatih pada satu contoh yang dipilih secara seragam dan acak dari set pelatihan.

supervised machine learning

#fundamentals

Melatih model dari fitur dan label yang sesuai. Supervised machine learning serupa dengan mempelajari subjek dengan mempelajari serangkaian pertanyaan dan jawaban yang sesuai. Setelah menguasai pemetaan antara pertanyaan dan jawaban, siswa kemudian dapat memberikan jawaban atas pertanyaan baru (yang belum pernah dilihat) tentang topik yang sama.

Bandingkan dengan unsupervised machine learning.

fitur sintetis

#fundamentals

Fitur yang tidak ada di antara fitur input, tetapi digabungkan dari satu atau beberapa fitur input. Metode untuk membuat fitur sintetis mencakup hal berikut:

  • Mengelompokkan fitur berkelanjutan ke dalam bin rentang.
  • Membuat persilangan fitur.
  • Mengalikan (atau membagi) satu nilai fitur dengan nilai fitur lain atau dengan nilai fitur itu sendiri. Misalnya, jika a dan b adalah fitur input, berikut adalah contoh fitur sintetis:
    • ab
    • a2
  • Menerapkan fungsi transendental ke nilai fitur. Misalnya, jika c adalah fitur input, berikut adalah contoh fitur sintetis:
    • sin(c)
    • ln(c)

Fitur yang dibuat dengan melakukan normalisasi atau penskalaan saja tidak dianggap sebagai fitur sintetis.

T

kerugian pengujian

#fundamentals

Metrik yang mewakili kerugian model terhadap set pengujian. Saat mem-build model, Anda biasanya mencoba meminimalkan kerugian pengujian. Hal ini karena kerugian pengujian yang rendah merupakan sinyal dengan kualitas yang lebih kuat daripada kehilangan pelatihan yang rendah atau kehilangan validasi yang rendah.

Kesenjangan besar antara kerugian pengujian dan kerugian pelatihan atau kehilangan validasi terkadang menunjukkan bahwa Anda perlu meningkatkan tingkat regularisasi.

training

#fundamentals

Proses penentuan parameter ideal (bobot dan bias) yang terdiri dari model. Selama pelatihan, sistem membaca contoh dan secara bertahap menyesuaikan parameter. Pelatihan menggunakan setiap contoh di mana saja mulai dari beberapa kali hingga miliaran kali.

kerugian pelatihan

#fundamentals

Metrik yang mewakili kerugian model selama iterasi pelatihan tertentu. Misalnya, fungsi kerugian adalah Mean Squared Error. Mungkin kerugian pelatihan (Rataan Squared Error) untuk iterasi ke-10 adalah 2,2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1,9.

Kurva kerugian memetakan kerugian pelatihan vs. jumlah iterasi. Kurva penyimpangan memberikan petunjuk tentang pelatihan berikut:

  • Kemiringan menurun mengindikasikan bahwa model mengalami peningkatan.
  • Kemiringan ke atas menyiratkan bahwa model menjadi lebih buruk.
  • Kemiringan datar menyiratkan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian yang agak ideal berikut menunjukkan:

  • Kemiringan menurun yang curam selama iterasi awal, yang menyiratkan peningkatan model yang cepat.
  • Kemiringan yang merata (tetapi masih ke bawah) secara bertahap hingga mendekati akhir pelatihan, yang berarti bahwa peningkatan model berkelanjutan dengan kecepatan yang agak lebih lambat selama iterasi awal.
  • Kemiringan datar menuju akhir pelatihan, yang menunjukkan konvergensi.

Plot kerugian pelatihan vs. iterasi. Kurva kerugian ini dimulai dengan kemiringan menurun yang curam. Kemiringan secara bertahap menjadi datar hingga
     kemiringan menjadi nol.

Meskipun kerugian pelatihan itu penting, lihat juga generalisasi.

diferensiasi performa pelatihan dan penayangan

#fundamentals

Perbedaan antara performa model selama pelatihan dan performa model yang sama selama penayangan.

set pelatihan

#fundamentals

Subset set data yang digunakan untuk melatih model.

Secara tradisional, contoh dalam set data dibagi menjadi tiga subset yang berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set validasi.

negatif benar (TN)

#fundamentals

Contoh yang mana model benar memprediksi class negatif. Misalnya, model menyimpulkan bahwa pesan email tertentu bukan spam, dan pesan email tersebut benar-benar bukan spam.

positif benar (TP)

#fundamentals

Contoh yang mana model benar memprediksi class positif. Misalnya, model menyimpulkan bahwa pesan email tertentu adalah spam, dan pesan email tersebut benar-benar spam.

rasio positif benar (TPR)

#fundamentals

Sinonim dari perolehan. Definisinya yaitu:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Rasio positif benar adalah sumbu y dalam kurva KOP.

U

kurang pas

#fundamentals

Menghasilkan model dengan kemampuan prediktif yang buruk karena model belum sepenuhnya menangkap kompleksitas data pelatihan. Banyak masalah dapat menyebabkan underfit, termasuk:

contoh tidak berlabel

#fundamentals

Contoh yang berisi fitur tetapi tanpa label. Misalnya, tabel berikut menunjukkan tiga contoh tak berlabel dari model penilaian rumah, masing-masing dengan tiga fitur tetapi tidak ada nilai rumah:

Jumlah kamar Jumlah kamar mandi Usia rumah
3 2 15
2 1 72
4 2 34

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Dalam pembelajaran semi-supervised dan unsupervised, contoh tak berlabel digunakan selama pelatihan.

Membandingkan contoh tanpa label dengan contoh berlabel.

unsupervised machine learning

#clustering
#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tidak berlabel.

Penggunaan unsupervised machine learning yang paling umum adalah mengelompokkan data ke dalam beberapa kelompok contoh yang serupa. Misalnya, algoritme unsupervised machine learning dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input bagi algoritma machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu ketika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia lebih memahami data.

Berbeda dengan supervised machine learning.

V

validasi

#fundamentals

Evaluasi awal kualitas model. Validasi memeriksa kualitas prediksi model terhadap set validasi.

Karena set validasi berbeda dengan set pelatihan, validasi membantu mencegah overfit.

Anda mungkin berpikir untuk mengevaluasi model terhadap set validasi sebagai putaran pertama pengujian dan mengevaluasi model terhadap set pengujian sebagai putaran kedua pengujian.

kerugian validasi

#fundamentals

Metrik yang mewakili kerugian model pada set validasi selama iterasi pelatihan tertentu.

Lihat juga kurva generalisasi.

set validasi

#fundamentals

Subset set data yang melakukan evaluasi awal terhadap model terlatih. Biasanya, Anda mengevaluasi model yang dilatih terhadap set validasi beberapa kali sebelum mengevaluasi model terhadap set pengujian.

Secara tradisional, Anda membagi contoh dalam set data menjadi tiga subset yang berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set validasi.

W

berat

#fundamentals

Nilai yang dikalikan dengan nilai lain oleh model. Pelatihan adalah proses menentukan bobot ideal model; inferensi adalah proses menggunakan bobot yang dipelajari tersebut untuk membuat prediksi.

jumlah terbobot

#fundamentals

Jumlah semua nilai input yang relevan dikalikan dengan bobotnya yang sesuai. Misalnya, anggaplah input yang relevan terdiri dari hal berikut:

nilai input masukkan berat
2 -1.3
-1 0.6
3 0.4

Jadi, jumlah terbobot adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Jumlah berbobot adalah argumen input ke fungsi aktivasi.

Z

Normalisasi skor-Z

#fundamentals

Teknik penskalaan yang mengganti nilai fitur mentah dengan nilai floating point yang mewakili jumlah deviasi standar dari rata-rata fitur tersebut. Misalnya, pertimbangkan fitur yang memiliki nilai rata-rata 800 dan standar deviasinya 100. Tabel berikut menunjukkan cara normalisasi skor Z memetakan nilai mentah ke skor Z-nya:

Nilai mentah Skor Z
800 0
950 +1,5
575 -2.25

Model machine learning kemudian berlatih berdasarkan skor Z untuk fitur tersebut, bukan berdasarkan nilai mentah.