Glosarium Machine Learning: Dasar-Dasar ML

Halaman ini berisi istilah glosarium ML Fundamentals. Untuk semua istilah glosarium, klik di sini.

A

akurasi

#fundamentals

Jumlah prediksi klasifikasi yang benar dibagi dengan jumlah total prediksi. Definisinya yaitu:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Misalnya, model yang membuat 40 prediksi yang benar dan 10 prediksi yang salah akan memiliki akurasi:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasifikasi biner memberikan nama spesifik untuk berbagai kategori prediksi yang benar dan prediksi yang salah. Jadi, rumus akurasi untuk klasifikasi biner adalah sebagai berikut:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dalam hal ini:

Bandingkan dan kontraskan akurasi dengan presisi dan perolehan.

fungsi aktivasi

#fundamentals

Fungsi yang memungkinkan jaringan neural untuk mempelajari hubungan nonlinear (kompleks) antara fitur dan label.

Fungsi aktivasi yang populer mencakup:

plot fungsi aktivasi tidak pernah berupa garis lurus tunggal. Misalnya, plot fungsi aktivasi ULT terdiri dari dua garis lurus:

plot kartesius dengan dua garis. Baris pertama memiliki
          nilai y konstan 0, yang bergerak sepanjang sumbu x dari -infinity,0 sampai 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, sehingga berkisar dari 0,0 sampai +tak terbatas,+tak terhingga.

plot fungsi aktivasi sigmoid akan terlihat seperti berikut:

plot melengkung dua dimensi dengan nilai x yang mencakup domain
          -infinity hingga +positif, sedangkan nilai y berkisar antara 0 hingga
          hampir 1. Ketika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi sebesar 0,0.5 dan menurun secara bertahap penurunan seiring nilai absolut x meningkat.

kecerdasan buatan

#fundamentals

Program non-manusia atau model yang dapat menyelesaikan tugas rumit. Misalnya, program atau model yang menerjemahkan teks atau program atau model yang mengidentifikasi penyakit dari citra radiologi, keduanya menunjukkan kecerdasan buatan.

Secara formal, machine learning adalah sub-kolom dari kecerdasan buatan. Namun, dalam beberapa tahun terakhir, beberapa organisasi mulai menggunakan istilah kecerdasan buatan dan machine learning secara bergantian.

ABK (Area di bawah kurva KOP)

#fundamentals

Angka antara 0,0 dan 1,0 merepresentasikan kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Semakin dekat AUC ke 1,0, semakin baik kemampuan model untuk memisahkan class satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model pengklasifikasi yang memisahkan class positif (oval hijau) dari class negatif (persegi panjang ungu) dengan sempurna. Model yang tidak realistis ini memiliki AUC 1,0:

Baris bilangan dengan 8 contoh positif di satu sisi dan
          9 contoh negatif di sisi lainnya.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk model pengklasifikasi yang memberikan hasil acak. Model ini memiliki AUC 0,5:

Baris bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contohnya adalah positif, negatif,
          positif, negatif, positif, negatif, positif, negatif, positif
          negatif, positif, negatif.

Ya, model sebelumnya memiliki AUC 0,5, bukan 0,0.

Sebagian besar model berada di antara dua titik ekstrem. Misalnya, model berikut agak memisahkan positif dari negatif, sehingga memiliki AUC antara 0,5 dan 1,0:

Baris bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contohnya adalah negatif, negatif, negatif, negatif, positif, negatif, positif, positif, negatif, positif, positif.

ABK mengabaikan nilai apa pun yang Anda tetapkan untuk nilai minimum klasifikasi. Sebaliknya, AUC mempertimbangkan semua batas klasifikasi yang memungkinkan.

M

propagasi mundur

#fundamentals

Algoritme yang menerapkan penurunan gradien di jaringan neural.

Melatih jaringan neural melibatkan banyak iterasi dari siklus dua jalur berikut:

  1. Selama meneruskan, sistem memproses batch dari contoh untuk menghasilkan prediksi. Sistem membandingkan setiap prediksi dengan setiap nilai label. Perbedaan antara prediksi dan nilai label adalah loss untuk contoh tersebut. Sistem menggabungkan kerugian untuk semua contoh guna menghitung total kerugian untuk batch saat ini.
  2. Selama pass mundur (propagasi mundur), sistem akan mengurangi kerugian dengan menyesuaikan bobot semua neuron di semua lapisan tersembunyi.

Jaringan neural sering berisi banyak neuron di banyak lapisan tersembunyi. Setiap neuron tersebut berkontribusi pada hilangnya keseluruhan dengan cara yang berbeda. Propagasi mundur menentukan apakah akan menambah atau mengurangi bobot yang diterapkan pada neuron tertentu.

Kecepatan pembelajaran adalah pengali yang mengontrol sejauh mana setiap penerusan mundur mengalami peningkatan atau penurunan setiap bobot. Kecepatan pembelajaran yang besar akan meningkatkan atau menurunkan setiap bobot lebih dari kecepatan pembelajaran kecil.

Dalam istilah kalkulus, propagasi mundur menerapkan aturan rantai kalkulus. Artinya, propagasi mundur menghitung turunan parsial dari error tersebut dengan memperhatikan setiap parameter. Untuk mengetahui detail selengkapnya, lihat tutorial dalam Kursus Singkat Machine Learning ini.

Beberapa tahun yang lalu, praktisi ML harus menulis kode untuk menerapkan propagasi mundur. ML API modern seperti TensorFlow sekarang mengimplementasikan propagasi mundur untuk Anda. Fiuh!

batch

#fundamentals

Set contoh yang digunakan dalam satu iterasi pelatihan. Ukuran batch menentukan jumlah contoh dalam batch.

Lihat epoch untuk mengetahui penjelasan tentang keterkaitan batch dengan epoch.

ukuran tumpukan

#fundamentals

Jumlah contoh dalam batch. Misalnya, jika ukuran tumpukannya adalah 100, model akan memproses 100 contoh per iterasi.

Berikut adalah strategi ukuran batch yang populer:

  • Stochastic Gradient Descent (SGD), dengan ukuran tumpukan 1.
  • batch penuh, dengan ukuran batch adalah jumlah contoh di seluruh set pelatihan. Misalnya, jika set pelatihan berisi satu juta contoh, maka ukuran tumpukannya akan menjadi jutaan contoh. Batch lengkap biasanya merupakan strategi yang tidak efisien.
  • mini-batch dengan ukuran tumpukan biasanya antara 10 dan 1.000. Mini-batch biasanya merupakan strategi yang paling efisien.

bias (etika/keadilan)

#fairness
#fundamentals

1. Stereotip, prasangka atau favoritisme terhadap beberapa hal, orang, atau kelompok di atas yang lainnya. Bias ini dapat memengaruhi pengumpulan dan penafsiran data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk bias ini meliputi:

2. Error sistematis yang diperkenalkan melalui prosedur pengambilan sampel atau pelaporan. Bentuk bias ini meliputi:

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

bias (matematika) atau istilah bias

#fundamentals

Intersep atau offset dari origin. Bias adalah parameter dalam model machine learning, yang disimbolkan dengan salah satu dari berikut ini:

  • b
  • 0

Misalnya, bias bernilai b dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dalam garis dua dimensi yang sederhana, bias berarti "titik potong sumbu y". Misalnya, bias garis pada ilustrasi berikut adalah 2.

Plot garis dengan kemiringan 0,5 dan bias (titik potong sumbu y) 2.

Bias ada karena tidak semua model dimulai dari asal (0,0). Misalnya, taman hiburan dikenakan biaya 2 Euro untuk masuk dan tambahan 0,5 Euro untuk setiap jam pelanggan menginap. Oleh karena itu, model yang memetakan total biaya memiliki bias 2 karena biaya terendah adalah 2 Euro.

Bias tidak sama dengan bias dalam hal etika dan keadilan atau bias prediksi.

klasifikasi biner

#fundamentals

Jenis tugas klasifikasi yang memprediksikan salah satu dari dua class yang saling eksklusif:

Misalnya, dua model machine learning berikut masing-masing melakukan klasifikasi biner:

  • Model yang menentukan apakah pesan email merupakan spam (kelas positif) atau bukan spam (kelas negatif).
  • Model yang mengevaluasi gejala medis untuk menentukan apakah seseorang memiliki penyakit tertentu (kelas positif) atau tidak memiliki penyakit tersebut (kelas negatif).

Berbeda dengan klasifikasi multi-class.

Lihat juga regresi logistik dan nilai minimum klasifikasi.

pengelompokan

#fundamentals

Mengonversi satu fitur menjadi beberapa fitur biner yang disebut bucket atau bins, biasanya berdasarkan rentang nilai. Fitur yang dipotong biasanya berupa fitur berkelanjutan.

Misalnya, alih-alih menampilkan suhu sebagai fitur floating point tunggal yang berkelanjutan, Anda dapat membagi rentang suhu menjadi beberapa bucket terpisah, seperti:

  • <= 10 derajat Celsius akan menjadi bucket "cold".
  • 11 - 24 derajat Celsius akan menjadi bucket "sedang".
  • >= 25 derajat Celsius akan menjadi bucket "warm".

Model akan memperlakukan setiap nilai dalam bucket yang sama secara identik. Misalnya, nilai 13 dan 22 berada di bucket sedang, sehingga model memperlakukan kedua nilai tersebut secara identik.

C

data kategoris

#fundamentals

Fitur memiliki kumpulan kemungkinan nilai tertentu. Misalnya, pertimbangkan fitur kategoris bernama traffic-light-state, yang hanya dapat memiliki salah satu dari tiga nilai berikut:

  • red
  • yellow
  • green

Dengan merepresentasikan traffic-light-state sebagai fitur kategoris, model dapat mempelajari dampak yang berbeda dari red, green, dan yellow pada perilaku pengemudi.

Fitur kategoris terkadang disebut fitur terpisah.

Berbeda dengan data numerik.

class

#fundamentals

Kategori untuk label yang dapat disertakan. Contoh:

  • Dalam model klasifikasi biner yang mendeteksi spam, kedua class mungkin merupakan spam dan bukan spam.
  • Dalam model klasifikasi multi-class yang mengidentifikasi ras, class-class tersebut mungkin berupa pudel, beagle, pug, dan sebagainya.

Model klasifikasi memprediksi class. Sebaliknya, model regresi memprediksi angka, bukan class.

model klasifikasi

#fundamentals

Model yang prediksinya adalah class. Misalnya, berikut adalah semua model klasifikasi:

  • Model yang memprediksi bahasa kalimat input (Prancis? Spanyol? Italia?).
  • Model yang memprediksi spesies pohon (Maple? Ek? Bakso?).
  • Model yang memprediksi kelas positif atau negatif untuk kondisi medis tertentu.

Sebaliknya, model regresi memprediksi angka, bukan class.

Dua jenis model klasifikasi yang umum adalah:

batas klasifikasi

#fundamentals

Dalam klasifikasi biner, angka antara 0 dan 1 yang mengonversi output mentah dari model regresi logistik menjadi prediksi kelas positif atau kelas negatif. Perhatikan bahwa nilai minimum klasifikasi adalah nilai yang dipilih manusia, bukan nilai yang dipilih oleh pelatihan model.

Model regresi logistik menghasilkan nilai mentah antara 0 dan 1. Kemudian:

  • Jika nilai mentah ini lebih besar dari batas klasifikasi, class positif akan diprediksi.
  • Jika nilai mentah ini kurang dari batas klasifikasi, class negatif akan diprediksi.

Misalnya, nilai minimum klasifikasi adalah 0,8. Jika nilai mentahnya adalah 0,9, model akan memprediksi class positif. Jika nilai mentahnya adalah 0,7, model akan memprediksi class negatif.

Pilihan batas klasifikasi sangat memengaruhi jumlah positif palsu (PP) dan negatif palsu.

set data kelas tidak seimbang

#fundamentals

Set data untuk masalah klasifikasi ketika jumlah total label di setiap class sangat berbeda. Misalnya, pertimbangkan set data klasifikasi biner yang dua labelnya dibagi sebagai berikut:

  • 1.000.000 label negatif
  • 10 label positif

Rasio label negatif terhadap positif adalah 100.000 banding 1, jadi ini adalah set data yang tidak seimbang di class.

Sebaliknya, set data berikut tidak kelas tidak seimbang karena rasio label negatif terhadap label positif relatif mendekati 1:

  • 517 label negatif
  • 483 label positif

Set data multi-class juga bisa tidak seimbang. Misalnya, set data klasifikasi multi-class berikut juga tidak seimbang karena class-nya memiliki lebih banyak contoh daripada dua label lainnya:

  • 1.000.000 label dengan kelas "hijau"
  • 200 label dengan class "ungu"
  • Label 350 dengan class "oranye"

Lihat juga entropi, kelas mayoritas, dan kelas minoritas.

kliping

#fundamentals

Teknik untuk menangani pencilan dengan melakukan salah satu atau kedua hal berikut:

  • Mengurangi nilai feature yang lebih besar dari nilai minimum maksimum hingga ke nilai minimum tersebut.
  • Meningkatkan nilai fitur yang kurang dari nilai minimum hingga jumlah minimum tersebut.

Misalnya, <0,5% dari nilai fitur tertentu berada di luar rentang 40–60. Dalam hal ini, Anda dapat melakukan hal berikut:

  • Potong semua nilai di atas 60 (nilai minimum maksimum) menjadi tepat 60.
  • Potong semua nilai di bawah 40 (nilai minimum) menjadi tepat 40.

Pencilan dapat merusak model, terkadang menyebabkan bobot meluap selama pelatihan. Beberapa pencilan juga dapat merusak metrik secara drastis seperti akurasi. Pengeklipan adalah teknik umum untuk membatasi kerusakan.

Klipasi gradien memaksakan nilai gradien dalam rentang yang ditentukan selama pelatihan.

matriks konfusi

#fundamentals

Tabel NxN yang merangkum jumlah prediksi benar dan salah yang dibuat oleh model klasifikasi. Misalnya, pertimbangkan matriks kebingungan berikut untuk model klasifikasi biner:

Tumor (diprediksi) Non-Tumor (diprediksi)
Tumor (kebenaran dasar) 18 (TP) 1 (NP)
Non-Tumor (kebenaran dasar) 6 (FP) 452 (TN)

Matriks konfusi sebelumnya menunjukkan hal berikut:

  • Dari 19 prediksi yang mana kebenaran dasar adalah Tumor, model tersebut mengklasifikasikan 18 dengan benar dan salah mengklasifikasikan 1.
  • Dari 458 prediksi yang kebenaran dasarnya adalah Non-Tumor, model tersebut telah mengklasifikasikan 452 dengan benar dan salah mengklasifikasikan 6.

Matriks kebingungan untuk masalah klasifikasi multi-class dapat membantu Anda mengidentifikasi pola kesalahan. Misalnya, pertimbangkan matriks konfusi berikut untuk model klasifikasi multi-class 3 class yang mengategorikan tiga jenis iris yang berbeda (Virginica, Versicolor, dan Setosa). Jika kebenaran dasar adalah Virginica, matriks konfusi menunjukkan bahwa model jauh lebih mungkin untuk salah memprediksi Versicolor daripada Setosa:

  Setosa (diprediksi) Versiwarna (diprediksi) Virginica (diprediksi)
Setosa (kebenaran dasar) 88 12 0
Versicolor (kebenaran dasar) 6 141 7
Virginica (kebenaran dasar) 2 27 109

Contoh lain, matriks konfusi dapat mengungkapkan bahwa model yang dilatih untuk mengenali digit tulisan tangan cenderung salah memprediksi angka 9, bukan 4, atau salah memprediksi angka 1, bukan 7.

Matriks konfusi berisi informasi yang memadai untuk menghitung berbagai metrik performa, termasuk presisi dan penarikan.

fitur berkelanjutan

#fundamentals

Fitur floating point dengan rentang kemungkinan nilai yang tidak terbatas, seperti suhu atau bobot.

Berbeda dengan fitur terpisah.

konvergensi

#fundamentals

Status tercapai saat nilai loss berubah sangat sedikit atau tidak sama sekali dengan setiap iterasi. Misalnya, kurva kerugian berikut menunjukkan konvergensi pada sekitar 700 iterasi:

Plot kartesius. Sumbu X adalah kerugian. Sumbu Y adalah jumlah iterasi pelatihan. Kerugian sangat tinggi selama beberapa iterasi pertama, tetapi menurun tajam. Setelah sekitar 100 iterasi, kerugian masih menurun, tetapi jauh lebih bertahap. Setelah sekitar 700 iterasi,
          kerugian akan tetap datar.

Model menyambung saat pelatihan tambahan tidak akan meningkatkan model.

Dalam deep learning, nilai kerugian terkadang tetap konstan atau hampir sama untuk banyak iterasi sebelum akhirnya menurun. Selama periode kerugian yang terus-menerus terjadi nilai yang hilang, Anda mungkin akan merasakan konvergensi yang salah untuk sementara.

Lihat juga penghentian awal.

D

Bingkai Data

#fundamentals

Jenis data panda yang populer untuk mewakili set data di memori.

DataFrame serupa dengan tabel atau spreadsheet. Setiap kolom DataFrame memiliki nama (header), dan setiap baris diidentifikasi oleh nomor unik.

Setiap kolom dalam DataFrame terstruktur seperti array 2D, tetapi setiap kolom dapat diberi jenis datanya sendiri.

Lihat juga halaman referensi panda.DataFrame resmi.

set data atau set data

#fundamentals

Kumpulan data mentah, biasanya (tetapi tidak secara eksklusif) yang diatur dalam salah satu format berikut:

  • spreadsheet
  • file dalam format CSV (nilai yang dipisahkan koma)

model dalam

#fundamentals

Jaringan neural yang berisi lebih dari satu lapisan tersembunyi.

Model deep juga disebut jaringan neural dalam.

Berbeda dengan model lebar.

fitur padat

#fundamentals

Fitur yang sebagian besar atau semua nilainya bukan nol, biasanya berupa Tensor nilai floating point. Misalnya, Tensor 10 elemen berikut padat karena 9 nilainya bukan nol:

8 3 7 5 2 4 0 4 9 6

Berbeda dengan fitur renggang.

kedalaman

#fundamentals

Jumlah hal berikut dalam jaringan neural:

Misalnya, jaringan neural dengan lima lapisan tersembunyi dan satu lapisan keluaran memiliki kedalaman 6.

Perhatikan bahwa lapisan input tidak memengaruhi kedalaman.

fitur diskret

#fundamentals

Fitur dengan serangkaian kemungkinan nilai yang terbatas. Misalnya, fitur yang nilainya mungkin hanya hewan, sayuran, atau mineral adalah fitur diskret (atau kategoris).

Berbeda dengan fitur berkelanjutan.

dinamis

#fundamentals

Sesuatu yang sering dilakukan atau terus-menerus. Istilah dinamis dan online merupakan sinonim dalam machine learning. Berikut adalah penggunaan umum dinamis dan online dalam machine learning:

  • Model dinamis (atau model online) adalah model yang dilatih ulang secara rutin atau terus-menerus.
  • Pelatihan dinamis (atau pelatihan online) adalah proses pelatihan yang sering atau terus-menerus.
  • Inferensi dinamis (atau inferensi online) adalah proses untuk menghasilkan prediksi sesuai permintaan.

model dinamis

#fundamentals

Model yang sering (mungkin bahkan terus-menerus) dilatih ulang. Model dinamis adalah "pembelajar sepanjang waktu" yang terus beradaptasi dengan data yang terus berkembang. Model dinamis juga dikenal sebagai model online.

Berbeda dengan model statis.

E

penghentian awal

#fundamentals

Metode untuk regularisasi yang melibatkan penghentian pelatihan sebelum kehilangan pelatihan selesai berkurang. Di awal penghentian, Anda sengaja menghentikan pelatihan model saat kerugian pada set data validasi mulai meningkat; yaitu, ketika performa generalisasi memburuk.

lapisan sematan

#language
#fundamentals

Lapisan tersembunyi khusus yang dilatih pada fitur kategoris berdimensi tinggi untuk mempelajari vektor penyematan dimensi yang lebih rendah secara bertahap. Lapisan penyematan memungkinkan jaringan neural untuk dilatih jauh lebih efisien daripada pelatihan hanya pada fitur kategoris dimensi tinggi.

Misalnya, saat ini Earth mendukung sekitar 73.000 spesies pohon. Misalnya spesies pohon adalah fitur dalam model Anda, sehingga lapisan input model Anda menyertakan vektor satu kali dengan panjang 73.000 elemen. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array berisi 73.000 elemen. 6.232 elemen pertama memiliki nilai
     0. Elemen berikutnya memiliki nilai 1. 66.767 elemen terakhir memiliki
     nilai nol.

Array 73.000 elemen sangat panjang. Jika Anda tidak menambahkan lapisan sematan ke model, pelatihan akan sangat memakan waktu karena mengalikannya sebesar 72.999 nol. Mungkin Anda memilih lapisan penyematan yang terdiri dari 12 dimensi. Oleh karena itu, lapisan penyematan secara bertahap akan mempelajari vektor penyematan baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar dari lapisan penyematan.

epoch

#fundamentals

Kartu pelatihan yang lengkap di seluruh set pelatihan sehingga setiap contoh telah diproses satu kali.

Epoch mewakili N/ukuran batch pelatihan iterasi, dengan N sebagai jumlah total contoh.

Misalnya, anggaplah hal berikut:

  • Set data terdiri dari 1.000 contoh.
  • Ukuran tumpukannya adalah 50 contoh.

Oleh karena itu, satu epoch memerlukan 20 iterasi:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

contoh

#fundamentals

Nilai satu baris fitur dan mungkin label. Contoh dalam pembelajaran yang diawasi dibagi menjadi 2 kategori umum:

  • Contoh berlabel terdiri dari satu atau beberapa fitur dan label. Contoh berlabel digunakan selama pelatihan.
  • Contoh tak berlabel terdiri dari satu atau beberapa fitur, tetapi tanpa label. Contoh tak berlabel digunakan selama inferensi.

Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca pada skor ujian siswa. Berikut adalah tiga contoh berlabel:

Fitur Label
Suhu Kelembapan Tekanan Skor tes
15 47 998 Baik
19 34 1020 Luar biasa
18 92 1012 Buruk

Berikut adalah tiga contoh tanpa label:

Suhu Kelembapan Tekanan  
12 62 1014  
21 47 1017  
19 41 1021  

Baris set data biasanya merupakan sumber mentah untuk suatu contoh. Artinya, contoh biasanya terdiri dari subset kolom dalam set data. Selain itu, fitur dalam contoh juga dapat menyertakan fitur sintetis, seperti persilangan fitur.

F

negatif palsu (NP)

#fundamentals

Contoh yang mana model salah memprediksi class negatif. Misalnya, model memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email tersebut sebenarnya adalah spam.

positif palsu (PP)

#fundamentals

Contoh yang mana model salah memprediksi kelas positif. Misalnya, model memprediksi bahwa pesan email tertentu adalah spam (kelas positif), tetapi pesan email tersebut sebenarnya bukan spam.

rasio positif palsu (PP)

#fundamentals

Proporsi contoh negatif sebenarnya yang modelnya salah memprediksi class positif. Formula berikut menghitung rasio positif palsu:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Rasio positif palsu adalah sumbu x dalam kurva KOP.

fitur

#fundamentals

Variabel input ke model machine learning. Contoh terdiri dari satu atau beberapa fitur. Misalnya, Anda melatih model untuk menentukan pengaruh kondisi cuaca terhadap skor ujian siswa. Tabel berikut menampilkan tiga contoh, yang masing-masing berisi tiga fitur dan satu label:

Fitur Label
Suhu Kelembapan Tekanan Skor tes
15 47 998 92
19 34 1020 84
18 92 1012 87

Berbeda dengan label.

persilangan fitur

#fundamentals

Fitur sintetis yang dibentuk dengan fitur "lintas" kategoris atau berkelompok.

Misalnya, pertimbangkan model "perkiraan mood" yang mewakili temperatur dalam salah satu dari empat bucket berikut:

  • freezing
  • chilly
  • temperate
  • warm

Dan mewakili kecepatan angin dalam salah satu dari tiga bucket berikut:

  • still
  • light
  • windy

Tanpa persilangan fitur, model linear dilatih secara terpisah di setiap tujuh bucket yang telah ada. Jadi, model berlatih di, misalnya, freezing secara terpisah dari pelatihan di, misalnya, windy.

Atau, Anda dapat membuat fitur silang suhu dan kecepatan angin. Fitur sintetis ini akan memiliki 12 kemungkinan nilai berikut:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Berkat persilangan fitur, model dapat mempelajari perbedaan mood antara hari freezing-windy dan hari freezing-still.

Jika Anda membuat fitur sintetis dari dua fitur yang masing-masing memiliki banyak bucket yang berbeda, persilangan fitur yang dihasilkan akan memiliki jumlah kombinasi yang memungkinkan. Misalnya, jika satu fitur memiliki 1.000 bucket dan fitur lainnya memiliki 2.000 bucket, persilangan fitur yang dihasilkan memiliki 2.000.000 bucket.

Secara formal, persilangan adalah produk Kartesius.

Persilangan fitur sebagian besar digunakan dengan model linear dan jarang digunakan dengan jaringan neural.

rekayasa fitur

#fundamentals
#TensorFlow

Proses yang melibatkan langkah-langkah berikut:

  1. Menentukan fitur mana yang mungkin berguna dalam melatih model.
  2. Mengonversi data mentah dari set data ke versi fitur yang efisien.

Misalnya, Anda mungkin menentukan bahwa temperature mungkin merupakan fitur yang berguna. Kemudian, Anda dapat bereksperimen dengan bucketing untuk mengoptimalkan hal yang dapat dipelajari model dari berbagai rentang temperature.

Rekayasa fitur terkadang disebut ekstraksi fitur.

set fitur

#fundamentals

Grup fitur yang digunakan untuk melatih model machine learning Anda. Misalnya, kode pos, ukuran properti, dan kondisi properti mungkin terdiri dari kumpulan fitur sederhana untuk model yang memprediksi harga rumah.

vektor fitur

#fundamentals

Array nilai feature yang terdiri dari contoh. Vektor fitur adalah input selama pelatihan dan selama inferensi. Misalnya, vektor fitur untuk model dengan dua fitur terpisah mungkin:

[0.92, 0.56]

Empat lapisan: satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output.
          Lapisan input berisi dua node, satu berisi nilai
          0.92 dan yang lain berisi nilai 0,56.

Setiap contoh menyediakan nilai yang berbeda untuk vektor fitur, sehingga vektor fitur untuk contoh berikutnya dapat terlihat seperti:

[0.73, 0.49]

Rekayasa fitur menentukan cara mewakili fitur dalam vektor fitur. Misalnya, fitur kategoris biner dengan lima nilai yang memungkinkan dapat direpresentasikan dengan encoding satu kali. Dalam hal ini, bagian dari vektor fitur untuk contoh tertentu akan terdiri dari empat angka nol dan satu 1,0 di posisi ketiga, sebagai berikut:

[0.0, 0.0, 1.0, 0.0, 0.0]

Sebagai contoh lainnya, misalkan model Anda terdiri dari tiga fitur:

  • fitur kategoris biner dengan lima kemungkinan nilai yang diwakili oleh encoding satu kali; misalnya: [0.0, 1.0, 0.0, 0.0, 0.0]
  • fitur kategoris biner lainnya dengan tiga kemungkinan nilai yang direpresentasikan dengan encoding one-hot; misalnya: [0.0, 0.0, 1.0]
  • fitur floating point; misalnya: 8.3.

Dalam hal ini, vektor fitur untuk setiap contoh akan direpresentasikan oleh sembilan nilai. Dengan mempertimbangkan nilai contoh dalam daftar sebelumnya, vektor fitur adalah:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

feedback loop

#fundamentals

Dalam machine learning, situasi ketika prediksi model memengaruhi data pelatihan untuk model yang sama atau model lainnya. Misalnya, model yang merekomendasikan film akan memengaruhi film yang dilihat orang, yang kemudian akan memengaruhi model rekomendasi film berikutnya.

G

generalisasi

#fundamentals

Kemampuan model untuk membuat prediksi yang benar pada data baru yang sebelumnya tidak terlihat. Model yang dapat digeneralisasi adalah kebalikan dari model yang berlebihan.

kurva generalisasi

#fundamentals

plot kerugian pelatihan dan kerugian validasi sebagai fungsi dari jumlah iterasi.

Kurva generalisasi dapat membantu Anda mendeteksi kemungkinan overover. Misalnya, kurva umum berikut menunjukkan kelebihan pasokan karena kerugian validasi pada akhirnya menjadi jauh lebih tinggi daripada kerugian pelatihan.

Grafik Kartesius di mana sumbu y diberi label &#39;hilang&#39; dan sumbu x berlabel &#39;iterasi&#39;. Dua plot muncul. Satu plot menunjukkan
          kerugian pelatihan dan plot lainnya menunjukkan kerugian validasi.
          Kedua plot tersebut dimulai dengan cara yang sama, tetapi kerugian pelatihan pada akhirnya menurun jauh lebih rendah daripada kerugian validasi.

penurunan gradien

#fundamentals

Teknik matematika untuk meminimalkan kerugian. Penurunan gradien menyesuaikan bobot dan bias secara berulang, yang secara bertahap menemukan kombinasi terbaik untuk meminimalkan kerugian.

Gradien gradien lebih tua—jauh, jauh lebih tua—daripada machine learning.

kebenaran dasar

#fundamentals

Realitas.

Hal yang sebenarnya terjadi.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah siswa di tahun pertama universitas mereka akan lulus dalam waktu enam tahun atau tidak. Kebenaran untuk model ini adalah apakah siswa tersebut benar-benar lulus dalam waktu enam tahun atau tidak.

H

lapisan tersembunyi

#fundamentals

Lapisan di jaringan neural antara lapisan input (fitur) dan lapisan output (prediksi). Setiap lapisan tersembunyi terdiri dari satu atau beberapa neuron. Misalnya, jaringan neural berikut berisi dua lapisan tersembunyi, yang pertama dengan tiga neuron dan yang kedua dengan dua neuron:

Empat lapis. Lapisan pertama adalah lapisan input yang berisi dua fitur. Lapisan kedua adalah lapisan tersembunyi yang berisi tiga neuron. Lapisan ketiga adalah lapisan tersembunyi yang berisi dua neuron. Lapisan keempat adalah lapisan output. Setiap fitur berisi tiga tepi, yang masing-masing mengarah ke neuron yang berbeda di lapisan kedua. Setiap neuron di lapisan kedua berisi dua tepi, yang masing-masing mengarah ke neuron yang berbeda di lapisan ketiga. Setiap neuron di lapisan ketiga berisi
          satu tepi, yang masing-masing mengarah ke lapisan output.

Jaringan neural dalam berisi lebih dari satu lapisan tersembunyi. Misalnya, ilustrasi sebelumnya adalah jaringan neural dalam karena model berisi dua lapisan tersembunyi.

hyperparameter

#fundamentals

Variabel yang Anda atau layanan penyesuaian hyperparameter disesuaikan selama menjalankan pelatihan model secara berurutan. Misalnya, kecepatan pembelajaran adalah hyperparameter. Anda dapat menetapkan kecepatan pembelajaran ke 0,01 sebelum satu sesi pelatihan. Jika nilai 0,01 terlalu tinggi, Anda mungkin dapat menetapkan kecepatan pembelajaran ke 0,003 untuk sesi pelatihan berikutnya.

Sebaliknya, parameter adalah berbagai bobot dan bias yang dipelajari model selama pelatihan.

I

terdistribusi secara independen dan identik (i.i)

#fundamentals

Data yang diambil dari distribusi yang tidak berubah, dan setiap nilai yang diambil tidak bergantung pada nilai yang telah digambar sebelumnya. i.i.d. adalah gas ideal dari machine learning—sebuah konstruksi matematika yang berguna, tetapi hampir tidak pernah ditemukan persisnya di dunia nyata. Misalnya, distribusi pengunjung ke suatu halaman web dapat berlangsung selama jangka waktu yang singkat; yaitu, distribusi tidak berubah selama jendela singkat tersebut dan kunjungan satu orang biasanya terlepas dari kunjungan orang lain. Namun, jika Anda memperluas rentang waktu tersebut, perbedaan musiman pada pengunjung halaman web mungkin akan muncul.

Lihat juga nonstationaritas.

inferensi

#fundamentals

Dalam machine learning, proses pembuatan prediksi dengan menerapkan model yang terlatih ke contoh tak berlabel.

Inferensi memiliki arti yang sedikit berbeda dalam statistik. Lihat artikel Wikipedia tentang inferensi statistik untuk detailnya.

lapisan input

#fundamentals

Lapisan jaringan neural yang menyimpan vektor fitur. Artinya, lapisan input menyediakan contoh untuk pelatihan atau inferensi. Misalnya, lapisan input dalam jaringan neural berikut terdiri dari dua fitur:

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan lapisan output.

interpretabilitas

#fundamentals

Kemampuan untuk menjelaskan atau menyajikan alasan model ML dalam istilah yang dapat dipahami oleh manusia.

Sebagian besar model regresi linear, misalnya, sangat mudah ditafsirkan. (Anda hanya perlu melihat bobot terlatih untuk setiap fitur.) Hutan keputusan juga sangat mudah ditafsirkan. Namun, beberapa model memerlukan visualisasi yang canggih agar dapat ditafsirkan.

iterasi

#fundamentals

Pembaruan tunggal parameter modelbobot dan bias model—selamapelatihan. Ukuran batch menentukan jumlah contoh yang diproses model dalam satu iterasi. Misalnya, jika ukuran tumpukannya adalah 20, model akan memproses 20 contoh sebelum menyesuaikan parameternya.

Saat melatih jaringan neural, satu iterasi melibatkan dua penerusan berikut:

  1. Meneruskan penerusan untuk mengevaluasi kerugian pada satu batch.
  2. Penerusan mundur (backpropagation) untuk menyesuaikan parameter model berdasarkan kerugian dan kecepatan pembelajaran.

L

Regularisasi L0

#fundamentals

Jenis regularisasi yang menghukum jumlah total bobot bukan nol dalam model. Misalnya, model yang memiliki 11 bobot bukan nol akan diberi penalti lebih besar daripada model serupa yang memiliki 10 bobot bukan nol.

Regularisasi L0 terkadang disebut normalisasi L0-norma.

Turun L1

#fundamentals

Fungsi kerugian yang menghitung nilai absolut dari perbedaan antara nilai label sebenarnya dan nilai yang diprediksi oleh model. Misalnya, berikut adalah penghitungan kerugian L1 untuk batch dari lima contoh:

Nilai sebenarnya dari contoh ini Nilai prediksi model Nilai mutlak delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = kerugian L1

Kerugian L1 kurang sensitif terhadap kekecualian daripada kehilangan L2.

Error Absolut Rata-Rata adalah kerugian L1 rata-rata per contoh.

Regularisasi L1

#fundamentals

Jenis regularisasi yang mengganjar bobot secara proporsional dengan jumlah nilai mutlak bobot. Regularisasi L1 membantu mendorong bobot fitur yang tidak relevan atau hampir tidak relevan ke tepat 0. Fitur dengan bobot 0 akan dihapus secara efektif dari model.

Berbeda dengan regularisasi L2.

Turun L2

#fundamentals

Fungsi kerugian yang menghitung kuadrat perbedaan antara nilai label sebenarnya dan nilai yang diprediksi oleh model. Misalnya, berikut adalah penghitungan kerugian L2 untuk batch dari lima contoh:

Nilai sebenarnya dari contoh ini Nilai prediksi model Persegi delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 turun

Karena adanya kuadrat, kerugian L2 akan memperkuat pengaruh pencilan. Artinya, kehilangan L2 akan bereaksi lebih kuat terhadap prediksi buruk dibandingkan Kerugian1L. Misalnya, kerugian L1 untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu pencilan menyumbang 9 dari 16.

Model regresi biasanya menggunakan kerugian L2 sebagai fungsi kerugian.

Error Rata-rata Kuadrat adalah kerugian L2 rata-rata per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L2.

Regularisasi L2

#fundamentals

Jenis regularisasi yang mengganjar bobot secara proporsional dengan jumlah kuadrat bobot. Regularisasi L2 membantu mendorong bobot pencilan (yang bernilai positif rendah atau rendah) mendekati 0, tetapi tidak cukup jauh ke 0. Fitur dengan nilai yang sangat dekat dengan 0 akan tetap berada dalam model, tetapi tidak terlalu memengaruhi prediksi model.

Regularisasi L2 selalu meningkatkan generalisasi dalam model linear.

Berbeda dengan regularisasi L1.

label

#fundamentals

Di machine learning yang diawasi, bagian "jawaban" atau "hasil" dari contoh.

Setiap contoh berlabel terdiri dari satu atau beberapa fitur dan label. Misalnya, dalam set data deteksi spam, labelnya mungkin "spam" atau "bukan spam". Dalam set data curah hujan, label mungkin berupa jumlah hujan yang turun selama periode tertentu.

contoh berlabel

#fundamentals

Contoh yang berisi satu atau beberapa fitur dan label. Misalnya, tabel berikut menunjukkan tiga contoh berlabel dari model penilaian rumah, masing-masing dengan tiga fitur dan satu label:

Jumlah kamar Jumlah kamar mandi Usia rumah Harga rumah (label)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Dalam Supervised machine learning, model dilatih pada contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Contoh berlabel kontras dengan contoh tak berlabel.

lambda

#fundamentals

Sinonim dari derajat regularisasi.

Lambda adalah istilah yang berlebihan. Di sini kita berfokus pada definisi istilah dalam regularisasi.

lapisan

#fundamentals

Kumpulan neuron dalam jaringan neural. Tiga jenis lapisan yang umum adalah sebagai berikut:

Misalnya, ilustrasi berikut menunjukkan jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua terdiri dari dua neuron. Lapisan output terdiri dari satu node.

Dalam TensorFlow, lapisan juga merupakan fungsi Python yang menggunakan Tensor dan opsi konfigurasi sebagai input serta menghasilkan tensor lain sebagai output.

kecepatan pembelajaran

#fundamentals

Bilangan floating point yang memberi tahu algoritme penurunan gradien seberapa kuat untuk menyesuaikan bobot dan bias pada setiap iterasi. Misalnya, kecepatan pemelajaran 0,3 akan menyesuaikan bobot dan bias tiga kali lebih kuat daripada kecepatan pembelajaran 0,1.

Kecepatan pembelajaran adalah hyperparameter utama. Jika Anda menetapkan kecepatan pembelajaran terlalu rendah, pelatihan akan memerlukan waktu terlalu lama. Jika Anda menetapkan kecepatan pembelajaran terlalu tinggi, penurunan gradien sering kali mengalami kesulitan dalam mencapai konvergensi.

model linear

#fundamentals

Model yang menetapkan satu bobot per fitur untuk membuat prediksi. (Model linear juga menyertakan bias.) Sebaliknya, hubungan fitur dengan prediksi dalam model dalam umumnya bersifat nonlinear.

Model linear biasanya lebih mudah dilatih dan lebih dapat ditafsirkan daripada model mendalam. Namun, model dalam dapat mempelajari hubungan yang kompleks antara fitur.

Regresi linear dan regresi logistik adalah dua jenis model linear.

linier

#fundamentals

Hubungan antara dua variabel atau lebih yang dapat direpresentasikan hanya melalui penambahan dan perkalian.

plot hubungan linear adalah garis.

Berbeda dengan nonlinear.

regresi linear

#fundamentals

Jenis model machine learning yang mendukung hal-hal berikut:

  • Model ini merupakan model linear.
  • Prediksi adalah nilai floating point. (Ini adalah bagian regresi dari regresi linear.)

Membandingkan regresi linear dengan regresi logistik. Selain itu, kontraskan regresi dengan klasifikasi.

regresi logistik

#fundamentals

Jenis model regresi yang memprediksi probabilitas. Model regresi logistik memiliki karakteristik berikut:

  • Label bersifat kategoris. Istilah regresi logistik biasanya mengacu pada regresi logistik biner, yaitu pada model yang menghitung probabilitas untuk label dengan dua kemungkinan nilai. Varian yang kurang umum, regresi logistik multinomial, menghitung probabilitas untuk label dengan lebih dari dua kemungkinan nilai.
  • Fungsi kerugian selama pelatihan adalah Log Loss. (Beberapa unit Log Loss dapat ditempatkan secara paralel untuk label dengan lebih dari dua kemungkinan nilai.)
  • Model ini memiliki arsitektur linear, bukan jaringan neural dalam. Namun, sisa definisi ini juga berlaku untuk model dalam yang memprediksi probabilitas untuk label kategoris.

Misalnya, pertimbangkan model regresi logistik yang menghitung kemungkinan email input berupa spam atau bukan spam. Selama inferensi, misalkan model memprediksi 0,72. Oleh karena itu, model memperkirakan:

  • 72% kemungkinan email adalah spam.
  • 28% kemungkinan email bukan spam.

Model regresi logistik menggunakan arsitektur dua langkah berikut:

  1. Model menghasilkan prediksi mentah (y') dengan menerapkan fungsi linear fitur input.
  2. Model ini menggunakan prediksi mentah tersebut sebagai input untuk fungsi sigmoid, yang mengonversi prediksi mentah menjadi nilai antara 0 dan 1, secara eksklusif.

Seperti model regresi lainnya, model regresi logistik memprediksi angka. Namun, angka ini biasanya menjadi bagian dari model klasifikasi biner sebagai berikut:

  • Jika angka yang diprediksi lebih besar daripada nilai minimum klasifikasi, model klasifikasi biner memprediksi class positif.
  • Jika angka yang diprediksi kurang dari batas klasifikasi, model klasifikasi biner akan memprediksi class negatif.

Kerugian Log

#fundamentals

Fungsi kerugian yang digunakan dalam regresi logistik biner.

peluang log

#fundamentals

Logaritma dari peluang beberapa peristiwa.

kalah

#fundamentals

Selama pelatihan pada model yang diawasi, ukuran seberapa jauh prediksi model dari labelnya.

Fungsi kerugian menghitung kerugian.

kurva kerugian

#fundamentals

Plot hilang sebagai fungsi dari jumlah iterasi pelatihan. Plot berikut menunjukkan kurva kerugian yang umum:

Grafik kerugian Kartesius versus iterasi pelatihan, yang menunjukkan
          penurunan kerugian yang cepat untuk iterasi awal, diikuti dengan penurunan
          bertahap, lalu kemiringan yang datar selama iterasi akhir.

Kurva kerugian dapat membantu Anda menentukan kapan model konvergen atau overover.

Kurva kerugian dapat mencakup semua jenis kerugian berikut:

Lihat juga kurva generalisasi.

fungsi kerugian

#fundamentals

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada batch contoh. Fungsi kerugian akan menampilkan kerugian yang lebih rendah pada model yang membuat prediksi bagus daripada untuk model yang membuat prediksi buruk.

Tujuan pelatihan biasanya untuk meminimalkan kerugian yang ditampilkan oleh fungsi kerugian.

Ada berbagai jenis fungsi kerugian. Pilih fungsi kerugian yang sesuai untuk jenis model yang Anda buat. Contoh:

M

machine learning

#fundamentals

Program atau sistem yang melatih model dari data input. Model yang dilatih dapat membuat prediksi yang berguna dari data baru (yang belum pernah dilihat) yang diambil dari distribusi yang sama seperti yang digunakan untuk melatih model.

Machine learning juga mengacu pada bidang studi yang berkaitan dengan program atau sistem ini.

kelas mayoritas

#fundamentals

Label yang lebih umum dalam set data kelas tidak seimbang. Misalnya, dengan set data yang berisi 99% label negatif dan 1% label positif, label negatif adalah kelas mayoritas.

Berbeda dengan kelas minoritas.

tumpukan mini

#fundamentals

Subset kecil yang dipilih secara acak dari batch yang diproses dalam satu iterasi. Ukuran tumpukan tumpukan mini biasanya antara 10 dan 1.000 contoh.

Misalnya, keseluruhan set pelatihan (batch penuh) terdiri dari 1.000 contoh. Selanjutnya, Anda menyetel ukuran tumpukan setiap tumpukan mini ke 20. Oleh karena itu, setiap iterasi menentukan kerugian pada 20 contoh acak dari 1.000 contoh,lalu menyesuaikan bobot dan bias.

Penghitungan kerugian pada batch mini jauh lebih efisien daripada kerugian pada semua contoh di batch lengkap.

kelas minoritas

#fundamentals

Label yang kurang umum dalam set data kelas tidak seimbang. Misalnya, dengan set data yang berisi 99% label negatif dan 1% label positif, label positif adalah kelas minoritas.

Berbeda dengan kelas mayoritas.

model

#fundamentals

Secara umum, konstruksi matematis apa pun yang memproses data input dan menampilkan output. Dengan frasa berbeda, model adalah kumpulan parameter dan struktur yang diperlukan sistem untuk membuat prediksi. Dalam machine learning yang diawasi, sebuah model mengambil contoh sebagai input dan menyimpulkan prediksi sebagai output. Dalam machine learning yang diawasi, modelnya agak berbeda. Contoh:

  • Model regresi linear terdiri dari kumpulan bobot dan bias.
  • Model jaringan neural terdiri atas:
    • Sekumpulan lapisan tersembunyi, masing-masing berisi satu atau beberapa neuron.
    • Bobot dan bias yang terkait dengan setiap neuron.
  • Model pohon keputusan terdiri dari:
    • Bentuk pohon; yaitu, pola yang menghubungkan kondisi dan daun.
    • Kondisi dan daun.

Anda dapat menyimpan, memulihkan, atau membuat salinan model.

UnSupervised machine learning juga menghasilkan model, biasanya fungsi yang dapat memetakan contoh input ke cluster yang paling sesuai.

klasifikasi multi-class

#fundamentals

Dalam pembelajaran yang diawasi, masalah klasifikasi yang menyebabkan set data berisi lebih dari dua class label. Misalnya, label dalam set data Iris harus berupa salah satu dari tiga class berikut:

  • Iris Setosa
  • Iris Virginica
  • Iris versiwarna

Model yang dilatih pada set data Iris yang memprediksi jenis Iris pada contoh baru melakukan klasifikasi multi-class.

Sebaliknya, masalah klasifikasi yang membedakan tepat dua class adalah model klasifikasi biner. Misalnya, model email yang memprediksi spam atau bukan spam adalah model klasifikasi biner.

Dalam masalah pengelompokan, klasifikasi multi-class mengacu pada lebih dari dua cluster.

N

kelas negatif

#fundamentals

Dalam klasifikasi biner, satu class disebut positif dan class lainnya disebut negatif. Class positif adalah hal atau peristiwa yang diuji oleh model, dan class negatif adalah kemungkinan lainnya. Contoh:

  • Kelas negatif dalam tes medis mungkin "bukan tumor".
  • Kelas negatif dalam pengklasifikasi email mungkin "bukan spam".

Berbeda dengan kelas positif.

jaringan neural

#fundamentals

Model yang berisi setidaknya satu lapisan tersembunyi. Jaringan neural dalam adalah jenis jaringan neural yang berisi lebih dari satu lapisan tersembunyi. Misalnya, diagram berikut menunjukkan jaringan neural dalam yang berisi dua lapisan tersembunyi.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
          lapisan output.

Setiap neuron dalam jaringan neural terhubung ke semua node di lapisan berikutnya. Misalnya, dalam diagram sebelumnya, perhatikan bahwa ketiga neuron di lapisan tersembunyi pertama secara terpisah terhubung ke kedua neuron di lapisan tersembunyi kedua.

Jaringan neural yang diterapkan di komputer terkadang disebut jaringan neural buatan untuk membedakannya dari jaringan neural yang ditemukan di otak dan sistem saraf lainnya.

Beberapa jaringan neural dapat meniru hubungan nonlinear yang sangat kompleks antara fitur dan label yang berbeda.

Lihat juga jaringan neural konvolusional dan jaringan neural berulang.

neuron

#fundamentals

Dalam machine learning, unit yang berbeda dalam lapisan tersembunyi dari jaringan neural. Setiap neuron melakukan tindakan dua langkah berikut:

  1. Menghitung jumlah tertimbang nilai input yang dikalikan dengan bobot yang sesuai.
  2. Meneruskan jumlah berbobot sebagai input ke fungsi aktivasi.

Neuron di lapisan tersembunyi pertama menerima input dari nilai fitur dalam lapisan input. Neuron di lapisan tersembunyi di luar lapisan pertama menerima input dari neuron di lapisan tersembunyi sebelumnya. Misalnya, neuron di lapisan tersembunyi kedua menerima input dari neuron di lapisan tersembunyi pertama.

Ilustrasi berikut menyoroti dua neuron dan inputnya.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
          lapisan output. Dua neuron ditandai: satu di lapisan tersembunyi pertama
          dan satu di lapisan tersembunyi kedua. Neuron
          yang ditandai pada lapisan tersembunyi pertama menerima input dari kedua fitur
          dalam lapisan input. Neuron yang ditandai dalam lapisan tersembunyi kedua
          menerima input dari masing-masing dari tiga neuron di lapisan tersembunyi
          pertama.

Neuron dalam jaringan neural meniru perilaku neuron di otak dan bagian lain dari sistem saraf.

node (jaringan neural)

#fundamentals

neuron dalam lapisan tersembunyi.

nonlinear

#fundamentals

Hubungan antara dua variabel atau lebih yang tidak dapat direpresentasikan hanya melalui penambahan dan perkalian. Hubungan linear dapat direpresentasikan sebagai garis; hubungan nonlinear tidak dapat direpresentasikan sebagai garis. Misalnya, pertimbangkan dua model yang masing-masing mengaitkan satu fitur dengan satu label. Model di sebelah kiri linear dan model di sebelah kanan tidak linear:

Dua plot. Salah satu plot adalah garis, jadi ini adalah hubungan linear.
          plot lainnya adalah kurva, jadi ini adalah hubungan non-linear.

non-stasioneritas

#fundamentals

Fitur yang nilainya berubah di satu atau beberapa dimensi, biasanya waktu. Sebagai contoh, pertimbangkan contoh non-stasioneritas berikut:

  • Jumlah pakaian renang yang dijual di toko tertentu bervariasi sesuai musim.
  • Jumlah buah tertentu yang dipanen di wilayah tertentu sejumlah nol selama setahun, tetapi besar dalam jangka waktu yang singkat.
  • Karena perubahan iklim, suhu rata-rata tahunan berubah.

Berbeda dengan stasioneritas.

normalisasi

#fundamentals

Secara garis besar, proses konversi rentang nilai variabel yang sebenarnya menjadi rentang nilai standar, seperti:

  • -1 hingga +1
  • 0:1
  • distribusi normal

Misalnya, rentang nilai sebenarnya dari fitur tertentu adalah 800 hingga 2.400. Sebagai bagian dari rekayasa fitur, Anda dapat menormalisasi nilai yang sebenarnya ke rentang standar, seperti -1 hingga +1.

Normalisasi adalah tugas umum dalam rekayasa fitur. Model biasanya dilatih lebih cepat (dan menghasilkan prediksi yang lebih baik) saat setiap fitur numerik dalam vektor fitur memiliki rentang yang kira-kira sama.

data numerik

#fundamentals

Fitur yang direpresentasikan sebagai bilangan bulat atau angka dengan nilai riil. Misalnya, model penilaian rumah mungkin akan mewakili ukuran rumah (dalam kaki persegi atau meter persegi) sebagai data numerik. Merepresentasikan fitur sebagai data numerik menunjukkan bahwa nilai fitur memiliki hubungan matematika dengan label. Artinya, jumlah meter persegi dalam rumah mungkin memiliki sejumlah hubungan matematika dengan nilai rumah.

Tidak semua data bilangan bulat harus direpresentasikan sebagai data numerik. Misalnya, kode pos di beberapa belahan dunia berupa bilangan bulat; namun, kode pos bilangan bulat tidak boleh direpresentasikan sebagai data numerik dalam model. Hal ini dikarenakan kode pos 20000 tidak dua kali (atau setengah) lebih kuat daripada kode pos dari 10.000. Selain itu, meskipun kode pos yang berbeda benar-benar berkorelasi dengan nilai real estate yang berbeda, kita tidak dapat berasumsi bahwa nilai real estate pada kode pos 20000 dua kali lebih bernilai daripada nilai real estate pada kode pos 10000. Sebagai gantinya, kode pos harus direpresentasikan sebagai data kategoris.

Fitur numerik terkadang disebut fitur berkelanjutan.

O

offline

#fundamentals

Sinonim untuk statis.

inferensi offline

#fundamentals

Proses model yang menghasilkan batch prediksi, lalu meng-cache (menyimpan) prediksi tersebut. Selanjutnya, aplikasi dapat mengakses prediksi yang diinginkan dari cache, bukan menjalankan kembali model.

Misalnya, pertimbangkan model yang menghasilkan perkiraan cuaca lokal (prediksi) sekali setiap empat jam. Setelah setiap model berjalan, sistem akan meng-cache semua perkiraan cuaca lokal. Aplikasi cuaca mengambil perkiraan dari cache.

Inferensi offline juga disebut inferensi statis.

Berbeda dengan inferensi online.

encoding satu kali

#fundamentals

Merepresentasikan data kategoris sebagai vektor di mana:

  • Satu elemen ditetapkan ke 1.
  • Semua elemen lainnya ditetapkan ke 0.

Encoding one-hot biasanya digunakan untuk merepresentasikan string atau ID yang memiliki serangkaian kemungkinan nilai yang terbatas. Misalnya, fitur kategoris tertentu yang bernama Scandinavia memiliki lima kemungkinan nilai:

  • "Denmark"
  • "Swedia"
  • "Norwegia"
  • "Finlandia"
  • "Islandia"

Encoding one-hot dapat mewakili kelima nilai berikut:

country Vektor
"Denmark" 1 0 0 0 0
"Swedia" 0 1 0 0 0
"Norwegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islandia" 0 0 0 0 1

Berkat encoding satu kali, model dapat mempelajari koneksi yang berbeda berdasarkan masing-masing dari lima negara.

Mewakili fitur sebagai data numerik merupakan alternatif untuk encoding satu kali. Sayangnya, mewakili negara-negara Skandinavia secara numerik bukanlah pilihan yang baik. Misalnya, pertimbangkan representasi numerik berikut:

  • "Denmark" adalah 0
  • "Swedia" adalah 1
  • "Norwegia" adalah 2
  • "Finlandia" adalah 3
  • "Islandia" adalah 4

Dengan encoding numerik, model akan menafsirkan angka mentah secara matematika dan akan mencoba melatih angka tersebut. Namun, Islandia sebenarnya tidak dua kali lebih banyak (atau setengah) dari Norwegia, jadi model ini akan mengambil beberapa kesimpulan yang aneh.

satu vs. semua

#fundamentals

Mengingat masalah klasifikasi dengan class N, solusi yang terdiri dari N pengklasifikasi biner terpisah—satu pengklasifikasi biner untuk setiap kemungkinan hasil. Misalnya, dengan model yang mengklasifikasikan contoh sebagai hewan, sayuran, atau mineral, solusi satu vs. semua akan menyediakan tiga pengklasifikasi biner terpisah berikut:

  • hewan vs. bukan hewan
  • sayuran vs. bukan sayuran
  • mineral vs. bukan mineral

online

#fundamentals

Sinonim untuk dinamis.

inferensi online

#fundamentals

Menghasilkan prediksi secara on demand. Misalnya, aplikasi meneruskan input ke model dan mengeluarkan permintaan prediksi. Sistem yang menggunakan inferensi online merespons permintaan dengan menjalankan model (dan menampilkan prediksi ke aplikasi).

Berbeda dengan inferensi offline.

lapisan output

#fundamentals

Lapisan "akhir" jaringan neural. Lapisan output berisi prediksi.

Ilustrasi berikut menunjukkan jaringan neural dalam yang kecil dengan lapisan input, dua lapisan tersembunyi, dan lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua terdiri dari dua neuron. Lapisan output terdiri dari satu node.

overfit

#fundamentals

Membuat model yang sangat cocok dengan data pelatihan sehingga model tersebut gagal membuat prediksi yang benar pada data baru.

Regularisasi dapat mengurangi overfit. Pelatihan pada set pelatihan yang besar dan beragam juga dapat mengurangi overfit.

P

panda

#fundamentals

API analisis data berorientasi kolom yang dibuat berdasarkan numpy. Banyak framework machine learning, termasuk TensorFlow, mendukung struktur data panda sebagai input. Lihat dokumentasi panda untuk mengetahui detailnya.

parameter

#fundamentals

Bobot dan bias yang dipelajari model selama pelatihan. Misalnya, dalam model regresi linear, parameter terdiri dari bias (b) dan semua bobot (w1, w2, dan seterusnya) dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sebaliknya, hyperparameter adalah nilai yang Anda (atau layanan balik hyperparameter) berikan ke model. Misalnya, kecepatan pembelajaran adalah hyperparameter.

kelas positif

#fundamentals

Class yang sedang Anda uji.

Misalnya, kelas positif dalam model kanker mungkin adalah "tumor". Kelas positif dalam pengklasifikasi email mungkin "spam".

Berbeda dengan kelas negatif.

pascapemrosesan

#fairness
#fundamentals

Menyesuaikan output model setelah model dijalankan. Pasca-pemrosesan dapat digunakan untuk menerapkan batasan keadilan tanpa mengubah model itu sendiri.

Misalnya, seseorang mungkin menerapkan pasca-pemrosesan ke pengklasifikasi biner dengan menetapkan batas klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa apakah rasio positif benar sama untuk semua nilai atribut tersebut.

prediksi

#fundamentals

Output model. Contoh:

  • Prediksi model klasifikasi biner dapat berupa kelas positif atau kelas negatif.
  • Prediksi model klasifikasi multi-class adalah satu class.
  • Prediksi model regresi linier adalah angka.

label proxy

#fundamentals

Data yang digunakan untuk memperkirakan label yang tidak tersedia secara langsung dalam set data.

Misalnya, Anda harus melatih model untuk memprediksi tingkat stres karyawan. Set data Anda berisi banyak fitur prediktif, tetapi tidak berisi label bernama tingkat stres. Tanpa gencar, Anda memilih "kerusakan tempat kerja" sebagai label proxy untuk tingkat stres. Lagi pula, karyawan yang stres tinggi mengalami lebih banyak kesengajaan daripada karyawan yang tenang. Atau apakah mereka? Mungkin kecelakaan di tempat kerja benar-benar naik dan turun karena beberapa alasan.

Sebagai contoh kedua, misalnya Anda ingin apakah hujan? menjadi label Boolean untuk set data Anda, tetapi set data Anda tidak berisi data hujan. Jika foto tersedia, Anda mungkin membuat foto orang yang membawa payung sebagai label proxy untuk apakah hujan? Apakah itu label proxy yang baik? Mungkin, tetapi orang-orang di beberapa budaya mungkin lebih cenderung membawa payung untuk melindungi dari matahari daripada hujan.

Label proxy sering kali tidak sempurna. Jika memungkinkan, pilih label yang sebenarnya daripada label proxy. Dengan demikian, jika label yang sebenarnya tidak ada, pilih label proxy dengan sangat hati-hati, dan pilih kandidat label proxy yang paling tidak mengerikan.

R

penilai

#fundamentals

Manusia yang memberikan label untuk contoh. "Annotator" adalah nama lain untuk pelabel.

Unit Linear Terarah (ULT)

#fundamentals

Fungsi aktivasi dengan perilaku berikut:

  • Jika input negatif atau nol, maka output-nya adalah 0.
  • Jika input positif, berarti output sama dengan input.

Contoh:

  • Jika inputnya adalah -3, maka output-nya adalah 0.
  • Jika inputnya adalah +3, maka outputnya adalah 3.0.

Berikut adalah plot ULT:

plot kartesius dengan dua garis. Baris pertama memiliki
          nilai y konstan 0, yang bergerak sepanjang sumbu x dari -infinity,0 sampai 0,-0.
          Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, sehingga berkisar dari 0,0 sampai +tak terbatas,+tak terhingga.

ULT adalah fungsi aktivasi yang sangat populer. Meskipun perilakunya sederhana, ULT masih memungkinkan jaringan neural untuk mempelajari hubungan nonlinear antara fitur dan label.

model regresi

#fundamentals

Secara informal, model yang menghasilkan prediksi numerik. (Sebaliknya, model klasifikasi menghasilkan prediksi class.) Misalnya, berikut ini adalah semua model regresi:

  • Model yang memprediksi nilai rumah tertentu, seperti 423.000 Euro.
  • Model yang memprediksi harapan hidup pohon tertentu, seperti 23,2 tahun.
  • Model yang memprediksi jumlah hujan yang akan turun di kota tertentu selama enam jam ke depan, seperti 0,18 inci.

Dua jenis model regresi yang umum adalah:

  • Regresi linear, yang menemukan baris yang paling sesuai dengan nilai label pada fitur.
  • Regresi logistik, yang menghasilkan probabilitas antara 0,0 dan 1,0 yang biasanya dipetakan oleh sistem ke prediksi class.

Tidak semua model yang menghasilkan prediksi numerik merupakan model regresi. Dalam beberapa kasus, prediksi numerik sebenarnya hanyalah model klasifikasi yang kebetulan memiliki nama class numerik. Misalnya, model yang memprediksi kode pos numerik adalah model klasifikasi, bukan model regresi.

regularisasi

#fundamentals

Mekanisme apa pun yang mengurangi overover. Jenis regularisasi yang populer meliputi:

Regularisasi juga dapat didefinisikan sebagai sanksi pada kompleksitas model.

derajat regularisasi

#fundamentals

Angka yang menentukan nilai penting relatif regularisasi selama pelatihan. Meningkatkan regularisasi akan mengurangi overover, tetapi dapat mengurangi daya prediktif model. Sebaliknya, mengurangi atau menghilangkan tingkat regularisasi akan meningkatkan overfit.

ULA

#fundamentals

Singkatan dari Unit Linear Terkoreksi.

Kurva ROC (karakteristik operasi penerima)

#fundamentals

Grafik rasio positif benar vs. rasio positif palsu untuk berbagai nilai minimum klasifikasi dalam klasifikasi biner.

Bentuk kurva KOP menunjukkan kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Misalkan, misalnya, bahwa model klasifikasi biner memisahkan dengan sempurna semua kelas negatif dari semua kelas positif:

Baris angka dengan 8 contoh positif di sisi kanan dan
          7 contoh negatif di sebelah kiri.

Kurva KOP untuk model sebelumnya terlihat sebagai berikut:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva memiliki bentuk L terbalik. Kurva dimulai dari (0.0,0.0) dan langsung naik ke (0.0,1.0). Kemudian kurvanya berubah dari (0.0,1.0) menjadi (1.0,1.0).

Sebaliknya, ilustrasi berikut membuat grafik nilai regresi logistik mentah untuk model buruk yang tidak dapat memisahkan class negatif dari class positif sama sekali:

Baris bilangan dengan contoh positif dan class negatif
          benar-benar tercampur.

Kurva KOP untuk model ini terlihat sebagai berikut:

Kurva KOP, yang sebenarnya merupakan garis lurus dari (0,0,0.0) ke (1,0,1,0).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan kelas positif dan negatif hingga tingkat tertentu, tetapi biasanya tidak sempurna. Jadi, kurva KOP biasanya terletak di antara dua titik ekstrem:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva KOP memperkirakan busur yang goyang yang melintasi titik kompas dari Barat ke Utara.

Titik pada kurva KOP yang terdekat dengan (0,0,1.0) secara teoretis mengidentifikasi batas klasifikasi yang ideal. Namun, beberapa masalah dunia nyata lainnya memengaruhi pemilihan batas klasifikasi yang ideal. Misalnya, negatif negatif dapat menyebabkan nyeri yang jauh lebih banyak daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva KOP menjadi satu nilai floating point.

Error Akar Kuadrat Rata-Rata (RMSE)

#fundamentals

Akar kuadrat dari Rataan Kuadrat Error.

4

fungsi sigmoid

#fundamentals

Fungsi matematika yang "memotong" nilai input ke dalam rentang terbatas, biasanya 0 hingga 1 atau -1 hingga +1. Artinya, Anda dapat meneruskan angka apa pun (dua, satu juta, miliar negatif, apa pun) ke sigmoid dan outputnya akan tetap berada dalam rentang terbatas. plot fungsi aktivasi sigmoid akan terlihat seperti berikut:

plot melengkung dua dimensi dengan nilai x yang mencakup domain
          -infinity hingga +positif, sedangkan nilai y berkisar antara 0 hingga
          hampir 1. Ketika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi sebesar 0,0.5 dan menurun secara bertahap penurunan seiring nilai absolut x meningkat.

Fungsi sigmoid memiliki beberapa kegunaan dalam machine learning, termasuk:

softmax

#fundamentals

Fungsi yang menentukan probabilitas untuk setiap kemungkinan class dalam model klasifikasi multi-class. Nilai probabilitasnya sama persis dengan 1.0. Misalnya, tabel berikut menunjukkan cara softmax mendistribusikan berbagai probabilitas:

Gambar adalah... Probability
anjing 0,85
kucing ,13
kuda ,02

Softmax juga disebut full softmax.

Berbeda dengan sampling kandidat.

fitur sparse

#language
#fundamentals

Fitur yang sebagian besar nilainya nol atau kosong. Misalnya, fitur yang berisi satu nilai dan satu juta nilai 0 jarang. Sebaliknya, fitur yang padat memiliki nilai yang biasanya tidak nol atau kosong.

Dalam machine learning, jumlah fitur yang mengejutkan adalah fitur yang jarang. Fitur kategoris biasanya merupakan fitur sparse. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, jutaan video yang mungkin ada di koleksi video, satu contoh mungkin hanya mengidentifikasi "Casablanca".

Dalam model, Anda biasanya mewakili fitur sparse dengan encoding satu kali. Jika encoding one-hot berukuran besar, Anda dapat menempatkan lapisan penyematan di atas encoding one-hot untuk meningkatkan efisiensi.

representasi renggang

#language
#fundamentals

Menyimpan hanya posisi elemen bukan nol dalam fitur sparse.

Misalnya, fitur kategoris bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Selanjutnya asumsikan bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor satu kali untuk merepresentasikan spesies pohon di setiap contoh. Vektor satu kali akan berisi satu 1 (untuk mewakili jenis pohon tertentu dalam contoh tersebut) dan 35 0 (untuk mewakili 35 spesies pohon bukan dalam contoh tersebut). Jadi, representasi satu kali dari maple mungkin terlihat seperti berikut:

Vektor yang mana posisi 0 sampai 23 memiliki nilai 0, posisi 24 sebagai nilai 1, dan posisi 25 sampai 35 memiliki nilai 0.

Atau, representasi renggang hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada di posisi 24, representasi renggang dari maple adalah:

24

Perhatikan bahwa representasi sparse jauh lebih ringkas daripada representasi one-hot.

vektor renggang

#fundamentals

Vektor yang sebagian besar nilainya adalah nol. Lihat juga fitur sparse dan ketersebaran.

kerugian kuadrat

#fundamentals

Sinonim dari L2 kerugian.

static

#fundamentals

Sesuatu dilakukan sekali, bukan terus menerus. Istilah statis dan offline adalah sinonim. Berikut adalah penggunaan umum statis dan offline dalam machine learning:

  • model statis (atau model offline) adalah model yang dilatih sekali, lalu digunakan untuk sementara waktu.
  • pelatihan statis (atau pelatihan offline) adalah proses pelatihan model statis.
  • inferensi statis (atau inferensi offline) adalah proses di mana model menghasilkan batch prediksi pada satu waktu.

Berbeda dengan dinamis.

inferensi statis

#fundamentals

Sinonim dari inferensi offline.

stasioneritas

#fundamentals

Fitur yang nilainya tidak berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, fitur yang nilainya terlihat hampir sama pada tahun 2021 dan 2023 menunjukkan stasioneritas.

Di dunia nyata, hanya ada sedikit fitur yang menunjukkan stasioneritas. Bahkan fitur yang identik dengan stabilitas (seperti permukaan laut) berubah dari waktu ke waktu.

Berbeda dengan nonstationaritas.

penurunan gradien stokastik (SGD)

#fundamentals

Algoritme penurunan gradien dengan ukuran tumpukan. Dengan kata lain, SGD berlatih di satu contoh yang dipilih secara seragam secara acak dari set pelatihan.

machine learning yang diawasi

#fundamentals

Melatih model dari fitur dan label yang sesuai. Supervised machine learning serupa dengan mempelajari subjek dengan mempelajari serangkaian pertanyaan dan jawaban yang sesuai. Setelah menguasai pemetaan antara pertanyaan dan jawaban, siswa kemudian dapat memberikan jawaban atas pertanyaan baru (yang belum pernah dilihat) terkait topik yang sama.

Bandingkan dengan machine learning yang tidak diawasi.

fitur sintetis

#fundamentals

Fitur tidak ada di antara fitur input, tetapi disusun dari satu atau beberapa fitur tersebut. Metode untuk membuat fitur sintetis meliputi:

  • Mengelompokkan fitur berkelanjutan ke dalam bin rentang.
  • Membuat persilangan fitur.
  • Mengalikan (atau membagi) satu nilai fitur dengan nilai fitur lainnya atau dengan nilai fitur itu sendiri. Misalnya, jika a dan b adalah fitur input, berikut adalah contoh fitur sintetis:
    • ab
    • a2
  • Menerapkan fungsi transendental ke nilai fitur. Misalnya, jika c adalah fitur input, maka berikut adalah contoh fitur sintetis:
    • sin(c)
    • ln(c)

Fitur yang dibuat oleh normalisasi atau penskalaan tidak dianggap sebagai fitur sintetis.

T

kerugian pengujian

#fundamentals

Metrik yang mewakili kerugian model terhadap set pengujian. Saat mem-build model, Anda biasanya mencoba meminimalkan kerugian pengujian. Hal ini karena kerugian pengujian yang rendah adalah sinyal kualitas yang lebih kuat daripada kerugian pelatihan yang rendah atau kerugian validasi yang rendah.

Kesenjangan besar antara kehilangan pengujian dan kerugian pelatihan atau kerugian validasi terkadang menunjukkan bahwa Anda perlu meningkatkan rasio regularisasi.

training

#fundamentals

Proses penentuan parameter ideal (bobot dan bias) yang terdiri dari model. Selama pelatihan, sistem akan membaca dalam contoh dan menyesuaikan parameter secara bertahap. Pelatihan menggunakan setiap contoh dari beberapa kali hingga miliaran kali.

kerugian pelatihan

#fundamentals

Metrik yang mewakili kerugian model selama iterasi pelatihan tertentu. Misalnya, fungsi kerugiannya adalah Mean Squared Error. Mungkin kerugian pelatihan (Error Kuadrat Rata-Rata) untuk iterasi ke-10 adalah 2,2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1,9.

Kurva kerugian memetakan kerugian pelatihan vs. jumlah iterasi. Kurva kerugian memberikan petunjuk tentang pelatihan berikut:

  • Kemiringan menurun menunjukkan bahwa model mengalami peningkatan.
  • Kemiringan naik menunjukkan bahwa model semakin memburuk.
  • Kemiringan datar menandakan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian berikut menampilkan contoh:

  • Kemiringan menurun yang curam selama iterasi awal, yang menyiratkan peningkatan model yang cepat.
  • Kemiringan merata (tetapi masih menurun) hingga mendekati akhir pelatihan, yang menyiratkan peningkatan model yang berkelanjutan dengan kecepatan yang agak lebih lambat daripada selama iterasi awal.
  • Kemiringan datar menjelang akhir pelatihan, yang menunjukkan konvergensi.

plot kerugian pelatihan vs. iterasi. Kurva penurunan ini dimulai dengan kemiringan yang menurun ke bawah. Kemiringan akan diratakan secara bertahap hingga kemiringan menjadi nol.

Meskipun kerugian pelatihan ini penting, lihat juga generalisasi.

diferensiasi performa pelatihan dan penayangan

#fundamentals

Perbedaan antara performa model selama pelatihan dan performa model yang sama selama penayangan.

set pelatihan

#fundamentals

Subset set data yang digunakan untuk melatih model.

Secara tradisional, contoh dalam set data dibagi menjadi tiga subkumpulan yang berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh disertakan dalam set pelatihan dan set validasi.

negatif benar (TN)

#fundamentals

Contoh yang mana model dengan benar memprediksi class negatif. Misalnya, model menyimpulkan bahwa pesan email tertentu bukan spam, dan pesan email tersebut benar-benar bukan spam.

positif benar (TP)

#fundamentals

Contoh yang mana model dengan benar memprediksi class positif. Misalnya, model menyimpulkan bahwa pesan email tertentu adalah spam, dan pesan email tersebut benar-benar spam.

rasio positif benar (TPR)

#fundamentals

Sinonim untuk penarikan. Definisinya yaitu:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Rasio positif benar adalah sumbu y dalam kurva KOP.

U

pakaian dalam

#fundamentals

Produksi model dengan kemampuan prediksi yang buruk karena model belum sepenuhnya menangkap kompleksitas data pelatihan. Banyak masalah dapat menyebabkan kekurangan pasokan, termasuk:

contoh tak berlabel

#fundamentals

Contoh yang berisi fitur tetapi tidak berisi label. Misalnya, tabel berikut menunjukkan tiga contoh tak berlabel dari model penilaian rumah, masing-masing dengan tiga fitur tetapi tanpa nilai rumah:

Jumlah kamar Jumlah kamar mandi Usia rumah
3 2 15
2 1 72
4 2 34

Dalam Supervised machine learning, model dilatih pada contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Dalam pembelajaran semi-Supervised dan unSupervised, contoh tak berlabel digunakan selama pelatihan.

Membandingkan contoh yang tidak berlabel dengan contoh berlabel.

machine learning yang tidak diawasi

#clustering
#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.

Penggunaan machine learning yang tidak diawasi paling umum adalah dengan mengelompokkan data ke dalam grup contoh yang serupa. Misalnya, algoritme machine learning yang tidak diawasi dapat mengelompokkan lagu berdasarkan berbagai properti musik. Kluster yang dihasilkan dapat menjadi input untuk algoritme machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu jika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia untuk lebih memahami data.

Berbeda dengan machine learning yang diawasi.

V

validasi

#fundamentals

Evaluasi awal terhadap kualitas model. Validasi memeriksa kualitas prediksi model terhadap set validasi.

Karena set validasi berbeda dengan set pelatihan, validasi membantu mencegah overover.

Anda mungkin berpikir untuk mengevaluasi model terhadap set validasi sebagai putaran pertama pengujian dan mengevaluasi model terhadap set pengujian sebagai putaran kedua pengujian.

kehilangan validasi

#fundamentals

Metrik yang mewakili kerugian model pada set validasi selama iterasi tertentu untuk pelatihan.

Lihat juga kurva generalisasi.

kumpulan validasi

#fundamentals

Subset set data yang melakukan evaluasi awal terhadap model yang terlatih. Biasanya, Anda mengevaluasi model yang dilatih terhadap set validasi beberapa kali sebelum mengevaluasi model terhadap set pengujian.

Secara tradisional, Anda membagi contoh dalam set data menjadi tiga subset yang berbeda:

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh disertakan dalam set pelatihan dan set validasi.

W

berat

#fundamentals

Nilai yang dikalikan dengan nilai lain oleh model. Pelatihan adalah proses penentuan bobot ideal model; inferensi adalah proses penggunaan bobot yang dipelajari tersebut untuk membuat prediksi.

jumlah berbobot

#fundamentals

Jumlah semua nilai input yang relevan dikalikan dengan bobotnya yang sesuai. Misalnya, input yang relevan terdiri dari beberapa hal berikut:

nilai input bobot input
2 -1,3
-1 0,6
3 0,4

Oleh karena itu, jumlah berbobot adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Jumlah berbobot adalah argumen input untuk fungsi aktivasi.

Z

Normalisasi skor Z

#fundamentals

Teknik penskalaan yang menggantikan nilai fitur mentah dengan nilai floating point yang mewakili jumlah simpangan baku dari rata-rata fitur tersebut. Misalnya, pertimbangkan fitur yang rata-ratanya adalah 800 dan simpangan bakunya adalah 100. Tabel berikut menunjukkan cara normalisasi skor Z akan memetakan nilai mentah ke skor Z-nya:

Nilai mentah Skor Z
800 0
950 +1,5
575 -2,25

Model machine learning kemudian akan melatih skor Z untuk fitur tersebut, bukan nilai mentah.