Halaman ini diterjemahkan oleh Cloud Translation API.

Glosarium Machine Learning: Dasar-Dasar ML

Halaman ini berisi istilah glosarium Dasar-Dasar ML. Untuk semua istilah glosarium, klik di sini.

J

akurasi

#fundamentals

Jumlah prediksi klasifikasi yang benar dibagi dengan jumlah total prediksi. Definisinya yaitu:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Misalnya, model yang membuat 40 prediksi benar dan 10 prediksi yang salah akan memiliki akurasi:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasifikasi biner memberikan nama tertentu untuk berbagai kategori prediksi benar dan prediksi yang salah. Jadi, formula akurasi untuk klasifikasi biner adalah sebagai berikut:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dalam hal ini:

TP adalah jumlah positif benar (prediksi yang benar).
TN adalah jumlah negatif benar (prediksi yang benar).
FP adalah jumlah positif palsu (prediksi yang salah).
FN adalah jumlah negatif palsu (prediksi yang salah).

Membandingkan dan membedakan akurasi dengan presisi dan perolehan.

Klik ikon untuk catatan tambahan.

Meskipun metrik yang berharga untuk beberapa situasi, akurasi sangat menyesatkan bagi orang lain. Secara khusus, akurasi biasanya merupakan metrik yang buruk untuk mengevaluasi model klasifikasi yang memproses set data kelas tidak seimbang.

Misalnya, salju hanya turun 25 hari per abad di kota subtropis tertentu. Karena jumlah hari tanpa salju (kelas negatif) jauh lebih banyak daripada hari dengan salju (kelas positif), set data salju untuk kota ini tidak seimbang. Bayangkan model klasifikasi biner yang seharusnya memprediksi salju atau tidak ada salju setiap hari, tetapi hanya memprediksi "tidak ada salju" setiap hari. Model ini sangat akurat, tetapi tidak memiliki kemampuan prediksi. Tabel berikut merangkum hasil untuk prediksi selama satu abad:

Kategori	Angka
TP	0
TN	36500
PP	25
FN	0

Oleh karena itu, akurasi model ini adalah:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Meskipun akurasi 99,93% tampak sangat mengesankan, model ini sebenarnya tidak memiliki kekuatan prediktif.

Presisi dan perolehan biasanya merupakan metrik yang lebih berguna daripada akurasi untuk mengevaluasi model yang dilatih pada set data kelas tidak seimbang.

fungsi aktivasi

#fundamentals

Fungsi yang memungkinkan jaringan neural mempelajari hubungan nonlinear (kompleks) antara fitur dan label.

Fungsi aktivasi yang populer mencakup:

ReLU
Sigmoid

Plot fungsi aktivasi tidak pernah berupa garis lurus tunggal. Misalnya, plot fungsi aktivasi ULT terdiri dari dua garis lurus:

Plot kartesius dua baris. Baris pertama memiliki nilai konstanta y
0, berjalan di sepanjang sumbu x dari -tak terhingga,0 hingga 0,-0.
Baris kedua dimulai dari 0,0. Garis ini memiliki kemiringan +1, sehingga garisnya dimulai dari 0,0 ke +tak terbatas,+tak terhingga.

Plot fungsi aktivasi sigmoid terlihat sebagai berikut:

Plot melengkung dua dimensi dengan nilai x yang mencakup domain -tak terhingga hingga +positif, sementara nilai y menjangkau rentang hampir 0 hingga hampir 1. Jika x adalah 0, y adalah 0,5. Kemiringan kurva selalu positif, dengan kemiringan tertinggi pada 0,0,5 dan kemiringan bertahap menurun secara bertahap seiring peningkatan nilai absolut x.

Klik ikon untuk melihat contoh.

Dalam jaringan neural, fungsi aktivasi memanipulasi jumlah terbobot semua input ke neuron. Untuk menghitung jumlah terbobot, neuron menjumlahkan perkalian nilai dan bobot yang relevan. Misalnya, anggaplah input yang relevan ke sebuah neuron terdiri dari hal berikut:

nilai input	masukkan berat
2	-1.3
-1	0.6
3	0.4

Oleh karena itu, jumlah terbobot adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Anggap desainer jaringan neural ini memilih fungsi sigmoid sebagai fungsi aktivasi. Dalam hal ini, neuron menghitung sigmoid -2,0, yaitu sekitar 0,12. Oleh karena itu, neuron meneruskan 0,12 (bukan -2,0) ke lapisan berikutnya di jaringan neural. Gambar berikut mengilustrasikan bagian proses yang relevan:

kecerdasan buatan

#fundamentals

Program atau model non-manusia yang dapat menyelesaikan tugas-tugas rumit. Misalnya, program atau model yang menerjemahkan teks atau program atau model yang mengidentifikasi penyakit dari gambar radiologi menunjukkan kecerdasan buatan.

Secara formal, machine learning adalah sub-bidang kecerdasan buatan. Namun, dalam beberapa tahun terakhir, beberapa organisasi mulai menggunakan istilah kecerdasan buatan dan machine learning secara bergantian.

ABK (Area di bawah kurva KOP)

#fundamentals

Angka antara 0,0 dan 1,0 yang mewakili kemampuan model klasifikasi biner untuk memisahkan kelas positif dari kelas negatif. Semakin dekat AUC ke 1,0, semakin baik kemampuan model untuk memisahkan class dari satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model pengklasifikasi yang memisahkan class positif (oval hijau) dari class negatif (kotak ungu) dengan sempurna. Model yang tidak realistis ini memiliki ABK 1,0:

Garis bilangan dengan 8 contoh positif di satu sisi dan
9 contoh negatif di sisi lainnya.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk model pengklasifikasi yang menghasilkan hasil acak. Model ini memiliki AUC 0,5:

Baris bilangan dengan 6 contoh positif dan 6 contoh negatif.
Urutan contohnya adalah positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif negatif, positif, negatif.

Ya, model sebelumnya memiliki ABK 0,5, bukan 0,0.

Sebagian besar model berada di antara dua hal ekstrem. Misalnya, model berikut agak memisahkan positif dari negatif, sehingga memiliki ABK antara 0,5 dan 1,0:

Baris bilangan dengan 6 contoh positif dan 6 contoh negatif.
Urutan contohnya adalah negatif, negatif, negatif, negatif,
positif, negatif, positif, positif, negatif, positif, positif,
positif.

ABK mengabaikan nilai apa pun yang Anda tetapkan untuk nilai minimum klasifikasi. Sebagai gantinya, ABK mempertimbangkan semua batas klasifikasi yang memungkinkan.

Klik ikon untuk mempelajari hubungan antara kurva ABK dan KOP.

ABK mewakili area di bawah kurva KOP. Misalnya, kurva KOP untuk model yang secara sempurna memisahkan positif dari negatif akan terlihat seperti berikut:

ABK adalah area area abu-abu dalam ilustrasi sebelumnya. Dalam kasus yang tidak biasa ini, luasnya hanyalah panjang area abu-abu (1,0) dikalikan dengan lebar area abu-abu (1,0). Jadi, produk 1,0 dan 1,0 menghasilkan ABK persis 1,0, yang merupakan skor AUC tertinggi.

Sebaliknya, kurva KOP untuk pengklasifikasi yang tidak dapat memisahkan class sama sekali adalah sebagai berikut. Luas wilayah abu-abu ini adalah 0,5.

Plot Kartesius. Sumbu x adalah rasio positif palsu; sumbu y adalah rasio
positif benar. Grafik dimulai dari 0,0 dan bergerak secara diagonal ke 1,1.

Kurva KOP yang lebih umum terlihat kira-kira seperti berikut:

Plot Kartesius. Sumbu x adalah rasio positif palsu; sumbu y adalah rasio
positif benar. Grafik dimulai dari 0,0 dan mengambil busur tidak teratur ke 1,0.

Menghitung area di bawah kurva ini secara manual akan sangat merepotkan, itulah sebabnya program biasanya menghitung sebagian besar nilai ABK.

Klik ikon untuk definisi ABK yang lebih formal.

ABK adalah probabilitas bahwa pengklasifikasi akan lebih yakin bahwa contoh positif yang dipilih secara acak sebenarnya positif daripada contoh negatif yang dipilih secara acak adalah positif.

B

propagasi mundur

#fundamentals

Algoritme yang menerapkan penurunan gradien dalam jaringan neural.

Melatih jaringan neural melibatkan banyak iterasi dari siklus dua penerusan berikut:

Selama forward pass, sistem memproses batch contoh untuk menghasilkan prediksi. Sistem membandingkan setiap prediksi dengan setiap nilai label. Perbedaan antara prediksi dan nilai label adalah kerugian untuk contoh tersebut. Sistem menggabungkan kerugian untuk semua contoh guna menghitung total kerugian untuk batch saat ini.
Selama lewat mundur (propagasi mundur), sistem mengurangi kerugian dengan menyesuaikan bobot semua neuron di semua lapisan tersembunyi.

Jaringan neural sering kali mengandung banyak neuron di banyak lapisan tersembunyi. Setiap neuron tersebut berkontribusi pada hilangnya secara keseluruhan dengan cara yang berbeda. Propagasi mundur menentukan apakah akan menambah atau mengurangi bobot yang diterapkan pada neuron tertentu.

Kecepatan pembelajaran adalah pengganda yang mengontrol derajat peningkatan atau penurunan setiap bobot oleh setiap penerusan mundur. Kecepatan pembelajaran yang besar akan meningkatkan atau menurunkan setiap bobot lebih dari kecepatan pemelajaran yang kecil.

Dalam istilah kalkulus, propagasi mundur menerapkan aturan rantai kalkulus. Artinya, propagasi mundur menghitung turunan parsial dari error terkait dengan setiap parameter. Untuk mengetahui detail selengkapnya, lihat tutorial di Kursus Singkat Machine Learning ini.

Bertahun-tahun yang lalu, praktisi ML harus menulis kode untuk menerapkan propagasi mundur. ML API modern seperti TensorFlow sekarang mengimplementasikan propagasi mundur untuk Anda. Fiuh!

batch

#fundamentals

Kumpulan contoh yang digunakan dalam satu iterasi pelatihan. Ukuran tumpukan menentukan jumlah contoh dalam batch.

Lihat epoch untuk mengetahui penjelasan tentang hubungan batch dengan epoch.

ukuran tumpukan

#fundamentals

Jumlah contoh dalam kumpulan. Misalnya, jika ukuran tumpukan adalah 100, model akan memproses 100 contoh per iterasi.

Berikut adalah strategi ukuran tumpukan yang populer:

Penurunan Gradien Stokastik (SGD), dengan ukuran tumpukan 1.
batch penuh, dengan ukuran tumpukan adalah jumlah contoh dalam seluruh set pelatihan. Misalnya, jika set pelatihan berisi satu juta contoh, ukuran tumpukan akan menjadi satu juta contoh. Batch penuh biasanya merupakan strategi yang tidak efisien.
mini-batch dengan ukuran tumpukan biasanya antara 10 hingga 1.000. Mini-batch biasanya merupakan strategi yang paling efisien.

bias (etika/keadilan)

#fairness

#fundamentals

1. Stereotip, prasangka atau favoritisme terhadap beberapa hal, orang, atau kelompok dibandingkan yang lain. Bias ini dapat memengaruhi pengumpulan dan interpretasi data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk-bentuk dari jenis bias ini meliputi:

2. Error sistematis yang diperkenalkan oleh prosedur pengambilan sampel atau pelaporan. Bentuk-bentuk dari jenis bias ini meliputi:

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

bias (matematika) atau istilah bias

#fundamentals

Intersep atau offset dari asal. Bias adalah parameter dalam model machine learning, yang disimbolkan oleh salah satu hal berikut:

b
m₀

Misalnya, bias adalah b dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dalam garis dua dimensi yang sederhana, bias berarti "titik potong sumbu y". Misalnya, bias garis dalam ilustrasi berikut adalah 2.

Plot garis dengan kemiringan 0,5 dan bias (titik potong sumbu y) 2.

Bias ada karena tidak semua model dimulai dari titik asal (0,0). Misalnya, sebuah taman hiburan berharga 2 Euro untuk masuk dan tambahan 0,5 Euro untuk setiap jam pelanggan menginap. Oleh karena itu, model yang memetakan total biaya memiliki bias 2 karena biaya terendah adalah 2 Euro.

Bias jangan disalahartikan dengan bias dalam etika dan keadilan atau bias prediksi.

klasifikasi biner

#fundamentals

Jenis tugas klasifikasi yang memprediksi salah satu dari dua class yang sama-sama eksklusif:

kelas positif
kelas negatif

Misalnya, dua model machine learning berikut masing-masing melakukan klasifikasi biner:

Model yang menentukan apakah pesan email merupakan spam (kelas positif) atau bukan spam (kelas negatif).
Model yang mengevaluasi gejala medis untuk menentukan apakah seseorang memiliki penyakit tertentu (kelas positif) atau tidak memiliki penyakit tersebut (kelas negatif).

Berbeda dengan klasifikasi multi-kelas.

Lihat juga regresi logistik dan nilai minimum klasifikasi.

pembuatan bucket

#fundamentals

Mengonversi satu fitur menjadi beberapa fitur biner yang disebut bucket atau bin, biasanya didasarkan pada rentang nilai. Fitur yang terpotong biasanya merupakan fitur berkelanjutan.

Misalnya, daripada merepresentasikan suhu sebagai fitur floating point tunggal berkelanjutan, Anda dapat membagi rentang suhu menjadi bucket terpisah, seperti:

<= 10 derajat Celsius akan menjadi bucket "cold".
11 - 24 derajat Celsius akan menjadi suhu "sedang".
>= 25 derajat Celsius akan menjadi suhu "hangat".

Model ini akan memperlakukan setiap nilai dalam bucket yang sama secara identik. Misalnya, nilai 13 dan 22 berada di bucket sedang, sehingga model memperlakukan kedua nilai tersebut secara identik.

Klik ikon untuk catatan tambahan.

Jika Anda merepresentasikan suhu sebagai fitur berkelanjutan, model akan memperlakukan suhu sebagai fitur tunggal. Jika Anda menyatakan suhu sebagai tiga bucket, model akan memperlakukan setiap bucket sebagai fitur terpisah. Artinya, model dapat mempelajari hubungan terpisah dari setiap bucket dengan label. Misalnya, model regresi linear dapat mempelajari bobot terpisah untuk setiap bucket.

Meningkatkan jumlah bucket membuat model Anda menjadi lebih rumit dengan meningkatkan jumlah hubungan yang harus dipelajari model Anda. Misalnya, bucket dingin, sedang, dan hangat pada dasarnya merupakan tiga fitur terpisah untuk dilatih model Anda. Jika memutuskan untuk menambahkan dua bucket lagi--misalnya, membekukan dan panas--model Anda sekarang harus dilatih di lima fitur terpisah.

Bagaimana cara mengetahui jumlah bucket yang dibuat, atau berapa rentang untuk setiap bucket? Jawabannya biasanya membutuhkan cukup banyak eksperimen.

C

data kategoris

#fundamentals

Fitur yang memiliki kumpulan spesifik nilai yang memungkinkan. Misalnya, pertimbangkan fitur kategori bernama traffic-light-state, yang hanya dapat memiliki salah satu dari tiga kemungkinan nilai berikut:

red
yellow
green

Dengan merepresentasikan traffic-light-state sebagai fitur kategoris, model dapat mempelajari dampak yang berbeda dari red, green, dan yellow terhadap perilaku pengemudi.

Fitur kategoris terkadang disebut fitur diskret.

Berbeda dengan data numerik.

class

#fundamentals

Kategori yang dapat diikuti oleh label. Contoh:

Dalam model klasifikasi biner yang mendeteksi spam, dua kelas tersebut mungkin spam dan bukan spam.
Dalam model klasifikasi kelas multi yang mengidentifikasi ras, kelasnya mungkin adalah pudel, beagle, pug, dan selanjutnya.

Model klasifikasi memprediksi class. Sebaliknya, model regresi memprediksi angka, bukan class.

model klasifikasi

#fundamentals

model yang prediksinya adalah model. Misalnya, berikut adalah semua model klasifikasi:

Model yang memprediksi bahasa kalimat input (bahasa Prancis? Bahasa Spanyol? Italia?).
Model yang memprediksi spesies pohon (Maple? Oak? Baobab?).
Model yang memprediksi kelas positif atau negatif untuk kondisi medis tertentu.

Sebaliknya, model regresi memprediksi angka, bukan class.

Dua jenis model klasifikasi umum adalah:

klasifikasi biner
klasifikasi kelas multi

batas klasifikasi

#fundamentals

Dalam klasifikasi biner, angka antara 0 dan 1 yang mengubah output mentah model regresi logistik menjadi prediksi kelas positif atau kelas negatif. Perlu diperhatikan bahwa batas klasifikasi adalah nilai yang dipilih manusia, bukan nilai yang dipilih oleh pelatihan model.

Model regresi logistik menghasilkan nilai mentah antara 0 dan 1. Kemudian:

Jika nilai mentah ini lebih besar dari batas klasifikasi, kelas positif akan diprediksi.
Jika nilai mentah ini kurang dari batas klasifikasi, kelas negatif akan diprediksi.

Misalnya, anggaplah batas klasifikasi adalah 0,8. Jika nilai mentahnya adalah 0,9, maka model akan memprediksi class positif. Jika nilai mentahnya adalah 0,7, maka model akan memprediksi kelas negatif.

Pilihan batas klasifikasi sangat memengaruhi jumlah positif palsu dan negatif palsu.

Klik ikon untuk catatan tambahan.

Seiring dengan berkembangnya model atau set data, terkadang engineer juga mengubah batas klasifikasi. Ketika batas klasifikasi berubah, prediksi kelas positif bisa tiba-tiba menjadi kelas negatif dan sebaliknya.

Misalnya, pertimbangkan model prediksi penyakit klasifikasi biner. Misalkan saat sistem berjalan pada tahun pertama:

Nilai mentah untuk pasien tertentu adalah 0,95.
Batas klasifikasi adalah 0,94.

Oleh karena itu, sistem akan mendiagnosis class positif. (Pasien terengah-engah, "Oh tidak! Saya sakit!")

Setahun kemudian, mungkin nilainya sekarang terlihat seperti berikut:

Nilai mentah untuk pasien yang sama tetap di 0,95.
Batas klasifikasi berubah menjadi 0,97.

Oleh karena itu, sistem kini mengklasifikasi ulang pasien tersebut sebagai kelas negatif. ("Selamat hari! Saya tidak sakit.") Pasien yang sama. Diagnosis yang berbeda.

set data kelas tidak seimbang

#fundamentals

Set data untuk masalah klasifikasi yang jumlah total label setiap kelas berbeda secara signifikan. Misalnya, perhatikan set data klasifikasi biner yang dua labelnya dibagi sebagai berikut:

1.000.000 label negatif
10 label positif

Rasio label negatif terhadap positif adalah 100.000 berbanding 1, jadi ini adalah set data kelas tidak seimbang.

Sebaliknya, set data berikut tidak kelas tidak seimbang karena rasio label negatif terhadap label positif relatif mendekati 1:

517 label negatif
483 label positif

{i>Dataset<i} multi-kelas juga dapat menjadi tidak seimbang kelasnya. Misalnya, set data klasifikasi kelas jamak berikut juga tidak seimbang karena satu label memiliki lebih banyak contoh daripada dua label lainnya:

1.000.000 label dengan kelas "green"
200 label dengan class "ungu"
350 label dengan kelas "oranye"

Lihat juga entropi, kelas mayoritas, dan kelas minoritas.

pemotongan

#fundamentals

Teknik untuk menangani outlier dengan melakukan salah satu atau kedua hal berikut:

Mengurangi nilai feature yang lebih besar dari nilai minimum maksimum ke nilai minimum maksimum tersebut.
Meningkatkan nilai fitur yang kurang dari nilai minimum hingga nilai minimum tersebut.

Misalnya, anggaplah <0,5% nilai untuk fitur tertentu berada di luar rentang 40–60. Dalam hal ini, Anda dapat melakukan hal berikut:

Memotong semua nilai di atas 60 (nilai minimum maksimum) menjadi tepat 60.
Memotong semua nilai di bawah 40 (nilai minimum) menjadi tepat 40.

Pencilan dapat merusak model, terkadang menyebabkan bobot meluap selama pelatihan. Beberapa pencilan juga dapat merusak metrik seperti akurasi secara drastis. {i>Clipping<i} adalah teknik umum untuk membatasi kerusakan.

Pemotongan gradien memaksa nilai gradien dalam rentang yang ditentukan selama pelatihan.

matriks konfusi

#fundamentals

Tabel NxN yang meringkas jumlah prediksi benar dan salah yang dibuat oleh model klasifikasi. Misalnya, pertimbangkan matriks konfusi berikut untuk model klasifikasi biner:

	Tumor (diprediksi)	Non-Tumor (diprediksi)
Tumor (kebenaran dasar)	18 (TP)	1 (FN)
Non-Tumor (kebenaran dasar)	6 (FP)	452 (TN)

Matriks konfusi sebelumnya menunjukkan hal berikut:

Dari 19 prediksi yang mana kebenaran dasar adalah Tumor, model ini mengklasifikasikan 18 dengan benar dan salah mengklasifikasikan 1.
Dari 458 prediksi yang kebenaran dasarnya adalah Non-Tumor, model tersebut mengklasifikasikan 452 dengan benar dan salah mengklasifikasikan 6.

Matriks konfusi untuk masalah klasifikasi kelas jamak dapat membantu Anda mengidentifikasi pola kesalahan. Misalnya, pertimbangkan matriks konfusi berikut untuk model klasifikasi multi-kelas 3 kelas yang mengategorikan tiga jenis iris yang berbeda (Virginica, Versicolor, dan Setosa). Saat kebenaran dasar adalah Virginica, matriks kebingungan menunjukkan bahwa model jauh lebih mungkin untuk salah memprediksi Versicolor daripada Setosa:

	Setosa (diprediksi)	Versicolor (diprediksi)	Virginica (diprediksi)
Setosa (kebenaran dasar)	88	12	0
Versicolor (kebenaran dasar)	6	141	7
Virginica (kebenaran dasar)	2	27	109

Satu contoh lainnya, matriks konfusi dapat mengungkapkan bahwa model yang dilatih untuk mengenali angka tulisan tangan cenderung salah memprediksi 9 bukan 4, atau secara keliru memprediksi 1, bukan 7.

Matriks kebingungan berisi informasi yang memadai untuk menghitung berbagai metrik performa, termasuk presisi dan perolehan.

fitur berkelanjutan

#fundamentals

Fitur floating point dengan rentang nilai yang memungkinkan dan tak terbatas, seperti suhu atau bobot.

Berbeda dengan fitur diskret.

konvergensi

#fundamentals

Status yang dicapai saat nilai loss berubah sangat sedikit atau tidak berubah sama sekali dengan setiap iterasi. Misalnya, kurva kerugian berikut menunjukkan konvergensi pada sekitar 700 iterasi:

Plot Kartesius. Sumbu X adalah kerugian. Sumbu Y adalah jumlah iterasi pelatihan. Kerugian sangat tinggi selama beberapa iterasi pertama, tetapi menurun tajam. Setelah sekitar 100 iterasi, kerugian masih akan terus menurun, tetapi secara bertahap lebih bertahap. Setelah sekitar 700 iterasi, kerugian tetap stabil.

Model diarahkan saat pelatihan tambahan tidak akan meningkatkan kualitas model.

Dalam deep learning, nilai kerugian terkadang tetap konstan atau hampir sama untuk banyak iterasi sebelum akhirnya turun. Selama jangka waktu yang panjang ketika terjadi nilai kerugian konstan, untuk sementara Anda mungkin merasakan konvergensi palsu.

Lihat juga penghentian awal.

D

DataFrame

#fundamentals

Jenis data pandas yang populer untuk merepresentasikan set data dalam memori.

DataFrame dapat dianalogikan dengan tabel atau {i>spreadsheet<i}. Setiap kolom DataFrame memiliki nama (header), dan setiap baris diidentifikasi dengan nomor unik.

Setiap kolom dalam DataFrame terstruktur seperti array 2D, hanya saja setiap kolom dapat diberi jenis datanya sendiri.

Lihat juga halaman referensi pandas.DataFrame resmi.

set data atau set data

#fundamentals

Kumpulan data mentah, umumnya (tetapi tidak secara eksklusif) disusun dalam salah satu format berikut:

{i>spreadsheet<i}
file dalam format CSV ({i>comma-separated values<i})

model dalam

#fundamentals

Jaringan neural yang berisi lebih dari satu lapisan tersembunyi.

Model dalam juga disebut jaringan neural dalam.

Berbeda dengan model lebar.

fitur padat

#fundamentals

Fitur yang sebagian besar atau semua nilai bukan nol, biasanya Tensor dari nilai floating point. Misalnya, Tensor 10 elemen berikut cukup padat karena 9 dari nilainya bukan nol:

Berbeda dengan fitur renggang.

kedalaman

#fundamentals

Jumlah hal berikut dalam jaringan neural:

jumlah lapisan tersembunyi
jumlah lapisan output, biasanya 1
jumlah lapisan penyematan

Misalnya, jaringan neural dengan lima lapisan tersembunyi dan satu lapisan output memiliki kedalaman 6.

Perhatikan bahwa lapisan input tidak memengaruhi kedalaman.

fitur diskret (discrete feature)

#fundamentals

Fitur dengan serangkaian kemungkinan nilai yang terbatas. Misalnya, fitur yang nilainya hanya dapat berupa hewan, nabati, atau mineral adalah fitur diskret (atau kategoris).

Berbeda dengan fitur berkelanjutan.

dinamis

#fundamentals

Sesuatu yang sering atau terus-menerus dilakukan. Istilah dinamis dan online adalah sinonim dalam machine learning. Berikut adalah penggunaan umum dinamis dan online dalam machine learning:

Model dinamis (atau model online) adalah model yang dilatih ulang secara rutin atau terus-menerus.
Pelatihan dinamis (atau pelatihan online) adalah proses pelatihan secara rutin atau berkelanjutan.
Inferensi dinamis (atau inferensi online) adalah proses menghasilkan prediksi sesuai permintaan.

model dinamis

#fundamentals

model yang sering (bahkan terus-menerus) dilatih ulang. Model dinamis adalah “pembelajar sepanjang hayat” yang terus-menerus beradaptasi dengan data yang terus berkembang. Model dinamis juga dikenal sebagai model online.

Berbeda dengan model statis.

E

penghentian awal

#fundamentals

Metode untuk regularisasi yang melibatkan penghentian pelatihan sebelum kerugian pelatihan selesai menurun. Pada penghentian awal, Anda sengaja berhenti melatih model saat kerugian pada set data validasi mulai meningkat, yaitu saat performa generalisasi memburuk.

Klik ikon untuk catatan tambahan.

Penghentian awal mungkin tampak berlawanan dengan intuisi. Lagi pula, memberi tahu model untuk menghentikan pelatihan saat kerugian masih menurun mungkin tampak seperti memberi tahu koki untuk berhenti memasak sebelum makanan penutup matang sepenuhnya. Namun, melatih model terlalu lama dapat menyebabkan overfit. Artinya, jika Anda melatih model terlalu lama, model tersebut mungkin sangat sesuai dengan data pelatihan sehingga model tidak dapat membuat prediksi yang baik pada contoh baru.

Lapisan embedding

#language

#fundamentals

lapisan tersembunyi khusus yang melatih fitur kategoris berdimensi tinggi untuk secara bertahap mempelajari vektor penyematan dimensi yang lebih rendah. Lapisan sematan memungkinkan jaringan neural untuk berlatih jauh lebih efisien daripada jika hanya melatih fitur kategoris berdimensi tinggi.

Misalnya, saat ini Bumi mendukung sekitar 73.000 spesies pohon. Misalkan spesies pohon adalah fitur dalam model Anda, sehingga lapisan input model Anda menyertakan vektor one-hot dengan panjang 73.000 elemen. Misalnya, mungkin baobab akan direpresentasikan seperti ini:

Array berisi 73.000 elemen. 6.232 elemen pertama memiliki nilai
0. Elemen berikutnya memiliki nilai 1. 66.767 elemen terakhir memiliki
nilai nol.

Array berisi 73.000 elemen sangat panjang. Jika Anda tidak menambahkan lapisan embedding ke model, pelatihan akan memakan waktu sangat lama karena mengalikan 72.999 angka nol. Mungkin Anda memilih lapisan embedding yang terdiri dari 12 dimensi. Dengan demikian, lapisan embedding secara bertahap akan mempelajari vektor embedding baru untuk setiap spesies pohon.

Dalam situasi tertentu, hashing adalah alternatif yang wajar untuk lapisan embedding.

epoch

#fundamentals

Pass pelatihan penuh pada seluruh set pelatihan sehingga setiap contoh telah diproses satu kali.

Epoch mewakili iterasi pelatihan N/ukuran batch, dengan N adalah jumlah total contoh.

Misalnya, anggap saja hal berikut ini:

Set data terdiri dari 1.000 contoh.
Ukuran tumpukannya adalah 50 contoh.

Oleh karena itu, satu epoch memerlukan 20 iterasi:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

contoh

#fundamentals

Nilai satu baris fitur dan mungkin label. Contoh dalam supervised learning dibagi menjadi dua kategori umum:

Contoh berlabel terdiri dari satu atau beberapa fitur dan label. Contoh berlabel digunakan selama pelatihan.
Contoh tak berlabel terdiri dari satu atau beberapa fitur, tetapi tanpa label. Contoh tak berlabel digunakan selama inferensi.

Misalnya, Anda melatih sebuah model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Berikut ini tiga contoh berlabel:

Fitur			Label
Suhu	Kelembapan	Tekanan	Skor tes
15	47	998	Baik
19	34	1020	Sangat baik
18	92	1012	Buruk

Berikut adalah tiga contoh tidak berlabel:

Suhu	Kelembapan	Tekanan
12	62	1014
21	47	1017
19	41	1021

Baris set data biasanya merupakan sumber mentah sebagai contoh. Artinya, contoh biasanya terdiri dari subset kolom dalam set data. Selain itu, fitur dalam contoh juga dapat mencakup fitur sintetis, seperti persilangan fitur.

F

negatif palsu (FN)

#fundamentals

Contoh yang mana model salah memprediksi kelas negatif. Misalnya, model ini memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email tersebut sebenarnya adalah spam.

positif palsu (PP)

#fundamentals

Contoh yang mana model salah memprediksi kelas positif. Misalnya, model ini memprediksi bahwa pesan email tertentu adalah spam (kelas positif), tetapi pesan email tersebut sebenarnya bukan spam.

rasio positif palsu (FPR)

#fundamentals

Proporsi contoh negatif aktual yang mana model salah memprediksi class positif. Formula berikut menghitung rasio positif palsu (PP):

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Rasio positif palsu adalah sumbu x dalam kurva KOP.

fitur

#fundamentals

Variabel input ke model machine learning. Contoh terdiri dari satu atau beberapa fitur. Misalnya, Anda melatih sebuah model untuk menentukan pengaruh kondisi cuaca terhadap nilai ujian siswa. Tabel berikut menunjukkan tiga contoh, yang masing-masing berisi tiga fitur dan satu label:

Fitur			Label
Suhu	Kelembapan	Tekanan	Skor tes
15	47	998	92
19	34	1020	84
18	92	1012	87

Berbeda dengan label.

persilangan fitur

#fundamentals

Fitur sintetis yang dibentuk oleh fitur kategoris atau bucket "crossing".

Misalnya, pertimbangkan model "perkiraan mood" yang mewakili suhu di salah satu dari empat bucket berikut:

freezing
chilly
temperate
warm

Dan mewakili kecepatan angin di salah satu dari tiga bucket berikut:

still
light
windy

Tanpa persilangan fitur, model linear akan berlatih secara independen pada masing-masing dari tujuh bucket sebelumnya. Jadi, model dilatih pada, misalnya, freezing secara terpisah dari pelatihan di, misalnya, windy.

Atau, Anda dapat membuat persilangan fitur suhu dan kecepatan angin. Fitur sintetis ini akan memiliki 12 kemungkinan nilai berikut:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Berkat persilangan fitur, model ini dapat mempelajari perbedaan mood antara freezing-windy hari dan freezing-still hari.

Jika Anda membuat fitur sintetis dari dua fitur yang masing-masing memiliki banyak bucket berbeda, persilangan fitur yang dihasilkan akan memiliki sejumlah besar kemungkinan kombinasi. Misalnya, jika satu fitur memiliki 1.000 bucket dan fitur lainnya memiliki 2.000 bucket, persilangan fitur yang dihasilkan memiliki 2.000.000 bucket.

Secara formal, tanda silang adalah produk Kartesius.

Persilangan fitur sebagian besar digunakan dengan model linear dan jarang digunakan dengan jaringan neural.

rekayasa fitur

#fundamentals

#TensorFlow

Proses yang melibatkan langkah-langkah berikut:

Menentukan fitur mana yang mungkin berguna dalam melatih model.
Mengonversi data mentah dari set data menjadi versi yang efisien dari fitur-fitur tersebut.

Misalnya, Anda mungkin menentukan bahwa temperature mungkin fitur yang berguna. Kemudian, Anda dapat bereksperimen dengan bucketing untuk mengoptimalkan hal yang dapat dipelajari model dari berbagai rentang temperature.

Rekayasa fitur terkadang disebut ekstraksi fitur.

Klik ikon untuk melihat catatan tambahan tentang TensorFlow.

Di TensorFlow, rekayasa fitur sering kali berarti mengonversi entri file log mentah menjadi buffering protokol tf.Example. Lihat juga tf.Transform.

set fitur

#fundamentals

Kumpulan fitur yang dilatih dengan model machine learning. Misalnya, kode pos, ukuran properti, dan kondisi properti mungkin terdiri dari set fitur sederhana untuk model yang memprediksi harga rumah.

vektor fitur

#fundamentals

Array nilai feature yang terdiri dari contoh. Vektor fitur adalah input selama pelatihan dan selama inferensi. Misalnya, vektor fitur untuk model dengan dua fitur diskret mungkin adalah:

[0.92, 0.56]

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan satu lapisan output.
Lapisan input berisi dua node, satu berisi nilai
0,92 dan satunya lagi berisi nilai 0,56.

Setiap contoh memiliki nilai yang berbeda untuk vektor fitur, sehingga vektor fitur untuk contoh berikutnya dapat berupa:

[0.73, 0.49]

Rekayasa fitur menentukan cara merepresentasikan fitur dalam vektor fitur. Misalnya, fitur kategoris biner dengan lima kemungkinan nilai dapat direpresentasikan dengan encoding one-hot. Dalam hal ini, bagian dari vektor fitur untuk contoh tertentu akan terdiri dari empat angka nol dan satu 1,0 di posisi ketiga, sebagai berikut:

[0.0, 0.0, 1.0, 0.0, 0.0]

Sebagai contoh lainnya, misalkan model Anda terdiri dari tiga fitur:

fitur kategoris biner dengan lima kemungkinan nilai yang diwakili dengan encoding one-hot; misalnya: [0.0, 1.0, 0.0, 0.0, 0.0]
fitur kategoris biner lainnya dengan tiga kemungkinan nilai yang diwakili dengan encoding one-hot; misalnya: [0.0, 0.0, 1.0]
fitur floating point; misalnya: 8.3.

Dalam hal ini, vektor fitur untuk setiap contoh akan direpresentasikan oleh sembilan nilai. Dengan mempertimbangkan contoh nilai dalam daftar sebelumnya, vektor fitur adalah:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Umpan balik

#fundamentals

Dalam machine learning, situasi ketika prediksi model memengaruhi data pelatihan untuk model yang sama atau model lain. Misalnya, model yang merekomendasikan film akan memengaruhi film yang ditonton orang, yang kemudian akan memengaruhi model rekomendasi film berikutnya.

G

generalisasi

#fundamentals

Kemampuan model untuk membuat prediksi yang benar pada data baru yang sebelumnya tidak terlihat. Model yang dapat melakukan generalisasi adalah kebalikan dari model yang overfit.

Klik ikon untuk catatan tambahan.

Anda melatih model berdasarkan contoh di set pelatihan. Akibatnya, model mempelajari keunikan data dalam set pelatihan. Generalisasi pada dasarnya menanyakan apakah model Anda dapat membuat prediksi yang baik pada contoh yang tidak ada dalam set pelatihan.

Untuk mendorong generalisasi, regularisasi membantu model melatih lebih sedikit keunikan data dalam set pelatihan.

kurva generalisasi

#fundamentals

Plot kehilangan pelatihan dan kehilangan validasi sebagai fungsi dari jumlah iterasi.

Kurva generalisasi dapat membantu Anda mendeteksi kemungkinan overfit. Misalnya, kurva generalisasi berikut menunjukkan overfit karena kerugian validasi pada akhirnya menjadi jauh lebih tinggi daripada kerugian pelatihan.

Grafik Kartesius dengan sumbu y diberi label 'kerugian' dan sumbu x
diberi label 'iterasi'. Dua plot muncul. Satu plot menunjukkan kerugian pelatihan dan yang lainnya menunjukkan kerugian validasi.
Kedua plot dimulai dengan cara yang sama, tetapi kerugian pelatihan pada akhirnya turun jauh lebih rendah daripada kerugian validasi.

penurunan gradien

#fundamentals

Teknik matematika untuk meminimalkan kerugian. Penurunan gradien secara berulang menyesuaikan bobot dan bias, sehingga secara bertahap menemukan kombinasi terbaik untuk meminimalkan kerugian.

Penurunan gradien lebih tua—jauh, jauh lebih tua—daripada machine learning.

kebenaran dasar

#fundamentals

Realitas.

Hal yang benar-benar terjadi.

Misalnya, pertimbangkan model klasifikasi biner yang memprediksi apakah siswa di tahun pertama universitas akan lulus dalam waktu enam tahun. Kebenaran dasar model ini adalah apakah siswa tersebut benar-benar lulus dalam waktu enam tahun atau tidak.

Klik ikon untuk catatan tambahan.

Kami menilai kualitas model berdasarkan kebenaran dasar. Namun, kebenaran dasar tidak selalu sepenuhnya benar. Misalnya, pertimbangkan contoh berikut tentang potensi ketidaksempurnaan dalam kebenaran dasar:

Dalam contoh kelulusan, apakah kita yakin bahwa catatan kelulusan untuk setiap siswa selalu benar? Apakah pencatatan data universitas ini sempurna?
Misalkan label adalah nilai floating point yang diukur oleh instrumen (misalnya, barometer). Bagaimana kita dapat memastikan bahwa setiap instrumen dikalibrasi secara identik atau bahwa setiap pembacaan diambil dengan situasi yang sama?
Jika label ini merupakan opini manusia, bagaimana kita memastikan bahwa setiap pelabel manusia mengevaluasi peristiwa dengan cara yang sama? Untuk meningkatkan konsistensi, pelabel manual ahli terkadang ikut mengintervensi.

H

Lapisan tersembunyi

#fundamentals

Lapisan dalam jaringan neural di antara lapisan input (fitur) dan lapisan output (prediksi). Setiap lapisan tersembunyi terdiri dari satu atau beberapa neuron. Misalnya, jaringan neural berikut berisi dua lapisan tersembunyi, lapisan pertama berisi tiga neuron, dan lapisan kedua berisi dua neuron:

Jaringan neural dalam berisi lebih dari satu lapisan tersembunyi. Misalnya, ilustrasi sebelumnya adalah jaringan deep neural karena model berisi dua lapisan tersembunyi.

hyperparameter

#fundamentals

Variabel yang Anda atau layanan penyesuaian hyperparameterdisesuaikan selama berturut-turut pelatihan model. Misalnya, kecepatan pembelajaran adalah hyperparameter. Anda dapat menetapkan kecepatan pembelajaran ke 0,01 sebelum satu sesi pelatihan. Jika Anda menentukan bahwa 0,01 terlalu tinggi, Anda mungkin dapat menetapkan kecepatan pembelajaran ke 0,003 untuk sesi pelatihan berikutnya.

Sebaliknya, parameter adalah berbagai bobot dan bias yang dipelajari oleh model selama pelatihan.

I

terdistribusi secara independen dan identik (i.i.d)

#fundamentals

Data diambil dari distribusi yang tidak berubah, dan setiap nilai yang diambil tidak bergantung pada nilai yang telah digambar sebelumnya. I.i.d. adalah gas ideal machine learning—sebuah konstruksi matematika yang berguna, tetapi hampir tidak pernah benar-benar ditemukan di dunia nyata. Misalnya, distribusi pengunjung ke halaman web dapat dilakukan pada jangka waktu singkat; yaitu, distribusi tidak berubah selama periode singkat tersebut dan kunjungan satu orang umumnya tidak bergantung pada kunjungan orang lain. Namun, jika Anda memperluas jangka waktu tersebut, perbedaan musiman pada pengunjung halaman web dapat muncul.

Lihat juga nonstasioneritas.

inferensi

#fundamentals

Dalam machine learning, proses pembuatan prediksi dengan menerapkan model terlatih ke contoh tak berlabel.

Inferensi memiliki arti yang agak berbeda dalam statistik. Lihat artikel Wikipedia tentang inferensi statistik untuk mengetahui detailnya.

Lapisan input

#fundamentals

Lapisan dari jaringan neural yang menyimpan vektor fitur. Artinya, lapisan input memberikan contoh untuk pelatihan atau inferensi. Misalnya, lapisan input dalam jaringan neural berikut terdiri dari dua fitur:

Empat lapisan: lapisan input, dua lapisan tersembunyi, dan lapisan output.

interpretabilitas

#fundamentals

Kemampuan untuk menjelaskan atau menyajikan alasan model ML dalam istilah yang dapat dipahami kepada manusia.

Sebagian besar model regresi linear, misalnya, sangat dapat diinterpretasikan. (Anda hanya perlu melihat bobot terlatih untuk setiap fitur.) Hutan keputusan juga sangat mudah ditafsirkan. Namun, beberapa model memerlukan visualisasi yang canggih agar dapat diinterpretasikan.

Anda dapat menggunakan Learning Interpretability Tool (LIT) untuk menafsirkan model ML.

iterasi

#fundamentals

Pembaruan tunggal parameter model—bobot dan bias model—selama pelatihan. Ukuran tumpukan menentukan jumlah contoh yang diproses oleh model dalam satu iterasi. Misalnya, jika ukuran tumpukan adalah 20, model akan memproses 20 contoh sebelum menyesuaikan parameter.

Saat melatih jaringan neural, satu iterasi akan melibatkan dua penerusan berikut:

Forward pass untuk mengevaluasi kerugian di satu batch.
Tahap mundur (propagasi mundur) untuk menyesuaikan parameter model berdasarkan kerugian dan kecepatan pemelajaran.

L

Regularisasi L₀

#fundamentals

Jenis regularisasi yang menghukum jumlah total bobot bukan nol dalam model. Misalnya, model yang memiliki 11 bobot bukan nol akan mendapat sanksi lebih besar daripada model serupa yang memiliki 10 bobot bukan nol.

Regularisasi L₀ terkadang disebut regularisasi norm L0.

Klik ikon untuk catatan tambahan.

Regularisasi L₀ umumnya tidak praktis dalam model besar karena regularisasi L₀ mengubah pelatihan menjadi masalah pengoptimalan konveks.

Kalah L₁

#fundamentals

Fungsi kerugian yang menghitung nilai absolut perbedaan antara nilai label sebenarnya dan nilai yang diprediksi oleh model. Misalnya, berikut adalah perhitungan kerugian L₁ untuk batch dari lima contoh:

Nilai sebenarnya dari contoh	Prediksi nilai model	Nilai absolut delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ loss

Kerugian L₁ kurang sensitif terhadap outlier daripada kerugian L₂.

Error Absolut Rata-Rata adalah kerugian L₁ rata-rata per contoh.

Klik ikon untuk melihat matematika formal.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

dalam hal ini:

$n$ adalah jumlah contoh.
$y$ adalah nilai label sebenarnya.
$\hat{y}$ adalah nilai yang diprediksi model untuk $y$.

Regularisasi L₁

#fundamentals

Jenis regularisasi yang menghukum bobot secara proporsional dengan jumlah nilai absolut bobot. Regularisasi L₁ membantu mendorong bobot fitur yang tidak relevan atau yang kurang relevan menjadi persis 0. Fitur dengan bobot 0 dihapus secara efektif dari model.

Berbeda dengan regularisasi L₂.

Turun L₂

#fundamentals

Fungsi kerugian yang menghitung kuadrat perbedaan antara nilai label sebenarnya dan nilai yang diprediksi oleh model. Misalnya, berikut adalah perhitungan kerugian L₂ untuk batch dari lima contoh:

Nilai sebenarnya dari contoh	Prediksi nilai model	Kuadrat delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ loss

Karena kuadrat, kerugian L₂ memperkuat pengaruh outlier. Artinya, kerugian L₂ bereaksi lebih kuat terhadap prediksi buruk daripada kerugian L₁. Misalnya, loss L₁ untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu {i>outlier <i} menyumbang 9 dari 16.

Model regresi biasanya menggunakan kerugian L₂ sebagai fungsi kerugian.

Rataan Kuadrat Error adalah kerugian L₂ rata-rata per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L₂.

Klik ikon untuk melihat matematika formal.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

dalam hal ini:

$n$ adalah jumlah contoh.
$y$ adalah nilai label sebenarnya.
$\hat{y}$ adalah nilai yang diprediksi model untuk $y$.

Regularisasi L₂

#fundamentals

Jenis regularisasi yang menghukum bobot secara proporsional dengan jumlah persegi bobot. Regularisasi L₂ membantu mendorong bobot outlier (dengan nilai positif tinggi atau negatif rendah) mendekati 0, tetapi tidak cukup ke 0. Fitur dengan nilai yang sangat mendekati 0 tetap berada dalam model, tetapi tidak terlalu memengaruhi prediksi model.

Regularisasi L₂ selalu meningkatkan generalisasi dalam model linear.

Berbeda dengan regularisasi L₁.

label

#fundamentals

Di supervised machine learning, bagian "jawaban" atau "hasil" dari contoh.

Setiap contoh berlabel terdiri dari satu atau beberapa fitur dan label. Misalnya, dalam set data deteksi spam, labelnya mungkin berupa "spam" atau "bukan spam". Dalam set data curah hujan, label mungkin berupa jumlah curah hujan yang turun selama periode tertentu.

contoh berlabel

#fundamentals

Contoh yang berisi satu atau beberapa fitur dan label. Misalnya, tabel berikut menunjukkan tiga contoh berlabel dari model valuasi rumah, masing-masing dengan tiga fitur dan satu label:

Jumlah kamar	Jumlah kamar mandi	Usia rumah	Harga rumah (label)
3	2	15	$345.000
2	1	72	$179.000
4	2	34	$392.000

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Kontras contoh berlabel dengan contoh tak berlabel.

lambda

#fundamentals

Sinonim dari derajat regularisasi.

Lambda adalah istilah yang berlebihan. Di sini kita berfokus pada definisi istilah dalam regularisasi.

lapisan

#fundamentals

Kumpulan neuron dalam jaringan neural. Tiga jenis lapisan umum adalah sebagai berikut:

Lapisan input, yang memberikan nilai untuk semua fitur.
Satu atau beberapa lapisan tersembunyi, yang menemukan hubungan nonlinear antara fitur dan label.
Lapisan output, yang memberikan prediksi.

Misalnya, ilustrasi berikut menunjukkan jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu lapisan output:

Jaringan neural dengan satu lapisan input, dua lapisan tersembunyi, dan satu
lapisan output. Lapisan input terdiri dari dua fitur. Lapisan tersembunyi pertama terdiri dari tiga neuron dan lapisan tersembunyi kedua terdiri dari dua neuron. Lapisan output terdiri dari satu node.

Di TensorFlow, lapisan juga merupakan fungsi Python yang menggunakan Tensor dan opsi konfigurasi sebagai input dan menghasilkan tensor lain sebagai output.

kecepatan pembelajaran

#fundamentals

Bilangan floating point yang memberi tahu algoritma penurunan gradien seberapa kuat penyesuaian bobot dan bias pada setiap iterasi. Misalnya, kecepatan pembelajaran 0,3 akan menyesuaikan bobot dan bias tiga kali lebih kuat daripada kecepatan pembelajaran 0,1.

Kecepatan pembelajaran adalah hyperparameter utama. Jika Anda menetapkan kecepatan pembelajaran terlalu rendah, pelatihan akan memakan waktu terlalu lama. Jika Anda menetapkan kecepatan pemelajaran terlalu tinggi, penurunan gradien sering kali mengalami kesulitan dalam mencapai konvergensi.

Klik ikon untuk mendapatkan penjelasan yang lebih matematis.

Selama setiap iterasi, algoritma penurunan gradien mengalikan kecepatan pembelajaran dengan gradien. Produk yang dihasilkan disebut langkah gradien.

linier

#fundamentals

Hubungan antara dua variabel atau lebih yang dapat direpresentasikan hanya melalui penjumlahan dan perkalian.

Plot hubungan linear adalah sebuah garis.

Berbeda dengan nonlinear.

model linear

#fundamentals

model yang menetapkan satu model per model untuk membuat model. (Model linear juga menggabungkan bias.) Sebaliknya, hubungan fitur dengan prediksi dalam model dalam umumnya nonlinear.

Model linear biasanya lebih mudah dilatih dan lebih dapat ditafsirkan daripada model dalam. Namun, model mendalam dapat mempelajari hubungan yang kompleks antar fitur.

Regresi linear dan regresi logistik adalah dua jenis model linear.

Klik ikon untuk melihat perhitungan.

Model linear mengikuti formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

dalam hal ini:

y' adalah prediksi mentah. (Pada jenis model linear tertentu, prediksi mentah ini akan dimodifikasi lebih lanjut. Misalnya, lihat regresi logistik.)
b adalah bias.
w adalah bobot, jadi w₁ adalah bobot fitur pertama, w₂ adalah bobot fitur kedua, dan seterusnya.
x adalah fitur, jadi x₁ adalah nilai fitur pertama, x₂ adalah nilai fitur kedua, dan seterusnya.

Misalnya, model linear untuk tiga fitur mempelajari bias dan bobot berikut:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Oleh karena itu, dengan tiga fitur (x₁, x₂, dan x₃), model linear menggunakan persamaan berikut untuk menghasilkan setiap prediksi:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Misalnya contoh tertentu berisi nilai-nilai berikut:

x₁ = 4
x₂ = -10
x₃ = 5

Memasukkan nilai tersebut ke dalam formula akan menghasilkan prediksi untuk contoh ini:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Model linear mencakup tidak hanya model yang hanya menggunakan persamaan linear untuk membuat prediksi, tetapi juga kumpulan model yang lebih luas yang menggunakan persamaan linear hanya sebagai salah satu komponen formula yang membuat prediksi. Misalnya, regresi logistik setelah memproses prediksi mentah (y') untuk menghasilkan nilai prediksi akhir antara 0 dan 1, secara eksklusif.

regresi linear

#fundamentals

Jenis model machine learning yang memenuhi kedua hal berikut:

Model ini adalah model linear.
Prediksi adalah nilai floating point. (Ini adalah bagian regresi dari regresi linear.)

Bandingkan regresi linear dengan regresi logistik. Selain itu, perbedaankan regresi dengan klasifikasi.

regresi logistik

#fundamentals

Jenis model regresi yang memprediksi probabilitas. Model regresi logistik memiliki karakteristik berikut:

Labelnya bersifat kategoris. Istilah regresi logistik biasanya mengacu pada regresi logistik biner, yaitu, untuk model yang menghitung probabilitas label dengan dua kemungkinan nilai. Varian yang kurang umum, regresi logistik multinomial, menghitung probabilitas untuk label yang memiliki lebih dari dua kemungkinan nilai.
Fungsi kerugian selama pelatihan adalah Kerugian Log. (Beberapa unit Kerugian Log dapat ditempatkan secara paralel untuk label yang memiliki lebih dari dua kemungkinan nilai.)
Model memiliki arsitektur linear, bukan jaringan neural dalam. Namun, bagian lain dari definisi ini juga berlaku untuk model dalam yang memprediksi probabilitas untuk label kategoris.

Misalnya, pertimbangkan model regresi logistik yang menghitung probabilitas email input merupakan spam atau bukan spam. Selama inferensi, misalkan model memprediksi 0,72. Oleh karena itu, model ini memperkirakan:

Kemungkinan email tersebut adalah spam sebesar 72%.
Kemungkinan email bukan spam adalah 28%.

Model regresi logistik menggunakan arsitektur dua langkah berikut:

Model ini menghasilkan prediksi mentah (y') dengan menerapkan fungsi linear fitur input.
Model ini menggunakan prediksi mentah tersebut sebagai input untuk fungsi sigmoid, yang mengonversi prediksi mentah menjadi nilai antara 0 dan 1, secara eksklusif.

Seperti model regresi lainnya, model regresi logistik memprediksi angka. Namun, angka ini biasanya menjadi bagian dari model klasifikasi biner sebagai berikut:

Jika angka yang diprediksi lebih besar dari nilai minimum klasifikasi, model klasifikasi biner akan memprediksi kelas positif.
Jika angka yang diprediksi kurang dari batas klasifikasi, model klasifikasi biner akan memprediksi kelas negatif.

Kerugian Log

#fundamentals

Fungsi kerugian yang digunakan dalam regresi logistik biner.

Klik ikon untuk melihat perhitungan.

Formula berikut menghitung Kerugian Log:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

dalam hal ini:

$(x,y)\in D$ adalah set data yang berisi banyak contoh berlabel, yang merupakan $(x,y)$ pasangan.
$y$ adalah label dalam contoh berlabel. Karena ini adalah regresi logistik, setiap nilai $y$ harus 0 atau 1.
$y'$ adalah nilai yang diprediksi (antara 0 dan 1, eksklusif), mengingat serangkaian fitur di $x$.

log-peluang

#fundamentals

Logaritma peluang beberapa peristiwa.

Klik ikon untuk melihat perhitungan.

Jika peristiwa adalah probabilitas biner, peluang mengacu pada rasio probabilitas keberhasilan (p) terhadap probabilitas kegagalan (1-p). Misalnya, anggaplah peristiwa tertentu memiliki probabilitas keberhasilan sebesar 90% dan probabilitas kegagalan sebesar 10%. Dalam hal ini, peluang dihitung sebagai berikut:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Log-peluang hanyalah logaritma dari peluang. Berdasarkan konvensi, "logaritma" mengacu pada logaritma natural, tetapi logaritma sebenarnya bisa berupa basis apa pun yang lebih besar dari 1. Berpegang pada konvensi, log-peluang dari contoh kita adalah:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Fungsi log-odds adalah kebalikan dari fungsi sigmoid.

kalah

#fundamentals

Selama pelatihan dari model yang diawasi, ukuran seberapa jauh prediksi model dari label-nya.

Fungsi kerugian menghitung kerugian.

kurva loss

#fundamentals

Plot kerugian sebagai fungsi dari jumlah iterasi pelatihan. Plot berikut menunjukkan kurva kerugian yang umum:

Grafik kerugian versus iterasi pelatihan Kartesius, yang menunjukkan penurunan kerugian yang cepat untuk iterasi awal, diikuti dengan penurunan bertahap, lalu kemiringan datar selama iterasi akhir.

Kurva penurunan dapat membantu Anda menentukan kapan model Anda konvergen atau overfit.

Kurva kerugian dapat menggambarkan semua jenis kerugian berikut:

kehilangan pelatihan
kehilangan validasi
kerugian pengujian

Lihat juga kurva generalisasi.

fungsi loss

#fundamentals

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada batch contoh. Fungsi kerugian menampilkan kerugian yang lebih rendah untuk model yang membuat prediksi baik daripada untuk model yang membuat prediksi yang buruk.

Tujuan pelatihan biasanya adalah untuk meminimalkan kerugian yang dihasilkan oleh fungsi kerugian.

Ada berbagai jenis fungsi kerugian. Pilih fungsi loss yang sesuai untuk jenis model yang Anda build. Contoh:

Kerugian L₂ (atau Rata-rata Kuadrat Galat) adalah fungsi kerugian untuk regresi linear.
Kerugian Log adalah fungsi kerugian untuk regresi logistik.

S

machine learning

#fundamentals

Program atau sistem yang melatih sebuah model dari data input. Model yang dilatih dapat membuat prediksi yang berguna dari data baru (yang belum pernah dilihat sebelumnya) yang diambil dari distribusi yang sama dengan yang digunakan untuk melatih model.

Machine learning juga mengacu pada bidang studi yang berkaitan dengan program atau sistem ini.

kelas mayoritas

#fundamentals

Label yang lebih umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi label negatif 99% dan label positif 1%, label negatif adalah kelas mayoritas.

Berbeda dengan kelas minoritas.

tumpukan mini

#fundamentals

Subset kecil yang dipilih secara acak dari batch yang diproses dalam satu iterasi. Ukuran tumpukan dari tumpukan mini biasanya antara 10 dan 1.000 contoh.

Misalnya, seluruh set pelatihan (batch penuh) terdiri dari 1.000 contoh. Selanjutnya, misalkan Anda menetapkan ukuran tumpukan untuk setiap tumpukan mini ke 20. Oleh karena itu, setiap iterasi menentukan kerugian pada 20 acak dari 1.000 contoh,lalu menyesuaikan bobot dan bias sebagaimana mestinya.

Jauh lebih efisien untuk menghitung kerugian pada batch mini daripada kerugian pada semua contoh dalam batch penuh.

kelas minoritas

#fundamentals

Label yang kurang umum dalam set data kelas tidak seimbang. Misalnya, dalam set data yang berisi label negatif 99% dan label positif 1%, label positif adalah kelas minoritas.

Berbeda dengan class utama.

Klik ikon untuk catatan tambahan.

Set pelatihan dengan jutaan contoh terdengar sangat mengesankan. Namun, jika kelas minoritas tidak terwakili dengan baik, bahkan set pelatihan yang sangat besar pun mungkin tidak cukup. Fokus lebih sedikit pada jumlah total contoh dalam set data dan lebih fokus pada jumlah contoh di kelas minoritas.

Jika set data Anda tidak berisi contoh class minoritas yang memadai, sebaiknya gunakan downsampling (definisi dalam butir kedua) untuk melengkapi class minoritas.

model

#fundamentals

Secara umum, setiap konstruksi matematis yang memproses data input dan menampilkan output. Dengan kata lain, model adalah kumpulan parameter dan struktur yang diperlukan sistem untuk membuat prediksi. Di supervised machine learning, model menggunakan contoh sebagai input dan menyimpulkan prediksi sebagai output. Dalam supervised machine learning, modelnya agak berbeda. Contoh:

Model regresi linear terdiri dari kumpulan bobot dan bias.
Model jaringan neural terdiri dari:
- Kumpulan lapisan tersembunyi, masing-masing berisi satu atau beberapa neuron.
- Bobot dan bias yang terkait dengan setiap neuron.
Model hierarki keputusan terdiri dari:
- Bentuk pohon; yaitu pola yang menghubungkan kondisi dan daun.
- Kondisi dan berangkat.

Anda dapat menyimpan, memulihkan, atau membuat salinan model.

Unsupervised machine learning juga menghasilkan model, biasanya fungsi yang dapat memetakan contoh input ke cluster yang paling sesuai.

Klik ikon untuk membandingkan fungsi aljabar dan pemrograman dengan model ML.

Fungsi aljabar seperti berikut adalah model:

  f(x, y) = 3x -5xy + y² + 17

Fungsi sebelumnya memetakan nilai input (x dan y) ke output.

Demikian pula, fungsi pemrograman seperti berikut juga merupakan model:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Pemanggil meneruskan argumen ke fungsi Python sebelumnya, dan fungsi Python menghasilkan output (melalui pernyataan return).

Meskipun jaringan neural dalam memiliki struktur matematika yang sangat berbeda dengan fungsi aljabar atau pemrograman, jaringan neural dalam tetap mengambil input (contoh) dan menampilkan output (prediksi).

Programmer manusia membuat kode fungsi pemrograman secara manual. Sebaliknya, model machine learning secara bertahap mempelajari parameter yang optimal selama pelatihan otomatis.

klasifikasi multi-kelas

#fundamentals

Dalam supervised learning, masalah klasifikasi yang set datanya berisi lebih dari dua class label. Misalnya, label dalam set data Iris harus merupakan salah satu dari tiga class berikut:

Iris setosa
Iris Virginica
Versicolor iris

Model yang dilatih pada set data Iris yang memprediksi jenis Iris pada contoh baru adalah melakukan klasifikasi multi-kelas.

Sebaliknya, masalah klasifikasi yang membedakan persis dua class adalah model klasifikasi biner. Misalnya, model email yang memprediksi spam atau bukan spam adalah model klasifikasi biner.

Dalam masalah pengklasteran, klasifikasi multi-class mengacu pada lebih dari dua klaster.

N

kelas negatif

#fundamentals

Dalam klasifikasi biner, satu kelas disebut positif dan kelas lainnya disebut negatif. Class positif adalah hal atau peristiwa yang diuji oleh model dan class negatif adalah kemungkinan lainnya. Contoh:

Kelas negatif dalam tes medis mungkin "bukan tumor".
Kelas negatif dalam pengklasifikasi email mungkin "bukan spam".

Berbeda dengan kelas positif.

alur maju

#fundamentals

model yang berisi setidaknya satu model. Jaringan neural dalam adalah jenis jaringan neural yang berisi lebih dari satu lapisan tersembunyi. Misalnya, diagram berikut menunjukkan jaringan neural dalam yang berisi dua lapisan tersembunyi.

Jaringan neural dengan lapisan input, dua lapisan tersembunyi, dan
lapisan output.

Setiap neuron dalam jaringan neural terhubung ke semua node di lapisan berikutnya. Misalnya, pada diagram sebelumnya, perhatikan bahwa masing-masing dari tiga neuron di lapisan tersembunyi pertama terhubung secara terpisah ke kedua neuron dalam lapisan tersembunyi kedua.

Jaringan neural yang diterapkan di komputer terkadang disebut jaringan neural buatan untuk membedakannya dari jaringan saraf yang ada di otak dan sistem saraf lainnya.

Beberapa jaringan neural dapat meniru hubungan nonlinear yang sangat kompleks antara fitur dan label yang berbeda.

Lihat juga jaringan neural konvolusional dan jaringan neural berulang.

neuron

#fundamentals

Dalam machine learning, unit yang berbeda dalam lapisan tersembunyi dari jaringan neural. Setiap neuron melakukan tindakan dua langkah berikut:

Menghitung jumlah terbobot dari nilai input dikalikan dengan bobot yang sesuai.
Meneruskan jumlah berbobot sebagai input ke fungsi aktivasi.

Neuron di lapisan tersembunyi pertama menerima input dari nilai fitur dalam lapisan input. Neuron di lapisan tersembunyi mana pun selain yang pertama menerima input dari neuron dalam lapisan tersembunyi sebelumnya. Misalnya, neuron di lapisan tersembunyi kedua menerima input dari neuron di lapisan tersembunyi pertama.

Ilustrasi berikut menyoroti dua neuron dan inputnya.

Neuron di jaringan neural meniru perilaku neuron di otak dan bagian lain dari sistem saraf.

{i>node<i} (jaringan neural)

#fundamentals

neuron di lapisan tersembunyi.

nonlinear

#fundamentals

Hubungan antara dua variabel atau lebih yang tidak dapat dinyatakan hanya melalui penjumlahan dan perkalian. Hubungan linear dapat direpresentasikan sebagai garis; hubungan nonlinear tidak dapat direpresentasikan sebagai garis. Misalnya, bayangkan dua model yang masing-masing menghubungkan satu fitur dengan satu label. Model di sebelah kiri adalah linear, dan model di sebelah kanan adalah nonlinear:

Dua plot. Satu plot adalah garis, jadi ini adalah hubungan linear.
Plot lainnya adalah kurva, jadi ini adalah hubungan nonlinear.

nonstasioneritas

#fundamentals

Fitur yang nilainya berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, perhatikan contoh nonstasioneritas berikut:

Jumlah pakaian renang yang dijual di toko tertentu bervariasi menurut musim.
Jumlah buah tertentu yang dipanen di wilayah tertentu adalah nol untuk sebagian besar tahun, tetapi besar dalam jangka waktu yang singkat.
Akibat perubahan iklim, suhu rata-rata tahunan bergeser.

Berbeda dengan stasioneritas.

normalisasi

#fundamentals

Secara garis besar, proses mengonversi rentang nilai variabel yang sebenarnya menjadi rentang nilai standar, seperti:

-1 hingga +1
0 hingga 1
distribusi normal

Misalnya, anggaplah rentang nilai aktual fitur tertentu adalah 800 hingga 2.400. Sebagai bagian dari rekayasa fitur, Anda dapat menormalisasi nilai sebenarnya ke rentang standar, seperti -1 hingga +1.

Normalisasi adalah tugas umum dalam rekayasa fitur. Model biasanya berlatih lebih cepat (dan menghasilkan prediksi yang lebih baik) ketika setiap fitur numerik dalam vektor fitur memiliki rentang yang kurang lebih sama.

data numerik

#fundamentals

Fitur direpresentasikan sebagai bilangan bulat atau angka bernilai riil. Misalnya, model valuasi rumah mungkin akan mewakili ukuran rumah (dalam kaki persegi atau meter persegi) sebagai data numerik. Merepresentasikan fitur sebagai data numerik menunjukkan bahwa nilai fitur memiliki hubungan matematika dengan label. Artinya, jumlah meter persegi di rumah mungkin memiliki beberapa hubungan matematika dengan nilai rumah.

Tidak semua data integer harus direpresentasikan sebagai data numerik. Misalnya, kode pos di beberapa bagian dunia adalah bilangan bulat; namun, kode pos bilangan bulat tidak boleh direpresentasikan sebagai data numerik dalam model. Hal ini karena kode pos 20000 tidak dua kali (atau setengah) sama kuatnya dengan kode pos 10000. Selain itu, meskipun kode pos yang berbeda benar-benar berkorelasi dengan nilai real estate yang berbeda, kita tidak dapat berasumsi bahwa nilai real estate pada kode pos 20000 dua kali lebih berharga dibandingkan nilai real estate pada kode pos 10000. Kode pos harus direpresentasikan sebagai data kategoris.

Fitur numerik terkadang disebut fitur berkelanjutan.

O

offline

#fundamentals

Sinonim untuk statis.

inferensi offline

#fundamentals

Proses model yang menghasilkan sekumpulan prediksi, kemudian meng-cache (menyimpan) prediksi tersebut. Selanjutnya, aplikasi dapat mengakses prediksi yang diinginkan dari cache, bukan menjalankan ulang model.

Misalnya, pertimbangkan model yang menghasilkan prakiraan cuaca lokal (prediksi) sekali setiap empat jam. Setelah setiap model berjalan, sistem akan menyimpan semua prakiraan cuaca lokal ke dalam cache. Aplikasi cuaca mengambil prakiraan dari cache.

Inferensi offline juga disebut inferensi statis.

Berbeda dengan inferensi online.

encoding one-hot

#fundamentals

Merepresentasikan data kategoris sebagai vektor di mana:

Satu elemen ditetapkan ke 1.
Semua elemen lainnya ditetapkan ke 0.

Enkode satu-hot biasanya digunakan untuk merepresentasikan string atau ID yang memiliki kemungkinan rangkaian nilai yang terbatas. Misalnya, fitur kategoris tertentu bernama Scandinavia memiliki lima kemungkinan nilai:

"Denmark"
"Swedia"
"Norwegia"
"Finlandia"
"Islandia"

Encoding one-hot dapat mewakili kelima nilai sebagai berikut:

country	Vektor
"Denmark"	1	0	0	0	0
"Swedia"	0	1	0	0	0
"Norwegia"	0	0	1	0	0
"Finlandia"	0	0	0	1	0
"Islandia"	0	0	0	0	1

Berkat encoding one-hot, model dapat mempelajari koneksi yang berbeda berdasarkan masing-masing dari lima negara.

Merepresentasikan fitur sebagai data numerik adalah alternatif encoding one-hot. Sayangnya, merepresentasikan negara-negara Skandinavia secara numerik bukanlah pilihan yang baik. Misalnya, perhatikan representasi numerik berikut:

"Denmark" adalah 0
"Swedia" adalah 1
"Norwegia" adalah 2
"Finlandia" adalah 3
"Islandia" adalah 4

Dengan encoding numerik, model akan menafsirkan angka mentah secara matematis dan akan mencoba melatih angka tersebut. Namun, Islandia sebenarnya tidak dua kali (atau setengah dari) sesuatu dari Norwegia, sehingga model ini akan sampai pada beberapa kesimpulan yang aneh.

satu-vs.-semua

#fundamentals

Dalam masalah klasifikasi dengan class N, solusi yang terdiri dari N pengklasifikasi biner terpisah—satu pengklasifikasi biner untuk setiap kemungkinan hasil. Misalnya, dalam model yang mengklasifikasikan contoh sebagai hewan, sayuran, atau mineral, solusi satu vs. semua akan memberikan tiga pengklasifikasi biner terpisah berikut:

hewan vs. bukan hewan
sayuran vs. bukan sayuran
mineral vs. bukan mineral

online

#fundamentals

Sinonim untuk dinamis.

inferensi online

#fundamentals

Menghasilkan prediksi sesuai permintaan. Misalnya, anggaplah sebuah aplikasi meneruskan input ke model dan mengeluarkan permintaan untuk prediksi. Sistem yang menggunakan inferensi online merespons permintaan dengan menjalankan model (dan menampilkan prediksi ke aplikasi).

Berbeda dengan inferensi offline.

Lapisan output

#fundamentals

Lapisan "terakhir" dari jaringan neural. Lapisan output berisi prediksi.

Ilustrasi berikut menunjukkan jaringan neural dalam yang kecil dengan lapisan input, dua lapisan tersembunyi, dan lapisan output:

overfit

#fundamentals

Membuat model yang sangat cocok dengan data pelatihan sehingga model gagal membuat prediksi yang benar pada data baru.

Regularisasi dapat mengurangi overfit. Pelatihan dengan set pelatihan yang besar dan beragam juga dapat mengurangi overfit.

Klik ikon untuk catatan tambahan.

Overfit sama seperti mengikuti saran secara ketat hanya dari pengajar favorit Anda. Anda mungkin akan berhasil di kelas pengajar tersebut, tetapi Anda mungkin terlalu "berlebihan" terhadap ide-ide pengajar tersebut dan tidak berhasil di kelas lain. Mengikuti saran dari sekelompok pengajar akan membuat Anda dapat beradaptasi dengan lebih baik dengan situasi baru.

P

pandas

#fundamentals

API analisis data berorientasi kolom yang di-build berdasarkan numpy. Banyak framework machine learning, termasuk TensorFlow, mendukung struktur data pandas sebagai input. Lihat dokumentasi pandas untuk mengetahui detailnya.

parameter

#fundamentals

Bobot dan bias yang dipelajari model selama pelatihan. Misalnya, dalam model regresi linear, parameter terdiri dari bias (b) dan semua bobot (w₁, w₂, dan seterusnya) dalam formula berikut:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Sebaliknya, hyperparameter adalah nilai yang Anda (atau layanan perubahan hyperparameter) yang diberikan ke model. Misalnya, kecepatan pembelajaran adalah hyperparameter.

kelas positif

#fundamentals

Kelas yang sedang Anda uji.

Misalnya, kelas positif dalam model kanker mungkin adalah "tumor". Kelas positif dalam pengklasifikasi email mungkin adalah "spam".

Berbeda dengan kelas negatif.

Klik ikon untuk catatan tambahan.

Istilah kelas positif dapat membingungkan karena hasil "positif" dari banyak pengujian sering kali merupakan hasil yang tidak diinginkan. Misalnya, kelas positif di banyak tes medis terkait dengan tumor atau penyakit. Secara umum, Anda ingin dokter mengatakan kepada Anda, "Selamat! Hasil tes Anda negatif." Terlepas dari itu, class positif adalah peristiwa yang ingin ditemukan oleh pengujian.

Perlu diakui, Anda melakukan pengujian untuk class positif dan negatif secara bersamaan.

pascapemrosesan

#fairness

#fundamentals

Menyesuaikan output model setelah model dijalankan. Pasca-pemrosesan dapat digunakan untuk menerapkan batasan keadilan tanpa mengubah model itu sendiri.

Misalnya, seseorang dapat menerapkan pascapemrosesan ke pengklasifikasi biner dengan menetapkan batas klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa bahwa rasio positif benar sama untuk semua nilai atribut tersebut.

prediksi

#fundamentals

Output model. Contoh:

Prediksi model klasifikasi biner adalah kelas positif atau kelas negatif.
Prediksi model klasifikasi multi-class adalah satu class.
Prediksi model regresi linear adalah angka.

label proxy

#fundamentals

Data yang digunakan untuk memperkirakan label yang tidak tersedia secara langsung dalam set data.

Misalnya, Anda harus melatih sebuah model untuk memprediksi tingkat stres karyawan. Set data Anda berisi banyak fitur prediktif, tetapi tidak berisi label bernama level stres. Baik, Anda memilih "kecelakaan di tempat kerja" sebagai label proxy untuk tingkat stres. Lagi pula, karyawan yang mengalami stres tinggi lebih banyak mengalami lebih banyak kecelakaan daripada karyawan yang tenang. Atau mereka? Mungkin kecelakaan di tempat kerja dapat naik turun karena berbagai alasan.

Sebagai contoh kedua, misalkan Anda ingin apakah hujan? menjadi label Boolean untuk set data Anda, tetapi set data Anda tidak berisi data hujan. Jika foto tersedia, Anda dapat membuat gambar orang yang membawa payung sebagai label proxy untuk apakah hujan? Apakah itu label {i> proxy<i} yang baik? Mungkin, tetapi orang-orang di beberapa budaya mungkin lebih mungkin membawa payung untuk melindungi dari sinar matahari daripada hujan.

Label {i>proxy<i} sering kali tidak sempurna. Jika memungkinkan, pilih label sebenarnya daripada label proxy. Meskipun begitu, ketika label sebenarnya tidak ada, pilih label proxy dengan sangat hati-hati, dengan memilih kandidat label proxy yang paling tidak buruk.

R

pelabel

#fundamentals

Manusia yang memberikan label untuk contoh. "Annotator" adalah nama lain untuk pelabel.

Unit Linear Terarah (ReLU)

#fundamentals

Fungsi aktivasi dengan perilaku berikut:

Jika input negatif atau nol, maka outputnya adalah 0.
Jika input bernilai positif, maka output-nya sama dengan input-nya.

Contoh:

Jika inputnya adalah -3, maka output-nya adalah 0.
Jika inputnya +3, maka output-nya adalah 3,0.

Berikut adalah plot ULT:

ULT adalah fungsi aktivasi yang sangat populer. Meskipun perilakunya sederhana, ReLU masih memungkinkan jaringan neural untuk mempelajari hubungan nonlinear antara fitur dan label.

model regresi

#fundamentals

Secara informal, model yang menghasilkan prediksi numerik. (Sebaliknya, model klasifikasi menghasilkan prediksi class.) Misalnya, berikut adalah semua model regresi:

Model yang memprediksi nilai rumah tertentu, seperti 423.000 Euro.
Model yang memprediksi harapan hidup pohon tertentu, seperti 23,2 tahun.
Model yang memprediksi jumlah hujan yang akan turun di kota tertentu selama enam jam ke depan, misalnya 0,18 inci.

Dua jenis model regresi yang umum adalah:

Regresi linear, yang menemukan garis yang paling sesuai dengan nilai label ke fitur.
Regresi logistik, yang menghasilkan probabilitas antara 0,0 dan 1,0 yang biasanya dipetakan sistem ke prediksi class.

Tidak semua model yang menghasilkan prediksi numerik merupakan model regresi. Dalam beberapa kasus, prediksi numerik sebenarnya hanyalah model klasifikasi yang kebetulan memiliki nama class numerik. Misalnya, model yang memprediksi kode pos numerik adalah model klasifikasi, bukan model regresi.

regularisasi

#fundamentals

Mekanisme apa pun yang mengurangi overfit. Jenis regularisasi yang populer mencakup:

Regularisasi L₁
Regularisasi L₂
regularisasi pelamar
penghentian awal (ini bukan metode regularisasi formal, tetapi dapat membatasi overfit secara efektif)

Regularisasi juga dapat didefinisikan sebagai penalti dari kompleksitas model.

Klik ikon untuk catatan tambahan.

Regularisasi bersifat kontra-intuitif. Meningkatkan regularisasi biasanya meningkatkan kerugian pelatihan, yang membingungkan karena, yah, bukan tujuannya untuk meminimalkan kerugian pelatihan?

Sebenarnya tidak. Tujuannya bukan untuk meminimalkan kerugian pelatihan. Tujuannya adalah untuk membuat prediksi yang sangat baik tentang contoh di dunia nyata. Hebatnya, meskipun menambah regularisasi meningkatkan kerugian pelatihan, hal ini biasanya membantu model membuat prediksi yang lebih baik pada contoh dunia nyata.

laju regularisasi

#fundamentals

Angka yang menentukan nilai penting relatif regularisasi selama pelatihan. Meningkatkan rasio regularisasi akan mengurangi overfit, tetapi dapat mengurangi daya prediktif model. Sebaliknya, mengurangi atau menghilangkan derajat regularisasi akan meningkatkan overfit.

Klik ikon untuk melihat perhitungan.

Laju regularisasi biasanya direpresentasikan sebagai lambda huruf Yunani. Persamaan kerugian yang disederhanakan berikut menunjukkan pengaruh lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

di mana regularisasi adalah mekanisme regularisasi, termasuk;

Regularisasi L₁
Regularisasi L₂

ReLU

#fundamentals

Singkatan dari Unit Linear Terarah.

generasi augmented-pengambilan

#fundamentals

Arsitektur software yang biasa digunakan pada aplikasi model bahasa besar (LLM). Motivasi umum untuk menggunakan generasi yang ditingkatkan pengambilannya meliputi:

Meningkatkan akurasi faktual dari respons yang dihasilkan model
Memberi model akses ke pengetahuan yang tidak dilatihnya
Mengubah pengetahuan yang digunakan model
Memungkinkan model mengutip sumber

Misalnya, anggaplah aplikasi kimia menggunakan PaLM API untuk membuat ringkasan yang terkait dengan kueri pengguna. Saat backend aplikasi menerima kueri, backend pertama-tama menelusuri ("mengambil") data yang relevan dengan kueri pengguna, menambahkan ("augment") data kimia yang relevan ke kueri pengguna, dan menyuruh LLM untuk membuat ringkasan berdasarkan data yang ditambahkan.

Kurva ROC (karakteristik operasi penerima)

#fundamentals

Grafik rasio positif benar vs. rasio positif palsu untuk nilai minimum klasifikasi yang berbeda dalam klasifikasi biner.

Bentuk kurva KOP menunjukkan kemampuan model klasifikasi biner untuk memisahkan class positif dari class negatif. Misalkan, model klasifikasi biner memisahkan semua class negatif dari semua class positif dengan sempurna:

Garis bilangan dengan 8 contoh positif di sisi kanan dan
7 contoh negatif di sebelah kiri.

Kurva KOP untuk model sebelumnya terlihat sebagai berikut:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y
adalah Rasio Positif Benar. Kurva memiliki bentuk L terbalik. Kurva dimulai pada (0.0,0.0) dan lurus ke atas ke (0.0,1.0). Kemudian kurva
berubah dari (0.0,1.0) menjadi (1.0,1.0).

Sebaliknya, ilustrasi berikut menampilkan nilai regresi logistik mentah untuk model buruk yang tidak dapat memisahkan class negatif dari class positif sama sekali:

Garis bilangan dengan contoh positif dan class negatif
benar-benar bercampur.

Kurva KOP untuk model ini terlihat seperti berikut:

Kurva KOP, yang sebenarnya merupakan garis lurus dari (0.0,0.0)
ke (1.0,1.0).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan kelas positif dan negatif sampai tingkat tertentu, tetapi biasanya tidak secara sempurna. Jadi, kurva KOP biasanya berada di antara dua titik ekstrem:

Kurva KOP. Sumbu x adalah Rasio Positif Palsu dan sumbu y
adalah Rasio Positif Benar. Kurva KOP mendekati busur goyang yang melintasi titik kompas dari Barat ke Utara.

Titik pada kurva KOP yang paling dekat dengan (0.0,1.0) secara teoritis mengidentifikasi batas klasifikasi ideal. Namun, beberapa masalah dunia nyata lainnya memengaruhi pemilihan batas klasifikasi ideal. Misalnya, mungkin negatif palsu menyebabkan lebih banyak rasa sakit daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva KOP menjadi satu nilai floating point.

Error Akar Rataan Kuadrat (RMSE)

#fundamentals

Akar kuadrat dari Rata-Rata Kuadrat Galat.

S

fungsi sigmoid

#fundamentals

Fungsi matematika yang "menyingkat" nilai input ke dalam rentang yang dibatasi, biasanya 0 hingga 1 atau -1 hingga +1. Artinya, Anda dapat meneruskan angka apa pun (dua, satu juta, miliar negatif, berapa pun) ke sigmoid dan output-nya akan tetap berada dalam rentang yang dibatasi. Plot fungsi aktivasi sigmoid terlihat sebagai berikut:

Fungsi sigmoid memiliki beberapa kegunaan dalam machine learning, termasuk:

Mengonversi output mentah model regresi logistik atau regresi multinomial menjadi probabilitas.
Bertindak sebagai fungsi aktivasi di beberapa jaringan neural.

Klik ikon untuk melihat perhitungan.

Fungsi sigmoid pada bilangan input x memiliki rumus berikut:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Dalam machine learning, x umumnya merupakan jumlah terbobot.

softmax

#fundamentals

Fungsi yang menentukan probabilitas untuk setiap kemungkinan class dalam model klasifikasi multi-class. Jumlah probabilitas bertambah hingga 1,0. Misalnya, tabel berikut menunjukkan cara softmax mendistribusikan berbagai probabilitas:

Gambar adalah...	Probability
anjing	.85
cat	.13
kuda	,02

Softmax juga disebut full softmax.

Berbeda dengan sampling kandidat.

Klik ikon untuk melihat perhitungan.

Persamaan softmax-nya adalah sebagai berikut:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

dalam hal ini:

$\sigma_i$ adalah vektor output. Setiap elemen vektor output menetapkan probabilitas elemen ini. Jumlah semua elemen dalam vektor {i>output<i} adalah 1,0. Vektor {i>output<i} berisi jumlah elemen yang sama dengan vektor input, $z$.
$z$ adalah vektor input. Setiap elemen vektor input berisi nilai floating point.
$K$ adalah jumlah elemen dalam vektor input (dan vektor output).

Misalnya, anggaplah vektor input adalah:

[1.2, 2.5, 1.8]

Oleh karena itu, softmax menghitung penyebut sebagai berikut:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Oleh karena itu, probabilitas softmax setiap elemen adalah:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Jadi, vektor outputnya adalah:

$$\sigma = [0.154, 0.565, 0.281]$$

Jumlah ketiga elemen dalam $\sigma$ adalah 1,0. Fiuh!

fitur sparse

#language

#fundamentals

Fitur yang nilainya sebagian besar nol atau kosong. Misalnya, fitur yang berisi satu nilai 1 dan satu juta nilai 0 bersifat renggang. Sebaliknya, fitur padat memiliki nilai yang utamanya bukan nol atau kosong.

Dalam machine learning, sejumlah besar fitur adalah fitur yang renggang. Fitur kategoris biasanya merupakan fitur renggang. Misalnya, dari 300 kemungkinan spesies pohon di hutan, satu contoh mungkin hanya mengidentifikasi pohon maple. Atau, dari jutaan kemungkinan video dalam pustaka video, satu contoh mungkin hanya mengidentifikasi "Casablanca".

Pada model, Anda biasanya merepresentasikan fitur renggang dengan encoding one-hot. Jika encoding one-hot berukuran besar, Anda dapat menempatkan lapisan penyematan di atas encoding one-hot untuk lebih efisien.

representasi renggang

#language

#fundamentals

Hanya menyimpan position(s) elemen bukan nol dalam fitur sparse.

Misalnya, fitur kategoris bernama species mengidentifikasi 36 spesies pohon di hutan tertentu. Asumsikan lebih lanjut bahwa setiap contoh hanya mengidentifikasi satu spesies.

Anda dapat menggunakan vektor one-hot untuk mewakili spesies pohon pada setiap contoh. Vektor one-hot akan berisi satu 1 (untuk mewakili spesies pohon tertentu dalam contoh tersebut) dan 35 0s (untuk mewakili 35 spesies pohon bukan dalam contoh tersebut). Jadi, representasi one-hot maple mungkin terlihat seperti berikut:

Vektor di mana posisi 0 hingga 23 memiliki nilai 0, posisi
24 memiliki nilai 1, dan posisi 25 hingga 35 memiliki nilai 0.

Atau, representasi renggang hanya akan mengidentifikasi posisi spesies tertentu. Jika maple berada di posisi 24, representasi renggang maple akan menjadi:

Perhatikan bahwa representasi renggang jauh lebih ringkas daripada representasi satu panas.

Klik ikon untuk contoh yang sedikit lebih kompleks.

Misalkan setiap contoh dalam model Anda harus mewakili kata-kata—tetapi bukan urutan kata-kata tersebut—dalam kalimat bahasa Inggris. Bahasa Inggris terdiri dari sekitar 170.000 kata, jadi bahasa Inggris adalah fitur kategoris dengan sekitar 170.000 elemen. Sebagian besar kalimat dalam bahasa Inggris menggunakan bagian yang sangat kecil dari 170.000 kata tersebut, sehingga kumpulan kata dalam satu contoh hampir pasti akan menjadi data yang renggang.

Pertimbangkan skenario berikut:

My dog is a great dog

Anda dapat menggunakan varian vektor one-hot untuk mewakili kata-kata dalam kalimat ini. Dalam varian ini, beberapa sel dalam vektor dapat berisi nilai bukan nol. Selain itu, dalam varian ini, sel dapat berisi bilangan bulat selain bilangan bulat. Meskipun kata "my", "is", "a", dan "great" hanya muncul sekali dalam kalimat, kata "dog" akan muncul dua kali. Menggunakan varian vektor one-hot untuk merepresentasikan kata dalam kalimat ini akan menghasilkan vektor 170.000 elemen berikut:

Representasi renggang dari kalimat yang sama adalah:

Klik ikon jika Anda bingung.

Istilah "representasi renggang" membingungkan banyak orang karena representasi renggang itu sendiri bukan vektor renggang. Sebaliknya, representasi renggang sebenarnya merupakan representasi padat dari vektor renggang. Sinonim representasi indeks sedikit lebih jelas daripada "representasi renggang".

vektor jarang

#fundamentals

Vektor yang nilainya sebagian besar adalah nol. Lihat juga fitur reng dan ketersebaran.

kerugian kuadrat

#fundamentals

Sinonim dari L₂ loss.

static

#fundamentals

Sesuatu dilakukan sekali, bukan terus-menerus. Istilah statis dan offline adalah sinonim. Berikut adalah penggunaan umum statis dan offline dalam machine learning:

model statis (atau model offline) adalah model yang dilatih sekali, lalu digunakan untuk sementara waktu.
pelatihan statis (atau pelatihan offline) adalah proses pelatihan model statis.
inferensi statis (atau inferensi offline) adalah proses ketika model menghasilkan batch prediksi pada satu waktu.

Berbeda dengan dinamis.

inferensi statis

#fundamentals

Sinonim untuk inferensi offline.

stasioneritas

#fundamentals

Fitur yang nilainya tidak berubah di satu atau beberapa dimensi, biasanya waktu. Misalnya, fitur yang nilainya terlihat sama pada tahun 2021 dan 2023 menunjukkan stasioneritas.

Dalam dunia nyata, sangat sedikit fitur yang menunjukkan stasioneritas. Bahkan fitur yang identik dengan stabilitas (seperti permukaan laut) berubah dari waktu ke waktu.

Berbeda dengan nonstasioneritas.

penurunan gradien stokastik (SGD)

#fundamentals

Algoritme penurunan gradien dengan ukuran tumpukan adalah satu. Dengan kata lain, SGD berlatih pada satu contoh yang dipilih secara seragam dan acak dari set pelatihan.

supervised machine learning

#fundamentals

Melatih model dari fitur dan label yang sesuai. Supervised machine learning serupa dengan mempelajari subjek dengan mempelajari serangkaian pertanyaan dan jawaban yang sesuai. Setelah menguasai pemetaan antara pertanyaan dan jawaban, siswa kemudian dapat memberikan jawaban atas pertanyaan baru (yang belum pernah dilihat) tentang topik yang sama.

Bandingkan dengan unsupervised machine learning.

fitur sintetis

#fundamentals

Fitur yang tidak ada di antara fitur input, tetapi digabungkan dari satu atau beberapa fitur input. Metode untuk membuat fitur sintetis mencakup hal berikut:

Mengelompokkan fitur berkelanjutan ke dalam bin rentang.
Membuat persilangan fitur.
Mengalikan (atau membagi) satu nilai fitur dengan nilai fitur lain atau dengan nilai fitur itu sendiri. Misalnya, jika a dan b adalah fitur input, berikut adalah contoh fitur sintetis:
- ab
- a²
Menerapkan fungsi transendental ke nilai fitur. Misalnya, jika c adalah fitur input, berikut adalah contoh fitur sintetis:
- sin(c)
- ln(c)

Fitur yang dibuat dengan melakukan normalisasi atau penskalaan saja tidak dianggap sebagai fitur sintetis.

T

kerugian pengujian

#fundamentals

Metrik yang mewakili kerugian model terhadap set pengujian. Saat mem-build model, Anda biasanya mencoba meminimalkan kerugian pengujian. Hal ini karena kerugian pengujian yang rendah merupakan sinyal dengan kualitas yang lebih kuat daripada kehilangan pelatihan yang rendah atau kehilangan validasi yang rendah.

Kesenjangan besar antara kerugian pengujian dan kerugian pelatihan atau kehilangan validasi terkadang menunjukkan bahwa Anda perlu meningkatkan tingkat regularisasi.

training

#fundamentals

Proses penentuan parameter ideal (bobot dan bias) yang terdiri dari model. Selama pelatihan, sistem membaca contoh dan secara bertahap menyesuaikan parameter. Pelatihan menggunakan setiap contoh di mana saja mulai dari beberapa kali hingga miliaran kali.

kerugian pelatihan

#fundamentals

Metrik yang mewakili kerugian model selama iterasi pelatihan tertentu. Misalnya, fungsi kerugian adalah Mean Squared Error. Mungkin kerugian pelatihan (Rataan Squared Error) untuk iterasi ke-10 adalah 2,2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1,9.

Kurva kerugian memetakan kerugian pelatihan vs. jumlah iterasi. Kurva penyimpangan memberikan petunjuk tentang pelatihan berikut:

Kemiringan menurun mengindikasikan bahwa model mengalami peningkatan.
Kemiringan ke atas menyiratkan bahwa model menjadi lebih buruk.
Kemiringan datar menyiratkan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian yang agak ideal berikut menunjukkan:

Kemiringan menurun yang curam selama iterasi awal, yang menyiratkan peningkatan model yang cepat.
Kemiringan yang merata (tetapi masih ke bawah) secara bertahap hingga mendekati akhir pelatihan, yang berarti bahwa peningkatan model berkelanjutan dengan kecepatan yang agak lebih lambat selama iterasi awal.
Kemiringan datar menuju akhir pelatihan, yang menunjukkan konvergensi.

Plot kerugian pelatihan vs. iterasi. Kurva kerugian ini dimulai dengan kemiringan menurun yang curam. Kemiringan secara bertahap menjadi datar hingga
kemiringan menjadi nol.

Meskipun kerugian pelatihan itu penting, lihat juga generalisasi.

diferensiasi performa pelatihan dan penayangan

#fundamentals

Perbedaan antara performa model selama pelatihan dan performa model yang sama selama penayangan.

set pelatihan

#fundamentals

Subset set data yang digunakan untuk melatih model.

Secara tradisional, contoh dalam set data dibagi menjadi tiga subset yang berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set validasi.

negatif benar (TN)

#fundamentals

Contoh yang mana model benar memprediksi class negatif. Misalnya, model menyimpulkan bahwa pesan email tertentu bukan spam, dan pesan email tersebut benar-benar bukan spam.

positif benar (TP)

#fundamentals

Contoh yang mana model benar memprediksi class positif. Misalnya, model menyimpulkan bahwa pesan email tertentu adalah spam, dan pesan email tersebut benar-benar spam.

rasio positif benar (TPR)

#fundamentals

Sinonim dari perolehan. Definisinya yaitu:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Rasio positif benar adalah sumbu y dalam kurva KOP.

U

kurang pas

#fundamentals

Menghasilkan model dengan kemampuan prediktif yang buruk karena model belum sepenuhnya menangkap kompleksitas data pelatihan. Banyak masalah dapat menyebabkan underfit, termasuk:

Melatih kumpulan fitur yang salah.
Melatih untuk epoch yang terlalu sedikit atau kecepatan pembelajaran yang terlalu rendah.
Melatih dengan tingkat regularisasi yang terlalu tinggi.
Menyediakan terlalu sedikit lapisan tersembunyi di jaringan neural dalam.

contoh tidak berlabel

#fundamentals

Contoh yang berisi fitur tetapi tanpa label. Misalnya, tabel berikut menunjukkan tiga contoh tak berlabel dari model penilaian rumah, masing-masing dengan tiga fitur tetapi tidak ada nilai rumah:

Jumlah kamar	Jumlah kamar mandi	Usia rumah
3	2	15
2	1	72
4	2	34

Di supervised machine learning, model melatih contoh berlabel dan membuat prediksi pada contoh tak berlabel.

Dalam pembelajaran semi-supervised dan unsupervised, contoh tak berlabel digunakan selama pelatihan.

Membandingkan contoh tanpa label dengan contoh berlabel.

unsupervised machine learning

#clustering

#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tidak berlabel.

Penggunaan unsupervised machine learning yang paling umum adalah mengelompokkan data ke dalam beberapa kelompok contoh yang serupa. Misalnya, algoritme unsupervised machine learning dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input bagi algoritma machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu ketika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia lebih memahami data.

Berbeda dengan supervised machine learning.

Klik ikon untuk catatan tambahan.

Contoh lain dari unsupervised machine learning adalah analisis komponen utama (PCA). Misalnya, penerapan PCA pada set data yang berisi isi jutaan keranjang belanja mungkin mengungkapkan bahwa keranjang belanja yang berisi lemon biasanya juga berisi antasida.

V

validasi

#fundamentals

Evaluasi awal kualitas model. Validasi memeriksa kualitas prediksi model terhadap set validasi.

Karena set validasi berbeda dengan set pelatihan, validasi membantu mencegah overfit.

Anda mungkin berpikir untuk mengevaluasi model terhadap set validasi sebagai putaran pertama pengujian dan mengevaluasi model terhadap set pengujian sebagai putaran kedua pengujian.

kerugian validasi

#fundamentals

Metrik yang mewakili kerugian model pada set validasi selama iterasi pelatihan tertentu.

Lihat juga kurva generalisasi.

set validasi

#fundamentals

Subset set data yang melakukan evaluasi awal terhadap model terlatih. Biasanya, Anda mengevaluasi model yang dilatih terhadap set validasi beberapa kali sebelum mengevaluasi model terhadap set pengujian.

Secara tradisional, Anda membagi contoh dalam set data menjadi tiga subset yang berbeda berikut:

Idealnya, setiap contoh dalam set data hanya boleh dimiliki oleh salah satu subset sebelumnya. Misalnya, satu contoh tidak boleh termasuk dalam set pelatihan dan set validasi.

W

berat

#fundamentals

Nilai yang dikalikan dengan nilai lain oleh model. Pelatihan adalah proses menentukan bobot ideal model; inferensi adalah proses menggunakan bobot yang dipelajari tersebut untuk membuat prediksi.

Klik ikon untuk melihat contoh bobot dalam model linear.

Bayangkan model linear dengan dua fitur. Misalkan pelatihan menentukan bobot berikut (dan bias):

Bias, b, memiliki nilai 2,2
Bobot, w₁ yang terkait dengan satu fitur adalah 1,5.
Bobot, w₂ yang terkait dengan fitur lainnya adalah 0,4.

Sekarang, bayangkan sebuah contoh dengan nilai fitur berikut:

Nilai satu fitur, x₁, adalah 6.
Nilai fitur lainnya, x₂, adalah 10.

Model linear ini menggunakan formula berikut untuk menghasilkan prediksi, y':

$$y' = b + w_1x_1 + w_2x_2$$

Oleh karena itu, prediksinya adalah:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Jika bobotnya 0, fitur yang sesuai tidak berkontribusi pada model. Misalnya, jika w₁ adalah 0, nilai x₁ tidak relevan.

jumlah terbobot

#fundamentals

Jumlah semua nilai input yang relevan dikalikan dengan bobotnya yang sesuai. Misalnya, anggaplah input yang relevan terdiri dari hal berikut:

nilai input	masukkan berat
2	-1.3
-1	0.6
3	0.4

Jadi, jumlah terbobot adalah:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Jumlah berbobot adalah argumen input ke fungsi aktivasi.

Z

Normalisasi skor-Z

#fundamentals

Teknik penskalaan yang mengganti nilai fitur mentah dengan nilai floating point yang mewakili jumlah deviasi standar dari rata-rata fitur tersebut. Misalnya, pertimbangkan fitur yang memiliki nilai rata-rata 800 dan standar deviasinya 100. Tabel berikut menunjukkan cara normalisasi skor Z memetakan nilai mentah ke skor Z-nya:

Nilai mentah	Skor Z
800	0
950	+1,5
575	-2.25

Model machine learning kemudian berlatih berdasarkan skor Z untuk fitur tersebut, bukan berdasarkan nilai mentah.

Glosarium Machine Learning: Dasar-Dasar ML

J

akurasi

Klik ikon untuk catatan tambahan.

fungsi aktivasi

Klik ikon untuk melihat contoh.

kecerdasan buatan

ABK (Area di bawah kurva KOP)

Klik ikon untuk mempelajari hubungan antara kurva ABK dan KOP.

Klik ikon untuk definisi ABK yang lebih formal.

B

propagasi mundur

batch

ukuran tumpukan

bias (etika/keadilan)

bias (matematika) atau istilah bias

klasifikasi biner

pembuatan bucket

Klik ikon untuk catatan tambahan.

C

data kategoris

class

model klasifikasi

batas klasifikasi

Klik ikon untuk catatan tambahan.

set data kelas tidak seimbang

pemotongan

matriks konfusi

fitur berkelanjutan

konvergensi

D

DataFrame

set data atau set data

model dalam

fitur padat

kedalaman

fitur diskret (discrete feature)

dinamis

model dinamis

E

penghentian awal

Klik ikon untuk catatan tambahan.

Lapisan embedding

epoch

contoh

F

negatif palsu (FN)

positif palsu (PP)

rasio positif palsu (FPR)

fitur

persilangan fitur

rekayasa fitur

Klik ikon untuk melihat catatan tambahan tentang TensorFlow.

set fitur

vektor fitur

Umpan balik

G

generalisasi

Klik ikon untuk catatan tambahan.

kurva generalisasi

penurunan gradien

kebenaran dasar

Klik ikon untuk catatan tambahan.

H

Lapisan tersembunyi

hyperparameter

I

terdistribusi secara independen dan identik (i.i.d)

inferensi

Lapisan input

interpretabilitas

iterasi

L

Regularisasi L0

Klik ikon untuk catatan tambahan.

Kalah L1

Klik ikon untuk melihat matematika formal.

Regularisasi L1

Turun L2

Klik ikon untuk melihat matematika formal.

Regularisasi L₀

Kalah L₁

Regularisasi L₁

Turun L₂

Regularisasi L₂