Glosarium Machine Learning: Metrik

Halaman ini berisi istilah glosarium Metrik. Untuk semua istilah glosarium, klik di sini.

akurasi

#fundamentals
#Metric

Jumlah prediksi klasifikasi yang benar dibagi dengan jumlah total prediksi. Definisinya yaitu:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

Misalnya, model yang membuat 40 prediksi yang benar dan 10 prediksi yang salah akan memiliki akurasi:

Accuracy=4040 + 10=80%

Klasifikasi biner memberikan nama spesifik untuk berbagai kategori prediksi yang benar dan prediksi yang salah. Jadi, formula akurasi untuk klasifikasi biner adalah sebagai berikut:

Accuracy=TP+TNTP+TN+FP+FN

dalam hal ini:

Bandingkan dan bedakan akurasi dengan presisi dan recall.

Meskipun merupakan metrik yang berharga untuk beberapa situasi, akurasi sangat menyesatkan untuk situasi lainnya. Secara khusus, akurasi biasanya merupakan metrik yang buruk untuk mengevaluasi model klasifikasi yang memproses set data kelas tidak seimbang.

Misalnya, salju hanya turun 25 hari per abad di kota subtropis tertentu. Karena hari tanpa salju (kelas negatif) jauh lebih banyak daripada hari dengan salju (kelas positif), set data salju untuk kota ini tidak seimbang. Bayangkan model klasifikasi biner yang seharusnya memprediksi salju atau tidak ada salju setiap hari, tetapi hanya memprediksi "tidak ada salju" setiap hari. Model ini sangat akurat, tetapi tidak memiliki kemampuan prediktif. Tabel berikut meringkas hasil prediksi selama satu abad:

Kategori Angka
TP 0
TN 36499
FP 0
FN 25

Oleh karena itu, akurasi model ini adalah:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Meskipun akurasi 99,93% tampak seperti persentase yang sangat mengesankan, model ini sebenarnya tidak memiliki kemampuan prediktif.

Presisi dan recall biasanya merupakan metrik yang lebih berguna daripada akurasi untuk mengevaluasi model yang dilatih pada set data yang tidak seimbang.


Lihat Klasifikasi: Akurasi, recall, presisi, dan metrik terkait di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

area di bawah kurva PR

#Metric

Lihat AUC PR (Area di Bawah Kurva PR).

area di bawah kurva ROC

#Metric

Lihat AUC (Area di bawah kurva ROC).

AUC (Area di bawah kurva ROC)

#fundamentals
#Metric

Angka antara 0,0 dan 1,0 yang mewakili kemampuan model klasifikasi biner untuk memisahkan class positif dari class negatif. Makin dekat AUC ke 1,0, makin baik kemampuan model untuk memisahkan class satu sama lain.

Misalnya, ilustrasi berikut menunjukkan model pengklasifikasi yang memisahkan kelas positif (oval hijau) dari kelas negatif (persegi panjang ungu) dengan sempurna. Model sempurna yang tidak realistis ini memiliki AUC sebesar 1,0:

Garis bilangan dengan 8 contoh positif di satu sisi dan
          9 contoh negatif di sisi lain.

Sebaliknya, ilustrasi berikut menunjukkan hasil untuk model klasifikasi yang menghasilkan hasil acak. Model ini memiliki AUC 0,5:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contohnya adalah positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif, negatif, positif, negatif.

Ya, model sebelumnya memiliki AUC 0,5, bukan 0,0.

Sebagian besar model berada di antara dua titik ekstrem. Misalnya, model berikut agak memisahkan positif dari negatif, sehingga memiliki AUC antara 0,5 dan 1,0:

Garis bilangan dengan 6 contoh positif dan 6 contoh negatif.
          Urutan contohnya adalah negatif, negatif, negatif, negatif, positif, negatif, positif, positif, negatif, positif, positif, positif.

AUC mengabaikan nilai apa pun yang Anda tetapkan untuk nilai minimum klasifikasi. Sebagai gantinya, AUC mempertimbangkan semua kemungkinan batas klasifikasi.

AUC mewakili area di bawah kurva ROC. Misalnya, kurva ROC untuk model yang memisahkan positif dari negatif dengan sempurna terlihat sebagai berikut:

Plot Kartesius. Sumbu x adalah rasio positif palsu; sumbu y adalah rasio positif benar. Grafik dimulai dari 0,0 dan langsung naik
          ke 0,1, lalu lurus ke kanan dan berakhir di 1,1.

AUC adalah area wilayah abu-abu dalam ilustrasi sebelumnya. Dalam kasus yang tidak biasa ini, areanya hanyalah panjang area abu-abu (1,0) yang dikalikan dengan lebar area abu-abu (1,0). Jadi, produk 1,0 dan 1,0 menghasilkan AUC persis 1,0, yang merupakan skor AUC tertinggi.

Sebaliknya, kurva ROC untuk pengklasifikasi yang sama sekali tidak dapat memisahkan class adalah sebagai berikut. Area wilayah abu-abu ini adalah 0,5.

Plot Kartesius. Sumbu x adalah rasio positif palsu; sumbu y adalah rasio positif benar. Grafik dimulai dari 0,0 dan bergerak secara diagonal ke 1,1.

Kurva ROC yang lebih umum terlihat kira-kira seperti berikut:

Plot Kartesius. Sumbu x adalah rasio positif palsu; sumbu y adalah rasio positif benar. Grafik dimulai dari 0,0 dan mengambil busur tidak beraturan
          ke 1,0.

Menghitung area di bawah kurva ini secara manual akan sangat merepotkan, sehingga program biasanya menghitung sebagian besar nilai AUC.


AUC adalah probabilitas bahwa pengklasifikasi akan lebih yakin bahwa contoh positif yang dipilih secara acak sebenarnya positif daripada contoh negatif yang dipilih secara acak adalah positif.


Lihat Klasifikasi: ROC dan AUC di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

presisi rata-rata pada k

#language
#Metric

Metrik untuk meringkas performa model pada satu perintah yang menghasilkan hasil yang diberi peringkat, seperti daftar rekomendasi buku yang diberi nomor. Presisi rata-rata pada k adalah rata-rata nilai presisi pada k untuk setiap hasil yang relevan. Oleh karena itu, formula untuk presisi rata-rata pada k adalah:

average precision at k=1ni=1nprecision at k for each relevant item

dalam hal ini:

  • n adalah jumlah item yang relevan dalam daftar.

Berbeda dengan recall at k.

Misalkan model bahasa besar diberi kueri berikut:

List the 6 funniest movies of all time in order.

Dan model bahasa besar menampilkan daftar berikut:

  1. Jenderal
  2. Mean Girls
  3. Platoon
  4. Bridesmaids
  5. Citizen Kane
  6. Ini adalah Spinal Tap
Empat film dalam daftar yang ditampilkan sangat lucu (yaitu, relevan), tetapi dua film adalah drama (tidak relevan). Tabel berikut menjelaskan hasilnya:
Posisi Film Relevan? Presisi pada k
1 Jenderal Ya 1.0
2 Mean Girls Ya 1.0
3 Platoon Tidak tidak relevan
4 Bridesmaids Ya 0,75
5 Citizen Kane Tidak tidak relevan
6 Ini adalah Spinal Tap Ya 0.67

Jumlah hasil yang relevan adalah 4. Oleh karena itu, Anda dapat menghitung presisi rata-rata pada 6 sebagai berikut:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67)
average precision at 6=~0.85

B

dasar

#Metric

Model yang digunakan sebagai titik referensi untuk membandingkan performa model lain (biasanya, model yang lebih kompleks). Misalnya, model regresi logistik dapat berfungsi sebagai dasar pengukuran yang baik untuk model deep learning.

Untuk masalah tertentu, dasar pengukuran membantu developer model mengukur performa minimum yang diharapkan yang harus dicapai model baru agar model baru tersebut berguna.

C

biaya

#Metric

Sinonim dari loss.

keadilan kontrafaktual

#fairness
#Metric

Metrik keadilan yang memeriksa apakah pengklasifikasi menghasilkan hasil yang sama untuk satu individu seperti yang dilakukan untuk individu lain yang identik dengan yang pertama, kecuali sehubungan dengan satu atau beberapa atribut sensitif. Mengevaluasi pengklasifikasi untuk keadilan counterfactual adalah salah satu metode untuk menampilkan potensi sumber bias dalam model.

Lihat salah satu artikel berikut untuk mengetahui informasi selengkapnya:

entropi silang

#Metric

Generalisasi Log Loss untuk masalah klasifikasi multi-class. Entropi silang mengukur perbedaan antara dua distribusi probabilitas. Lihat juga perplexity.

fungsi distribusi kumulatif (CDF)

#Metric

Fungsi yang menentukan frekuensi sampel kurang dari atau sama dengan nilai target. Misalnya, pertimbangkan distribusi normal nilai kontinu. CDF memberi tahu Anda bahwa sekitar 50% sampel harus kurang dari atau sama dengan nilai rata-rata dan sekitar 84% sampel harus kurang dari atau sama dengan satu deviasi standar di atas nilai rata-rata.

D

paritas demografis

#fairness
#Metric

Metrik keadilan yang terpenuhi jika hasil klasifikasi model tidak bergantung pada atribut sensitif tertentu.

Misalnya, jika Lilliputian dan Brobdingnagian mendaftar ke Universitas Glubbdubdrib, paritas demografis akan tercapai jika persentase Lilliputian yang diterima sama dengan persentase Brobdingnagian yang diterima, terlepas dari apakah satu kelompok rata-rata lebih memenuhi syarat daripada kelompok lainnya.

Berbeda dengan kesetaraan peluang dan kesetaraan kesempatan, yang mengizinkan hasil klasifikasi secara agregat bergantung pada atribut sensitif, tetapi tidak mengizinkan hasil klasifikasi untuk label kebenaran nyata tertentu yang ditentukan bergantung pada atribut sensitif. Lihat "Menangkal diskriminasi dengan machine learning yang lebih cerdas" untuk melihat visualisasi yang mengeksplorasi kompromi saat mengoptimalkan paritas demografis.

Lihat Keadilan: paritas demografis di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

E

earth mover's distance (EMD)

#Metric

Ukuran kesamaan relatif dari dua distribusi. Makin rendah jarak earth mover, makin mirip distribusinya.

edit jarak

#language
#Metric

Pengukuran seberapa mirip dua string teks satu sama lain. Dalam machine learning, edit distance berguna karena alasan berikut:

  • Jarak edit mudah dihitung.
  • Jarak edit dapat membandingkan dua string yang diketahui mirip satu sama lain.
  • Jarak edit dapat menentukan tingkat kemiripan string yang berbeda dengan string tertentu.

Ada beberapa definisi jarak edit, masing-masing menggunakan operasi string yang berbeda. Lihat Jarak Levenshtein untuk contoh.

fungsi distribusi kumulatif empiris (eCDF atau EDF)

#Metric

Fungsi distribusi kumulatif berdasarkan pengukuran empiris dari set data nyata. Nilai fungsi di titik mana pun di sepanjang sumbu x adalah fraksi pengamatan dalam set data yang kurang dari atau sama dengan nilai yang ditentukan.

entropi

#df
#Metric

Dalam teori informasi, deskripsi tentang seberapa tidak dapat diprediksinya distribusi probabilitas. Atau, entropi juga didefinisikan sebagai jumlah informasi yang dimuat setiap contoh. Distribusi memiliki entropi setinggi mungkin jika semua nilai variabel acak sama-sama mungkin.

Entropi set dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) memiliki formula berikut:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dalam hal ini:

  • H adalah entropi.
  • p adalah pecahan contoh "1".
  • q adalah pecahan contoh "0". Perhatikan bahwa q = (1 - p)
  • log umumnya adalah log2. Dalam hal ini, unit entropi adalah bit.

Misalnya, anggap saja hal berikut:

  • 100 contoh berisi nilai "1"
  • 300 contoh berisi nilai "0"

Oleh karena itu, nilai entropi adalah:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per contoh

Kumpulan yang seimbang sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki entropi 1,0 bit per contoh. Saat set menjadi lebih tidak seimbang, entropinya akan bergerak ke arah 0,0.

Dalam pohon keputusan, entropi membantu merumuskan keuntungan informasi untuk membantu pemisah memilih kondisi selama pertumbuhan pohon keputusan klasifikasi.

Bandingkan entropi dengan:

Entropi sering disebut entropi Shannon.

Lihat Pemisah persis untuk klasifikasi biner dengan fitur numerik di kursus Decision Forests untuk mengetahui informasi selengkapnya.

kesetaraan peluang

#fairness
#Metric

Metrik keadilan untuk menilai apakah model memprediksi hasil yang diinginkan dengan sama baiknya untuk semua nilai atribut sensitif. Dengan kata lain, jika hasil yang diinginkan untuk model adalah class positif, sasaran yang akan dicapai adalah agar rasio positif benar sama untuk semua grup.

Kesetaraan peluang terkait dengan peluang yang disamakan, yang mengharuskan baik rasio positif benar maupun rasio positif palsu sama untuk semua grup.

Misalkan Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagian ke program matematika yang ketat. Sekolah menengah Lilliputians menawarkan kurikulum kelas matematika yang kuat, dan sebagian besar siswa memenuhi syarat untuk program universitas. Sekolah menengah Brobdingnagians tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswa mereka yang memenuhi syarat. Kesetaraan peluang terpenuhi untuk label pilihan "diterima" sehubungan dengan kewarganegaraan (Lilliputian atau Brobdingnagian) jika siswa yang memenuhi syarat memiliki kemungkinan yang sama untuk diterima, terlepas dari apakah mereka adalah Lilliputian atau Brobdingnagian.

Misalnya, 100 Lilliputian dan 100 Brobdingnagian mendaftar ke Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 1. Pelamar Lilliputian (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 3
Ditolak 45 7
Total 90 10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 7/10 = 70%
Total persentase siswa Lilliputian yang diterima: (45+3)/100 = 48%

 

Tabel 2. Pelamar Brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 9
Ditolak 5 81
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 81/90 = 90%
Total persentase siswa Brobdingnagian yang diterima: (5+9)/100 = 14%

Contoh sebelumnya memenuhi kesetaraan peluang untuk penerimaan siswa yang memenuhi syarat karena Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima.

Meskipun kesetaraan peluang terpenuhi, dua metrik keadilan berikut tidak terpenuhi:

  • paritas demografi: Lilliputians dan Brobdingnagians diterima di universitas dengan tingkat yang berbeda; 48% siswa Lilliputians diterima, tetapi hanya 14% siswa Brobdingnagian yang diterima.
  • equalized odds: Meskipun siswa Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang yang sama untuk diterima, batasan tambahan bahwa siswa Lilliputian dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang yang sama untuk ditolak tidak terpenuhi. Lilliputian yang tidak memenuhi syarat memiliki rasio penolakan 70%, sedangkan Brobdingnagian yang tidak memenuhi syarat memiliki rasio penolakan 90%.

Lihat Keadilan: Kesetaraan kesempatan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

peluang yang disamakan

#fairness
#Metric

Metrik keadilan untuk menilai apakah model memprediksi hasil dengan sama baiknya untuk semua nilai atribut sensitif sehubungan dengan kelas positif dan kelas negatif—bukan hanya satu kelas atau yang lainnya secara eksklusif. Dengan kata lain, rasio positif benar dan rasio negatif palsu harus sama untuk semua grup.

Peluang yang disamakan terkait dengan kesetaraan peluang, yang hanya berfokus pada rasio error untuk satu class (positif atau negatif).

Misalnya, Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagian ke program matematika yang ketat. Sekolah menengah Lilliputians menawarkan kurikulum kelas matematika yang kuat, dan sebagian besar siswa memenuhi syarat untuk program universitas. Sekolah menengah Brobdingnagians tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswa yang memenuhi syarat. Peluang yang sama terpenuhi asalkan tidak memedulikan apakah pelamar adalah Lilliputian atau Brobdingnagian, jika mereka memenuhi syarat, mereka memiliki peluang yang sama untuk diterima ke dalam program, dan jika mereka tidak memenuhi syarat, mereka memiliki peluang yang sama untuk ditolak.

Misalkan 100 Lilliputian dan 100 Brobdingnagian mendaftar ke Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 3. Pelamar Lilliputian (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 2
Ditolak 45 8
Total 90 10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 8/10 = 80%
Total persentase siswa Lilliputian yang diterima: (45+2)/100 = 47%

 

Tabel 4. Pelamar Brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 18
Ditolak 5 72
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 72/90 = 80%
Total persentase siswa Brobdingnagian yang diterima: (5+18)/100 = 23%

Peluang yang disamakan terpenuhi karena siswa Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima, dan siswa Lilliputian dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang 80% untuk ditolak.

Peluang yang disamakan secara formal ditentukan dalam "Kesetaraan Peluang dalam Pemelajaran Berawas" sebagai berikut: "prediktor Ŷ memenuhi peluang yang disamakan sehubungan dengan atribut A yang dilindungi dan hasil Y jika Ŷ dan A independen, bersyarat pada Y."

evals

#language
#generativeAI
#Metric

Utamanya digunakan sebagai singkatan untuk evaluasi LLM. Secara lebih luas, evals adalah singkatan dari bentuk evaluasi apa pun.

evaluasi

#language
#generativeAI
#Metric

Proses mengukur kualitas model atau membandingkan berbagai model satu sama lain.

Untuk mengevaluasi model machine learning dengan pengawasan, Anda biasanya menilainya berdasarkan set validasi dan set pengujian. Mengevaluasi LLM biasanya melibatkan penilaian kualitas dan keamanan yang lebih luas.

F

F1

#Metric

Metrik klasifikasi biner "gabungan" yang bergantung pada presisi dan recall. Berikut adalah formulanya:

F1=2 * precision * recallprecision + recall

Misalkan presisi dan perolehan memiliki nilai berikut:

  • precision = 0,6
  • recall = 0,4

Anda menghitung F1 sebagai berikut:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

Jika presisi dan perolehan cukup mirip (seperti pada contoh sebelumnya), F1 mendekati rata-ratanya. Jika presisi dan perolehan berbeda secara signifikan, F1 akan lebih mendekati nilai yang lebih rendah. Contoh:

  • precision = 0,9
  • recall = 0,1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

metrik keadilan

#fairness
#Metric

Definisi matematika "keadilan" yang dapat diukur. Beberapa metrik keadilan yang umum digunakan meliputi:

Banyak metrik keadilan yang saling eksklusif; lihat ketidakcocokan metrik keadilan.

negatif palsu (NP)

#fundamentals
#Metric

Contoh yang mana model salah memprediksi kelas negatif. Misalnya, model memprediksi bahwa pesan email tertentu bukan spam (kelas negatif), tetapi pesan email tersebut sebenarnya adalah spam.

rasio negatif palsu

#Metric

Proporsi contoh positif sebenarnya yang salah diprediksi oleh model sebagai kelas negatif. Rumus berikut menghitung rasio negatif palsu:

false negative rate=false negativesfalse negatives+true positives

Lihat Nilai minimum dan matriks kebingungan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

positif palsu (PP)

#fundamentals
#Metric

Contoh yang mana model salah memprediksi kelas positif. Misalnya, model memprediksi bahwa pesan email tertentu adalah spam (kelas positif), tetapi pesan email tersebut sebenarnya bukan spam.

Lihat Nilai minimum dan matriks kebingungan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

rasio positif palsu (FPR)

#fundamentals
#Metric

Proporsi contoh negatif sebenarnya yang salah diprediksi oleh model sebagai kelas positif. Rumus berikut menghitung rasio positif palsu:

false positive rate=false positivesfalse positives+true negatives

Rasio positif palsu adalah sumbu x dalam kurva ROC.

Lihat Klasifikasi: ROC dan AUC di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

tingkat kepentingan fitur

#df
#Metric

Sinonim dari pentingnya variabel.

fraksi keberhasilan

#generativeAI
#Metric

Metrik untuk mengevaluasi teks yang dihasilkan model ML. Fraksi keberhasilan adalah jumlah output teks yang dihasilkan "berhasil" dibagi dengan jumlah total output teks yang dihasilkan. Misalnya, jika model bahasa besar menghasilkan 10 blok kode, lima di antaranya berhasil, maka fraksi keberhasilan akan menjadi 50%.

Meskipun fraksi keberhasilan secara luas berguna di seluruh statistik, dalam ML, metrik ini terutama berguna untuk mengukur tugas yang dapat diverifikasi seperti pembuatan kode atau masalah matematika.

G

ketidakmurnian gini

#df
#Metric

Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari impuritas gini atau entropi untuk menyusun kondisi untuk klasifikasi pohon keputusan. Keuntungan informasi berasal dari entropi. Tidak ada istilah setara yang diterima secara universal untuk metrik yang berasal dari impuritas gini; namun, metrik tanpa nama ini sama pentingnya dengan manfaat informasi.

Impuritas gini juga disebut indeks gini, atau hanya gini.

Impuritas Gini adalah probabilitas kesalahan klasifikasi bagian data baru yang diambil dari distribusi yang sama. Impuritas gini dari kumpulan dengan dua nilai yang mungkin "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) dihitung dari formula berikut:

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

dalam hal ini:

  • I adalah impuritas gini.
  • p adalah pecahan contoh "1".
  • q adalah pecahan contoh "0". Perhatikan bahwa q = 1-p

Misalnya, pertimbangkan set data berikut:

  • 100 label (0,25 set data) berisi nilai "1"
  • 300 label (0,75 set data) berisi nilai "0"

Oleh karena itu, ketidakmurnian gini adalah:

  • p = 0,25
  • q = 0,75
  • I = 1 - (0,252 + 0,752) = 0,375

Akibatnya, label acak dari set data yang sama akan memiliki peluang 37,5% untuk salah diklasifikasikan, dan peluang 62,5% untuk diklasifikasikan dengan benar.

Label yang seimbang sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki impuritas gini 0,5. Label yang sangat tidak seimbang akan memiliki impuritas gini yang mendekati 0,0.


H

kerugian engsel

#Metric

Serangkaian fungsi loss untuk klasifikasi yang dirancang untuk menemukan batas keputusan sejauh mungkin dari setiap contoh pelatihan, sehingga memaksimalkan margin antara contoh dan batas. KSVM menggunakan kerugian engsel (atau fungsi terkait, seperti kerugian engsel kuadrat). Untuk klasifikasi biner, fungsi kerugian engsel ditentukan sebagai berikut:

loss=max(0,1(yy))

dengan y adalah label sebenarnya, baik -1 atau +1, dan y' adalah output mentah dari model pengklasifikasi:

y=b+w1x1+w2x2+wnxn

Akibatnya, plot hinge loss versus (y * y') terlihat seperti berikut:

Plot Kartesius yang terdiri dari dua segmen garis yang terhubung. Segmen garis pertama dimulai dari (-3, 4) dan berakhir di (1, 0). Segmen garis kedua
          dimulai dari (1, 0) dan berlanjut tanpa batas dengan kemiringan
          0.

I

ketidakcocokan metrik keadilan

#fairness
#Metric

Gagasan bahwa beberapa gagasan keadilan saling tidak kompatibel dan tidak dapat dipenuhi secara bersamaan. Akibatnya, tidak ada satupun metrik universal untuk mengukur keadilan yang dapat diterapkan ke semua masalah ML.

Meskipun hal ini mungkin tampak mengecewakan, ketidakcocokan metrik keadilan tidak berarti bahwa upaya keadilan tidak membuahkan hasil. Sebaliknya, hal ini menunjukkan bahwa keadilan harus ditentukan secara kontekstual untuk masalah ML tertentu, dengan tujuan mencegah bahaya yang spesifik untuk kasus penggunaannya.

Lihat "Tentang (ketidak)mungkinan keadilan" untuk mengetahui pembahasan yang lebih mendetail tentang ketidakcocokan metrik keadilan.

keadilan individu

#fairness
#Metric

Metrik keadilan yang memeriksa apakah individu yang serupa diklasifikasikan secara serupa. Misalnya, Brobdingnagian Academy mungkin ingin memenuhi keadilan individu dengan memastikan bahwa dua siswa dengan nilai yang sama dan skor ujian standar memiliki peluang yang sama untuk diterima.

Perhatikan bahwa keadilan individu sepenuhnya bergantung pada cara Anda menentukan "kemiripan" (dalam hal ini, nilai dan skor ujian), dan Anda dapat berisiko memperkenalkan masalah keadilan baru jika metrik kemiripan Anda melewatkan informasi penting (seperti ketelitian kurikulum siswa).

Lihat "Keadilan Melalui Kesadaran" untuk pembahasan yang lebih mendetail tentang keadilan individu.

perolehan informasi

#df
#Metric

Dalam hutan keputusan, perbedaan antara entropi node dan jumlah berbobot (menurut jumlah contoh) entropi node turunannya. Entropi node adalah entropi contoh dalam node tersebut.

Misalnya, pertimbangkan nilai entropi berikut:

  • entropi node induk = 0,6
  • entropi satu node turunan dengan 16 contoh yang relevan = 0,2
  • entropi node turunan lain dengan 24 contoh yang relevan = 0,1

Jadi, 40% contoh berada di satu node turunan dan 60% berada di node turunan lainnya. Jadi:

  • jumlah entropi berbobot node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Jadi, perolehan informasinya adalah:

  • perolehan informasi = entropi node induk - jumlah entropi berbobot dari node turunan
  • information gain = 0,6 - 0,14 = 0,46

Sebagian besar pemisah berupaya membuat kondisi yang memaksimalkan perolehan informasi.

kecocokan antar-pelabel

#Metric

Pengukuran seberapa sering penilai manusia setuju saat melakukan tugas. Jika penilai tidak setuju, petunjuk tugas mungkin perlu ditingkatkan. Terkadang disebut juga kecocokan antar-anotator atau reliabilitas antar-pelabel. Lihat juga kappa Cohen, yang merupakan salah satu pengukuran kecocokan antar-pelabel yang paling populer.

Lihat Data kategoris: Masalah umum di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

L

Kerugian L1

#fundamentals
#Metric

Fungsi kerugian yang menghitung nilai absolut perbedaan antara nilai label yang sebenarnya dan nilai yang diprediksi model. Misalnya, berikut adalah penghitungan kerugian L1 untuk batch yang terdiri dari lima contoh:

Nilai sebenarnya dari contoh Nilai prediksi model Nilai absolut delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = kerugian L1

Kerugian L1 kurang sensitif terhadap pencilan daripada kerugian L2.

Mean Absolute Error adalah rata-rata kerugian L1 per contoh.

L1loss=i=0n|yiy^i|

dengan:
  • n adalah jumlah contoh.
  • y adalah nilai sebenarnya dari label.
  • y^ adalah nilai yang diprediksi model untuk y.

Lihat Regresi linear: Kerugian di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Kerugian L2

#fundamentals
#Metric

Fungsi kerugian yang menghitung kuadrat perbedaan antara nilai label sebenarnya dan nilai yang diprediksi model. Misalnya, berikut adalah penghitungan kerugian L2 untuk batch yang terdiri dari lima contoh:

Nilai sebenarnya dari contoh Nilai prediksi model Kuadrat delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = kerugian L2

Karena adanya kuadrat, kerugian L2 memperkuat pengaruh pencilan. Artinya, kerugian L2 bereaksi lebih kuat terhadap prediksi yang buruk daripada kerugian L1. Misalnya, kerugian L1 untuk batch sebelumnya adalah 8, bukan 16. Perhatikan bahwa satu outlier mencakup 9 dari 16.

Model regresi biasanya menggunakan kerugian L2 sebagai fungsi kerugian.

Rataan Kuadrat Galat adalah rata-rata kerugian L2 per contoh. Kerugian kuadrat adalah nama lain untuk kerugian L2.

L2loss=i=0n(yiy^i)2

dengan:
  • n adalah jumlah contoh.
  • y adalah nilai sebenarnya dari label.
  • y^ adalah nilai yang diprediksi model untuk y.

Lihat Regresi logistik: Loss dan regulasi di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

Evaluasi LLM (eval)

#language
#generativeAI
#Metric

Serangkaian metrik dan tolok ukur untuk menilai performa model bahasa besar (LLM). Pada tingkat yang tinggi, evaluasi LLM:

  • Membantu peneliti mengidentifikasi area yang perlu ditingkatkan pada LLM.
  • Berguna dalam membandingkan berbagai LLM dan mengidentifikasi LLM terbaik untuk tugas tertentu.
  • Membantu memastikan bahwa LLM aman dan etis untuk digunakan.

Lihat Model bahasa besar (LLM) di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

kalah

#fundamentals
#Metric

Selama pelatihan model tersupervisi, ukuran seberapa jauh prediksi model dari label-nya.

Fungsi kerugian menghitung kerugian.

Lihat Regresi linear: Kerugian di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

fungsi loss

#fundamentals
#Metric

Selama pelatihan atau pengujian, fungsi matematika yang menghitung kerugian pada batch contoh. Fungsi kerugian menampilkan kerugian yang lebih rendah untuk model yang membuat prediksi yang baik daripada model yang membuat prediksi yang buruk.

Tujuan pelatihan biasanya untuk meminimalkan kerugian yang ditampilkan fungsi kerugian.

Ada banyak jenis fungsi kerugian. Pilih fungsi loss yang sesuai untuk jenis model yang Anda buat. Contoh:

M

Mean Absolute Error (MAE)

#Metric

Kerugian rata-rata per contoh saat kerugian1 digunakan. Hitung Mean Absolute Error sebagai berikut:

  1. Hitung kerugian L1 untuk batch.
  2. Bagi kerugian L1 dengan jumlah contoh dalam batch.

Mean Absolute Error=1ni=0n|yiy^i|

dalam hal ini:

  • n adalah jumlah contoh.
  • y adalah nilai sebenarnya dari label.
  • y^ adalah nilai yang diprediksi model untuk y.

Misalnya, pertimbangkan penghitungan kerugian L1 pada kumpulan lima contoh berikut:

Nilai sebenarnya dari contoh Nilai prediksi model Kerugian (perbedaan antara aktual dan prediksi)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = kerugian L1

Jadi, kerugian L1 adalah 8 dan jumlah contoh adalah 5. Oleh karena itu, Rata-Rata Error Absolut adalah:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Bandingkan Mean Absolute Error dengan Mean Squared Error dan Root Mean Squared Error.

presisi rata-rata pada k (mAP@k)

#language
#generativeAI
#Metric

Rata-rata statistik dari semua skor presisi rata-rata pada k di seluruh set data validasi. Salah satu penggunaan presisi rata-rata mean pada k adalah untuk menilai kualitas rekomendasi yang dihasilkan oleh sistem rekomendasi.

Meskipun frasa "rata-rata mean" terdengar berlebihan, nama metrik ini sudah tepat. Bagaimanapun, metrik ini menemukan nilai tengah beberapa nilai presisi rata-rata pada k.

Misalkan Anda membuat sistem rekomendasi yang menghasilkan daftar novel yang direkomendasikan yang dipersonalisasi untuk setiap pengguna. Berdasarkan masukan dari pengguna yang dipilih, Anda menghitung lima presisi rata-rata berikut pada skor k (satu skor per pengguna):

  • 0,73
  • 0,77
  • 0.67
  • 0,82
  • 0,76

Oleh karena itu, Presisi Rata-Rata mean pada K adalah:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

Rataan Kuadrat Galat (MSE)

#Metric

Kerugian rata-rata per contoh saat kerugian L2 digunakan. Hitung Rataan Kuadrat Galat (RKG) sebagai berikut:

  1. Hitung kerugian L2 untuk batch.
  2. Bagikan kerugian L2 dengan jumlah contoh dalam batch.
Mean Squared Error=1ni=0n(yiy^i)2
dengan:
  • n adalah jumlah contoh.
  • y adalah nilai sebenarnya dari label.
  • y^ adalah prediksi model untuk y.

Misalnya, pertimbangkan kerugian pada batch lima contoh berikut:

Nilai sebenarnya Prediksi model Kerugian Kerugian kuadrat
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = kerugian L2

Oleh karena itu, Rataan Kuadrat Galat adalah:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Mean Squared Error adalah pengoptimal pelatihan yang populer, terutama untuk regresi linear.

Bandingkan Rataan Kuadrat Galat dengan Rataan Kesalahan Mutlak dan Galat Akar Rataan Kuadrat.

TensorFlow Playground menggunakan Mean Squared Error untuk menghitung nilai kerugian.

Pengabaian sangat memengaruhi Rataan Kuadrat Galat. Misalnya, kerugian 1 adalah kerugian kuadrat 1, tetapi kerugian 3 adalah kerugian kuadrat 9. Dalam tabel sebelumnya, contoh dengan kerugian 3 menyumbang ~56% dari Mean Squared Error, sedangkan setiap contoh dengan kerugian 1 hanya menyumbang 6% dari Mean Squared Error.

Nilai ekstrem tidak memengaruhi Mean Absolute Error sekuat Mean Squared Error. Misalnya, kehilangan 3 akun hanya untuk ~38% dari Mean Absolute Error.

Penyesuaian nilai adalah salah satu cara untuk mencegah pencilan ekstrem merusak kemampuan prediktif model Anda.


metrik

#TensorFlow
#Metric

Statistik yang Anda minati.

Tujuan adalah metrik yang coba dioptimalkan oleh sistem machine learning.

Metrics API (tf.metrics)

#Metric

TensorFlow API untuk mengevaluasi model. Misalnya, tf.metrics.accuracy menentukan seberapa sering prediksi model cocok dengan label.

kerugian minimax

#Metric

Fungsi kerugian untuk generative adversarial networks, berdasarkan cross-entropy antara distribusi data yang dihasilkan dan data sebenarnya.

Kerugian minimax digunakan dalam makalah pertama untuk mendeskripsikan jaringan adversarial generatif.

Lihat Fungsi Kerugian di kursus Generative Adversarial Networks untuk mengetahui informasi selengkapnya.

kapasitas model

#Metric

Kompleksitas masalah yang dapat dipelajari oleh model. Semakin kompleks masalah yang dapat dipelajari model, semakin tinggi pula kapasitas model. Kapasitas model biasanya meningkat seiring dengan jumlah parameter model. Untuk definisi formal dari kapasitas pengklasifikasi, lihat dimensi VC.

T

kelas negatif

#fundamentals
#Metric

Dalam klasifikasi biner, satu class disebut positif dan class lainnya disebut negatif. Class positif adalah hal atau peristiwa yang diuji model, dan class negatif adalah kemungkinan lainnya. Contoh:

  • Kelas negatif dalam tes medis dapat berupa "bukan tumor".
  • Kelas negatif dalam pengklasifikasi email dapat berupa "bukan spam".

Berbeda dengan class positif.

O

tujuan

#Metric

Metrik yang coba dioptimalkan oleh algoritme Anda.

fungsi objektif

#Metric

Formula matematika atau metrik yang ingin dioptimalkan oleh model. Misalnya, fungsi objektif untuk regresi linier biasanya Mean Squared Loss. Oleh karena itu, saat melatih model regresi linear, pelatihan bertujuan untuk meminimalkan Mean Squared Loss.

Dalam beberapa kasus, sasarannya adalah memaksimalkan fungsi objektif. Misalnya, jika fungsi objektifnya adalah akurasi, sasarannya adalah memaksimalkan akurasi.

Lihat juga kerugian.

P

lulus di k (pass@k)

#Metric

Metrik untuk menentukan kualitas kode (misalnya, Python) yang dihasilkan model bahasa besar. Lebih khusus lagi, lulus di k memberi tahu Anda kemungkinan bahwa setidaknya satu blok kode yang dihasilkan dari k blok kode yang dihasilkan akan lulus semua pengujian unitnya.

Model bahasa besar sering kali kesulitan menghasilkan kode yang baik untuk masalah pemrograman yang kompleks. Engineer software beradaptasi dengan masalah ini dengan meminta model bahasa besar untuk menghasilkan beberapa (k) solusi untuk masalah yang sama. Kemudian, engineer software menguji setiap solusi terhadap pengujian unit. Penghitungan lulus di k bergantung pada hasil pengujian unit:

  • Jika satu atau beberapa solusi tersebut lulus pengujian unit, LLM Lulus tantangan pembuatan kode tersebut.
  • Jika tidak ada solusi yang lulus pengujian unit, LLM Gagal tantangan pembuatan kode tersebut.

Rumus untuk lulus di k adalah sebagai berikut:

pass at k=total number of passestotal number of challenges

Secara umum, nilai k yang lebih tinggi menghasilkan skor lulus k yang lebih tinggi; tetapi, nilai k yang lebih tinggi memerlukan lebih banyak resource pengujian unit dan model bahasa besar.

Misalkan seorang engineer software meminta model bahasa besar untuk membuat k=10 solusi untuk n=50 masalah coding yang menantang. Berikut hasilnya:

  • 30 Kartu
  • 20 Gagal

Oleh karena itu, skor lulus pada 10 adalah:

pass at 10=3050=0.6

performa

#Metric

Istilah yang memiliki lebih dari satu makna:

  • Arti standar dalam software engineering. Yaitu: Seberapa cepat (atau efisien) software ini berjalan?
  • Makna dalam machine learning. Di sini, performa menjawab pertanyaan berikut: Seberapa benar model ini? Artinya, seberapa baik prediksi model?

kepentingan variabel permutasi

#df
#Metric

Jenis pentingnya variabel yang mengevaluasi peningkatan error prediksi model setelah menukar nilai fitur. Permutation variable importance adalah metrik yang tidak bergantung pada model.

perplexity

#Metric

Salah satu ukuran terkait seberapa baik model menyelesaikan tugasnya. Misalnya, tugas Anda adalah membaca beberapa huruf pertama dari kata yang diketik pengguna di keyboard ponsel, dan menawarkan daftar kemungkinan kata penyelesaian. Perplexity, P, untuk tugas ini adalah perkiraan jumlah tebakan yang perlu Anda tawarkan agar daftar Anda berisi kata sebenarnya yang coba diketik pengguna.

Perpleksitas terkait dengan entropi silang sebagai berikut:

P=2cross entropy

kelas positif

#fundamentals
#Metric

Class yang Anda uji.

Misalnya, kelas positif dalam model kanker mungkin berupa "tumor". Kelas positif dalam pengklasifikasi email dapat berupa "spam".

Berbeda dengan kelas negatif.

Istilah class positif dapat membingungkan karena hasil "positif" dari banyak pengujian sering kali merupakan hasil yang tidak diinginkan. Misalnya, class positif dalam banyak tes medis sesuai dengan tumor atau penyakit. Secara umum, Anda ingin dokter memberi tahu Anda, "Selamat! Hasil tes Anda negatif." Terlepas dari itu, class positif adalah peristiwa yang ingin ditemukan oleh pengujian.

Memang, Anda secara bersamaan menguji class positif dan negatif.


PR AUC (area di bawah kurva PR)

#Metric

Area di bawah kurva presisi-recall yang diinterpolasi, diperoleh dengan memetakan (recall, presisi) poin untuk berbagai nilai batas klasifikasi.

presisi

#Metric

Metrik untuk model klasifikasi yang menjawab pertanyaan berikut:

Saat model memprediksi kelas positif, berapa persentase prediksi yang benar?

Berikut adalah formulanya:

Precision=true positivestrue positives+false positives

dalam hal ini:

  • positif benar berarti model dengan benar memprediksi kelas positif.
  • positif palsu berarti model salah memprediksi kelas positif.

Misalnya, model membuat 200 prediksi positif. Dari 200 prediksi positif ini:

  • 150 adalah positif benar.
  • 50 di antaranya adalah positif palsu.

Dalam hal ini:

Precision=150150+50=0.75

Berbeda dengan akurasi dan recall.

Lihat Klasifikasi: Akurasi, recall, presisi, dan metrik terkait di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

presisi pada k (precision@k)

#language
#Metric

Metrik untuk mengevaluasi daftar item yang diurutkan. Presisi pada k mengidentifikasi fraksi item k pertama dalam daftar tersebut yang "relevan". Definisinya yaitu:

precision at k=relevant items in first k items of the listk

Nilai k harus kurang dari atau sama dengan panjang daftar yang ditampilkan. Perhatikan bahwa panjang daftar yang ditampilkan bukan bagian dari penghitungan.

Relevansi sering kali bersifat subjektif; bahkan evaluator manusia pakar sering kali tidak setuju tentang item mana yang relevan.

Bandingkan dengan:

Misalkan model bahasa besar diberi kueri berikut:

List the 6 funniest movies of all time in order.

Dan model bahasa besar menampilkan daftar yang ditampilkan di dua kolom pertama tabel berikut:

Posisi Film Relevan?
1 Jenderal Ya
2 Mean Girls Ya
3 Platoon Tidak
4 Bridesmaids Ya
5 Citizen Kane Tidak
6 Ini adalah Spinal Tap Ya

Dua dari tiga film pertama relevan, sehingga presisi pada 3 adalah:

precision at 3=23=0.67

Empat dari lima film pertama sangat lucu, sehingga presisi pada 5 adalah:

precision at 5=45=0.8

kurva presisi-recall

#Metric

Kurva presisi versus recall pada berbagai batas klasifikasi.

bias prediksi

#Metric

Nilai yang menunjukkan seberapa jauh rata-rata prediksi dari rata-rata label dalam set data.

Harap bedakan dengan istilah bias dalam model machine learning atau dengan bias dalam etika dan keadilan.

paritas prediktif

#fairness
#Metric

Metrik keadilan yang memeriksa apakah, untuk pengklasifikasi tertentu, rasio presisi setara untuk subgrup yang sedang dipertimbangkan.

Misalnya, model yang memprediksi penerimaan perguruan tinggi akan memenuhi paritas prediktif untuk kewarganegaraan jika rasio presisinya sama untuk Lilliputians dan Brobdingnagians.

Paritas prediktif terkadang juga disebut paritas tarif prediktif.

Lihat "Penjelasan Definisi Keadilan" (bagian 3.2.1) untuk diskusi yang lebih mendetail tentang paritas prediktif.

paritas tarif prediktif

#fairness
#Metric

Nama lain untuk paritas prediktif.

fungsi kepadatan probabilitas

#Metric

Fungsi yang mengidentifikasi frekuensi sampel data yang memiliki nilai tertentu persis. Jika nilai set data adalah bilangan floating point kontinu, kecocokan persis jarang terjadi. Namun, mengintegrasikan fungsi kepadatan probabilitas dari nilai x ke nilai y akan menghasilkan frekuensi sampel data yang diharapkan antara x dan y.

Misalnya, pertimbangkan distribusi normal yang memiliki mean 200 dan deviasi standar 30. Untuk menentukan frekuensi yang diharapkan dari sampel data yang berada dalam rentang 211,4 hingga 218,7, Anda dapat mengintegrasikan fungsi kepadatan probabilitas untuk distribusi normal dari 211,4 hingga 218,7.

R

recall

#Metric

Metrik untuk model klasifikasi yang menjawab pertanyaan berikut:

Jika kebenaran dasar adalah kelas positif, berapa persentase prediksi yang diidentifikasi model dengan benar sebagai kelas positif?

Berikut adalah formulanya:

Recall=true positivestrue positives+false negatives

dalam hal ini:

  • positif benar berarti model dengan benar memprediksi kelas positif.
  • negatif palsu berarti model salah memprediksi kelas negatif.

Misalnya, model Anda membuat 200 prediksi pada contoh yang kebenaran sebenarnya adalah class positif. Dari 200 prediksi ini:

  • 180 adalah positif benar.
  • 20 adalah negatif palsu.

Dalam hal ini:

Recall=180180+20=0.9

Perolehan sangat berguna untuk menentukan kekuatan prediktif model klasifikasi yang kelas positifnya jarang. Misalnya, pertimbangkan set data dengan ketidakseimbangan kelas yang kelas positifnya untuk penyakit tertentu hanya terjadi pada 10 pasien dari sejuta pasien. Misalkan model Anda membuat lima juta prediksi yang menghasilkan hasil berikut:

  • 30 Positif Benar
  • 20 Negatif Palsu
  • 4.999.000 Negatif Benar
  • 950 Positif Palsu

Oleh karena itu, recall model ini adalah:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
Sebaliknya, akurasi model ini adalah:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Nilai akurasi yang tinggi tersebut terlihat mengesankan, tetapi pada dasarnya tidak ada artinya. Recall adalah metrik yang jauh lebih berguna untuk set data kelas tidak seimbang daripada akurasi.


Lihat Klasifikasi: Akurasi, recall, presisi, dan metrik terkait untuk mengetahui informasi selengkapnya.

recall pada k (recall@k)

#language
#Metric

Metrik untuk mengevaluasi sistem yang menghasilkan daftar item yang diberi peringkat (diurutkan). Recall pada k mengidentifikasi fraksi item yang relevan dalam item k pertama dalam daftar tersebut dari total jumlah item relevan yang ditampilkan.

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

Berbeda dengan presisi pada k.

Misalkan model bahasa besar diberi kueri berikut:

List the 10 funniest movies of all time in order.

Dan model bahasa besar menampilkan daftar yang ditampilkan di dua kolom pertama:

Posisi Film Relevan?
1 Jenderal Ya
2 Mean Girls Ya
3 Platoon Tidak
4 Bridesmaids Ya
5 Ini adalah Spinal Tap Ya
6 Pesawat! Ya
7 Groundhog Day Ya
8 Monty Python and the Holy GrailYa
9 Oppenheimer Tidak
10 Tidak tahu apa-apa Ya

Delapan film dalam daftar sebelumnya sangat lucu, sehingga merupakan "item yang relevan dalam daftar". Oleh karena itu, 8 akan menjadi denominator dalam semua penghitungan recall pada k. Bagaimana dengan pembilangnya? Nah, 3 dari 4 item pertama relevan, jadi recall pada 4 adalah:

recall at 4=38=0.375

7 dari 8 film pertama sangat lucu, jadi recall pada 8 adalah:

recall at 8=78=0.875

Kurva ROC (Karakteristik Operasi Penerima)

#fundamentals
#Metric

Grafik rasio positif benar versus rasio positif palsu untuk berbagai batas klasifikasi dalam klasifikasi biner.

Bentuk kurva ROC menunjukkan kemampuan model klasifikasi biner untuk memisahkan class positif dari class negatif. Misalnya, model klasifikasi biner memisahkan semua class negatif dari semua class positif dengan sempurna:

Garis bilangan dengan 8 contoh positif di sisi kanan dan
          7 contoh negatif di sebelah kiri.

Kurva ROC untuk model sebelumnya terlihat seperti berikut:

Kurva ROC. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva memiliki bentuk L terbalik. Kurva
          dimulai dari (0,0,0) dan langsung naik ke (0,0,1). Kemudian, kurva
          akan berubah dari (0,0,1,0) menjadi (1,0,1,0).

Sebaliknya, ilustrasi berikut menggambarkan nilai regresi logistik mentah untuk model yang buruk yang sama sekali tidak dapat memisahkan class negatif dari class positif:

Garis bilangan dengan contoh positif dan kelas negatif
          yang benar-benar tercampur.

Kurva ROC untuk model ini terlihat seperti berikut:

Kurva ROC, yang sebenarnya adalah garis lurus dari (0,0,0)
          ke (1,0,1).

Sementara itu, di dunia nyata, sebagian besar model klasifikasi biner memisahkan class positif dan negatif sampai batas tertentu, tetapi biasanya tidak sempurna. Jadi, kurva ROC standar berada di antara dua ekstrem:

Kurva ROC. Sumbu x adalah Rasio Positif Palsu dan sumbu y adalah Rasio Positif Benar. Kurva ROC mendekati busur yang goyah
          yang melintasi titik kompas dari Barat ke Utara.

Titik pada kurva ROC yang paling dekat dengan (0,0,1,0) secara teori mengidentifikasi nilai minimum klasifikasi yang ideal. Namun, beberapa masalah dunia nyata lainnya memengaruhi pemilihan nilai minimum klasifikasi yang ideal. Misalnya, mungkin negatif palsu menyebabkan lebih banyak masalah daripada positif palsu.

Metrik numerik yang disebut AUC merangkum kurva ROC menjadi satu nilai floating point.

Error Akar Rataan Kuadrat (RMSE)

#fundamentals
#Metric

Akar kuadrat dari Rataan Kuadrat Galat (RKG).

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#Metric

Kumpulan metrik yang mengevaluasi model ringkasan otomatis dan terjemahan mesin. Metrik ROUGE menentukan tingkat tumpang-tindih teks referensi dengan teks yang dihasilkan model ML. Setiap anggota keluarga ROUGE mengukur tumpang-tindih dengan cara yang berbeda. Skor ROUGE yang lebih tinggi menunjukkan kesamaan yang lebih besar antara teks referensi dan teks yang dihasilkan daripada skor ROUGE yang lebih rendah.

Setiap anggota keluarga ROUGE biasanya menghasilkan metrik berikut:

  • Presisi
  • Recall
  • F1

Untuk mengetahui detail dan contohnya, lihat:

ROUGE-L

#language
#Metric

Anggota dari keluarga ROUGE berfokus pada panjang suburutan umum terpanjang dalam teks referensi dan teks yang dihasilkan. Rumus berikut menghitung recall dan presisi untuk ROUGE-L:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

Kemudian, Anda dapat menggunakan F1 untuk menggabungkan recall ROUGE-L dan presisi ROUGE-L menjadi satu metrik:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
Pertimbangkan teks referensi dan teks yang dihasilkan berikut.
Kategori Siapa yang memproduksi? Teks
Teks referensi Penerjemah manusia Saya ingin memahami berbagai hal.
Teks yang dihasilkan Model ML Saya ingin mempelajari banyak hal.
Oleh karena itu:
  • Suburutan umum terpanjang adalah 5 (I want to of things)
  • Jumlah kata dalam teks referensi adalah 9.
  • Jumlah kata dalam teks yang dihasilkan adalah 7.
Akibatnya:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

ROUGE-L mengabaikan baris baru dalam teks referensi dan teks yang dihasilkan, sehingga suburutan umum terpanjang dapat melintasi beberapa kalimat. Jika teks referensi dan teks yang dihasilkan melibatkan beberapa kalimat, variasi ROUGE-L yang disebut ROUGE-Lsum umumnya merupakan metrik yang lebih baik. ROUGE-Lsum menentukan suburutan umum terpanjang untuk setiap kalimat dalam sebuah bagian, lalu menghitung rata-rata suburutan umum terpanjang tersebut.

Pertimbangkan teks referensi dan teks yang dihasilkan berikut.
Kategori Siapa yang memproduksi? Teks
Teks referensi Penerjemah manusia Permukaan Mars kering. Hampir semua air berada jauh di bawah tanah.
Teks yang dihasilkan Model ML Mars memiliki permukaan yang kering. Namun, sebagian besar air berada di bawah tanah.
Jadi:
Kalimat pertama Kalimat kedua
Urutan umum terpanjang2 (Mars dry) 3 (air berada di bawah tanah)
Panjang kalimat teks referensi 6 7
Panjang kalimat teks yang dihasilkan 5 8
Akibatnya:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Metric

Kumpulan metrik dalam keluarga ROUGE yang membandingkan N-gram bersama dengan ukuran tertentu dalam teks referensi dan teks yang dihasilkan. Contoh:

  • ROUGE-1 mengukur jumlah token yang dibagikan dalam teks referensi dan teks yang dihasilkan.
  • ROUGE-2 mengukur jumlah bigram (2-gram) bersama dalam teks referensi dan teks yang dihasilkan.
  • ROUGE-3 mengukur jumlah trigram (3-gram) bersama dalam teks referensi dan teks yang dihasilkan.

Anda dapat menggunakan formula berikut untuk menghitung recall ROUGE-N dan presisi ROUGE-N untuk setiap anggota keluarga ROUGE-N:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

Kemudian, Anda dapat menggunakan F1 untuk menggabungkan recall ROUGE-N dan presisi ROUGE-N menjadi satu metrik:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
Misalnya, Anda memutuskan untuk menggunakan ROUGE-2 untuk mengukur efektivitas terjemahan model ML dibandingkan dengan terjemahan penerjemah manusia.
Kategori Siapa yang memproduksi? Teks Bigram
Teks referensi Penerjemah manusia Saya ingin memahami berbagai hal. Saya ingin, ingin, untuk memahami, memahami, berbagai, berbagai macam, ragam hal
Teks yang dihasilkan Model ML Saya ingin mempelajari banyak hal. Saya ingin, ingin, untuk belajar, belajar banyak, banyak, hal
Oleh karena itu:
  • Jumlah 2-gram yang cocok adalah 3 (I want, want to, dan of things).
  • Jumlah 2-gram dalam teks referensi adalah 8.
  • Jumlah 2-gram dalam teks yang dihasilkan adalah 6.
Akibatnya:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Metric

Bentuk ROUGE-N yang toleran yang memungkinkan pencocokan skip-gram. Artinya, ROUGE-N hanya menghitung N-gram yang cocok persis, tetapi ROUGE-S juga menghitung N-gram yang dipisahkan oleh satu atau beberapa kata. Misalnya, perhatikan kode berikut:

Saat menghitung ROUGE-N, 2-gram, Awan putih tidak cocok dengan Awan putih yang mengembang. Namun, saat menghitung ROUGE-S, Awan putih cocok dengan Awan putih yang membumbung.

R-persegi

#Metric

Metrik regresi yang menunjukkan jumlah variasi dalam label yang disebabkan oleh setiap fitur atau kumpulan fitur. R-kuadrat adalah nilai antara 0 dan 1, yang dapat Anda interpretasikan sebagai berikut:

  • R-kuadrat 0 berarti tidak ada variasi label yang disebabkan oleh kumpulan fitur.
  • R-kuadrat 1 berarti semua variasi label disebabkan oleh kumpulan fitur.
  • R-kuadrat antara 0 dan 1 menunjukkan sejauh mana variasi label dapat diprediksi dari fitur tertentu atau kumpulan fitur. Misalnya, R-kuadrat 0,10 berarti bahwa 10 persen varian dalam label disebabkan oleh kumpulan fitur, R-kuadrat 0,20 berarti bahwa 20 persen disebabkan oleh kumpulan fitur, dan seterusnya.

R-kuadrat adalah kuadrat dari koefisien korelasi Pearson antara nilai yang diprediksi model dan kebenaran dasar.

S

penskoran

#recsystems
#Metric

Bagian dari sistem rekomendasi yang memberikan nilai atau peringkat untuk setiap item yang dihasilkan oleh fase pemilihan kandidat.

ukuran kesamaan

#clustering
#Metric

Dalam algoritma pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip (seberapa serupa) dua contoh yang diberikan.

ketersebaran

#Metric

Jumlah elemen yang ditetapkan ke nol (atau null) dalam vektor atau matriks dibagi dengan jumlah total entri dalam vektor atau matriks tersebut. Misalnya, pertimbangkan matriks 100 elemen yang 98 selnya berisi nol. Penghitungan kepadatan adalah sebagai berikut:

sparsity=98100=0.98

Kesenjangan fitur mengacu pada kesenjangan vektor fitur; kesenjangan model mengacu pada kesenjangan bobot model.

kerugian engsel kuadrat

#Metric

Kuadrat dari kerugian engsel. Kerugian engsel kuadrat menghukum pencilan lebih keras daripada kerugian engsel biasa.

kerugian kuadrat

#fundamentals
#Metric

Sinonim dari Kerugian 2.

S

kerugian pengujian

#fundamentals
#Metric

Metrik yang mewakili loss model terhadap set pengujian. Saat membuat model, Anda biasanya mencoba meminimalkan kerugian pengujian. Hal ini karena kerugian pengujian yang rendah adalah sinyal kualitas yang lebih kuat daripada kerugian pelatihan yang rendah atau kerugian validasi yang rendah.

Kesenjangan yang besar antara kerugian pengujian dan kerugian pelatihan atau kerugian validasi terkadang menunjukkan bahwa Anda perlu meningkatkan rasio regularisasi.

akurasi top-k

#language
#Metric

Persentase frekuensi kemunculan "label target" dalam posisi k pertama dari daftar yang dihasilkan. Daftar tersebut dapat berupa rekomendasi yang dipersonalisasi atau daftar item yang diurutkan menurut softmax.

Akurasi top-k juga dikenal sebagai akurasi pada k.

Pertimbangkan sistem machine learning yang menggunakan softmax untuk mengidentifikasi probabilitas pohon berdasarkan gambar daun pohon. Tabel berikut menunjukkan daftar output yang dihasilkan dari lima gambar hierarki input. Setiap baris berisi label target dan lima kemungkinan pohon yang paling besar. Misalnya, jika label targetnya adalah maple, model machine learning akan mengidentifikasi elm sebagai pohon yang paling mungkin, oak sebagai pohon yang paling mungkin kedua, dan seterusnya.

Label target 1 2 3 4 5
maple elm ek maple beech poplar
dogwood ek dogwood poplar Hickory maple
ek oak basswood belalang alder Linden
Linden maple paw-paw ek basswood poplar
ek belalang Linden oak maple paw-paw

Label target hanya muncul satu kali di posisi pertama, sehingga akurasi top-1 adalah:

top-1 accuracy=15=0.2

Label target muncul di salah satu dari tiga posisi teratas empat kali, sehingga akurasi 3 teratas adalah:

top-1 accuracy=45=0.8

perilaku negatif

#language
#Metric

Tingkat konten yang menyinggung, mengancam, atau kasar. Banyak model machine learning yang dapat mengidentifikasi dan mengukur toksisitas. Sebagian besar model ini mengidentifikasi toksisitas berdasarkan beberapa parameter, seperti tingkat bahasa kasar dan tingkat bahasa yang mengancam.

kerugian pelatihan

#fundamentals
#Metric

Metrik yang mewakili kerugian model selama iterasi pelatihan tertentu. Misalnya, anggap fungsi rugi adalah Mean Squared Error. Mungkin kerugian pelatihan (Mean Squared Error) untuk iterasi ke-10 adalah 2,2, dan kerugian pelatihan untuk iterasi ke-100 adalah 1,9.

Kurva kerugian memetakan kerugian pelatihan terhadap jumlah iterasi. Kurva kerugian memberikan petunjuk berikut tentang pelatihan:

  • Kemiringan menurun menyiratkan bahwa model tersebut meningkat.
  • Kemiringan ke atas menyiratkan bahwa model semakin buruk.
  • Kemiringan datar menyiratkan bahwa model telah mencapai konvergensi.

Misalnya, kurva kerugian yang agak ideal berikut menunjukkan:

  • Kemiringan menurun yang curam selama iterasi awal, yang menyiratkan peningkatan model yang cepat.
  • Kemiringan yang secara bertahap mendatar (tetapi masih menurun) hingga mendekati akhir pelatihan, yang menyiratkan peningkatan model yang berkelanjutan dengan kecepatan yang agak lebih lambat daripada selama iterasi awal.
  • Kemiringan datar menjelang akhir pelatihan, yang menunjukkan konvergensi.

Plot kerugian pelatihan versus iterasi. Kurva kerugian ini dimulai
     dengan kemiringan menurun yang curam. Kemiringan secara bertahap menjadi datar hingga kemiringan menjadi nol.

Meskipun kerugian pelatihan penting, lihat juga generalisasi.

negatif benar (NB)

#fundamentals
#Metric

Contoh yang mana model dengan benar memprediksi kelas negatif. Misalnya, model menyimpulkan bahwa pesan email tertentu bukan spam, dan pesan email tersebut benar-benar bukan spam.

positif benar (TP)

#fundamentals
#Metric

Contoh yang mana model dengan benar memprediksi kelas positif. Misalnya, model menyimpulkan bahwa pesan email tertentu adalah spam, dan pesan email tersebut memang spam.

rasio positif benar (TPR)

#fundamentals
#Metric

Sinonim dari recall. Definisinya yaitu:

true positive rate=true positivestrue positives+false negatives

Rasio positif benar adalah sumbu y dalam kurva ROC.

V

kerugian validasi

#fundamentals
#Metric

Metrik yang mewakili kerugian model pada set validasi selama iterasi pelatihan tertentu.

Lihat juga kurva generalisasi.

kepentingan variabel

#df
#Metric

Kumpulan skor yang menunjukkan nilai penting relatif dari setiap fitur terhadap model.

Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika serangkaian nilai penting variabel untuk ketiga fitur dihitung menjadi {size=5.8, age=2.5, style=4.7}, maka ukuran lebih penting bagi pohon keputusan daripada usia atau gaya.

Ada berbagai metrik tingkat kepentingan variabel, yang dapat memberi tahu ahli ML tentang berbagai aspek model.

W

Kerugian Wasserstein

#Metric

Salah satu fungsi kerugian yang biasa digunakan dalam generative adversarial networks, berdasarkan earth mover's distance antara distribusi data yang dihasilkan dan data sebenarnya.