Glosarium Machine Learning: Keadilan

Halaman ini berisi istilah glosarium Keadilan. Untuk semua istilah glosarium, klik di sini.

A

atribut

#fairness

Sinonim dari fitur.

Dalam keadilan machine learning, atribut sering kali mengacu pada karakteristik yang berkaitan dengan individu.

bias otomatisasi

#fairness

Ketika pembuat keputusan manusia lebih memilih rekomendasi yang dibuat oleh sistem pengambilan keputusan otomatis daripada informasi yang dibuat tanpa otomatisasi, meskipun sistem pengambilan keputusan otomatis membuat error.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

B

bias (etika/keadilan)

#fairness
#fundamentals

1. Stereotip, prasangka, atau preferensi terhadap beberapa hal, orang, atau kelompok dibandingkan yang lain. Bias ini dapat memengaruhi pengumpulan dan interpretasi data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk jenis bias ini meliputi:

2. Error sistematis yang disebabkan oleh prosedur sampling atau pelaporan. Bentuk jenis bias ini meliputi:

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

C

bias konfirmasi

#fairness

Kecenderungan untuk mencari, menafsirkan, mendukung, dan mengingat informasi dengan cara yang mengonfirmasi keyakinan atau hipotesis yang sudah ada sebelumnya. Developer machine learning mungkin tidak sengaja mengumpulkan atau memberi label data dengan cara yang memengaruhi hasil yang mendukung kepercayaan mereka yang sudah ada. Bias konfirmasi adalah bentuk dari bias implisit.

Bias pelaku eksperimen adalah bentuk bias konfirmasi, yaitu saat pelaku eksperimen terus melatih model hingga hipotesis yang sudah ada sebelumnya dikonfirmasi.

keadilan kontrafaktual

#fairness

Metrik keadilan yang memeriksa apakah pengklasifikasi menghasilkan hasil yang sama untuk satu individu seperti yang dilakukan untuk individu lain yang identik dengan individu pertama, kecuali sehubungan dengan satu atau beberapa atribut sensitif. Mengevaluasi pengklasifikasi untuk keadilan counterfactual adalah salah satu metode untuk menampilkan potensi sumber bias dalam model.

Lihat salah satu artikel berikut untuk mengetahui informasi selengkapnya:

bias cakupan

#fairness

Lihat bias seleksi.

D

paritas demografis

#fairness

Metrik keadilan yang terpenuhi jika hasil klasifikasi model tidak bergantung pada atribut sensitif tertentu.

Misalnya, jika Lilliputian dan Brobdingnagian mendaftar ke Universitas Glubbdubdrib, paritas demografis akan tercapai jika persentase Lilliputian yang diterima sama dengan persentase Brobdingnagian yang diterima, terlepas dari apakah satu kelompok rata-rata lebih memenuhi syarat daripada kelompok lainnya.

Berbeda dengan equalized odds dan equality of opportunity, yang mengizinkan hasil klasifikasi secara agregat bergantung pada atribut sensitif, tetapi tidak mengizinkan hasil klasifikasi untuk label ground truth tertentu yang ditentukan bergantung pada atribut sensitif. Lihat "Menangkal diskriminasi dengan machine learning yang lebih cerdas" untuk melihat visualisasi yang mengeksplorasi kompromi saat mengoptimalkan paritas demografis.

Lihat Keadilan: paritas demografis di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

dampak yang berbeda

#fairness

Membuat keputusan tentang orang yang memengaruhi subgrup populasi yang berbeda secara tidak proporsional. Hal ini biasanya mengacu pada situasi saat proses pengambilan keputusan algoritma merugikan atau menguntungkan beberapa subgrup lebih dari yang lain.

Misalnya, algoritma yang menentukan kelayakan Lilliputian untuk pinjaman rumah miniatur cenderung mengklasifikasikan mereka sebagai "tidak memenuhi syarat" jika alamat surat mereka berisi kode pos tertentu. Jika Liliput Big-Endian lebih cenderung memiliki alamat surat dengan kode pos ini daripada Liliput Little-Endian, algoritma ini dapat menghasilkan dampak yang berbeda.

Berbeda dengan perlakuan yang berbeda, yang berfokus pada perbedaan yang terjadi saat karakteristik subgrup merupakan input eksplisit untuk proses pengambilan keputusan algoritme.

perlakuan yang berbeda

#fairness

Memfaktorkan atribut sensitif subjek ke dalam proses pengambilan keputusan algoritme sehingga subgrup orang yang berbeda diperlakukan secara berbeda.

Misalnya, pertimbangkan algoritma yang menentukan kelayakan Lilliputians untuk mendapatkan pinjaman rumah miniatur berdasarkan data yang mereka berikan dalam permohonan pinjaman. Jika algoritma menggunakan afiliasi Lilliputian sebagai Big-Endian atau Little-Endian sebagai input, algoritma tersebut akan menerapkan perlakuan yang berbeda di sepanjang dimensi tersebut.

Berbeda dengan dampak yang tidak setara, yang berfokus pada perbedaan dampak sosial dari keputusan algoritma terhadap subgrup, terlepas dari apakah subgrup tersebut merupakan input untuk model.

E

kesetaraan peluang

#fairness

Metrik keadilan untuk menilai apakah model memprediksi hasil yang diinginkan dengan sama baiknya untuk semua nilai atribut sensitif. Dengan kata lain, jika hasil yang diinginkan untuk model adalah class positif, sasaran yang akan dicapai adalah agar rasio positif benar sama untuk semua grup.

Kesetaraan peluang terkait dengan peluang yang disamakan, yang mengharuskan baik rasio positif benar maupun rasio positif palsu sama untuk semua grup.

Misalkan Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagian ke program matematika yang ketat. Sekolah menengah Lilliputians menawarkan kurikulum kelas matematika yang kuat, dan sebagian besar siswa memenuhi syarat untuk program universitas. Sekolah menengah Brobdingnag tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswa mereka yang memenuhi syarat. Kesetaraan peluang terpenuhi untuk label pilihan "diterima" sehubungan dengan kewarganegaraan (Lilliputian atau Brobdingnagian) jika siswa yang memenuhi syarat memiliki kemungkinan yang sama untuk diterima, terlepas dari apakah mereka adalah Lilliputian atau Brobdingnagian.

Misalnya, 100 Lilliputian dan 100 Brobdingnagian mendaftar ke Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 1. Pelamar Lilliputian (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 3
Ditolak 45 7
Total 90 10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 7/10 = 70%
Total persentase siswa Lilliputian yang diterima: (45+3)/100 = 48%

 

Tabel 2. Pelamar Brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 9
Ditolak 5 81
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 81/90 = 90%
Total persentase siswa Brobdingnagian yang diterima: (5+9)/100 = 14%

Contoh sebelumnya memenuhi kesetaraan peluang untuk penerimaan siswa yang memenuhi syarat karena Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima.

Meskipun kesetaraan peluang terpenuhi, dua metrik keadilan berikut tidak terpenuhi:

  • paritas demografi: Lilliputians dan Brobdingnagians diterima di universitas dengan tingkat yang berbeda; 48% siswa Lilliputians diterima, tetapi hanya 14% siswa Brobdingnagian yang diterima.
  • equalized odds: Meskipun siswa Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang yang sama untuk diterima, batasan tambahan bahwa siswa Lilliputian dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang yang sama untuk ditolak tidak terpenuhi. Lilliputian yang tidak memenuhi syarat memiliki rasio penolakan 70%, sedangkan Brobdingnagian yang tidak memenuhi syarat memiliki rasio penolakan 90%.

Lihat Keadilan: Kesetaraan kesempatan di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

peluang yang disamakan

#fairness

Metrik keadilan untuk menilai apakah model memprediksi hasil dengan sama baiknya untuk semua nilai atribut sensitif sehubungan dengan kelas positif dan kelas negatif—bukan hanya satu kelas atau yang lainnya secara eksklusif. Dengan kata lain, rasio positif benar dan rasio negatif palsu harus sama untuk semua grup.

Peluang yang disamakan terkait dengan kesetaraan peluang, yang hanya berfokus pada rasio error untuk satu class (positif atau negatif).

Misalnya, Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagian ke program matematika yang ketat. Sekolah menengah Lilliputians menawarkan kurikulum kelas matematika yang kuat, dan sebagian besar siswa memenuhi syarat untuk program universitas. Sekolah menengah Brobdingnag tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswa yang memenuhi syarat. Peluang yang sama terpenuhi asalkan tidak memedulikan apakah pelamar adalah Lilliputian atau Brobdingnagian, jika mereka memenuhi syarat, mereka memiliki peluang yang sama untuk diterima ke dalam program, dan jika mereka tidak memenuhi syarat, mereka memiliki peluang yang sama untuk ditolak.

Misalkan 100 Lilliputian dan 100 Brobdingnagian mendaftar ke Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 3. Pelamar Lilliputian (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 2
Ditolak 45 8
Total 90 10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 8/10 = 80%
Total persentase siswa Lilliputian yang diterima: (45+2)/100 = 47%

 

Tabel 4. Pelamar Brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 18
Ditolak 5 72
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 72/90 = 80%
Total persentase siswa Brobdingnagian yang diterima: (5+18)/100 = 23%

Peluang yang disamakan terpenuhi karena siswa Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima, dan siswa Lilliputian dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang 80% untuk ditolak.

Peluang yang disamakan secara formal ditentukan dalam "Kesetaraan Peluang dalam Pemelajaran Berawas" sebagai berikut: "prediktor Ŷ memenuhi peluang yang disamakan sehubungan dengan atribut A yang dilindungi dan hasil Y jika Ŷ dan A independen, bersyarat pada Y."

bias pelaku eksperimen

#fairness

Lihat bias konfirmasi.

F

batasan keadilan

#fairness
Menerapkan batasan ke algoritma untuk memastikan satu atau beberapa definisi keadilan terpenuhi. Contoh batasan keadilan meliputi:

metrik keadilan

#fairness

Definisi matematika "keadilan" yang dapat diukur. Beberapa metrik keadilan yang umum digunakan meliputi:

Banyak metrik keadilan yang saling eksklusif; lihat ketidakcocokan metrik keadilan.

G

bias atribusi kelompok

#fairness

Dengan asumsi bahwa hal yang benar bagi individu juga benar bagi semua orang dalam grup tersebut. Efek dari bias atribusi grup dapat diperburuk jika pengambilan sampel praktis digunakan untuk pengumpulan data. Dalam sampel bukan perwakilan, atribusi dapat dibuat yang tidak mencerminkan realitas.

Lihat juga bias kehomogenan luar golongan dan bias dalam golongan. Selain itu, lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

H

bias historis

#fairness

Jenis bias yang sudah ada di dunia dan telah masuk ke set data. Bias ini cenderung mencerminkan stereotip budaya, ketimpangan demografi, dan prasangka terhadap kelompok sosial tertentu yang ada.

Misalnya, pertimbangkan model klasifikasi yang memprediksi apakah pemohon pinjaman akan gagal bayar pinjamannya atau tidak, yang dilatih dengan data historis default pinjaman dari tahun 1980-an dari bank lokal di dua komunitas yang berbeda. Jika pelamar sebelumnya dari Komunitas A enam kali lebih mungkin gagal membayar pinjaman mereka daripada pelamar dari Komunitas B, model mungkin mempelajari bias historis yang menyebabkan model tersebut kurang mungkin menyetujui pinjaman di Komunitas A, meskipun kondisi historis yang menghasilkan tingkat default yang lebih tinggi di komunitas tersebut tidak lagi relevan.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

I

bias implisit

#fairness

Membuat asosiasi atau asumsi secara otomatis berdasarkan model dan kenangan pikiran seseorang. Bias implisit dapat memengaruhi hal berikut:

  • Cara data dikumpulkan dan diklasifikasikan.
  • Cara sistem machine learning dirancang dan dikembangkan.

Misalnya, saat membuat pengklasifikasi untuk mengidentifikasi foto pernikahan, seorang engineer dapat menggunakan keberadaan gaun putih dalam foto sebagai fitur. Namun, gaun putih hanya menjadi kebiasaan selama era tertentu dan dalam budaya tertentu.

Lihat juga bias konfirmasi.

ketidakcocokan metrik keadilan

#fairness

Gagasan bahwa beberapa gagasan keadilan saling tidak kompatibel dan tidak dapat dipenuhi secara bersamaan. Akibatnya, tidak ada satupun metrik universal untuk mengukur keadilan yang dapat diterapkan ke semua masalah ML.

Meskipun hal ini mungkin tampak mengecewakan, ketidakcocokan metrik keadilan tidak menyiratkan bahwa upaya keadilan tidak membuahkan hasil. Sebaliknya, hal ini menunjukkan bahwa keadilan harus ditentukan secara kontekstual untuk masalah ML tertentu, dengan tujuan mencegah bahaya yang spesifik untuk kasus penggunaannya.

Lihat "Tentang (ke)tidakmungkinan keadilan" untuk membahas topik ini lebih mendetail.

keadilan individu

#fairness

Metrik keadilan yang memeriksa apakah individu yang serupa diklasifikasikan secara serupa. Misalnya, Brobdingnagian Academy mungkin ingin memenuhi keadilan individu dengan memastikan bahwa dua siswa dengan nilai yang sama dan skor ujian standar memiliki peluang yang sama untuk diterima.

Perhatikan bahwa keadilan individu sepenuhnya bergantung pada cara Anda menentukan "kemiripan" (dalam hal ini, nilai dan skor ujian), dan Anda dapat berisiko memperkenalkan masalah keadilan baru jika metrik kemiripan Anda melewatkan informasi penting (seperti ketelitian kurikulum siswa).

Lihat "Keadilan Melalui Kesadaran" untuk pembahasan yang lebih mendetail tentang keadilan individu.

bias dalam grup

#fairness

Menunjukkan keberpihakan pada golongan atau karakteristik milik seseorang. Jika penguji atau pelabel terdiri dari teman, keluarga, atau rekan developer machine learning, bias dalam golongan dapat membatalkan validasi pengujian produk atau set data.

Bias dalam golongan adalah bentuk bias atribusi grup. Lihat juga bias kehomogenan luar golongan.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

T

bias abstain

#fairness

Lihat bias seleksi.

O

bias kehomogenan luar golongan

#fairness

Kecenderungan untuk melihat anggota luar kelompok sebagai lebih mirip daripada anggota dalam kelompok saat membandingkan sikap, nilai, ciri kepribadian, dan karakteristik lainnya. Dalam grup mengacu pada orang yang berinteraksi dengan Anda secara berkala; luar grup mengacu pada orang yang tidak berinteraksi dengan Anda secara berkala. Jika Anda membuat set data dengan meminta orang untuk memberikan atribut tentang luar golongan, atribut tersebut mungkin kurang bernuansa dan lebih stereotip daripada atribut yang dicantumkan oleh peserta untuk orang di dalam golongan mereka.

Misalnya, Liliput mungkin mendeskripsikan rumah Liliput lain dengan sangat mendetail, dengan menyebutkan perbedaan kecil dalam gaya arsitektur, jendela, pintu, dan ukuran. Namun, Lilliputian yang sama mungkin hanya menyatakan bahwa Brobdingnagians semuanya tinggal di rumah yang identik.

Bias kehomogenan luar golongan adalah bentuk bias atribusi kelompok.

Lihat juga bias dalam grup.

P

bias partisipasi

#fairness

Sinonim dari bias abstain. Lihat bias seleksi.

pasca-pemrosesan

#fairness
#fundamentals

Menyesuaikan output model setelah model dijalankan. Pascapemrosesan dapat digunakan untuk menerapkan batasan keadilan tanpa mengubah model itu sendiri.

Misalnya, seseorang dapat menerapkan pascapemrosesan ke pengklasifikasi biner dengan menetapkan nilai minimum klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa apakah rasio positif sejati sama untuk semua nilai atribut tersebut.

paritas prediktif

#fairness

Metrik keadilan yang memeriksa apakah, untuk pengklasifikasi tertentu, rasio presisi setara untuk subgrup yang sedang dipertimbangkan.

Misalnya, model yang memprediksi penerimaan perguruan tinggi akan memenuhi paritas prediktif untuk kewarganegaraan jika rasio presisinya sama untuk Lilliputians dan Brobdingnagians.

Paritas prediktif terkadang juga disebut paritas tarif prediktif.

Lihat "Penjelasan Definisi Keadilan" (bagian 3.2.1) untuk diskusi yang lebih mendetail tentang paritas prediktif.

paritas tarif prediktif

#fairness

Nama lain untuk paritas prediktif.

prapemrosesan

#fairness
Memproses data sebelum digunakan untuk melatih model. Prapemrosesan dapat sederhana menghapus kata dari korpus teks bahasa Inggris yang tidak terdapat dalam kamus bahasa Inggris, atau dapat sesederhana mengekspresikan ulang titik data dengan cara yang menghilangkan sebanyak mungkin atribut yang berkorelasi dengan atribut sensitif. Prapemrosesan dapat membantu memenuhi batasan keadilan.

proxy (atribut sensitif)

#fairness
Atribut yang digunakan sebagai pengganti atribut sensitif. Misalnya, kode pos individu dapat digunakan sebagai proxy untuk pendapatan, ras, atau etnisnya.

R

bias pelaporan

#fairness

Fakta bahwa frekuensi orang menulis tentang tindakan, hasil, atau properti bukanlah cerminan frekuensi di dunia nyata atau tingkat properti yang merupakan karakteristik dari suatu kelompok individu. Bias pelaporan dapat memengaruhi komposisi data yang dipelajari oleh sistem machine learning.

Misalnya, dalam buku, kata tertawa lebih umum daripada menghembuskan napas. Model machine learning yang memperkirakan frekuensi relatif tertawa dan bernapas dari korpus buku mungkin akan menentukan bahwa tertawa lebih umum daripada bernapas.

S

bias sampling

#fairness

Lihat bias seleksi.

bias seleksi

#fairness

Error dalam kesimpulan yang diambil dari data sampel karena proses pemilihan yang menghasilkan perbedaan sistematis antara sampel yang diamati dalam data dan yang tidak diamati. Berikut ini beberapa bentuk bias seleksi:

  • bias cakupan: Populasi yang direpresentasikan dalam set data tidak sesuai dengan populasi yang digunakan model machine learning untuk membuat prediksi.
  • bias sampling: Data tidak dikumpulkan secara acak dari grup target.
  • bias non-respons (juga disebut bias partisipasi): Pengguna dari grup tertentu memilih untuk tidak mengikuti survei dengan tingkat yang berbeda dari pengguna dari grup lain.

Misalnya, Anda membuat model machine learning yang memprediksi kesenangan orang terhadap film. Untuk mengumpulkan data pelatihan, Anda membagikan survei kepada semua orang di barisan depan teater yang menayangkan film. Secara spontan, hal ini mungkin terdengar seperti cara yang wajar untuk mengumpulkan set data; namun, bentuk pengumpulan data semacam ini dapat memperkenalkan bentuk-bentuk bias seleksi berikut:

  • bias cakupan: Dengan mengambil sampel dari populasi yang memilih untuk menonton film, prediksi model Anda tidak dapat digeneralisasikan kepada orang-orang yang belum mengekspresikan minat terhadap film tersebut.
  • bias sampling: Daripada mengambil sampel secara acak dari populasi yang diinginkan (semua orang di bioskop), Anda hanya mengambil sampel orang-orang di barisan depan. Mungkin saja orang-orang yang duduk di baris depan lebih tertarik dengan film daripada orang-orang di baris lain.
  • bias non-respons: Secara umum, orang dengan pendapat yang kuat cenderung lebih sering merespons survei opsional daripada orang dengan pendapat yang lemah. Karena survei film bersifat opsional, respons lebih cenderung membentuk distribusi bimodal daripada distribusi normal (berbentuk lonceng).

atribut sensitif

#fairness
Atribut manusia yang dapat diberi pertimbangan khusus karena alasan hukum, etika, sosial, atau personal.

U

ketidaktahuan (terhadap atribut sensitif)

#fairness

Situasi saat atribut sensitif ada, tetapi tidak disertakan dalam data pelatihan. Karena atribut sensitif sering kali berkorelasi dengan atribut lain dari data seseorang, model yang dilatih tanpa mengetahui atribut sensitif masih dapat memiliki dampak yang berbeda sehubungan dengan atribut tersebut, atau melanggar batasan keadilan lainnya.