Glosarium Machine Learning: Keadilan

Halaman ini berisi istilah glosarium Keadilan. Untuk semua istilah glosarium, klik di sini.

A

atribut

#fairness

Sinonim dari fitur.

Dalam keadilan machine learning, atribut sering mengacu pada karakteristik yang berkaitan dengan individu.

bias otomatisasi

#fairness

Saat pengambil keputusan manual lebih memilih rekomendasi yang dibuat oleh sistem pengambilan keputusan otomatis daripada informasi yang dibuat tanpa otomatisasi, bahkan saat sistem pengambilan keputusan otomatis membuat kesalahan.

B

bias (etika/keadilan)

#fairness
#fundamentals

1. Stereotip, prasangka atau favoritisme terhadap beberapa hal, orang, atau kelompok di atas yang lainnya. Bias ini dapat memengaruhi pengumpulan dan penafsiran data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk bias ini meliputi:

2. Error sistematis yang diperkenalkan melalui prosedur pengambilan sampel atau pelaporan. Bentuk bias ini meliputi:

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

C

bias konfirmasi

#fairness

Kecenderungan untuk menelusuri, menafsirkan, mendukung, dan mengingat informasi dengan cara yang mengonfirmasi keyakinan atau hipotesis yang sudah ada sebelumnya. Developer machine learning dapat secara tidak sengaja mengumpulkan atau memberi label data dengan cara yang memengaruhi hasil yang mendukung keyakinan mereka yang sudah ada. Bias konfirmasi merupakan bentuk dari bias implisit.

Bias eksperimen adalah bentuk bias konfirmasi yang memungkinkan eksperimen melanjutkan model pelatihan hingga hipotesis yang sudah ada dikonfirmasi.

keadilan kontrafaktual

#fairness
Metrik keadilan yang memeriksa apakah pengklasifikasi menghasilkan hasil yang sama untuk satu individu seperti halnya untuk individu lain yang identik dengan yang pertama, kecuali sehubungan dengan satu atau beberapa atribut sensitif. Mengevaluasi pengklasifikasi untuk keadilan kontrafaktual adalah salah satu metode untuk memunculkan sumber potensial bias dalam model.

Lihat "Ketika Dunia Bertentangan: Mengintegrasikan Berbagai Asumsi Kontrafaktual dalam Keadilan" untuk diskusi yang lebih mendetail tentang keadilan kontrafaktual.

bias cakupan

#fairness

Lihat bias seleksi.

D

paritas demografis

#fairness

Metrik keadilan yang puas jika hasil klasifikasi model tidak bergantung pada atribut sensitif tertentu.

Misalnya, jika Lilliputian dan Brobdingnagian mengajukan permohonan ke Glubbdubdrib University, kesetaraan demografi akan tercapai jika persentase Lilliputian yang mengaku sama dengan persentase Brobdingnagian yang diterima, terlepas dari apakah suatu kelompok rata-rata lebih memenuhi syarat daripada kelompok lainnya.

Berbeda dengan peluang yang sama dan kesetaraan peluang, yang memungkinkan hasil klasifikasi secara agregat bergantung pada atribut sensitif, tetapi tidak mengizinkan hasil klasifikasi untuk label kebenaran dasar tertentu yang bergantung pada atribut sensitif. Lihat "Menyerang diskriminasi dengan machine learning yang lebih cerdas" untuk visualisasi yang mengeksplorasi kompromi saat mengoptimalkan paritas demografis.

dampak yang berbeda

#fairness

Membuat keputusan tentang orang yang memengaruhi subkelompok populasi yang berbeda secara tidak proporsional. Hal ini biasanya mengacu pada situasi saat proses pengambilan keputusan algoritme membahayakan atau menguntungkan beberapa subgrup daripada yang lainnya.

Misalnya, algoritma yang menentukan kelayakan Lilliputian untuk pinjaman rumah mini lebih cenderung mengklasifikasikannya sebagai "tidak memenuhi syarat" jika alamat surat mereka berisi kode pos tertentu. Jika Lilliputian Big-Endian lebih cenderung memiliki alamat surat dengan kode pos ini dibandingkan dengan Little-Endian Lilliput, algoritme ini dapat menghasilkan dampak yang berbeda.

Berbeda dengan perlakuan yang berbeda, yang berfokus pada perbedaan yang dihasilkan saat karakteristik subgrup merupakan input eksplisit untuk proses pengambilan keputusan algoritme.

perlakuan yang berbeda

#fairness

Memfaktorkan atribut sensitif subjek dalam proses pengambilan keputusan algoritme sehingga subgrup orang yang berbeda akan diperlakukan secara berbeda.

Misalnya, pertimbangkan algoritme yang menentukan kelayakan Lilliputian untuk pinjaman rumah mini berdasarkan data yang mereka berikan dalam permohonan pinjaman mereka. Jika algoritme tersebut menggunakan afiliasi Liliput sebagai input Big-Endian atau Little-Endian sebagai input, algoritme tersebut menerapkan perlakuan yang berbeda di sepanjang dimensi tersebut.

Berbeda dengan dampak yang berbeda, yang berfokus pada perbedaan dalam dampak sosial dari keputusan algoritme pada subgrup, terlepas dari apakah subgrup tersebut merupakan input untuk model atau tidak.

E

kesetaraan peluang

#fairness
Metrik keadilan yang memeriksa apakah, untuk label pilihan (yang memberikan manfaat atau manfaat bagi seseorang) dan atribut tertentu, pengklasifikasi akan memprediksi label pilihan dengan baik untuk semua nilai atribut tersebut. Dengan kata lain, kesetaraan kesempatan mengukur apakah orang-orang yang harus memenuhi syarat memiliki peluang yang sama sama untuk terlepas dari keanggotaan grup mereka.

Misalnya, Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagians untuk mengikuti program matematika yang ketat. Sekolah menengah liliput menawarkan kurikulum kelas matematika yang canggih, dan sebagian besar pelajar memenuhi syarat untuk mengikuti program universitas. Sekolah menengah Brobdingnagians tidak menawarkan kelas matematika sama sekali, sehingga siswa jauh lebih berkualitas. Kesetaraan kesempatan puas dengan label pilihan "diakui" dengan menghormati kebangsaan (Lilliput atau Brobdingnagian) jika siswa yang memenuhi syarat sama-sama diterima, terlepas dari apakah mereka adalah Lilliputian atau Brobdingnagian.

Misalnya, katakanlah 100 Lilliputian dan 100 Brobdingnagian berlaku untuk Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 1. Pelamar liputan (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 3
Ditolak 45 7
Total 90 10
Persentase siswa berkualifikasi yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat ditolak: 7/10 = 70%
Persentase total siswa Lilliput yang diterima: (45+3)/100 = 48%

 

Tabel 2. Pendaftar Brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 9
Ditolak 5 81
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat ditolak: 81/90 = 90%
Persentase total siswa Brobdingnagian yang diterima: (5+9)/100 = 14%

Contoh sebelumnya memenuhi kesetaraan kesempatan untuk menerima siswa yang memenuhi syarat karena Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima.

Lihat "Kesetaraan Peluang dalam Pembelajaran yang Dilindungi" untuk pembahasan yang lebih mendetail tentang kesetaraan peluang. Lihat juga "Menyerang diskriminasi dengan machine learning yang lebih cerdas" untuk visualisasi yang mengeksplorasi kompromi saat mengoptimalkan kesetaraan peluang.

peluang yang sama

#fairness
Metrik keadilan yang memeriksa apakah, untuk label dan atribut tertentu, pengklasifikasi memprediksi label tersebut secara setara untuk semua nilai atribut tersebut.

Misalnya, Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagians sebagai peserta program matematika yang ketat. Sekolah menengah Lilliputian menawarkan kurikulum kelas matematika yang kokoh, dan sebagian besar siswa memenuhi syarat untuk mengikuti program universitas. Sekolah menengah Brobdingnagian tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswa yang memenuhi syarat. Peluang yang setara terpenuhi dengan syarat bahwa tidak penting apakah pemohon adalah Liliput atau Brobdingnagian, jika mereka memenuhi syarat, peluang mereka sama-sama mungkin untuk diterima dalam program ini, dan jika mereka tidak memenuhi syarat, kemungkinan mereka sama untuk ditolak.

Misalnya 100 Lilliputian dan 100 Brobdingnagian berlaku untuk Glubbdubdrib University, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 3. Pelamar liputan (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 2
Ditolak 45 8
Total 90 10
Persentase siswa berkualifikasi yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat ditolak: 8/10 = 80%
Persentase total siswa Lilliput yang diterima: (45+2)/100 = 47%

 

Tabel 4. Pendaftar Brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 18
Ditolak 5 72
Total 10 90
Persentase siswa berkualifikasi yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat ditolak: 72/90 = 80%
Persentase total siswa Brobdingnagian yang diterima: (5+18)/100 = 23%

Peluang yang setara terpenuhi karena siswa Lilliputian dan Brobdingnagia yang memenuhi syarat memiliki peluang 50% untuk diterima, serta Lilliputian dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang 80% untuk ditolak.

Peluang yang setara secara resmi didefinisikan dalam "Kesetaraan Peluang dalam Pembelajaran yang Diawasi" sebagai berikut: "predik Ŷ memenuhi peluang yang setara dengan atribut yang dilindungi A dan hasil Y jika Ŷ dan A bersifat independen, bersyarat pada Y".

bias pelaku eksperimen

#fairness

Lihat bias konfirmasi.

J

batasan keadilan

#fairness
Menerapkan batasan ke algoritme untuk memastikan satu atau beberapa definisi keadilan terpenuhi. Contoh batasan keadilan meliputi:

metrik keadilan

#fairness

Definisi matematika tentang “keadilan” yang dapat diukur. Beberapa metrik keadilan yang umum digunakan mencakup:

Banyak metrik keadilan bersifat eksklusif satu sama lain; lihat inkompatibilitas metrik keadilan.

G

bias atribusi golongan

#fairness

Dengan asumsi bahwa hal yang benar bagi individu juga berlaku bagi semua orang dalam kelompok tersebut. Efek dari bias atribusi kelompok dapat diperburuk jika pengambilan sampel praktis digunakan untuk pengumpulan data. Dalam contoh non-representasi, atribusi dapat dibuat yang tidak mencerminkan realitas.

Lihat juga bias homogenitas di luar grup dan bias dalam grup.

I

bias implisit

#fairness

Membuat pengaitan atau asumsi secara otomatis berdasarkan model mental dan memori seseorang. Bias implisit dapat memengaruhi hal-hal berikut:

  • Cara data dikumpulkan dan diklasifikasikan.
  • Cara sistem machine learning dirancang dan dikembangkan.

Misalnya, saat membuat pengklasifikasi untuk mengidentifikasi foto pernikahan, engineer dapat menggunakan keberadaan gaun putih dalam foto sebagai fitur. Namun, gaun putih telah menjadi kebiasaan selama era tertentu dan dalam budaya tertentu saja.

Lihat juga bias konfirmasi.

ketidaksesuaian metrik keadilan

#fairness

Gagasan bahwa beberapa gagasan keadilan tidak kompatibel satu sama lain dan tidak dapat dipenuhi secara bersamaan. Akibatnya, tidak ada metrik universal yang universal untuk mengukur keadilan yang dapat diterapkan pada semua masalah ML.

Meskipun ini mungkin tidak masuk akal, ketidaksesuaian metrik keadilan tidak berarti bahwa upaya keadilan tidak membuahkan hasil. Sebagai gantinya, disarankan bahwa keadilan harus didefinisikan secara kontekstual untuk masalah ML tertentu, dengan tujuan untuk mencegah bahaya khusus untuk kasus penggunaannya.

Lihat "Tentang kemungkinan (keadilan) keadilan" untuk diskusi yang lebih mendetail tentang topik ini.

keadilan individu

#fairness

Metrik keadilan yang memeriksa apakah individu yang serupa diklasifikasikan serupa. Misalnya, Brobdingnagian Academy mungkin ingin memenuhi keadilan individual dengan memastikan bahwa dua siswa dengan nilai yang sama dan skor ujian yang distandardisasi sama-sama mungkin akan mendapatkan tiket masuk.

Perlu diperhatikan bahwa keadilan individual bergantung sepenuhnya pada cara Anda menentukan "kesamaan" (dalam hal ini, nilai dan skor ujian), dan Anda dapat berisiko menimbulkan masalah keadilan baru jika metrik kesamaan Anda melewatkan informasi penting (seperti ketelitian kurikulum siswa).

Lihat "Keadilan Melalui Awareness" untuk diskusi yang lebih mendetail tentang keadilan individual.

bias dalam grup

#fairness

Menunjukkan keberpihakan pada kelompok atau karakteristik tersendiri. Jika penguji atau penilai terdiri dari teman, keluarga, atau rekan developer machine learning, bias dalam grup dapat membatalkan pengujian produk atau set data.

Bias dalam kelompok merupakan bentuk bias atribusi kelompok. Lihat juga bias kehomogenan di luar grup.

N

bias non-respons

#fairness

Lihat bias seleksi.

O

bias kehomogenan luar golongan

#fairness

Kecenderungan untuk melihat anggota di luar grup lebih mirip daripada anggota dalam grup saat membandingkan sikap, nilai, ciri kepribadian, dan karakteristik lainnya. Dalam grup mengacu pada orang yang berinteraksi dengan Anda secara rutin; grup luar mengacu pada orang yang tidak berinteraksi dengan Anda secara rutin. Jika Anda membuat set data dengan meminta orang untuk memberikan atribut tentang di luar grup, atribut tersebut mungkin kurang mendetail dan lebih stereotip daripada atribut yang dicantumkan peserta untuk orang dalam grup mereka.

Misalnya, Liliput mungkin mendeskripsikan rumah Liliput lain dengan sangat mendetail, dengan menyebutkan perbedaan kecil dalam gaya arsitektur, jendela, pintu, dan ukuran. Namun, Liliput yang sama mungkin hanya menyatakan bahwa semua BRobdingnagian tinggal di rumah yang identik.

Bias kehomogenan luar kelompok merupakan bentuk bias atribusi kelompok.

Lihat juga bias dalam grup.

P

bias partisipasi

#fairness

Sinonim dari bias non-respons. Lihat bias seleksi.

pascapemrosesan

#fairness
#fundamentals

Menyesuaikan output model setelah model dijalankan. Pasca-pemrosesan dapat digunakan untuk menerapkan batasan keadilan tanpa mengubah model itu sendiri.

Misalnya, seseorang mungkin menerapkan pasca-pemrosesan ke pengklasifikasi biner dengan menetapkan batas klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa apakah rasio positif benar sama untuk semua nilai atribut tersebut.

paritas prediktif

#fairness

Metrik keadilan yang memeriksa apakah, untuk pengklasifikasi tertentu, rasio presisi setara dengan subgrup yang dipertimbangkan.

Misalnya, model yang memprediksi penerimaan perguruan tinggi akan memenuhi kesamaan yang bersifat prediktif untuk kebangsaan, jika tingkat presisinya sama untuk Lilliputian dan Brobdingnagians.

Paritas prediktif terkadang disebut juga paritas laju prediktif.

Lihat "Definisi Keadilan Penjelasan" (bagian 3.2.1) untuk pembahasan yang lebih mendetail tentang paritas prediktif.

paritas rasio prediktif

#fairness

Nama lain untuk paritas prediktif.

pra-pemrosesan

#fairness
Memproses data sebelum digunakan untuk melatih model. Pra-pemrosesan dapat sesederhana menghapus kata dari korpus teks bahasa Inggris yang tidak terjadi dalam kamus bahasa Inggris, atau dapat menjadi rumit seperti mengekspresikan ulang titik data dengan cara yang menghilangkan sebanyak mungkin atribut yang berkorelasi dengan atribut sensitif. Pra-pemrosesan dapat membantu memenuhi batasan keadilan.

proxy (atribut sensitif)

#fairness
Atribut yang digunakan sebagai pengganti atribut sensitif. Misalnya, kode pos individu dapat digunakan sebagai proxy untuk pendapatan, ras, atau etnis mereka.

R

bias pelaporan

#fairness

Fakta bahwa frekuensi yang digunakan orang-orang untuk menulis tindakan, hasil, atau properti bukanlah cerminan dari frekuensi mereka di dunia nyata atau sejauh mana properti merupakan karakteristik dari kelas individu. Bias pelaporan dapat memengaruhi komposisi data yang dipelajari sistem machine learning.

Misalnya, dalam buku, kata tertawa lebih umum daripada bernapas. Model machine learning yang memperkirakan frekuensi relatif dari tertawa dan bernapas dari korpus buku mungkin akan menentukan bahwa tertawa lebih sering terjadi daripada bernapas.

M

bias sampling

#fairness

Lihat bias seleksi.

bias seleksi

#fairness

Error dalam kesimpulan yang diambil dari data sampel karena proses pemilihan yang menghasilkan perbedaan sistematis antara sampel yang diamati dalam data dan sampel yang tidak diamati. Berikut ini beberapa bentuk bias seleksi:

  • bias cakupan: Populasi yang direpresentasikan dalam set data tidak sesuai dengan populasi yang digunakan untuk membuat prediksi machine learning.
  • bias sampling: Data tidak dikumpulkan secara acak dari grup target.
  • bias non-respons (juga disebut bias partisipasi): Pengguna dari grup tertentu memilih tidak ikut survei dengan rasio yang berbeda dibandingkan pengguna dari grup lain.

Misalnya, Anda membuat model machine learning yang memprediksi tingkat kepuasan orang terhadap film. Untuk mengumpulkan data pelatihan, Anda membagikan survei kepada semua orang di baris depan bioskop yang menayangkan film. Secara langsung, hal ini mungkin terdengar seperti cara yang wajar untuk mengumpulkan set data; namun, bentuk pengumpulan data ini dapat memperkenalkan bentuk-bentuk bias seleksi berikut:

  • bias cakupan: Dengan mengambil sampel dari populasi yang memilih untuk menonton film, prediksi model Anda mungkin tidak bersifat umum untuk orang yang belum mengekspresikan minat terhadap film tersebut.
  • bias sampling: Alih-alih mengambil sampel secara acak dari populasi yang diinginkan (semua orang di film), Anda hanya mengambil sampel dari orang-orang di barisan depan. Ada kemungkinan bahwa orang-orang yang duduk di barisan depan lebih tertarik dengan film daripada orang-orang yang duduk di baris lain.
  • bias non-respons: Secara umum, orang dengan opini yang kuat cenderung merespons survei opsional lebih sering daripada orang dengan opini yang ringan. Karena survei film bersifat opsional, responsnya lebih mungkin membentuk distribusi bimodal daripada distribusi normal (berbentuk lonceng).

atribut sensitif

#fairness
Atribut manusia yang dapat diberikan pertimbangan khusus karena alasan hukum, etis, sosial, atau pribadi.

U

tidak sadar (ke atribut sensitif)

#fairness

Situasi saat atribut sensitif ada, tetapi tidak disertakan dalam data pelatihan. Karena atribut sensitif sering kali berkorelasi dengan atribut lain dari data seseorang, model yang dilatih tanpa kesadaran tentang atribut sensitif tetap dapat memiliki dampak yang berbeda sehubungan dengan atribut tersebut, atau melanggar batasan keadilan lainnya.