Glosarium Machine Learning: Keadilan

Halaman ini berisi istilah glosarium Keadilan. Untuk semua istilah glosarium, klik di sini.

A

atribut

#fairness

Sinonim dari fitur.

Dalam keadilan machine learning, atribut sering mengacu pada karakteristik yang berkaitan dengan individu.

bias otomatisasi

#fairness

Saat pengambil keputusan manusia lebih menyukai rekomendasi yang dibuat oleh sistem pengambilan keputusan otomatis dibandingkan informasi yang dibuat tanpa otomatisasi, bahkan saat sistem pengambilan keputusan otomatis melakukan kesalahan.

B

bias (etika/keadilan)

#fairness
#fundamentals

1. Stereotip, prasangka atau favoritisme terhadap beberapa hal, orang, atau kelompok atas hal-hal lain. Bias tersebut dapat memengaruhi pengumpulan dan penafsiran data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk bias semacam ini meliputi:

2. Error sistematis yang diperkenalkan melalui prosedur pengambilan sampel atau pelaporan. Bentuk bias semacam ini meliputi:

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

C

bias konfirmasi

#fairness

Kecenderungan untuk menelusuri, menafsirkan, mendukung, dan mengingat informasi dengan cara yang mengonfirmasi keyakinan atau hipotesis yang sudah ada sebelumnya. Developer machine learning dapat secara tidak sengaja mengumpulkan atau memberi label data dengan cara yang memengaruhi hasil yang mendukung keyakinan mereka yang sudah ada. Bias konfirmasi merupakan bentuk dari bias implisit.

Bias pelaku eksperimen adalah bentuk bias konfirmasi yang memungkinkan pelaku eksperimen melanjutkan pelatihan model hingga hipotesis yang sudah ada dikonfirmasi.

keadilan kontrafaktual

#fairness
Metrik keadilan yang memeriksa apakah pengklasifikasi menghasilkan hasil yang sama untuk satu individu seperti yang dilakukannya untuk individu lain yang identik dengan hasil pertama, kecuali sehubungan dengan satu atau beberapa atribut sensitif. Mengevaluasi pengklasifikasi untuk keadilan kontrafaktual adalah salah satu metode untuk memunculkan potensi sumber bias dalam model.

Lihat "When Worlds Collide: Mengintegrasikan Another CounterfActual Asumsi dalam Keadilan" untuk pembahasan lebih mendetail tentang keadilan kontrafaktual.

bias cakupan

#fairness

Lihat bias pemilihan.

D

paritas demografis

#fairness

Metrik keadilan yang terpenuhi jika hasil klasifikasi model tidak bergantung pada atribut sensitif tertentu.

Misalnya, jika Lilliputian dan Brobdingnagian berlaku untuk Universitas Glubbdubdrib, paritas demografis akan dicapai jika persentase Lilliputian yang diterima sama dengan persentase anggota Brobdingnagian yang diterima, terlepas dari apakah satu kelompok secara rata-rata lebih memenuhi syarat daripada kelompok lainnya.

Berbeda dengan peluang yang sama dan kesetaraan peluang, yang memungkinkan klasifikasi hasil secara agregat bergantung pada atribut sensitif, tetapi tidak mengizinkan hasil klasifikasi untuk label kebenaran dasar tertentu yang bergantung pada atribut sensitif. Lihat "Menyerang diskriminasi dengan machine learning yang lebih pintar" untuk visualisasi yang akan mempelajari kelebihan saat mengoptimalkan paritas demografis.

dampak yang berbeda

#fairness

Membuat keputusan tentang orang yang memengaruhi subgrup populasi yang berbeda secara tidak proporsional. Hal ini biasanya merujuk pada situasi ketika proses pengambilan keputusan algoritme membahayakan atau menguntungkan beberapa subgrup lebih banyak daripada yang lainnya.

Misalnya, algoritme yang menentukan kelayakan Lilliputian untuk pinjaman rumah mini lebih cenderung mengklasifikasikan mereka sebagai "tidak memenuhi syarat" jika alamat surat mereka berisi kode pos tertentu. Jika Lilliputian Big-Endian lebih cenderung memiliki alamat surat dengan kode pos ini daripada Lilliputian Kecil, algoritme ini dapat mengakibatkan dampak yang berbeda.

Berbeda dengan perlakuan yang berbeda, yang berfokus pada perbedaan yang dihasilkan ketika karakteristik subgrup adalah input eksplisit untuk proses pengambilan keputusan algoritme.

perlakuan yang berbeda

#fairness

Memfaktorkan subjek' atribut sensitif ke dalam proses pengambilan keputusan algoritme sehingga berbagai subgrup orang diperlakukan secara berbeda.

Misalnya, pertimbangkan algoritme yang menentukan kelayakan Lilliput untuk pinjaman rumah mini berdasarkan data yang mereka berikan dalam permohonan pinjaman mereka. Jika algoritme ini menggunakan afiliasi Lilliputian sebagai Big-Endian atau Little-Endian sebagai input, algoritme tersebut akan menerapkan perlakuan yang berbeda di sepanjang dimensi tersebut.

Berbeda dengan dampak yang berbeda-beda, yang berfokus pada perbedaan dampak sosial dari keputusan algoritme terhadap subgrup, terlepas dari apakah subgrup tersebut merupakan input untuk model.

E

kesetaraan peluang

#fairness
Metrik keadilan yang memeriksa apakah, untuk label pilihan (yang memberikan keuntungan atau manfaat bagi seseorang) dan atribut tertentu, pengklasifikasi akan memprediksi label pilihan dengan baik untuk semua nilai atribut tersebut. Dengan kata lain, kesetaraan kesempatan akan mengukur apakah orang yang harus memenuhi syarat untuk kesempatan tersebut sama-sama dapat melakukannya terlepas dari keanggotaan grupnya.

Misalnya, Glubbdubdrib University menerima Lilliputian dan Brobdingnagians dalam program matematika yang ketat. Sekolah menengah liliput menawarkan kurikulum yang kuat dari kelas matematika, dan sebagian besar siswa memenuhi syarat untuk mengikuti program universitas. Sekolah menengah Brobdingnagians tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswa mereka yang memenuhi syarat. Kesetaraan peluang dipenuhi untuk label pilihan "diterima" dengan menghormati kewarganegaraan (Lilliput atau Brobdingnagian) jika siswa yang memenuhi syarat sama-sama diterima, terlepas dari apakah mereka adalah Liliput atau Brobdingnagian.

Misalnya, 100 Lilliputian dan 100 Brobdingnagian berlaku untuk Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 1. Pelamar Liliput (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 3
Ditolak 45 7
Total 90 10
Persentase siswa berkualifikasi yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat ditolak: 7/10 = 70%
Total persentase siswa Lilliput yang diterima: (45+3)/100 = 48%

 

Tabel 2. Pelamar Brobdingnagian (10% berkualifikasi):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 9
Ditolak 5 81
Total 10 90
Persentase siswa berkualifikasi yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat ditolak: 81/90 = 90%
Total persentase siswa Brobdingnagian yang diterima: (5+9)/100 = 14%

Contoh sebelumnya memenuhi kesetaraan kesempatan untuk menerima siswa yang memenuhi syarat karena Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima.

Lihat "Equality of Opportunity in Supervised Learning" untuk diskusi yang lebih mendetail tentang kesetaraan peluang. Lihat juga "Menyerang diskriminasi dengan machine learning yang lebih pintar" untuk visualisasi yang akan mempelajari hasilnya saat mengoptimalkan kesetaraan peluang.

peluang yang sama

#fairness
Metrik keadilan yang memeriksa apakah, untuk label dan atribut tertentu, pengklasifikasi memprediksi label tersebut dengan baik untuk semua nilai atribut tersebut.

Misalnya, Glubbdubdrib University menerima Lilliputians dan Brabdingnagians dalam program matematika yang ketat. Lilliputians' sekolah menengah menawarkan kurikulum kelas matematika yang kuat, dan sebagian besar siswa memenuhi syarat untuk mengikuti program universitas. Brobdingnagians' sekolah menengah tidak menawarkan kelas matematika sama sekali, dan akibatnya, jauh lebih sedikit siswa mereka yang memenuhi syarat. Peluang yang dikualifikasikan merasa puas asalkan tidak peduli apakah pelamar merupakan Lilliput atau Brobdingnagian, dan jika mereka memenuhi syarat, peluang mereka sama-sama mungkin untuk diterima dalam program ini, dan jika tidak memenuhi syarat, peluang mereka sama kemungkinan besar untuk ditolak.

Misalnya 100 Lilliputian dan 100 Brobdingnagian berlaku untuk Glubbdubdrib University, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 3. Pelamar Liliput (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 2
Ditolak 45 8
Total 90 10
Persentase siswa berkualifikasi yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat ditolak: 8/10 = 80%
Persentase total siswa Lilliput yang diterima: (45+2)/100 = 47%

 

Tabel 4. Pelamar Brobdingnagian (10% berkualifikasi):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 18
Ditolak 5 72
Total 10 90
Persentase siswa berkualifikasi yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat ditolak: 72/90 = 80%
Persentase total siswa Brobdingnagian yang diterima: (5+18)/100 = 23%

Peluang yang dikualifikasikan terpenuhi karena siswa Lilliput dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima, serta Lilliputian dan Brobdingnagian yang tidak memenuhi syarat memiliki peluang 80% untuk ditolak.

Peluang yang sama secara resmi didefinisikan dalam "Equality of Opportunity in Supervised Learning" sebagai berikut: "prediktor Ŷ memenuhi peluang yang disamakan sehubungan dengan atribut A dan hasil Y yang dilindungi jika Ŷ dan A bersifat independen, bersyarat pada Y."

bias eksperimen

#fairness

Lihat bias konfirmasi.

F

batasan keadilan

#fairness
Menerapkan batasan pada algoritme untuk memastikan satu atau beberapa definisi keadilan terpenuhi. Contoh batasan keadilan meliputi:

metrik keadilan

#fairness

Definisi matematika dari "keadilan" yang dapat diukur. Beberapa metrik keadilan yang umum digunakan meliputi:

Banyak metrik keadilan saling eksklusif; lihat inkompatibilitas metrik keadilan.

G

bias atribusi grup

#fairness

Dengan asumsi bahwa hal yang benar bagi individu juga benar bagi semua orang dalam kelompok tersebut. Efek dari bias atribusi grup dapat diperburuk jika pengambilan sampel praktis digunakan untuk pengumpulan data. Dalam sampel non-representasi, atribusi dapat dibuat yang tidak mencerminkan realitas.

Lihat juga bias kehomogenan luar grup dan bias dalam grup.

I

bias implisit

#fairness

Membuat asosiasi atau asumsi secara otomatis berdasarkan model dan memori mental. Bias implisit dapat memengaruhi hal-hal berikut:

  • Cara data dikumpulkan dan diklasifikasikan.
  • Cara sistem machine learning dirancang dan dikembangkan.

Misalnya, saat membuat pengklasifikasi untuk mengidentifikasi foto pernikahan, engineer dapat menggunakan gaun putih dalam foto sebagai fitur. Namun, gaun putih telah menjadi kebiasaan selama era tertentu dan dalam budaya tertentu saja.

Lihat juga bias konfirmasi.

inkompatibilitas metrik keadilan

#fairness

Konsep bahwa beberapa gagasan keadilan tidak kompatibel satu sama lain dan tidak dapat dipenuhi secara bersamaan. Oleh karena itu, tidak ada metrik universal yang universal untuk mengukur keadilan yang dapat diterapkan pada semua masalah ML.

Meskipun hal ini mungkin mengecewakan, ketidakcocokan metrik keadilan tidak menyiratkan bahwa upaya keadilan tidak berbuah. Namun, artikel ini menyarankan bahwa keadilan harus ditentukan secara kontekstual untuk masalah ML tertentu, dengan tujuan mencegah bahaya khusus untuk kasus penggunaannya.

Lihat "Pada (kemungkinan) keadilan" untuk diskusi yang lebih mendetail mengenai topik ini.

keadilan individu

#fairness

Metrik keadilan yang memeriksa apakah individu yang serupa diklasifikasikan dengan cara yang sama. Misalnya, Akademi Brobdingnagian mungkin ingin memenuhi keadilan individu dengan memastikan bahwa dua siswa dengan nilai yang sama dan skor tes standar sama-sama cenderung mendapatkan akses masuk.

Perlu diperhatikan bahwa keadilan individual bergantung sepenuhnya pada cara Anda menentukan "kesamaan" (dalam hal ini, nilai dan skor ujian), dan Anda dapat menjalankan risiko permasalahan baru jika metrik kesamaan Anda melewatkan informasi penting (seperti ketelitian kurikulum siswa).

Lihat "Keadilan Melalui Awareness" untuk diskusi yang lebih mendetail tentang keadilan individu.

bias dalam grup

#fairness

Menunjukkan keberpihakan pada kelompok seseorang atau karakteristiknya sendiri. Jika penguji atau penilai terdiri dari teman, keluarga, atau rekan developer machine learning, bias dalam grup dapat membatalkan pengujian produk atau set data.

Bias dalam grup adalah bentuk bias atribusi grup. Lihat juga bias kehomogenan luar grup.

T

bias non-respons

#fairness

Lihat bias pemilihan.

O

bias kehomogenan luar grup

#fairness

Kecenderungan untuk melihat anggota di luar grup lebih mirip daripada anggota dalam grup saat membandingkan sikap, nilai, ciri kepribadian, dan karakteristik lainnya. In-group mengacu pada orang yang berinteraksi dengan Anda secara berkala; out-group mengacu pada orang yang tidak berinteraksi dengan Anda secara rutin. Jika Anda membuat set data dengan meminta orang untuk memberikan atribut tentang di luar grup, atribut tersebut mungkin kurang bernuansa dan lebih stereotip daripada atribut yang dicantumkan oleh peserta untuk orang-orang yang ada dalam grup mereka.

Misalnya, Liliput mungkin mendeskripsikan rumah Liliput lain dengan sangat mendetail, dengan menyebutkan perbedaan kecil dalam gaya arsitektur, jendela, pintu, dan ukuran. Namun, Liliput yang sama mungkin hanya mendeklarasikan bahwa semua Brobdingnagian tinggal di rumah yang identik.

Bias kehomogenan luar grup adalah bentuk bias atribusi grup.

Lihat juga bias dalam grup.

P

bias partisipasi

#fairness

Sinonim dari bias non-respons. Lihat bias pemilihan.

pascapemrosesan

#fairness
#fundamentals

Menyesuaikan output model setelah model dijalankan. Pascapemrosesan dapat digunakan untuk menerapkan batasan keadilan tanpa mengubah model itu sendiri.

Misalnya, seseorang mungkin menerapkan pascapemrosesan ke pengklasifikasi biner dengan menetapkan batas klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa bahwa rasio positif benar sama untuk semua nilai atribut tersebut.

paritas prediktif

#fairness

Metrik keadilan yang memeriksa apakah, untuk pengklasifikasi tertentu, rasio presisi setara dengan subgrup yang sedang dipertimbangkan.

Misalnya, model yang memprediksi penerimaan perguruan tinggi akan memenuhi kesamaan paritas prediktif untuk kebangsaan jika tingkat presisinya sama untuk Lilliput dan Brobdingnagians.

Paritas prediktif terkadang disebut juga paritas rasio prediktif.

Lihat "Definisi Keadilan Dijelaskan" (bagian 3.2.1) untuk pembahasan yang lebih mendetail tentang paritas prediktif.

paritas rasio prediktif

#fairness

Nama lain untuk paritas prediktif.

pemrosesan awal

#fairness
Memproses data sebelum digunakan untuk melatih model. Pra-pemrosesan dapat sesederhana menghapus kata dari korpus teks bahasa Inggris yang tidak terjadi dalam kamus bahasa Inggris, atau dapat rumit seperti mengekspresikan titik data dengan cara yang menghilangkan sebanyak mungkin atribut yang terkait dengan atribut sensitif mungkin. Pra-pemrosesan dapat membantu memenuhi batasan keadilan.

proxy (atribut sensitif)

#fairness
Atribut yang digunakan sebagai pengganti atribut sensitif. Misalnya, kode pos individu dapat digunakan sebagai proxy untuk pendapatan, ras, atau etnis mereka.

R

bias pelaporan

#fairness

Fakta bahwa frekuensi orang dalam menulis tindakan, hasil, atau properti bukanlah cerminan dari frekuensi di dunia nyata atau sejauh mana properti merupakan karakteristik dari class individu. Bias pelaporan dapat memengaruhi komposisi data yang dipelajari oleh sistem machine learning.

Misalnya, dalam buku, kata tertawa lebih umum daripada bernapas. Model machine learning yang memperkirakan frekuensi relatif tertawa dan bernapas dari korpus buku mungkin akan menentukan bahwa tertawa lebih umum daripada bernapas.

S

bias sampling

#fairness

Lihat bias pemilihan.

bias seleksi

#fairness

Error dalam kesimpulan yang diambil dari data sampel karena proses pemilihan yang menghasilkan perbedaan sistematis antara sampel yang diamati dalam data dan sampel yang tidak diamati. Berikut ini beberapa bentuk bias seleksi:

  • bias cakupan: Populasi yang direpresentasikan dalam set data tidak cocok dengan populasi yang digunakan prediksi model machine learning.
  • bias pengambilan sampel: Data tidak dikumpulkan secara acak dari grup target.
  • bias non-respons (juga disebut bias partisipasi): Pengguna dari grup tertentu memilih tidak mengikuti survei pada tingkat yang berbeda dengan pengguna dari grup lain.

Misalnya, Anda membuat model machine learning yang memprediksi kesenangan orang terhadap film. Untuk mengumpulkan data pelatihan, Anda membagikan survei kepada semua orang di barisan depan teater yang menampilkan film tersebut. Secara langsung, ini mungkin terdengar seperti cara yang wajar untuk mengumpulkan set data; namun, bentuk pengumpulan data ini dapat memperkenalkan bentuk-bentuk bias seleksi berikut:

  • bias cakupan: Dengan mengambil sampel dari populasi yang memilih untuk menonton film ini, prediksi model Anda mungkin tidak akan digeneralisasi ke orang-orang yang belum menyatakan tingkat minat tersebut terhadap film.
  • bias sampling: Alih-alih mengambil sampel secara acak dari populasi yang diinginkan (semua orang di film), Anda hanya mengambil sampel dari orang-orang di baris depan. Ada kemungkinan bahwa orang-orang yang duduk di barisan depan lebih tertarik dengan film daripada orang-orang di baris lainnya.
  • bias non-respons: Secara umum, orang dengan opini yang kuat cenderung merespons survei opsional lebih sering dibandingkan dengan orang yang memiliki opini ringan. Karena survei film bersifat opsional, respons lebih cenderung akan membentuk distribusi bimodal daripada distribusi normal (berbentuk lonceng).

atribut sensitif

#fairness
Atribut manusia yang dapat diberikan pertimbangan khusus karena alasan hukum, etis, sosial, atau pribadi.

U

awareness (ke atribut sensitif)

#fairness

Situasi saat atribut sensitif ada, tetapi tidak disertakan dalam data pelatihan. Karena atribut sensitif sering kali berkorelasi dengan atribut lain dari data seseorang, model yang dilatih dengan tidak sadar tentang atribut sensitif masih dapat memiliki dampak yang berbeda sehubungan dengan atribut tersebut, atau melanggar batasan keadilan lainnya.