Glosarium Machine Learning: Responsible AI

Halaman ini berisi istilah glosarium Responsible AI. Untuk semua istilah glosarium, klik di sini.

A

atribut

#responsible

Sinonim untuk fitur.

Dalam keadilan machine learning, atribut sering kali merujuk pada karakteristik yang berkaitan dengan individu.

bias otomatisasi

#responsible

Saat pembuat keputusan manusia lebih memilih rekomendasi yang dibuat oleh sistem pengambilan keputusan otomatis daripada informasi yang dibuat tanpa otomatisasi, meskipun sistem pengambilan keputusan otomatis tersebut membuat kesalahan.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

B

bias (etika/keadilan)

#responsible
#fundamentals

1. Stereotip, prasangka, atau preferensi terhadap beberapa hal, orang, atau kelompok dibandingkan yang lain. Bias ini dapat memengaruhi pengumpulan dan interpretasi data, desain sistem, dan cara pengguna berinteraksi dengan sistem. Bentuk bias jenis ini meliputi:

2. Error sistematis yang disebabkan oleh prosedur sampling atau pelaporan. Bentuk bias jenis ini meliputi:

Harap bedakan dengan istilah bias dalam model machine learning atau bias prediksi.

Lihat Fairness: Types of bias di Machine Learning Crash Course untuk mengetahui informasi selengkapnya.

C

bias konfirmasi

#responsible

Kecenderungan untuk mencari, menafsirkan, menyukai, dan mengingat informasi dengan cara yang mengonfirmasi keyakinan atau hipotesis yang sudah ada sebelumnya. Developer machine learning mungkin secara tidak sengaja mengumpulkan atau melabeli data dengan cara yang memengaruhi hasil yang mendukung keyakinan mereka yang sudah ada. Bias konfirmasi adalah bentuk bias implisit.

Bias pelaku eksperimen adalah bentuk bias konfirmasi di mana seorang pelaku eksperimen terus melatih model hingga hipotesis yang sudah ada sebelumnya terkonfirmasi.

keadilan kontrafaktual

#responsible
#Metric

Metrik keadilan yang memeriksa apakah model klasifikasi menghasilkan hasil yang sama untuk satu individu dengan individu lain yang identik dengan individu pertama, kecuali sehubungan dengan satu atau beberapa atribut sensitif. Mengevaluasi model klasifikasi untuk keadilan kontrafaktual adalah salah satu metode untuk menemukan potensi sumber bias dalam model.

Lihat salah satu referensi berikut untuk mengetahui informasi selengkapnya:

bias cakupan

#responsible

Lihat bias seleksi.

D

paritas demografis

#responsible
#Metric

Metrik keadilan yang terpenuhi jika hasil klasifikasi model tidak bergantung pada atribut sensitif tertentu.

Misalnya, jika orang Lilliput dan Brobdingnag mendaftar ke Universitas Glubbdubdrib, paritas demografi tercapai jika persentase orang Lilliput yang diterima sama dengan persentase orang Brobdingnag yang diterima, terlepas dari apakah satu kelompok rata-rata lebih memenuhi syarat daripada kelompok lainnya.

Berbeda dengan peluang yang sama dan kesetaraan peluang, yang memungkinkan hasil klasifikasi secara keseluruhan bergantung pada atribut sensitif, tetapi tidak memungkinkan hasil klasifikasi untuk label kebenaran nyata tertentu bergantung pada atribut sensitif. Lihat "Menangkal diskriminasi dengan machine learning yang lebih cerdas" untuk visualisasi yang mengeksplorasi kompromi saat mengoptimalkan kesetaraan demografis.

Lihat Keadilan: kesetaraan demografis di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

dampak yang tidak setara

#responsible

Membuat keputusan tentang orang-orang yang berdampak tidak proporsional pada subgrup populasi yang berbeda. Hal ini biasanya merujuk pada situasi ketika proses pengambilan keputusan algoritmik merugikan atau menguntungkan beberapa subgrup lebih dari subgrup lainnya.

Misalnya, algoritma yang menentukan kelayakan Lilliputian untuk mendapatkan pinjaman rumah miniatur lebih cenderung mengklasifikasikannya sebagai "tidak memenuhi syarat" jika alamat suratnya berisi kode pos tertentu. Jika Liliput Big-Endian lebih cenderung memiliki alamat surat dengan kode pos ini daripada Liliput Little-Endian, maka algoritma ini dapat menimbulkan dampak yang tidak setara.

Berbeda dengan perlakuan tidak setara, yang berfokus pada perbedaan yang terjadi saat karakteristik subgrup menjadi input eksplisit untuk proses pengambilan keputusan algoritmik.

perlakuan yang berbeda

#responsible

Memasukkan atribut sensitif subjek ke dalam proses pengambilan keputusan algoritma sehingga subgrup orang yang berbeda diperlakukan secara berbeda.

Misalnya, pertimbangkan algoritma yang menentukan kelayakan orang Lilliput untuk mendapatkan pinjaman rumah mini berdasarkan data yang mereka berikan dalam permohonan pinjaman. Jika algoritma menggunakan afiliasi Lilliputian sebagai Big-Endian atau Little-Endian sebagai input, algoritma tersebut menerapkan perlakuan yang berbeda di sepanjang dimensi tersebut.

Berbeda dengan dampak tidak setara, yang berfokus pada kesenjangan dalam dampak sosial keputusan algoritmik pada subgrup, terlepas dari apakah subgrup tersebut merupakan input ke model atau tidak.

E

kesetaraan peluang

#responsible
#Metric

Metrik keadilan untuk menilai apakah model memprediksi hasil yang diinginkan dengan sama baiknya untuk semua nilai atribut sensitif. Dengan kata lain, jika hasil yang diinginkan untuk model adalah kelas positif, tujuannya adalah agar rasio positif benar sama untuk semua grup.

Kesetaraan peluang terkait dengan peluang yang sama, yang mengharuskan kedua rasio positif benar dan rasio positif palsu sama untuk semua grup.

Misalkan Universitas Glubbdubdrib menerima Lilliputian dan Brobdingnagian dalam program matematika yang ketat. Sekolah menengah Lilliput menawarkan kurikulum kelas matematika yang kuat, dan sebagian besar siswa memenuhi syarat untuk program universitas. Sekolah menengah Brobdingnag tidak menawarkan kelas matematika sama sekali, dan akibatnya, lebih sedikit siswa mereka yang memenuhi syarat. Kesetaraan peluang terpenuhi untuk label pilihan "diterima" sehubungan dengan kewarganegaraan (Lilliput atau Brobdingnag) jika siswa yang memenuhi syarat memiliki peluang yang sama untuk diterima terlepas dari apakah mereka orang Lilliput atau Brobdingnag.

Misalnya, anggaplah 100 orang Lilliput dan 100 orang Brobdingnag mendaftar ke Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 1. Pelamar Lilliputian (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 3
Ditolak 45 7
Total 90 10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 7/10 = 70%
Total persentase siswa Lilliput yang diterima: (45+3)/100 = 48%

 

Tabel 2. Pelamar Brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 9
Ditolak 5 81
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 81/90 = 90%
Total persentase siswa Brobdingnag yang diterima: (5+9)/100 = 14%

Contoh sebelumnya memenuhi kesetaraan peluang untuk penerimaan siswa yang memenuhi syarat karena Lilliputian dan Brobdingnagian yang memenuhi syarat memiliki peluang 50% untuk diterima.

Meskipun kesetaraan peluang terpenuhi, dua metrik keadilan berikut tidak terpenuhi:

  • paritas demografi: Lilliput dan Brobdingnag diterima di universitas dengan tingkat yang berbeda; 48% siswa Lilliput diterima, tetapi hanya 14% siswa Brobdingnag yang diterima.
  • peluang yang sama: Meskipun siswa Lilliput dan Brobdingnag yang memenuhi syarat memiliki peluang yang sama untuk diterima, batasan tambahan bahwa siswa Lilliput dan Brobdingnag yang tidak memenuhi syarat memiliki peluang yang sama untuk ditolak tidak terpenuhi. Lilliput yang tidak memenuhi syarat memiliki rasio penolakan 70%, sedangkan Brobdingnag yang tidak memenuhi syarat memiliki rasio penolakan 90%.

Lihat Keadilan: Kesetaraan peluang di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

peluang yang sama

#responsible
#Metric

Metrik keadilan untuk menilai apakah model memprediksi hasil dengan sama baiknya untuk semua nilai atribut sensitif sehubungan dengan kelas positif dan kelas negatif—bukan hanya satu kelas atau kelas lainnya secara eksklusif. Dengan kata lain, rasio positif benar dan rasio negatif palsu harus sama untuk semua grup.

Peluang yang sama terkait dengan kesetaraan peluang, yang hanya berfokus pada tingkat error untuk satu kelas (positif atau negatif).

Misalnya, Universitas Glubbdubdrib menerima warga Lilliput dan Brobdingnag untuk mengikuti program matematika yang ketat. Sekolah menengah Lilliput menawarkan kurikulum yang kuat untuk kelas matematika, dan sebagian besar siswa memenuhi syarat untuk program universitas. Sekolah menengah Brobdingnag tidak menawarkan kelas matematika sama sekali, dan akibatnya, lebih sedikit siswa mereka yang memenuhi syarat. Peluang yang sama terpenuhi asalkan terlepas dari apakah pelamar adalah Lilliputian atau Brobdingnagian, jika mereka memenuhi syarat, mereka memiliki peluang yang sama untuk diterima dalam program tersebut, dan jika mereka tidak memenuhi syarat, mereka memiliki peluang yang sama untuk ditolak.

Misalkan 100 orang Lilliput dan 100 orang Brobdingnag mendaftar ke Universitas Glubbdubdrib, dan keputusan penerimaan dibuat sebagai berikut:

Tabel 3. Pelamar Lilliputian (90% memenuhi syarat)

  Berkualitas Tidak memenuhi syarat
Diizinkan 45 2
Ditolak 45 8
Total 90 10
Persentase siswa yang memenuhi syarat yang diterima: 45/90 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 8/10 = 80%
Total persentase siswa Lilliput yang diterima: (45+2)/100 = 47%

 

Tabel 4. Pelamar Brobdingnagian (10% memenuhi syarat):

  Berkualitas Tidak memenuhi syarat
Diizinkan 5 18
Ditolak 5 72
Total 10 90
Persentase siswa yang memenuhi syarat yang diterima: 5/10 = 50%
Persentase siswa yang tidak memenuhi syarat yang ditolak: 72/90 = 80%
Total persentase siswa Brobdingnag yang diterima: (5+18)/100 = 23%

Peluang yang sama terpenuhi karena siswa Lilliput dan Brobdingnag yang memenuhi syarat memiliki peluang 50% untuk diterima, dan siswa Lilliput dan Brobdingnag yang tidak memenuhi syarat memiliki peluang 80% untuk ditolak.

Peluang yang sama didefinisikan secara formal dalam "Equality of Opportunity in Supervised Learning" sebagai berikut: "prediktor Ŷ memenuhi peluang yang sama sehubungan dengan atribut yang dilindungi A dan hasil Y jika Ŷ dan A independen, bersyarat pada Y."

bias pelaku eksperimen

#responsible

Lihat bias konfirmasi.

F

batasan keadilan

#responsible
Menerapkan batasan pada algoritma untuk memastikan satu atau beberapa definisi keadilan terpenuhi. Contoh batasan keadilan meliputi:

metrik keadilan

#responsible
#Metric

Definisi matematika tentang "keadilan" yang dapat diukur. Beberapa metrik keadilan yang umum digunakan meliputi:

Banyak metrik keadilan yang saling eksklusif; lihat ketidakcocokan metrik keadilan.

G

bias atribusi kelompok

#responsible

Dengan asumsi bahwa hal yang benar bagi individu juga benar bagi semua orang dalam golongan tersebut. Efek dari bias atribusi golongan dapat diperburuk jika pengambilan sampel praktis digunakan untuk pengumpulan data. Dalam sampel non-representatif, atribusi dapat dibuat yang tidak mencerminkan realitas.

Lihat juga bias kehomogenan luar golongan dan bias dalam golongan. Lihat juga Fairness: Types of bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

H

bias historis

#responsible

Jenis bias yang sudah ada di dunia dan telah masuk ke dalam set data. Bias ini cenderung mencerminkan stereotipe budaya yang ada, ketidaksetaraan demografi, dan prasangka terhadap kelompok sosial tertentu.

Misalnya, pertimbangkan model klasifikasi yang memprediksi apakah pemohon pinjaman akan gagal membayar pinjaman atau tidak, yang dilatih menggunakan data historis gagal bayar pinjaman dari tahun 1980-an dari bank lokal di dua komunitas yang berbeda. Jika pemohon sebelumnya dari Komunitas A enam kali lebih mungkin gagal membayar pinjaman daripada pemohon dari Komunitas B, model dapat mempelajari bias historis yang mengakibatkan model cenderung tidak menyetujui pinjaman di Komunitas A, meskipun kondisi historis yang mengakibatkan tingkat gagal bayar yang lebih tinggi di komunitas tersebut tidak lagi relevan.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

I

bias implisit

#responsible

Secara otomatis membuat asosiasi atau asumsi berdasarkan model dan ingatan pikiran seseorang. Bias implisit dapat memengaruhi hal berikut:

  • Cara data dikumpulkan dan diklasifikasikan.
  • Cara sistem machine learning dirancang dan dikembangkan.

Misalnya, saat membuat model klasifikasi untuk mengidentifikasi foto pernikahan, seorang engineer dapat menggunakan keberadaan gaun putih dalam foto sebagai fitur. Namun, gaun putih hanya menjadi kebiasaan selama era tertentu dan dalam budaya tertentu.

Lihat juga bias konfirmasi.

ketidakcocokan metrik keadilan

#responsible
#Metric

Gagasan bahwa beberapa konsep keadilan tidak kompatibel satu sama lain dan tidak dapat dipenuhi secara bersamaan. Akibatnya, tidak ada satu metrik universal untuk mengukur keadilan yang dapat diterapkan pada semua masalah ML.

Meskipun hal ini mungkin tampak mengecewakan, ketidakcocokan metrik keadilan tidak berarti upaya keadilan tidak membuahkan hasil. Sebaliknya, hal ini menunjukkan bahwa keadilan harus ditentukan secara kontekstual untuk masalah ML tertentu, dengan tujuan mencegah bahaya yang khusus untuk kasus penggunaannya.

Lihat "On the (im)possibility of fairness" untuk mengetahui pembahasan yang lebih mendetail tentang ketidakcocokan metrik keadilan.

keadilan individu

#responsible
#Metric

Metrik keadilan yang memeriksa apakah individu yang serupa diklasifikasikan secara serupa. Misalnya, Brobdingnagian Academy mungkin ingin memenuhi keadilan individu dengan memastikan bahwa dua siswa dengan nilai yang sama dan skor tes standar memiliki peluang yang sama untuk diterima.

Perhatikan bahwa keadilan individu sepenuhnya bergantung pada cara Anda mendefinisikan "kesamaan" (dalam hal ini, nilai dan skor tes), dan Anda dapat berisiko memunculkan masalah keadilan baru jika metrik kesamaan Anda melewatkan informasi penting (seperti ketelitian kurikulum siswa).

Lihat "Keadilan Melalui Kesadaran" untuk pembahasan yang lebih mendetail tentang keadilan individu.

bias dalam kelompok

#responsible

Menunjukkan keberpihakan pada golongan atau karakteristik milik seseorang. Jika penguji atau pelabel terdiri dari teman, keluarga, atau rekan developer machine learning, bias dalam golongan dapat membatalkan validasi pengujian produk atau set data.

Bias dalam golongan adalah bentuk bias atribusi golongan. Lihat juga bias kehomogenan luar golongan.

Lihat Fairness: Types of bias di Machine Learning Crash Course untuk mengetahui informasi selengkapnya.

T

bias tidak merespons

#responsible

Lihat bias seleksi.

O

bias kehomogenan luar golongan

#responsible

Kecenderungan untuk melihat anggota luar kelompok lebih mirip daripada anggota dalam kelompok saat membandingkan sikap, nilai, ciri kepribadian, dan karakteristik lainnya. Dalam golongan mengacu pada orang yang berinteraksi dengan Anda secara berkala; luar golongan mengacu pada orang yang tidak berinteraksi dengan Anda secara berkala. Jika Anda membuat set data dengan meminta orang untuk memberikan atribut tentang luar golongan, atribut tersebut mungkin kurang bernuansa dan lebih stereotip daripada atribut yang dicantumkan oleh peserta untuk orang di dalam golongan mereka.

Misalnya, Liliput mungkin mendeskripsikan rumah Liliput lain dengan sangat mendetail, dengan menyebutkan perbedaan kecil dalam gaya arsitektur, jendela, pintu, dan ukuran. Namun, orang-orang Lilliput yang sama mungkin hanya menyatakan bahwa semua orang Brobdingnag tinggal di rumah yang identik.

Bias kehomogenan luar golongan adalah bentuk bias atribusi golongan.

Lihat juga bias dalam golongan.

P

bias partisipasi

#responsible

Sinonim untuk bias abstain. Lihat bias seleksi.

pasca-pemrosesan

#responsible
#fundamentals

Menyesuaikan output model setelah model dijalankan. Pemrosesan pasca dapat digunakan untuk menerapkan batasan keadilan tanpa memodifikasi model itu sendiri.

Misalnya, seseorang dapat menerapkan pasca-pemrosesan ke model klasifikasi biner dengan menetapkan nilai minimum klasifikasi sehingga kesetaraan peluang dipertahankan untuk beberapa atribut dengan memeriksa bahwa rasio positif benar sama untuk semua nilai atribut tersebut.

kesetaraan prediktif

#responsible
#Metric

Metrik keadilan yang memeriksa apakah, untuk model klasifikasi tertentu, tingkat presisi setara untuk subgrup yang dipertimbangkan.

Misalnya, model yang memprediksi penerimaan di perguruan tinggi akan memenuhi paritas prediktif untuk kewarganegaraan jika tingkat presisinya sama untuk Lilliputians dan Brobdingnagians.

Paritas prediktif terkadang juga disebut paritas tarif prediktif.

Lihat "Penjelasan Definisi Keadilan" (bagian 3.2.1) untuk pembahasan yang lebih mendetail tentang paritas prediktif.

paritas tarif prediktif

#responsible
#Metric

Nama lain untuk paritas prediktif.

prapemrosesan

#responsible
Memproses data sebelum digunakan untuk melatih model. Pra-pemrosesan bisa sesederhana menghapus kata-kata dari korpus teks berbahasa Inggris yang tidak ada dalam kamus bahasa Inggris, atau bisa serumit mengekspresikan ulang titik data dengan cara yang menghilangkan sebanyak mungkin atribut yang berkorelasi dengan atribut sensitif. Pra-pemrosesan dapat membantu memenuhi batasan keadilan.

proxy (atribut sensitif)

#responsible
Atribut yang digunakan sebagai pengganti atribut sensitif. Misalnya, kode pos seseorang dapat digunakan sebagai proksi untuk pendapatan, ras, atau etnisitasnya.

R

bias pelaporan

#responsible

Fakta bahwa frekuensi orang menulis tentang tindakan, hasil, atau properti tidak mencerminkan frekuensi di dunia nyata atau sejauh mana properti merupakan karakteristik kelas individu. Bias pelaporan dapat memengaruhi komposisi data yang dipelajari oleh sistem machine learning.

Misalnya, dalam buku, kata tertawa lebih sering muncul daripada bernapas. Model machine learning yang memperkirakan frekuensi relatif tertawa dan bernapas dari korpus buku mungkin akan menentukan bahwa tertawa lebih umum daripada bernapas.

Lihat Keadilan: Jenis bias di Kursus Singkat Machine Learning untuk mengetahui informasi selengkapnya.

S

bias pengambilan sampel

#responsible

Lihat bias seleksi.

bias seleksi

#responsible

Kesalahan dalam kesimpulan yang ditarik dari data sampel karena proses pemilihan yang menghasilkan perbedaan sistematis antara sampel yang diamati dalam data dan yang tidak diamati. Berikut ini beberapa bentuk bias seleksi:

  • bias cakupan: Populasi yang direpresentasikan dalam set data tidak sesuai dengan populasi yang digunakan model machine learning untuk membuat prediksi.
  • bias sampling: Data tidak dikumpulkan secara acak dari grup target.
  • Bias non-respons (juga disebut bias partisipasi): Pengguna dari grup tertentu memilih tidak mengikuti survei dengan tingkat yang berbeda dari pengguna dari grup lain.

Misalnya, Anda sedang membuat model machine learning yang memprediksi kesukaan orang terhadap suatu film. Untuk mengumpulkan data pelatihan, Anda membagikan survei kepada semua orang di barisan depan teater yang menayangkan film. Secara spontan, hal ini mungkin terdengar seperti cara yang wajar untuk mengumpulkan set data; namun, bentuk pengumpulan data semacam ini dapat memperkenalkan bentuk-bentuk bias seleksi berikut:

  • bias cakupan: Dengan mengambil sampel dari populasi yang memilih untuk menonton film, prediksi model Anda tidak dapat digeneralisasikan kepada orang-orang yang belum mengekspresikan minat terhadap film tersebut.
  • bias pengambilan sampel: Daripada mengambil sampel secara acak dari populasi yang dituju (semua orang di bioskop), Anda hanya mengambil sampel orang-orang di barisan depan. Mungkin orang yang duduk di baris depan lebih tertarik dengan film tersebut daripada orang yang duduk di baris lain.
  • bias non-respons: Secara umum, orang yang memiliki pendapat kuat cenderung merespons survei opsional lebih sering daripada orang yang memiliki pendapat ringan. Karena survei film bersifat opsional, respons cenderung membentuk distribusi bimodal daripada distribusi normal (berbentuk lonceng).

atribut sensitif

#responsible
Atribut manusia yang dapat diberi pertimbangan khusus karena alasan hukum, etika, sosial, atau personal.

U

ketidaktahuan (terhadap atribut sensitif)

#responsible

Situasi saat atribut sensitif ada, tetapi tidak disertakan dalam data pelatihan. Karena atribut sensitif sering kali berkorelasi dengan atribut lain dari data seseorang, model yang dilatih tanpa mengetahui atribut sensitif masih dapat memiliki dampak yang tidak setara sehubungan dengan atribut tersebut, atau melanggar batasan keadilan lainnya.