Bảng thuật ngữ về học máy: Tính công bằng

Trang này chứa các thuật ngữ trong từ điển về Tính công bằng. Để xem tất cả các thuật ngữ trong từ điển, hãy nhấp vào đây.

A

thuộc tính

#fairness

Từ đồng nghĩa với tính năng.

Trong tính công bằng của công nghệ học máy, các thuộc tính thường đề cập đến các đặc điểm liên quan đến cá nhân.

thiên vị tự động

#fairness

Khi người đưa ra quyết định ưu tiên các đề xuất do hệ thống tự động đưa ra hơn thông tin được tạo mà không cần hệ thống tự động, ngay cả khi hệ thống tự động đưa ra quyết định có lỗi.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong khoá học cấp tốc về học máy để biết thêm thông tin.

B

thiên kiến (đạo đức/công bằng)

#fairness
#fundamentals

1. Nội dung tạo ra định kiến, thành kiến hoặc thiên vị một số người, nhóm người hoặc sự vật hơn những người, nhóm người hoặc sự vật khác. Những thành kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế hệ thống và cách người dùng tương tác với hệ thống. Sau đây là một số hình thức của loại thiên kiến này:

2. Lỗi hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Sau đây là một số hình thức của loại thiên kiến này:

Đừng nhầm lẫn với hệ số chệch trong mô hình học máy hoặc chệch dự đoán.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

C

thiên kiến xác nhận

#fairness

Khuynh hướng tìm kiếm, diễn giải, ưu tiên và gợi nhắc thông tin theo cách xác nhận niềm tin hoặc giả thuyết có sẵn của một người. Nhà phát triển công nghệ học máy có thể vô tình thu thập hoặc gắn nhãn dữ liệu theo cách ảnh hưởng đến kết quả ủng hộ niềm tin hiện có của họ. Thiên kiến xác nhận là một dạng thiên kiến ngầm ẩn.

Thiên kiến của người thử nghiệm là một dạng thiên kiến xác nhận, trong đó người thử nghiệm tiếp tục huấn luyện mô hình cho đến khi xác nhận được giả thuyết có sẵn.

tính công bằng giả định

#fairness

Chỉ số công bằng kiểm tra xem một thuật toán phân loại có đưa ra kết quả giống nhau cho một cá nhân như đối với một cá nhân khác giống hệt với cá nhân đầu tiên hay không, ngoại trừ một hoặc nhiều thuộc tính nhạy cảm. Đánh giá một bộ phân loại về tính công bằng giả định là một phương pháp để đưa ra các nguồn tiềm ẩn của sự thiên vị trong mô hình.

Hãy xem một trong những nội dung sau để biết thêm thông tin:

thiên vị do thiếu bao quát

#fairness

Xem phần thiên vị do cách chọn mẫu.

D

Tương đương về nhân khẩu học

#fairness

Chỉ số công bằng được đáp ứng nếu kết quả phân loại của mô hình không phụ thuộc vào một thuộc tính nhạy cảm nhất định.

Ví dụ: nếu cả người Lilliput và người Brobdingnag đều đăng ký vào Đại học Glubbdubdrib, thì sự bình đẳng về nhân khẩu học sẽ đạt được nếu tỷ lệ phần trăm người Lilliput được nhận vào trường giống với tỷ lệ phần trăm người Brobdingnag được nhận vào trường, bất kể một nhóm có trung bình đủ điều kiện hơn nhóm còn lại hay không.

Tương phản với tỷ lệ bằng nhaubình đẳng về cơ hội, cho phép kết quả phân loại tổng hợp phụ thuộc vào các thuộc tính nhạy cảm, nhưng không cho phép kết quả phân loại cho một số nhãn đúng thực tế được chỉ định phụ thuộc vào các thuộc tính nhạy cảm. Hãy xem bài viết "Chống phân biệt bằng công nghệ học máy thông minh hơn" để xem hình ảnh minh hoạ về những đánh đổi khi tối ưu hoá cho sự cân bằng về nhân khẩu học.

Hãy xem phần Tính công bằng: bình đẳng về nhân khẩu học trong khoá học Học máy ứng dụng để biết thêm thông tin.

tác động không đồng đều

#fairness

Quyết định về những người tác động không cân xứng đến các nhóm phụ dân số. Thuật ngữ này thường đề cập đến những tình huống trong đó quy trình ra quyết định theo thuật toán gây hại hoặc mang lại lợi ích cho một số nhóm nhỏ hơn so với các nhóm khác.

Ví dụ: giả sử một thuật toán xác định điều kiện của người dân Lilliputian đối với khoản vay mua nhà nhỏ có nhiều khả năng phân loại họ là "không đủ điều kiện" nếu địa chỉ gửi thư của họ chứa một mã bưu chính nhất định. Nếu người Lilliputian Big-Endian có nhiều khả năng có địa chỉ gửi thư có mã bưu chính này hơn người Lilliputian Little-Endian, thì thuật toán này có thể dẫn đến tác động khác biệt.

Trái ngược với hành vi phân biệt, tập trung vào sự chênh lệch phát sinh khi các đặc điểm của nhóm con là dữ liệu đầu vào rõ ràng cho quy trình ra quyết định bằng thuật toán.

đối xử không công bằng

#fairness

Tính đến các thuộc tính nhạy cảm của đối tượng vào quy trình ra quyết định bằng thuật toán để các nhóm phụ khác nhau của con người được xử lý theo cách khác nhau.

Ví dụ: hãy xem xét một thuật toán xác định điều kiện của người Lilliputian để được vay mua nhà thu nhỏ dựa trên dữ liệu mà họ cung cấp trong đơn đăng ký vay. Nếu thuật toán sử dụng thông tin liên kết của Lilliputian dưới dạng Big-Endian hoặc Little-Endian làm dữ liệu đầu vào, thì thuật toán đó đang thực hiện cách xử lý khác nhau theo phương diện đó.

Trái ngược với tác động khác biệt, tập trung vào sự khác biệt về tác động xã hội của các quyết định thuật toán đối với các nhóm con, bất kể các nhóm con đó có phải là dữ liệu đầu vào cho mô hình hay không.

E

bình đẳng về cơ hội

#fairness

Chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả mong muốn một cách đồng đều cho tất cả các giá trị của một thuộc tính nhạy cảm hay không. Nói cách khác, nếu kết quả mong muốn cho một mô hình là lớp dương tính, thì mục tiêu sẽ là để tỷ lệ dương tính thực sự giống nhau cho tất cả các nhóm.

Bình đẳng về cơ hội liên quan đến tỷ lệ cân bằng, trong đó yêu cầu cả tỷ lệ dương tính thực và tỷ lệ dương tính giả đều giống nhau đối với tất cả các nhóm.

Giả sử Đại học Glubbdubdrib nhận cả người Lilliput và người Brobdingnag vào một chương trình toán học nghiêm ngặt. Trường trung học của người Lilliput cung cấp một chương trình học vững chắc về các lớp học toán và phần lớn học sinh đều đủ điều kiện tham gia chương trình đại học. Các trường trung học của người Brobdingnag không hề cung cấp lớp học toán, do đó, số học sinh đủ điều kiện sẽ ít hơn rất nhiều. Cơ hội bình đẳng được đáp ứng đối với nhãn ưu tiên "được nhận" liên quan đến quốc tịch (Lilliputian hoặc Brobdingnagian) nếu học viên đủ tiêu chuẩn có khả năng được nhận như nhau, bất kể họ là Lilliputian hay Brobdingnagian.

Ví dụ: giả sử 100 người Lilliput và 100 người Brobdingnag đăng ký vào Đại học Glubbdubdrib và quyết định nhận sinh viên được đưa ra như sau:

Bảng 1. Người đăng ký Lilliputian (90% đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã được chấp nhận 45 3
Bị từ chối 45 7
Tổng 90 10
Tỷ lệ phần trăm học viên đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 7/10 = 70%
Tổng tỷ lệ phần trăm học viên Lilliputian được nhận: (45+3)/100 = 48%

 

Bảng 2. Người đăng ký Brobdingnagian (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã được chấp nhận 5 9
Bị từ chối 5 81
Tổng 10 90
Tỷ lệ phần trăm học viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 81/90 = 90%
Tổng tỷ lệ phần trăm học viên Brobdingnagian được nhận: (5+9)/100 = 14%

Các ví dụ trước đáp ứng cơ hội bình đẳng để chấp nhận sinh viên đủ điều kiện vì cả người Lilliputian và Brobdingnagian đủ điều kiện đều có 50% cơ hội được nhận vào trường.

Mặc dù đáp ứng được tiêu chí bình đẳng về cơ hội, nhưng hai chỉ số công bằng sau đây lại không đáp ứng được:

  • bình đẳng về nhân khẩu học: Người Lilliput và người Brobdingnag được nhận vào trường đại học theo tỷ lệ khác nhau; 48% sinh viên Lilliput được nhận, nhưng chỉ 14% sinh viên Brobdingnag được nhận.
  • cơ hội bằng nhau: Mặc dù học viên Lilliputian và Brobdingnagian đủ điều kiện đều có cơ hội được nhận vào trường như nhau, nhưng điều kiện ràng buộc bổ sung là học viên Lilliputian và Brobdingnagian không đủ điều kiện đều có cơ hội bị từ chối như nhau thì không được thoả mãn. Những người Lilliputian không đủ điều kiện có tỷ lệ bị từ chối là 70%, trong khi những người Brobdingnag không đủ điều kiện có tỷ lệ bị từ chối là 90%.

Hãy xem phần Tính công bằng: Bình đẳng về cơ hội trong khoá học cấp tốc về học máy để biết thêm thông tin.

tỷ lệ cược bằng nhau

#fairness

Một chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả tốt như nhau cho tất cả các giá trị của một thuộc tính nhạy cảm đối với cả lớp tích cựclớp tiêu cực hay không, chứ không chỉ một lớp hay lớp kia. Nói cách khác, cả tỷ lệ dương tính thực sựtỷ lệ âm tính giả phải giống nhau đối với tất cả các nhóm.

Tỷ lệ cân bằng có liên quan đến bình đẳng về cơ hội, chỉ tập trung vào tỷ lệ lỗi của một lớp (dương hoặc âm).

Ví dụ: giả sử Đại học Glubbdubdrib nhận cả người Lilliput và người Brobdingnag vào một chương trình toán học nghiêm ngặt. Trường trung học của người Lilliput cung cấp một chương trình học mạnh mẽ về các lớp học toán và phần lớn học viên đều đủ điều kiện tham gia chương trình đại học. Trường trung học của người Brobdingnag không hề có lớp học toán, do đó, rất ít học sinh đủ điều kiện. Điều kiện về tỷ lệ chênh lệch được đáp ứng miễn là không phân biệt ứng viên là người Lilliputian hay Brobdingnagian, nếu họ đủ điều kiện, họ có khả năng được nhận vào chương trình như nhau và nếu họ không đủ điều kiện, họ có khả năng bị từ chối như nhau.

Giả sử 100 người Lilliput và 100 người Brobdingnag đăng ký vào Đại học Glubbdubdrib và quyết định về việc nhập học được đưa ra như sau:

Bảng 3. Người đăng ký Lilliputian (90% đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã được chấp nhận 45 2
Bị từ chối 45 8
Tổng 90 10
Tỷ lệ phần trăm học sinh đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ phần trăm học sinh không đủ điều kiện bị từ chối: 8/10 = 80%
Tổng tỷ lệ phần trăm học sinh Lilliputian được nhận: (45+2)/100 = 47%

 

Bảng 4. Người đăng ký Brobdingnagian (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã được chấp nhận 5 18
Bị từ chối 5 72
Tổng 10 90
Tỷ lệ phần trăm số sinh viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ phần trăm số sinh viên không đủ điều kiện bị từ chối: 72/90 = 80%
Tổng tỷ lệ phần trăm số sinh viên Brobdingnagian được nhận: (5+18)/100 = 23%

Điều kiện về tỷ lệ bằng nhau được đáp ứng vì cả học viên Lilliputian và Brobdingnagian đủ điều kiện đều có 50% cơ hội được nhận vào trường, còn học viên Lilliputian và Brobdingnagian không đủ điều kiện đều có 80% cơ hội bị từ chối.

Tỷ lệ cân bằng được xác định chính thức trong bài viết "Bình đẳng về cơ hội trong học có giám sát" như sau: "biến dự đoán Ŷ đáp ứng tỷ lệ cân bằng liên quan đến thuộc tính được bảo vệ A và kết quả Y nếu Ŷ và A độc lập, có điều kiện trên Y".

thiên kiến của người nghiên cứu

#fairness

Xem thiên kiến xác nhận.

F

quy tắc ràng buộc về tính công bằng

#fairness
Áp dụng một quy tắc ràng buộc cho thuật toán để đảm bảo đáp ứng một hoặc nhiều định nghĩa về tính công bằng. Sau đây là một số ví dụ về các quy tắc ràng buộc về tính công bằng:

chỉ số về tính công bằng

#fairness

Định nghĩa toán học về "công bằng" có thể đo lường được. Sau đây là một số chỉ số công bằng thường dùng:

Nhiều chỉ số về tính công bằng là loại trừ lẫn nhau; hãy xem phần không tương thích của các chỉ số về tính công bằng.

G

thiên vị quy cho nhóm

#fairness

Giả sử rằng điều đúng với một cá nhân cũng đúng với mọi người trong nhóm đó. Tác động của thiên vị phân bổ theo nhóm có thể trở nên trầm trọng hơn nếu bạn sử dụng phương pháp lấy mẫu thuận tiện để thu thập dữ liệu. Trong một mẫu không đại diện, các thuộc tính có thể được tạo không phản ánh thực tế.

Xem thêm thiên vị đồng nhất khác nhómthiên vị đồng nhất trong nhóm. Ngoài ra, hãy xem phần Tính công bằng: Các loại thiên kiến trong Khoá học học máy ứng dụng để biết thêm thông tin.

Cao

thiên kiến trước đây

#fairness

Một loại thiên kiến đã tồn tại trên thế giới và đã xâm nhập vào một tập dữ liệu. Những thành kiến này có xu hướng phản ánh các định kiến văn hoá, sự bất bình đẳng về nhân khẩu học và định kiến đối với một số nhóm xã hội nhất định.

Ví dụ: hãy xem xét một mô hình phân loại dự đoán liệu người đăng ký vay có trả nợ trước hạn hay không. Mô hình này được huấn luyện dựa trên dữ liệu trả nợ trước hạn trước đây từ những năm 1980 của các ngân hàng địa phương ở hai cộng đồng khác nhau. Nếu trước đây, những người đăng ký từ Cộng đồng A có khả năng vỡ nợ gấp 6 lần so với những người đăng ký từ Cộng đồng B, thì mô hình có thể học được một sự thiên vị trong quá khứ, dẫn đến việc mô hình ít có khả năng phê duyệt khoản vay ở Cộng đồng A, ngay cả khi các điều kiện trong quá khứ dẫn đến tỷ lệ vỡ nợ cao hơn của cộng đồng đó không còn phù hợp nữa.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong khoá học cấp tốc về học máy để biết thêm thông tin.

I

thiên kiến ngầm ẩn

#fairness

Tự động liên kết hoặc giả định dựa trên mô hình tâm trí và ký ức của một người. Tệ nạn phân biệt ngầm ẩn có thể ảnh hưởng đến những điều sau:

  • Cách thu thập và phân loại dữ liệu.
  • Cách thiết kế và phát triển hệ thống học máy.

Ví dụ: khi xây dựng một thuật toán phân loại để xác định ảnh cưới, kỹ sư có thể sử dụng sự hiện diện của một chiếc váy trắng trong ảnh làm một đặc điểm. Tuy nhiên, váy trắng chỉ là trang phục truyền thống trong một số thời đại và ở một số nền văn hóa nhất định.

Xem thêm về thiên kiến xác nhận.

không tương thích của các chỉ số về tính công bằng

#fairness

Ý tưởng cho rằng một số khái niệm về sự công bằng không tương thích với nhau và không thể được đáp ứng cùng một lúc. Do đó, không có một chỉ số chung nào có thể đo lường được tính công bằng và áp dụng cho mọi vấn đề về học máy.

Mặc dù điều này có vẻ gây nản lòng, nhưng việc các chỉ số về tính công bằng không tương thích không có nghĩa là những nỗ lực nhằm đảm bảo tính công bằng là vô ích. Thay vào đó, bạn nên xác định tính công bằng theo ngữ cảnh cho một vấn đề học máy nhất định, với mục tiêu ngăn chặn những tác hại cụ thể đối với các trường hợp sử dụng của vấn đề đó.

Hãy xem phần "Về khả năng (không) công bằng" để thảo luận chi tiết hơn về chủ đề này.

tính công bằng cho cá nhân

#fairness

Một chỉ số công bằng giúp kiểm tra xem các cá nhân tương tự có được phân loại tương tự hay không. Ví dụ: Học viện Brobdingnagian có thể muốn đáp ứng tính công bằng cá nhân bằng cách đảm bảo rằng hai học viên có điểm giống hệt nhau và điểm kiểm tra chuẩn hoá có khả năng được nhận vào học như nhau.

Xin lưu ý rằng tính công bằng của từng cá nhân hoàn toàn phụ thuộc vào cách bạn xác định "tính tương đồng" (trong trường hợp này là điểm số và điểm kiểm tra). Bạn có thể gặp rủi ro khi tạo ra các vấn đề mới về tính công bằng nếu chỉ số tương đồng của bạn thiếu thông tin quan trọng (chẳng hạn như mức độ nghiêm ngặt của chương trình học của học sinh).

Hãy xem bài viết "Tính công bằng thông qua nhận thức" để thảo luận chi tiết hơn về tính công bằng cá nhân.

thiên vị cùng nhóm

#fairness

Thể hiện sự thiên vị đối với nhóm hoặc đặc điểm của riêng mình. Nếu người kiểm thử hoặc người đánh giá bao gồm bạn bè, gia đình hoặc đồng nghiệp của nhà phát triển học máy, thì sự thiên vị trong nhóm có thể làm mất hiệu lực của quy trình kiểm thử sản phẩm hoặc tập dữ liệu.

Thiên vị cùng nhóm là một dạng thiên vị quy cho nhóm. Xem thêm thiên vị đồng nhất của nhóm bên ngoài.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

Không

thiên vị do thiếu hồi âm

#fairness

Xem phần thiên vị do cách chọn mẫu.

O

thiên vị khác nhóm

#fairness

Xu hướng xem các thành viên ngoài nhóm giống nhau hơn so với các thành viên trong nhóm khi so sánh thái độ, giá trị, đặc điểm tính cách và các đặc điểm khác. Nhóm trong đề cập đến những người mà bạn thường xuyên tương tác; nhóm ngoài đề cập đến những người mà bạn không thường xuyên tương tác. Nếu bạn tạo một tập dữ liệu bằng cách yêu cầu mọi người cung cấp các thuộc tính về nhóm bên ngoài, thì các thuộc tính đó có thể ít tinh tế và mang tính khuôn mẫu hơn so với các thuộc tính mà người tham gia liệt kê cho những người trong nhóm của họ.

Ví dụ: Người Lilliput có thể mô tả nhà của người Lilliput khác một cách chi tiết, nêu ra những điểm khác biệt nhỏ về phong cách kiến trúc, cửa sổ, cửa ra vào và kích thước. Tuy nhiên, những người Lilliputian đó có thể chỉ tuyên bố rằng tất cả người Brobdingnag đều sống trong những ngôi nhà giống hệt nhau.

Thiên vị khác nhóm là một dạng thiên vị quy cho nhóm.

Xem thêm về thiên vị cùng nhóm.

Điểm

thiên kiến về mức độ tham gia

#fairness

Đồng nghĩa với thiên vị do thiếu hồi âm. Xem phần thiên vị do cách chọn mẫu.

xử lý hậu kỳ

#fairness
#fundamentals

Điều chỉnh đầu ra của mô hình sau khi mô hình đã chạy. Bạn có thể sử dụng quy trình xử lý hậu kỳ để thực thi các quy tắc ràng buộc về tính công bằng mà không cần sửa đổi mô hình.

Ví dụ: bạn có thể áp dụng quy trình xử lý sau cho một bộ phân loại nhị phân bằng cách đặt ngưỡng phân loại sao cho bình đẳng về cơ hội được duy trì cho một số thuộc tính bằng cách kiểm tra xem tỷ lệ dương tính thực sự có giống nhau đối với tất cả các giá trị của thuộc tính đó hay không.

tính năng tương đương dự đoán

#fairness

Chỉ số công bằng kiểm tra xem đối với một bộ phân loại nhất định, tỷ lệ độ chính xác có tương đương với các nhóm con đang được xem xét hay không.

Ví dụ: một mô hình dự đoán khả năng được nhận vào trường đại học sẽ đáp ứng tính tương đương dự đoán về quốc tịch nếu tỷ lệ chính xác của mô hình này giống nhau đối với người Lilliput và người Brobdingnag.

Đôi khi, tính năng so khớp giá dự đoán còn được gọi là so khớp giá dự đoán.

Hãy xem phần "Giải thích định nghĩa về tính công bằng" (mục 3.2.1) để thảo luận chi tiết hơn về tính năng so sánh dự đoán.

tỷ giá dự đoán

#fairness

Tên khác của tính năng so khớp dự đoán.

xử lý trước

#fairness
Xử lý dữ liệu trước khi dùng dữ liệu đó để huấn luyện mô hình. Quá trình xử lý trước có thể đơn giản như xoá các từ không có trong từ điển tiếng Anh khỏi một tập hợp văn bản tiếng Anh, hoặc có thể phức tạp như diễn đạt lại các điểm dữ liệu theo cách loại bỏ càng nhiều thuộc tính có liên quan đến thuộc tính nhạy cảm càng tốt. Việc xử lý trước có thể giúp đáp ứng các quy tắc ràng buộc về tính công bằng.

proxy (thuộc tính nhạy cảm)

#fairness
Một thuộc tính được dùng thay thế cho thuộc tính nhạy cảm. Ví dụ: mã bưu chính của một cá nhân có thể được dùng làm thông tin thay thế cho thu nhập, chủng tộc hoặc sắc tộc của họ.

Điểm

thiên vị dựa trên báo cáo

#fairness

Tần suất mọi người viết về các hành động, kết quả hoặc thuộc tính không phản ánh tần suất thực tế của chúng hoặc mức độ một thuộc tính đặc trưng cho một lớp cá nhân. Sự thiên vị trong báo cáo có thể ảnh hưởng đến thành phần dữ liệu mà hệ thống học máy học hỏi.

Ví dụ: trong sách, từ cười phổ biến hơn từ thở. Mô hình học máy ước tính tần suất tương đối của tiếng cười và tiếng thở trong một tập hợp sách có thể xác định rằng tiếng cười phổ biến hơn tiếng thở.

S

thiên vị do không lấy mẫu

#fairness

Xem phần thiên vị do cách chọn mẫu.

thiên vị do cách chọn mẫu

#fairness

Lỗi trong kết luận rút ra từ dữ liệu được lấy mẫu do quy trình lựa chọn tạo ra sự khác biệt có hệ thống giữa các mẫu được quan sát trong dữ liệu và các mẫu không được quan sát. Có các dạng thiên kiến lựa chọn sau:

  • thành kiến về phạm vi: Tập hợp được thể hiện trong tập dữ liệu không khớp với tập hợp mà mô hình học máy đang dự đoán.
  • thiên vị khi lấy mẫu: Dữ liệu không được thu thập ngẫu nhiên từ nhóm mục tiêu.
  • Thiên vị không trả lời (còn gọi là thiên vị về mức độ tham gia): Người dùng thuộc một số nhóm nhất định chọn không tham gia cuộc khảo sát với tỷ lệ khác với người dùng thuộc các nhóm khác.

Ví dụ: giả sử bạn đang tạo một mô hình học máy để dự đoán mức độ hài lòng của mọi người về một bộ phim. Để thu thập dữ liệu huấn luyện, bạn phát một bản khảo sát cho tất cả mọi người ở hàng ghế đầu của một rạp chiếu phim đang chiếu bộ phim đó. Nghe có vẻ như đây là một cách hợp lý để thu thập tập dữ liệu; tuy nhiên, hình thức thu thập dữ liệu này có thể dẫn đến các dạng thiên vị lựa chọn sau:

  • thiên vị về phạm vi: Bằng cách lấy mẫu từ một nhóm người đã chọn xem phim, dự đoán của mô hình có thể không áp dụng cho những người chưa thể hiện mức độ quan tâm đó đến bộ phim.
  • thiên vị khi lấy mẫu: Thay vì lấy mẫu ngẫu nhiên từ tổng thể dự kiến (tất cả mọi người xem phim), bạn chỉ lấy mẫu những người ngồi ở hàng ghế trước. Có thể những người ngồi ở hàng ghế trước quan tâm đến bộ phim hơn những người ngồi ở các hàng ghế khác.
  • thiên vị không phản hồi: Nhìn chung, những người có quan điểm rõ ràng có xu hướng phản hồi các cuộc khảo sát không bắt buộc thường xuyên hơn những người có quan điểm không rõ ràng. Vì bản khảo sát về phim là không bắt buộc, nên các câu trả lời có nhiều khả năng tạo thành một phân phối hai đỉnh hơn là một phân phối chuẩn (hình chuông).

thuộc tính nhạy cảm

#fairness
Một thuộc tính của con người có thể được xem xét đặc biệt vì lý do pháp lý, đạo đức, xã hội hoặc cá nhân.

U

không biết (về một thuộc tính nhạy cảm)

#fairness

Tình huống trong đó các thuộc tính nhạy cảm xuất hiện nhưng không có trong dữ liệu huấn luyện. Vì các thuộc tính nhạy cảm thường có mối tương quan với các thuộc tính khác trong dữ liệu của một người, nên một mô hình được huấn luyện mà không nhận biết được thuộc tính nhạy cảm vẫn có thể có tác động khác biệt đối với thuộc tính đó hoặc vi phạm các quy tắc ràng buộc về tính công bằng khác.