Bảng thuật ngữ máy học: Công bằng

Trang này chứa các thuật ngữ trong bảng thuật ngữ Công bằng. Đối với tất cả các thuật ngữ, hãy nhấp vào đây.

A

thuộc tính

#fairness

Từ đồng nghĩa của feature.

Để công bằng máy học, các thuộc tính thường dùng để chỉ các đặc điểm liên quan đến cá nhân.

thành kiến tự động

#fairness

Khi người ra quyết định ủng hộ các đề xuất của hệ thống đưa ra quyết định tự động so với thông tin được đưa ra mà không tự động hoá, ngay cả khi hệ thống đưa ra quyết định tự động có sai sót.

B

thành kiến (đạo đức/công bằng)

#fairness
#fundamentals

1. Định kiến, định kiến hoặc thiên vị đối với một số vấn đề, người hoặc nhóm người hơn những người khác. Những thành kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế hệ thống và cách người dùng tương tác với hệ thống. Các dạng thiên vị này bao gồm:

2. Lỗi hệ thống do quá trình lấy mẫu hoặc báo cáo gây ra. Các dạng thiên vị này bao gồm:

Đừng nhầm với cụm từ thiên vị trong các mô hình học máy hoặc thiên kiến dự đoán.

C

xu hướng xác nhận

#fairness

Có xu hướng tìm kiếm, giải thích, ủng hộ và thu hồi thông tin theo cách xác nhận các niềm tin hay giả thuyết có sẵn của một người. Nhà phát triển máy học có thể vô tình thu thập hoặc gắn nhãn dữ liệu theo những cách ảnh hưởng đến kết quả hỗ trợ niềm tin của họ. Thành kiến xác nhận là một dạng thiên kiến ngầm.

Thành kiến của người thử nghiệm là một hình thức thành kiến xác nhận trong đó người thử nghiệm tiếp tục đào tạo các mô hình cho đến khi giả thuyết có sẵn được xác nhận.

công bằng phản thực

#fairness
Chỉ số công bằng giúp kiểm tra xem một thuật toán phân loại có cho ra kết quả giống nhau cho một cá nhân hay không, cũng như cho một cá nhân khác giống hệt với kết quả đầu tiên, ngoại trừ một hoặc nhiều thuộc tính nhạy cảm. Đánh giá thuật toán phân loại về tính công bằng chống lại tính công bằng là một phương thức để hiển thị các nguồn thiên vị tiềm ẩn trong một mô hình.

Xem bài viết "Khi thế giới xung đột: Tích hợp các giả định về tính đối chứng khác nhau trong sự công bằng" để biết nội dung thảo luận chi tiết hơn về tính công bằng theo cơ chế phản thực.

xu hướng mức độ phù hợp

#fairness

Xem thiên kiến về lựa chọn.

D

chẵn lẻ

#fairness

Chỉ số công bằng được thỏa mãn nếu kết quả phân loại mô hình không phụ thuộc vào một thuộc tính nhạy cảm nhất định.

Ví dụ: nếu cả Lilliputians và Brobdingnagians đều áp dụng cho Đại học Gloubbdubdrib, thì tỷ lệ tương đồng về nhân khẩu học sẽ được đạt nếu tỷ lệ phần trăm của Lilliputians được nhận vào giống với tỷ lệ phần trăm Brobdingnagian được nhận vào, bất kể trung bình một nhóm có chất lượng nhiều hơn nhóm kia.

Ngược lại với tỷ lệ chênh lệch bằng nhausự cân bằng của cơ hội, cho phép kết quả phân loại tổng hợp phụ thuộc vào các thuộc tính nhạy cảm, nhưng không cho phép kết quả phân loại đối với một số nhãn thực tế được chỉ định phụ thuộc vào các thuộc tính nhạy cảm. Hãy xem phần "Tấn công sự phân biệt đối xử bằng công nghệ máy học thông minh" để biết cách hình dung, tận dụng sự đánh đổi khi tối ưu hoá cho sự tương đồng về thông tin nhân khẩu học.

tác động riêng biệt

#fairness

Đưa ra quyết định về những người tác động không đồng đều đến các nhóm phụ khác nhau. Điều này thường đề cập đến các tình huống trong đó quy trình đưa ra quyết định theo thuật toán làm tổn hại hoặc mang lại lợi ích cho một số nhóm con nhiều hơn so với các nhóm phụ khác.

Ví dụ: giả sử một thuật toán xác định rằng một Lilliputian đủ điều kiện vay tiền mua nhà thu nhỏ sẽ phân loại chúng là "không đủ điều kiện" nếu địa chỉ gửi thư của họ chứa một mã bưu chính nhất định. Nếu những người làm thư viện của Big-Endian có nhiều khả năng sẽ gửi các địa chỉ qua thư hơn với mã bưu chính này hơn những người dùng Lilliputians giải thuật thư, thì thuật toán này có thể tạo ra những tác động khác nhau.

Ngược lại với phương pháp xử lý khác nhau, chú trọng vào sự khác biệt xảy ra khi các đặc điểm của nhóm phụ là dữ liệu đầu vào rõ ràng về quy trình đưa ra quyết định theo thuật toán.

điều trị riêng biệt

#fairness

Đưa các thuộc tính nhạy cảm của đối tượng vào quy trình đưa ra quyết định theo thuật toán để xử lý theo nhiều cách.

Ví dụ: hãy xem xét một thuật toán xác định khả năng đủ điều kiện của một Lilliputians cho một khoản vay mua nhà thu nhỏ dựa trên dữ liệu họ cung cấp trong đơn đăng ký vay. Nếu thuật toán sử dụng liên kết của Lilliputian làm đầu mối liên kết Little-Endian hoặc Little-Endian, thì thuật toán đó sẽ thực thi quá trình xử lý khác nhau dọc thứ nguyên đó.

Ngược lại với tác động khác biệt, trọng tâm này tập trung vào sự khác biệt về tác động xã hội của các quyết định theo thuật toán đối với các nhóm con, bất kể các nhóm con đó có phải là dữ liệu đầu vào cho mô hình hay không.

E

đẳng thức của cơ hội

#fairness
Chỉ số công bằng kiểm tra xem nhãn ưu tiên (một nhãn mang lại lợi thế hoặc mang lại lợi ích cho người dùng) và một thuộc tính cụ thể, thì thuật toán phân loại sẽ dự đoán nhãn được ưu tiên như nhau cho tất cả các giá trị của thuộc tính đó. Nói cách khác, sự bình đẳng về cơ hội đo lường liệu những người có đủ điều kiện để nắm bắt cơ hội cũng có khả năng ngang nhau như nhau bất kể tư cách thành viên trong nhóm của họ.

Ví dụ: giả sử Đại học Glubbdubdrib cho phép cả Lilliputians và Brobdingnagians vào một chương trình toán học nghiêm ngặt. Các trường trung học cơ sở của Lilliputians cung cấp một chương trình giảng dạy mạnh mẽ về các lớp toán và đa số học sinh đủ điều kiện tham gia chương trình đại học. Trường trung học cơ sở của Brobdingnagians không cung cấp lớp học toán nào. Do đó, có rất ít học sinh đủ điều kiện. Bình đẳng cơ hội được đáp ứng cho nhãn ưa thích "được nhận" với sự tôn trọng quốc tịch (Lilliputian hoặc Brobdingnagian) nếu sinh viên đủ điều kiện có khả năng được nhận như nhau bất kể họ là Lilliputian hay Brobdingnagian.

Ví dụ: giả sử 100 Lilliputians và 100 Brobdingnagians đăng ký vào Đại học Glubbdubdrib và đưa ra quyết định nhập học như sau:

Bảng 1. Người nộp đơn bằng ngôn ngữ chung (90% đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã nhận 45 3
Bị từ chối 45 7
Tổng 90 10
Tỷ lệ học sinh đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ học sinh không đủ tiêu chuẩn bị từ chối: 7/10 = 70%
Tổng số học sinh Lilliputian được nhận: (45+3)/100 = 48%

 

Bảng 2. Người đăng ký Brobdingnagian (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã nhận 5 9
Bị từ chối 5 81
Tổng 10 90
Tỷ lệ học sinh đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ học sinh không đủ tiêu chuẩn bị từ chối: 81/90 = 90%
Tổng số học sinh Brobdingnagian được nhận: (5+9)/100 = 14%

Các ví dụ ở trên thỏa mãn bình đẳng về cơ hội chấp nhận học viên đủ tiêu chuẩn bởi vì cả Lilliputians và Brobdingnagians đủ điều kiện đều có 50% cơ hội được nhận vào học.

Vui lòng xem phần "Bình đẳng về cơ hội trong học tập có giám sát" để biết thêm thông tin chi tiết về bình đẳng cơ hội. Ngoài ra, hãy xem bài viết "Tấn công sự phân biệt đối xử bằng công nghệ máy học thông minh hơn" để có hình ảnh hóa, khám phá sự đánh đổi khi tối ưu hóa nhằm tạo cơ hội bình đẳng.

tỷ số cân bằng

#fairness
Chỉ số công bằng kiểm tra xem một nhãn và thuộc tính cụ thể nào đó có dự đoán nhãn phù hợp cho tất cả các giá trị của thuộc tính đó hay không.

Ví dụ: giả sử Đại học Glubbdubdrib cho phép cả Lilliputians và Brobdingnagians vào một chương trình toán học nghiêm ngặt. Trường trung học cơ sở của Lilliputians cung cấp một chương trình giảng dạy mạnh mẽ về các lớp toán và đa số học sinh đủ điều kiện tham gia chương trình đại học. Trường trung học cơ sở của Brobdingnagian không cung cấp lớp học toán nào. Do đó, có rất ít học sinh đủ điều kiện. Tỷ lệ cược được cân bằng được đáp ứng với điều kiện là ứng viên là Lilliputian hoặc Brobdingnagian, nếu họ đủ điều kiện, họ có khả năng được nhận vào chương trình như nhau và nếu không đủ điều kiện, họ sẽ có khả năng bị từ chối như nhau.

Giả sử 100 Lilliputian và 100 Brobdingnagians đăng ký vào Đại học Glubbdubdrib và đưa ra quyết định tuyển sinh như sau:

Bảng 3. Người nộp đơn bằng ngôn ngữ chung (90% đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã nhận 45 2
Bị từ chối 45 8
Tổng 90 10
Tỷ lệ học sinh đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ học sinh không đủ tiêu chuẩn bị từ chối: 8/10 = 80%
Tổng số học sinh Lilliputian được nhận: (45+2)/100 = 47%

 

Bảng 4. Người đăng ký Brobdingnagian (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã nhận 5 18
Bị từ chối 5 72
Tổng 10 90
Tỷ lệ học sinh đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ học sinh không đủ tiêu chuẩn bị từ chối: 72/90 = 80%
Tổng số học sinh Brobdingnagian được nhận: (5+18)/100 = 23%

Tỷ lệ cược được cân bằng được đáp ứng bởi vì cả hai học sinh Lilliputian và Brobdingnagian đủ điều kiện đều có 50% cơ hội được nhận vào, và Lilliputian không đủ điều kiện và Brobdingnagian có 80% cơ hội bị từ chối.

Tỷ lệ cược cân bằng được định nghĩa chính thức trong "Chất lượng cơ hội trong học tập có giám sát" như sau: "Trình dự đoán Ŷ thỏa mãn tỷ lệ cược bằng nhau đối với thuộc tính A và kết quả Y được bảo vệ nếu Ŷ và A độc lập, có điều kiện đối với Y".

thành kiến của người thử nghiệm

#fairness

Xem xác nhận thiên vị.

F

ràng buộc về tính công bằng

#fairness
Áp dụng một hạn chế đối với thuật toán để đảm bảo một hoặc nhiều định nghĩa về tính công bằng được đáp ứng. Các ví dụ về ràng buộc về công bằng bao gồm:

chỉ số công bằng

#fairness

Định nghĩa toán học về "công bằng" có thể đo lường được. Một số số liệu công bằng thường được sử dụng bao gồm:

Nhiều chỉ số về sự công bằng bị loại trừ lẫn nhau; hãy xem bài viết không tương thích với các chỉ số về sự công bằng.

G

xu hướng phân bổ theo nhóm

#fairness

Giả sử điều đúng cho một cá nhân cũng đúng với mọi người trong nhóm đó. Ảnh hưởng của độ chệch thuộc tính nhóm có thể trở nên trầm trọng hơn nếu lấy mẫu tiện lợi được sử dụng để thu thập dữ liệu. Trong một mẫu không đại diện, các thuộc tính có thể được thực hiện mà không phản ánh thực tế.

Xem thêm thiên lệch đồng nhất bên ngoài nhómt sai lệch giữa các nhóm.

I

thành kiến ngầm

#fairness

Tự động liên kết hoặc giả định dựa trên mô hình và kỷ niệm của một người. Thành kiến ngầm ẩn có thể ảnh hưởng đến những điều sau:

  • Cách dữ liệu được thu thập và phân loại.
  • Cách thiết kế và phát triển hệ thống máy học.

Ví dụ: khi xây dựng một thuật toán phân loại để xác định ảnh cưới, một kỹ sư có thể sử dụng hình ảnh một chiếc váy trắng trong ảnh làm đối tượng địa lý. Tuy nhiên, váy trắng chỉ được sử dụng trong những thời đại nhất định và trong một số nền văn hóa.

Xem thêm xác nhận thiên vị.

chỉ số không tương thích

#fairness

Ý tưởng rằng một số khái niệm về sự công bằng không tương thích lẫn nhau và không thể được thỏa mãn đồng thời. Do đó, không có một chỉ số chung nào có thể áp dụng cho mọi bài toán máy học để định lượng tính công bằng.

Mặc dù điều này có vẻ gây khó chịu, nhưng sự không tương thích giữa các chỉ số công bằng không ngụ ý rằng những nỗ lực về công bằng là sai trái. Thay vào đó, đối tượng này đề xuất rằng sự công bằng phải được xác định theo ngữ cảnh cho một vấn đề nhất định của máy học, với mục đích ngăn chặn những tác hại cụ thể đối với trường hợp sử dụng.

Xem phần "Về (khả năng) của sự công bằng" để biết thảo luận chi tiết hơn về chủ đề này.

công bằng cho cá nhân

#fairness

Chỉ số công bằng kiểm tra xem các cá nhân tương tự có được phân loại tương tự hay không. Ví dụ: Học viện Brobdingnagian có thể muốn đáp ứng sự công bằng của từng cá nhân bằng cách đảm bảo rằng hai học viên có điểm giống hệt nhau và điểm kiểm tra chuẩn hóa đều có khả năng được nhận vào học như nhau.

Xin lưu ý rằng sự công bằng riêng phụ thuộc hoàn toàn vào cách bạn định nghĩa "tính tương đồng" (trong trường hợp này là điểm và điểm kiểm tra), và bạn có thể gặp rủi ro khi đưa ra các vấn đề về tính công bằng mới nếu chỉ số tương tự của bạn bỏ lỡ thông tin quan trọng (chẳng hạn như tính nghiêm ngặt trong chương trình học của học viên).

Xem bài viết "Công bằng thông qua nhận thức" để biết nội dung thảo luận chi tiết hơn về sự công bằng riêng lẻ.

thành kiến trong nhóm

#fairness

Hiển thị một phần cho nhóm hoặc các đặc điểm riêng của một người. Nếu người thử nghiệm hoặc người đánh giá bao gồm bạn bè, gia đình hoặc đồng nghiệp của nhà phát triển công nghệ học máy, thì xu hướng trong nhóm có thể làm cho hoạt động thử nghiệm sản phẩm hoặc tập dữ liệu mất hiệu lực.

Thành kiến trong nhóm là một dạng của thiên kiến phân bổ theo nhóm. Xem thêm thiên thức đồng nhất bên ngoài nhóm.

N

thành kiến không phản hồi

#fairness

Xem thiên kiến về lựa chọn.

O

thiên kiến đồng nhất ngoài nhóm

#fairness

Có xu hướng xem các thành viên ngoài nhóm giống với các thành viên trong nhóm hơn khi so sánh thái độ, giá trị, đặc điểm tính cách và các đặc điểm khác. Trong nhóm là những người mà bạn thường xuyên tương tác; ngoài nhóm là những người mà bạn không tương tác thường xuyên. Nếu bạn tạo một tập dữ liệu bằng cách yêu cầu mọi người cung cấp thuộc tính về các nhóm bên ngoài, thì những thuộc tính đó có thể ít chi tiết hơn và rập khuôn hơn so với thuộc tính mà người tham gia liệt kê cho những người trong nhóm của họ.

Ví dụ: các nghệ sĩ Lilliputian có thể mô tả rất chi tiết về ngôi nhà của những người Lilliputian khác, trích dẫn những khác biệt nhỏ trong kiểu kiến trúc, cửa sổ, cửa ra vào và kích thước. Tuy nhiên, chính những người Lilliputian có thể chỉ cần tuyên bố rằng người Brobdingnagian đều sống trong những ngôi nhà giống nhau.

Thành kiến đồng nhất ngoài nhóm là một dạng của thiên kiến phân bổ nhóm.

Xem thêm thiên vị trong nhóm.

P

thành kiến tham gia

#fairness

Từ đồng nghĩa với thành kiến không phản hồi. Xem thiên kiến về lựa chọn.

xử lý hậu kỳ

#fairness
#fundamentals

Điều chỉnh đầu ra của mô hình sau khi mô hình đã chạy. Bạn có thể dùng quy trình hậu xử lý để thực thi các quy tắc ràng buộc về công bằng mà không cần tự sửa đổi mô hình.

Ví dụ: người ta có thể áp dụng quy trình hậu xử lý cho thuật toán phân loại nhị phân bằng cách đặt ngưỡng phân loại sao cho bình đẳng cơ hội được duy trì cho một số thuộc tính bằng cách kiểm tra để đảm bảo tỷ lệ dương thực sự là như nhau đối với tất cả các giá trị của thuộc tính đó.

dự đoán tương đương

#fairness

Chỉ số công bằng kiểm tra xem liệu đối với một thuật toán phân loại nhất định, tỷ lệ độ chính xác có tương đương với các nhóm phụ đang được xem xét hay không.

Ví dụ: một mô hình dự đoán sự chấp nhận vào trường đại học sẽ đáp ứng mức độ tương đồng về quốc tịch nếu tỷ lệ chính xác của nó giống nhau ở cả người Lilliputian và Brobdingnagian.

Giá trị dự đoán tương đương đôi khi còn được gọi là mức độ tương đương tỷ lệ dự đoán.

Xem "Giải thích về định nghĩa công bằng" (phần 3.2.1) để thảo luận chi tiết hơn về tính chẵn lẻ dự đoán.

tỷ lệ dự đoán tương đương

#fairness

Một tên khác của parparity.

tiền xử lý

#fairness
Xử lý dữ liệu trước khi dùng để huấn luyện mô hình. Việc xử lý trước có thể đơn giản như việc xoá các từ khỏi tập sao lục tiếng Anh không xảy ra trong từ điển tiếng Anh, hoặc có thể phức tạp như thể hiện lại các điểm dữ liệu theo cách loại bỏ càng nhiều thuộc tính tương quan với các thuộc tính nhạy cảm càng tốt. Việc xử lý trước có thể giúp đáp ứng các quy định ràng buộc về công bằng.

proxy (thuộc tính nhạy cảm)

#fairness
Một thuộc tính dùng làm giá trị dự phòng cho một thuộc tính nhạy cảm. Ví dụ: mã bưu chính của một cá nhân có thể được sử dụng làm proxy cho thu nhập, chủng tộc hoặc sắc tộc của họ.

(phải)

thành kiến báo cáo

#fairness

Thực tế là tần suất mà mọi người viết về hành động, kết quả hoặc thuộc tính không phản ánh tần suất trong thế giới thực của chúng hoặc mức độ mà một thuộc tính là đặc trưng của một nhóm cá nhân. Thành kiến báo cáo có thể ảnh hưởng đến cấu trúc của dữ liệu mà hệ thống máy học học được.

Ví dụ: trong sách, từ cười phổ biến hơn từ khá thở. Một mô hình máy học ước tính tần suất cười và nhịp thở tương đối của một tập sao lục sách có thể sẽ xác định được rằng cười phổ biến hơn thở.

CN

xu hướng lấy mẫu

#fairness

Xem thiên kiến về lựa chọn.

xu hướng lựa chọn

#fairness

Lỗi trong phần kết luận được rút ra từ dữ liệu được lấy mẫu do một quá trình lựa chọn tạo ra sự khác biệt có hệ thống giữa các mẫu được quan sát trong dữ liệu và các mẫu không được quan sát. Các dạng xu hướng lựa chọn sau:

  • độ chệch của độ bao phủ: Tập hợp biểu thị trong tập dữ liệu không khớp với tập hợp mà mô hình máy học đưa ra dự đoán.
  • độ lệch mẫu: Dữ liệu không được thu thập ngẫu nhiên từ nhóm mục tiêu.
  • thiên vị không phản hồi (còn được gọi là thiên vị tham gia): Người dùng từ một số nhóm nhất định chọn không tham gia khảo sát ở các tỷ lệ khác với người dùng từ các nhóm khác.

Ví dụ: giả sử bạn đang tạo mô hình máy học để dự đoán mức độ yêu thích của mọi người đối với một bộ phim. Để thu thập dữ liệu đào tạo, bạn phát một bản khảo sát cho tất cả mọi người ở hàng ghế trước của một rạp chiếu phim. Mặt khác, đây có vẻ là một cách hợp lý để thu thập tập dữ liệu; tuy nhiên, hình thức thu thập dữ liệu này có thể đưa ra các hình thức thiên vị lựa chọn sau:

  • xu hướng mức độ phù hợp: Bằng cách lấy mẫu từ nhóm người chọn xem phim, dự đoán mô hình của bạn có thể không khái quát hóa đối với những người chưa thể hiện mức độ quan tâm đến phim đó.
  • thiên kiến lấy mẫu: Thay vì lấy mẫu ngẫu nhiên từ dân số dự định (tất cả những người ở phim), bạn chỉ lấy mẫu những người ở hàng trước. Có thể những người ngồi ở hàng ghế đầu tiên quan tâm đến bộ phim hơn là những người ở hàng khác.
  • thành kiến không phản hồi: Nhìn chung, những người có quan điểm rõ ràng có xu hướng trả lời các cuộc khảo sát không bắt buộc thường xuyên hơn những người có quan điểm nhẹ nhàng. Vì việc khảo sát về phim là không bắt buộc, nên các phản hồi có nhiều khả năng hình thành quá trình phân phối hai chiều hơn so với cách phân phối thông thường (hình chiếc chuông).

thuộc tính nhạy cảm

#fairness
Thuộc tính của con người có thể được xem xét đặc biệt vì các lý do pháp lý, đạo đức, xã hội hoặc cá nhân.

U

không nhận biết được (đối với thuộc tính nhạy cảm)

#fairness

Tình huống có thuộc tính nhạy cảm, nhưng không có trong dữ liệu huấn luyện. Vì các thuộc tính nhạy cảm thường liên quan đến các thuộc tính khác trong dữ liệu của người dùng nên một mô hình được đào tạo mà không nhận biết được thuộc tính nhạy cảm vẫn có thể bị ảnh hưởng khác nhau đối với thuộc tính đó hoặc vi phạm các quy định ràng buộc khác về công bằng.