Từ vựng về học máy: AI có trách nhiệm

Trang này chứa các thuật ngữ trong bảng chú giải về AI có trách nhiệm. Để xem tất cả các thuật ngữ trong bảng chú giải, hãy nhấp vào đây.

A

thuộc tính

#responsible

Từ đồng nghĩa với tính năng.

Trong tính công bằng của học máy, các thuộc tính thường đề cập đến những đặc điểm liên quan đến cá nhân.

thiên kiến tự động hoá

#responsible

Khi người đưa ra quyết định là con người ưu tiên các đề xuất do hệ thống tự động đưa ra quyết định hơn là thông tin không có sự can thiệp của hệ thống tự động, ngay cả khi hệ thống tự động đưa ra quyết định mắc lỗi.

Hãy xem phần Tính công bằng: Các loại thành kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

B

thiên kiến (đạo đức/tính công bằng)

#responsible
#fundamentals

1. Định kiến, thành kiến hoặc thiên vị đối với một số sự vật, con người hoặc nhóm người so với những người khác. Những thiên kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế của một hệ thống và cách người dùng tương tác với hệ thống. Các dạng thiên kiến thuộc loại này bao gồm:

2. Lỗi hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Các dạng thiên kiến thuộc loại này bao gồm:

Không nhầm lẫn với hệ số thiên vị trong các mô hình học máy hoặc độ thiên lệch dự đoán.

Hãy xem phần Tính công bằng: Các loại thành kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

C

thiên kiến xác nhận

#responsible

Xu hướng tìm kiếm, diễn giải, ủng hộ và nhớ lại thông tin theo cách xác nhận niềm tin hoặc giả thuyết có sẵn của một người. Nhà phát triển học máy có thể vô tình thu thập hoặc gắn nhãn dữ liệu theo cách ảnh hưởng đến kết quả hỗ trợ niềm tin hiện tại của họ. Thiên kiến xác nhận là một dạng thiên kiến ngầm.

Thiên kiến của người thử nghiệm là một dạng thiên kiến xác nhận, trong đó người thử nghiệm tiếp tục huấn luyện các mô hình cho đến khi một giả thuyết có sẵn được xác nhận.

tính công bằng phản thực tế

#responsible
#Chỉ số

Chỉ số công bằng kiểm tra xem mô hình phân loại có tạo ra cùng một kết quả cho một cá nhân như kết quả của một cá nhân khác giống với cá nhân đầu tiên hay không, ngoại trừ một hoặc nhiều thuộc tính nhạy cảm. Đánh giá mô hình phân loại để đảm bảo tính công bằng phản thực tế là một phương pháp để xác định các nguồn thiên vị tiềm ẩn trong một mô hình.

Hãy xem một trong hai phần sau để biết thêm thông tin:

thiên kiến do thiếu bao quát

#responsible

Xem phần thiên vị do cách chọn mẫu.

D

tương đương về nhân khẩu học

#responsible
#Chỉ số

Một chỉ số công bằng được đáp ứng nếu kết quả phân loại của một mô hình không phụ thuộc vào một thuộc tính nhạy cảm nhất định.

Ví dụ: nếu cả người Lilliput và người Brobdingnag đều đăng ký vào Đại học Glubbdubdrib, thì sự bình đẳng về nhân khẩu học sẽ đạt được nếu tỷ lệ phần trăm người Lilliput được nhận vào học bằng với tỷ lệ phần trăm người Brobdingnag được nhận vào học, bất kể một nhóm có trình độ chuyên môn cao hơn nhóm còn lại hay không.

Tương phản với xác suất cân bằngcơ hội bình đẳng, cho phép kết quả phân loại tổng hợp phụ thuộc vào các thuộc tính nhạy cảm, nhưng không cho phép kết quả phân loại cho một số nhãn dữ liệu thực tế được chỉ định phụ thuộc vào các thuộc tính nhạy cảm. Xem bài viết "Chống phân biệt đối xử bằng công nghệ học máy thông minh hơn" để xem hình ảnh minh hoạ khám phá các điểm đánh đổi khi tối ưu hoá để đạt được sự bình đẳng về nhân khẩu học.

Hãy xem phần Tính công bằng: sự bình đẳng về nhân khẩu học trong Khoá học học máy ứng dụng để biết thêm thông tin.

tác động không tương xứng

#responsible

Đưa ra quyết định về những người có tác động không cân xứng đến các nhóm nhỏ dân số khác nhau. Điều này thường đề cập đến những tình huống mà quy trình ra quyết định dựa trên thuật toán gây hại hoặc mang lại lợi ích cho một số nhóm nhỏ nhiều hơn những nhóm khác.

Ví dụ: giả sử một thuật toán xác định xem người Lilliput có đủ điều kiện vay tiền mua nhà thu nhỏ hay không có nhiều khả năng phân loại họ là "không đủ điều kiện" nếu địa chỉ gửi thư của họ có một mã bưu chính nhất định. Nếu người Lilliput sử dụng hệ thống Big-Endian có nhiều khả năng có địa chỉ gửi thư với mã bưu chính này hơn người Lilliput sử dụng hệ thống Little-Endian, thì thuật toán này có thể dẫn đến tác động không tương xứng.

Tương phản với đối xử phân biệt, tập trung vào sự chênh lệch xảy ra khi các đặc điểm của nhóm nhỏ là thông tin đầu vào rõ ràng cho quy trình đưa ra quyết định bằng thuật toán.

đối xử phân biệt

#responsible

Đưa thuộc tính nhạy cảm của đối tượng vào quy trình ra quyết định dựa trên thuật toán sao cho các nhóm nhỏ khác nhau của mọi người được đối xử khác nhau.

Ví dụ: hãy xem xét một thuật toán xác định xem người Lilliput có đủ điều kiện để vay tiền mua nhà thu nhỏ hay không dựa trên dữ liệu mà họ cung cấp trong đơn đăng ký vay. Nếu thuật toán sử dụng mối quan hệ của người Lilliputian với Big-Endian hoặc Little-Endian làm dữ liệu đầu vào, thì thuật toán đó đang thực hiện cách xử lý khác biệt theo phương diện đó.

Tương phản với tác động không tương xứng, tập trung vào sự khác biệt trong tác động xã hội của các quyết định dựa trên thuật toán đối với các nhóm nhỏ, bất kể những nhóm nhỏ đó có phải là dữ liệu đầu vào cho mô hình hay không.

E

bình đẳng về cơ hội

#responsible
#Chỉ số

Một chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả mong muốn một cách công bằng cho tất cả các giá trị của một thuộc tính nhạy cảm hay không. Nói cách khác, nếu kết quả mong muốn cho một mô hình là lớp dương tính, thì mục tiêu là phải có tỷ lệ dương tính thực giống nhau cho tất cả các nhóm.

Bình đẳng về cơ hội có liên quan đến tỷ lệ cược cân bằng, theo đó cả tỷ lệ dương tính thực và tỷ lệ dương tính giả đều phải giống nhau đối với tất cả các nhóm.

Giả sử Đại học Glubbdubdrib nhận cả người Lilliput và người Brobdingnag vào một chương trình toán học nghiêm ngặt. Các trường trung học của người Lilliput cung cấp một chương trình học vững chắc về các lớp toán và phần lớn học sinh đủ điều kiện tham gia chương trình đại học. Các trường trung học của người Brobdingnag không có lớp học toán, và do đó, số lượng học sinh đủ tiêu chuẩn của họ ít hơn nhiều. Cơ hội bình đẳng được đáp ứng cho nhãn ưu tiên "được nhận" đối với quốc tịch (Lilliput hoặc Brobdingnag) nếu sinh viên đủ tiêu chuẩn có khả năng được nhận như nhau bất kể họ là người Lilliput hay người Brobdingnag.

Ví dụ: giả sử có 100 người Lilliput và 100 người Brobdingnag đăng ký vào Đại học Glubbdubdrib, và quyết định nhập học được đưa ra như sau:

Bảng 1. Người đăng ký Lilliputian (90% đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Được chấp nhận 45 3
Bị từ chối 45 7
Tổng 90 10
Tỷ lệ phần trăm học viên đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 7/10 = 70%
Tổng tỷ lệ phần trăm học viên Lilliputian được nhận: (45+3)/100 = 48%

 

Bảng 2. Ứng viên khổng lồ (10% đủ tiêu chuẩn):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Được chấp nhận 5 9
Bị từ chối 5 81
Tổng 10 90
Tỷ lệ phần trăm sinh viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ phần trăm sinh viên không đủ điều kiện bị từ chối: 81/90 = 90%
Tổng tỷ lệ phần trăm sinh viên Brobdingnagian được nhận: (5+9)/100 = 14%

Các ví dụ trước đó đáp ứng sự bình đẳng về cơ hội chấp nhận sinh viên đủ tiêu chuẩn vì cả người Lilliput và người Brobdingnag đều có 50% cơ hội được nhận.

Mặc dù đã đáp ứng được sự bình đẳng về cơ hội, nhưng 2 chỉ số công bằng sau đây chưa được đáp ứng:

  • tính bình đẳng về nhân khẩu học: Người Lilliput và người Brobdingnag được nhận vào trường đại học với tỷ lệ khác nhau; 48% sinh viên Lilliput được nhận, nhưng chỉ có 14% sinh viên Brobdingnag được nhận.
  • cơ hội ngang nhau: Mặc dù cả học viên Lilliputian và Brobdingnagian đủ tiêu chuẩn đều có cơ hội được nhận như nhau, nhưng ràng buộc bổ sung là cả học viên Lilliputian và Brobdingnagian không đủ tiêu chuẩn đều có cơ hội bị từ chối như nhau lại không được đáp ứng. Người Lilliput không đủ tiêu chuẩn có tỷ lệ bị từ chối là 70%, trong khi người Brobdingnag không đủ tiêu chuẩn có tỷ lệ bị từ chối là 90%.

Hãy xem bài viết Tính công bằng: Cơ hội bình đẳng trong Khoá học cấp tốc về học máy để biết thêm thông tin.

tỷ lệ cược cân bằng

#responsible
#Chỉ số

Một chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả tốt như nhau cho tất cả các giá trị của một thuộc tính nhạy cảm hay không, liên quan đến cả lớp dươnglớp âm – không chỉ một lớp hoặc lớp kia một cách riêng biệt. Nói cách khác, cả tỷ lệ dương tính thựctỷ lệ âm tính giả đều phải giống nhau đối với tất cả các nhóm.

Cơ hội bình đẳng liên quan đến sự bình đẳng về cơ hội, chỉ tập trung vào tỷ lệ lỗi cho một lớp duy nhất (dương hoặc âm).

Ví dụ: giả sử Đại học Glubbdubdrib nhận cả người Lilliput và người Brobdingnag vào một chương trình toán học nghiêm ngặt. Các trường trung học của người Lilliput cung cấp một chương trình học tập toàn diện về các lớp toán và phần lớn học sinh đủ điều kiện tham gia chương trình đại học. Các trường trung học của người Brobdingnag không có lớp học toán nào, và do đó, số lượng học sinh đủ điều kiện của họ ít hơn nhiều. Điều kiện về xác suất ngang bằng được đáp ứng miễn là bất kể người đăng ký là người Lilliput hay người Brobdingnag, nếu họ đủ tiêu chuẩn, thì họ đều có khả năng được nhận vào chương trình như nhau, và nếu họ không đủ tiêu chuẩn, thì họ đều có khả năng bị từ chối như nhau.

Giả sử có 100 người Lilliput và 100 người Brobdingnag đăng ký vào Đại học Glubbdubdrib, và quyết định nhập học được đưa ra như sau:

Bảng 3. Người đăng ký Lilliputian (90% đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Được chấp nhận 45 2
Bị từ chối 45 8
Tổng 90 10
Tỷ lệ phần trăm học sinh đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ phần trăm học sinh không đủ điều kiện bị từ chối: 8/10 = 80%
Tổng tỷ lệ phần trăm học sinh Lilliputian được nhận: (45+2)/100 = 47%

 

Bảng 4. Ứng viên khổng lồ (10% đủ tiêu chuẩn):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Được chấp nhận 5 18
Bị từ chối 5 72
Tổng 10 90
Tỷ lệ phần trăm sinh viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ phần trăm sinh viên không đủ điều kiện bị từ chối: 72/90 = 80%
Tổng tỷ lệ phần trăm sinh viên Brobdingnagian được nhận: (5+18)/100 = 23%

Điều kiện về xác suất ngang bằng được đáp ứng vì cả sinh viên đủ tiêu chuẩn ở Lilliput và Brobdingnag đều có 50% cơ hội được nhận, còn sinh viên không đủ tiêu chuẩn ở Lilliput và Brobdingnag có 80% cơ hội bị từ chối.

Tỷ lệ cược cân bằng được xác định chính thức trong "Cơ hội bình đẳng trong học có giám sát" như sau: "hàm dự đoán Ŷ đáp ứng tỷ lệ cược cân bằng đối với thuộc tính được bảo vệ A và kết quả Y nếu Ŷ và A độc lập, có điều kiện trên Y."

sự thiên vị của người nghiên cứu

#responsible

Xem thiên kiến xác nhận.

F

quy tắc ràng buộc về tính công bằng

#responsible
Áp dụng một ràng buộc cho thuật toán để đảm bảo đáp ứng một hoặc nhiều định nghĩa về sự công bằng. Sau đây là một số ví dụ về các ràng buộc công bằng:

chỉ số công bằng

#responsible
#Chỉ số

Định nghĩa toán học về "sự công bằng" có thể đo lường được. Sau đây là một số chỉ số công bằng thường dùng:

Nhiều chỉ số công bằng loại trừ lẫn nhau; hãy xem sự không tương thích của các chỉ số công bằng.

G

thiên vị quy cho nhóm

#responsible

Giả định rằng điều đúng với một cá nhân cũng đúng với mọi người trong nhóm đó. Ảnh hưởng của thiên kiến phân bổ theo nhóm có thể trở nên trầm trọng hơn nếu bạn sử dụng phương pháp lấy mẫu thuận tiện để thu thập dữ liệu. Trong một mẫu không đại diện, các thuộc tính có thể được tạo ra mà không phản ánh thực tế.

Xem thêm thiên vị khác nhómthiên vị trong nhóm. Ngoài ra, hãy xem phần Tính công bằng: Các loại thành kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

Cao

thiên kiến trong quá khứ

#responsible

Một loại thiên kiến đã tồn tại trên thế giới và đã xuất hiện trong một tập dữ liệu. Những thiên kiến này có xu hướng phản ánh các định kiến văn hoá, sự bất bình đẳng về nhân khẩu học và thành kiến đối với một số nhóm xã hội nhất định.

Ví dụ: hãy xem xét một mô hình phân loại dự đoán liệu người đăng ký vay có vỡ nợ hay không. Mô hình này được huấn luyện dựa trên dữ liệu vỡ nợ của các khoản vay trước đây từ những năm 1980 của các ngân hàng địa phương ở hai cộng đồng khác nhau. Nếu những người đăng ký trước đây ở Cộng đồng A có khả năng không trả được nợ gấp 6 lần so với người đăng ký ở Cộng đồng B, thì mô hình có thể học được một thành kiến trong quá khứ, dẫn đến việc mô hình ít có khả năng phê duyệt khoản vay ở Cộng đồng A, ngay cả khi các điều kiện trong quá khứ dẫn đến tỷ lệ vỡ nợ cao hơn của cộng đồng đó không còn phù hợp nữa.

Hãy xem phần Tính công bằng: Các loại thành kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

I

thiên kiến ngầm

#responsible

Tự động liên kết hoặc giả định dựa trên mô hình tư duy và ký ức của một người. Thiên kiến ngầm ẩn có thể ảnh hưởng đến những yếu tố sau:

  • Cách dữ liệu được thu thập và phân loại.
  • Cách thiết kế và phát triển hệ thống học máy.

Ví dụ: khi tạo mô hình phân loại để xác định ảnh cưới, kỹ sư có thể sử dụng sự xuất hiện của một chiếc váy trắng trong ảnh làm một đặc điểm. Tuy nhiên, váy trắng chỉ là trang phục truyền thống trong một số thời đại và ở một số nền văn hoá.

Xem thêm về thiên kiến xác nhận.

sự không tương thích của các chỉ số công bằng

#responsible
#Chỉ số

Ý tưởng cho rằng một số khái niệm về sự công bằng không tương thích với nhau và không thể đáp ứng đồng thời. Do đó, không có một chỉ số chung duy nhất để định lượng tính công bằng có thể áp dụng cho tất cả các vấn đề về học máy.

Mặc dù điều này có vẻ đáng thất vọng, nhưng sự không tương thích của các chỉ số công bằng không có nghĩa là những nỗ lực hướng đến sự công bằng là vô ích. Thay vào đó, nó đề xuất rằng sự công bằng phải được xác định theo ngữ cảnh cho một vấn đề cụ thể về học máy, với mục tiêu là ngăn chặn những tác hại cụ thể đối với các trường hợp sử dụng của vấn đề đó.

Hãy xem bài viết "Về (sự) bất khả thi của tính công bằng" để biết thêm thông tin chi tiết về sự không tương thích của các chỉ số công bằng.

tính công bằng cho từng cá nhân

#responsible
#Chỉ số

Một chỉ số công bằng kiểm tra xem những cá nhân tương tự có được phân loại tương tự hay không. Ví dụ: Brobdingnagian Academy có thể muốn đáp ứng sự công bằng cho từng cá nhân bằng cách đảm bảo rằng 2 học viên có điểm số và điểm kiểm tra tiêu chuẩn giống hệt nhau có khả năng được nhận vào học như nhau.

Xin lưu ý rằng tính công bằng cho từng cá nhân hoàn toàn phụ thuộc vào cách bạn xác định "mức độ tương đồng" (trong trường hợp này là điểm số và điểm kiểm tra), đồng thời bạn có thể gặp phải nguy cơ xuất hiện các vấn đề mới về tính công bằng nếu chỉ số về mức độ tương đồng của bạn bỏ lỡ thông tin quan trọng (chẳng hạn như mức độ nghiêm ngặt của chương trình học của học viên).

Hãy xem bài viết "Công bằng thông qua nhận thức" để biết thêm thông tin chi tiết về sự công bằng cho từng cá nhân.

thiên vị cùng nhóm

#responsible

Thể hiện sự thiên vị đối với nhóm của mình hoặc đặc điểm của bản thân. Nếu người kiểm thử hoặc người đánh giá là bạn bè, gia đình hoặc đồng nghiệp của nhà phát triển học máy, thì thiên kiến nội nhóm có thể làm mất hiệu lực việc kiểm thử sản phẩm hoặc tập dữ liệu.

Thiên vị cùng nhóm là một dạng thiên vị quy cho nhóm. Xem thêm thiên vị khác nhóm.

Hãy xem phần Tính công bằng: Các loại thành kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

Không

thiên kiến do thiếu hồi âm

#responsible

Xem phần thiên vị do cách chọn mẫu.

O

thiên kiến đồng nhất ngoài nhóm

#responsible

Xu hướng coi các thành viên bên ngoài nhóm là giống nhau hơn so với các thành viên trong nhóm khi so sánh thái độ, giá trị, đặc điểm tính cách và các đặc điểm khác. Trong nhóm là những người bạn thường xuyên tương tác; ngoài nhóm là những người bạn không thường xuyên tương tác. Nếu bạn tạo một tập dữ liệu bằng cách yêu cầu mọi người cung cấp các thuộc tính về nhóm bên ngoài, thì những thuộc tính đó có thể ít tinh tế hơn và mang tính rập khuôn hơn so với các thuộc tính mà người tham gia liệt kê cho những người trong nhóm của họ.

Ví dụ: Người Lilliput có thể mô tả nhà của những người Lilliput khác một cách chi tiết, nêu rõ những điểm khác biệt nhỏ về phong cách kiến trúc, cửa sổ, cửa ra vào và kích thước. Tuy nhiên, những người Lilliput tương tự có thể chỉ đơn giản tuyên bố rằng tất cả người Brobdingnag đều sống trong những ngôi nhà giống hệt nhau.

Thiên vị đồng nhất ngoài nhóm là một dạng thiên vị quy cho nhóm.

Xem thêm thiên vị cùng nhóm.

Điểm

thiên kiến tham gia

#responsible

Từ đồng nghĩa với thiên vị do thiếu hồi âm. Xem phần thiên vị do cách chọn mẫu.

hậu xử lý

#responsible
#fundamentals

Điều chỉnh đầu ra của một mô hình sau khi mô hình đó đã chạy. Bạn có thể sử dụng quy trình xử lý hậu kỳ để thực thi các ràng buộc về tính công bằng mà không cần sửa đổi chính các mô hình.

Ví dụ: người ta có thể áp dụng quy trình xử lý hậu kỳ cho một mô hình phân loại nhị phân bằng cách đặt một ngưỡng phân loại sao cho tính bình đẳng về cơ hội được duy trì cho một số thuộc tính bằng cách kiểm tra để đảm bảo rằng tỷ lệ dương tính thực là như nhau đối với tất cả các giá trị của thuộc tính đó.

tính tương đương dự đoán

#responsible
#Chỉ số

Một chỉ số công bằng kiểm tra xem đối với một mô hình phân loại nhất định, tỷ lệ độ chính xác có tương đương với các nhóm phụ đang được xem xét hay không.

Ví dụ: một mô hình dự đoán việc được nhận vào trường đại học sẽ đáp ứng tính tương đồng dự đoán về quốc tịch nếu tỷ lệ chính xác của mô hình này là như nhau đối với người Lilliput và người Brobdingnag.

Đôi khi, tính tương đương dự đoán còn được gọi là tính tương đương dự đoán về giá.

Hãy xem phần "Giải thích định nghĩa về tính công bằng" (mục 3.2.1) để biết thông tin chi tiết hơn về tính tương đồng dự đoán.

tỷ lệ ngang bằng dự đoán

#responsible
#Chỉ số

Một tên khác của tính chẵn lẻ dự đoán.

tiền xử lý

#responsible
Xử lý dữ liệu trước khi dùng để huấn luyện mô hình. Quá trình tiền xử lý có thể đơn giản như việc xoá những từ không có trong từ điển tiếng Anh khỏi một kho văn bản tiếng Anh, hoặc có thể phức tạp như việc biểu thị lại các điểm dữ liệu theo cách loại bỏ càng nhiều thuộc tính có tương quan với thuộc tính nhạy cảm càng tốt. Bước tiền xử lý có thể giúp đáp ứng các ràng buộc về tính công bằng.

proxy (thuộc tính nhạy cảm)

#responsible
Một thuộc tính được dùng làm thuộc tính thay thế cho thuộc tính nhạy cảm. Ví dụ: mã bưu chính của một cá nhân có thể được dùng làm thông tin đại diện cho thu nhập, chủng tộc hoặc sắc tộc của họ.

Điểm

thiên kiến dựa trên báo cáo

#responsible

Việc tần suất mà mọi người viết về các hành động, kết quả hoặc thuộc tính không phản ánh tần suất thực tế của họ hoặc mức độ mà một thuộc tính là đặc trưng của một nhóm cá nhân. Thiên kiến báo cáo có thể ảnh hưởng đến thành phần của dữ liệu mà hệ thống học máy học được.

Ví dụ: trong sách, từ cười phổ biến hơn từ thở. Một mô hình học máy ước tính tần suất tương đối của tiếng cười và nhịp thở trong một tuyển tập sách có thể sẽ xác định rằng tiếng cười phổ biến hơn nhịp thở.

Hãy xem phần Tính công bằng: Các loại thành kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

S

thiên vị do không lấy mẫu

#responsible

Xem phần thiên vị do cách chọn mẫu.

thiên vị do cách chọn mẫu

#responsible

Lỗi trong kết luận rút ra từ dữ liệu lấy mẫu do quy trình chọn tạo ra sự khác biệt có hệ thống giữa các mẫu được quan sát trong dữ liệu và những mẫu không được quan sát. Các dạng thiên vị khi lựa chọn sau đây tồn tại:

  • thiên kiến về phạm vi: Tập hợp được biểu thị trong tập dữ liệu không khớp với tập hợp mà mô hình học máy đang dự đoán.
  • thiên vị lấy mẫu: Dữ liệu không được thu thập ngẫu nhiên từ nhóm mục tiêu.
  • thiên kiến không phản hồi (còn gọi là thiên kiến tham gia): Người dùng thuộc một số nhóm chọn không tham gia khảo sát với tỷ lệ khác với người dùng thuộc các nhóm khác.

Ví dụ: giả sử bạn đang tạo một mô hình học máy dự đoán mức độ thích thú của mọi người đối với một bộ phim. Để thu thập dữ liệu huấn luyện, bạn phát một bản khảo sát cho tất cả mọi người ở hàng ghế đầu của một rạp chiếu phim đang chiếu bộ phim đó. Thoạt nghe qua, đây có vẻ là một cách hợp lý để thu thập tập dữ liệu; tuy nhiên, hình thức thu thập dữ liệu này có thể gây ra các dạng thiên vị chọn mẫu sau đây:

  • thiên kiến về phạm vi: Bằng cách lấy mẫu từ một nhóm người đã chọn xem phim, các dự đoán của mô hình có thể không khái quát hoá được cho những người chưa thể hiện mức độ quan tâm đó đối với bộ phim.
  • thiên vị trong lấy mẫu: Thay vì lấy mẫu ngẫu nhiên từ nhóm dân số dự kiến (tất cả những người xem phim), bạn chỉ lấy mẫu những người ở hàng ghế đầu. Có thể những người ngồi ở hàng ghế đầu quan tâm đến bộ phim hơn những người ở các hàng ghế khác.
  • thiên kiến không phản hồi: Nhìn chung, những người có ý kiến mạnh mẽ thường phản hồi các cuộc khảo sát không bắt buộc thường xuyên hơn những người có ý kiến nhẹ nhàng. Vì khảo sát về phim là không bắt buộc, nên các câu trả lời có nhiều khả năng tạo thành một phân phối hai đỉnh hơn là một phân phối bình thường (hình chuông).

thuộc tính nhạy cảm

#responsible
Một thuộc tính của con người có thể được xem xét đặc biệt vì lý do pháp lý, đạo đức, xã hội hoặc cá nhân.

U

không nhận biết (đối với một thuộc tính nhạy cảm)

#responsible

Trường hợp có thuộc tính nhạy cảm nhưng không có trong dữ liệu huấn luyện. Vì các thuộc tính nhạy cảm thường tương quan với các thuộc tính khác trong dữ liệu của một người, nên một mô hình được huấn luyện mà không biết về một thuộc tính nhạy cảm vẫn có thể có tác động không tương xứng đối với thuộc tính đó hoặc vi phạm các ràng buộc khác về tính công bằng.