Trang này chứa các thuật ngữ trong bảng thuật ngữ về Tính công bằng. Để biết tất cả các thuật ngữ trong bảng thuật ngữ, hãy nhấp vào đây.
Đáp
phân bổ
Từ đồng nghĩa với feature.
Theo tính công bằng trong công nghệ học máy, thuộc tính thường đề cập đến những đặc điểm liên quan đến cá nhân.
thiên kiến tự động
Khi người ra quyết định ưu tiên nội dung đề xuất của hệ thống ra quyết định tự động thay vì thông tin được đưa ra khi không có tính năng tự động hoá, thì ngay cả khi hệ thống ra quyết định tự động mắc lỗi.
B
thiên kiến (đạo đức/công bằng)
1. Định kiến, định kiến hoặc thiên vị đối với một số thứ, con người hoặc nhóm người hơn những thứ khác. Những thiên kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế của hệ thống và cách người dùng tương tác với hệ thống. Các dạng thiên kiến này bao gồm:
- thiên vị tự động
- thiên vị xác nhận
- thiên kiến của nhà thử nghiệm
- thiên vị ghi nhận tác giả theo nhóm
- thiên kiến ngầm
- thiên kiến trong nhóm
- thiên về tính đồng nhất ngoài nhóm
2. Lỗi hệ thống gây ra bởi quy trình lấy mẫu hoặc báo cáo. Các dạng thiên kiến này bao gồm:
- thiên vị về mức độ phù hợp
- thiên vị không phản hồi
- thiên vị tham gia
- thiên vị trong báo cáo
- độ lệch lấy mẫu
- thiên kiến lựa chọn
Đừng nhầm lẫn với thuật ngữ thiên lệch trong các mô hình học máy hoặc thiên vị dự đoán.
C
thiên kiến xác nhận
Xu hướng tìm kiếm, diễn giải, ưu tiên và nhớ lại thông tin theo cách xác nhận những niềm tin hoặc giả thuyết có sẵn của một người. Các nhà phát triển sử dụng công nghệ học máy có thể vô tình thu thập hoặc gắn nhãn dữ liệu theo cách ảnh hưởng đến kết quả hỗ trợ cho niềm tin hiện có của họ. Thành kiến xác nhận là một dạng thành kiến ngầm định.
Thành kiến của người thử nghiệm là một dạng thiên kiến xác nhận, trong đó người thử nghiệm tiếp tục huấn luyện các mô hình cho đến khi giả thuyết có sẵn được xác nhận.
tính công bằng phản thực tế
Chỉ số về tính công bằng giúp kiểm tra xem thuật toán phân loại có tạo ra cùng một kết quả cho một cá nhân giống như cho một cá nhân khác giống với cá nhân đầu tiên, ngoại trừ một hoặc nhiều thuộc tính nhạy cảm. Việc đánh giá một thuật toán phân loại về tính công bằng phản thực tế là một phương pháp để đưa ra các nguồn sai lệch tiềm ẩn trong mô hình.
Hãy xem phần "Khi các thế giới xung đột: Tích hợp các giả định khác nhau vào sự công bằng" để thảo luận chi tiết hơn về tính công bằng phản thực tế.
thiên kiến bao phủ
Xem phần thiên vị trong lựa chọn.
D
tính tương đồng về nhân khẩu học
Chỉ số về độ công bằng được đáp ứng nếu kết quả phân loại mô hình không phụ thuộc vào một thuộc tính nhạy cảm nhất định.
Ví dụ: nếu cả Hoa Kỳ
Trái ngược với tỷ lệ cân bằng và sự bình đẳng của cơ hội, cho phép việc phân loại kết quả tổng hợp phụ thuộc vào các thuộc tính nhạy cảm, nhưng không cho phép kết quả phân loại đối với một số nhãn sự thật được chỉ định cụ thể để phụ thuộc vào các thuộc tính nhạy cảm. Xem phần "Tấn công phân biệt đối xử bằng công nghệ học máy thông minh hơn" để có hình ảnh trực quan về các điểm đánh đổi khi tối ưu hoá cho tính đồng nhất về nhân khẩu học.
tác động khác nhau
Đưa ra quyết định không cân đối về những người có ảnh hưởng đến các nhóm nhỏ nhóm dân số khác nhau. Điều này thường xảy ra trong những tình huống trong đó quy trình đưa ra quyết định bằng thuật toán sẽ gây tổn hại hoặc mang lại lợi ích cho một số nhóm con nhiều hơn so với các nhóm con khác.
Ví dụ: giả sử một thuật toán xác định rằng khách hàng của Lilliputian có đủ điều kiện cho khoản vay mua nhà thu nhỏ có nhiều khả năng phân loại họ là "không đủ điều kiện" nếu địa chỉ gửi thư của họ chứa một mã bưu chính nhất định. Nếu Big-Endian Lilliputians có nhiều khả năng sử dụng các địa chỉ gửi thư có mã bưu chính này hơn Little-Endian Lilliputians, thì thuật toán này có thể tạo ra tác động khác nhau.
Trái ngược với phương thức xử lý khác biệt, tập trung vào sự khác biệt dẫn đến khi các đặc điểm của nhóm con là dữ liệu đầu vào rõ ràng cho một quá trình đưa ra quyết định bằng thuật toán.
xử lý khác nhau
Đưa thuộc tính nhạy cảm của các chủ thể vào quy trình đưa ra quyết định bằng thuật toán để các nhóm con khác nhau được xử lý theo cách khác nhau.
Ví dụ: hãy xem xét một thuật toán giúp xác định xem Liliputians có đủ điều kiện vay tiền để mua nhà quy mô nhỏ hay không dựa trên dữ liệu mà họ cung cấp trong hồ sơ vay tiền. Nếu thuật toán sử dụng mối liên kết của Lilliputian là Big-Endian hoặc Little-Endian làm dữ liệu đầu vào, thì thuật toán sẽ tạo ra hoạt động xử lý khác nhau theo chiều đó.
Trái ngược với tác động khác nhau, tập trung vào sự khác biệt về tác động xã hội do các quyết định bằng thuật toán đối với các nhóm con, bất kể các nhóm con đó có phải là dữ liệu đầu vào cho mô hình hay không.
E
sự bình đẳng về cơ hội
Chỉ số về tính công bằng dùng để đánh giá xem một mô hình có dự đoán kết quả mong muốn như nhau đối với tất cả giá trị của thuộc tính nhạy cảm hay không. Nói cách khác, nếu kết quả mong muốn cho một mô hình là lớp giá trị dương, thì mục tiêu sẽ là có tỷ lệ dương thực sự giống nhau cho tất cả các nhóm.
Bình đẳng về cơ hội liên quan đến tỷ lệ chênh lệch bằng nhau, điều này yêu cầu cả tỷ lệ dương tính thật và tỷ lệ dương tính giả ở tất cả các nhóm đều phải giống nhau.
Giả sử Đại học Glubbdubdrib cho cả hai nhà Liliputians và Brobdingnagians vào một chương trình toán học nghiêm ngặt. Các trường trung học của Lilliputians cung cấp một chương trình học mạnh mẽ gồm các lớp toán và phần lớn học sinh đều đủ điều kiện tham gia chương trình đại học. Các trường trung học cơ sở của Brobdingnagian không cung cấp lớp học toán. Vì vậy, số học sinh đủ điều kiện của họ rất ít. Mức độ bình đẳng về cơ hội sẽ được đáp ứng đối với nhãn "được chấp nhận" liên quan đến quốc tịch (Lilliputian hoặc Brobdingnagian) nếu những sinh viên đủ điều kiện có khả năng được nhận như nhau, bất kể họ là người Brazil hay người Brobdingnagian.
Ví dụ: giả sử 100 thí sinh [ nghĩa] và 100 sinh viên ở Brobdingnagian nộp đơn vào Đại học Glubbdubdrib và các quyết định tuyển sinh được đưa ra như sau:
Bảng 1. Ứng viên Lilliputian (90% đủ điều kiện)
Đủ tiêu chuẩn | Không đủ tiêu chuẩn | |
---|---|---|
Đã chấp nhận | 45 | 3 |
Bị từ chối | 45 | 7 |
Tổng | 90 | 10 |
Tỷ lệ học viên đủ điều kiện được nhận vào: 45/90 = 50% Tỷ lệ học viên không đủ điều kiện bị từ chối: 7/10 = 70% Tổng tỷ lệ học viên của Lilliputian được nhập học: (45+3)/100 = 48% |
Bảng 2. Ứng viên Brobdingnagian (10% đủ điều kiện):
Đủ tiêu chuẩn | Không đủ tiêu chuẩn | |
---|---|---|
Đã chấp nhận | 5 | 9 |
Bị từ chối | 5 | 81 |
Tổng | 10 | 90 |
Tỷ lệ sinh viên đủ điều kiện được nhận: 5/10 = 50% Tỷ lệ học viên không đủ điều kiện bị từ chối: 81/90 = 90% Tổng tỷ lệ sinh viên ở Brobdingnagian được nhận: (5+9)/100 = 14% |
Các ví dụ trên đáp ứng sự công bằng về cơ hội chấp nhận sinh viên đủ điều kiện, vì cả hai sinh viên đủ điều kiện đều có cơ hội được nhận vào cả 50%.
Mặc dù đáp ứng được sự bình đẳng về cơ hội, nhưng hai chỉ số về tính công bằng sau đây không được đáp ứng:
- tính đồng nhất về nhân khẩu học: Sinh viên Lilliputians và Brobdingnagian được nhận vào trường đại học với tỷ lệ khác nhau; 48% sinh viên Philippines được nhận, nhưng chỉ 14% sinh viên Brobdingnagian được nhận.
- tỷ lệ chênh lệch bằng nhau: Mặc dù cả sinh viên đủ điều kiện của Lilliputian và Brobdingnagian đều có cùng cơ hội được nhận vào, nhưng một hạn chế khác là cả hai sinh viên không đủ điều kiện đều có cơ hội bị từ chối đều không được thoả mãn. Những người không đủ tiêu chuẩn Lilliputian có tỷ lệ từ chối là 70%, trong khi những người ở Brobdingnagian không đủ tiêu chuẩn có tỷ lệ từ chối là 90%.
Vui lòng xem bài viết "Công bằng của cơ hội trong mô hình học tập có giám sát" để biết nội dung thảo luận chi tiết hơn về sự bình đẳng trong các cơ hội. Ngoài ra, hãy xem bài viết "Tấn công phân biệt đối xử bằng công nghệ học máy thông minh hơn" để có hình ảnh trực quan về sự đánh đổi khi tối ưu hoá nhằm đạt được sự bình đẳng về cơ hội.
tỷ lệ cược cân bằng
Chỉ số về tính công bằng để đánh giá xem một mô hình có đang dự đoán kết quả như nhau đối với tất cả các giá trị của một thuộc tính nhạy cảm trong đó sự tôn trọng của cả lớp dương và lớp phủ định (không chỉ một lớp hay các lớp khác) Nói cách khác, cả tỷ lệ dương tính thực và tỷ lệ âm tính giả phải giống nhau đối với tất cả các nhóm.
Tỷ lệ chênh lệch bằng liên quan đến bình đẳng về cơ hội, tức là chỉ tập trung vào tỷ lệ lỗi của một lớp (dương hoặc âm).
Ví dụ: giả sử Đại học Glubbdubdrib chấp nhận cả người Lilliputians và người Brebdingnagian vào một chương trình toán học nghiêm ngặt. Các trường trung học cơ sở của Lilliputians cung cấp một chương trình giảng dạy phong phú gồm các lớp toán và phần lớn học sinh đều đủ điều kiện tham gia chương trình đại học. Các trường trung học cơ sở của Brobdingnagian hoàn toàn không cung cấp các lớp học toán. Vì vậy, số học sinh của họ đủ tiêu chuẩn rất ít. Xác suất cân bằng được đáp ứng với điều kiện là bất kể người đăng ký là người thuộc Lilliputian hay người Brobdingnagian, nếu họ đủ điều kiện, thì họ đều có khả năng được nhận vào chương trình như nhau và nếu không đủ điều kiện, thì họ cũng có khả năng bị từ chối như nhau.
Giả sử 100 sinh viên Lilliputians và 100 sinh viên Brobdingnagian đăng ký vào Đại học Glubbdubdrib và quyết định tuyển sinh được đưa ra như sau:
Bảng 3. Ứng viên Lilliputian (90% đủ điều kiện)
Đủ tiêu chuẩn | Không đủ tiêu chuẩn | |
---|---|---|
Đã chấp nhận | 45 | 2 |
Bị từ chối | 45 | 8 |
Tổng | 90 | 10 |
Tỷ lệ học viên đủ điều kiện được nhận vào: 45/90 = 50% Tỷ lệ học viên không đủ điều kiện bị từ chối: 8/10 = 80% Tổng tỷ lệ học sinh của Trường được nhận: (45+2)/100 = 47% |
Bảng 4. Ứng viên Brobdingnagian (10% đủ điều kiện):
Đủ tiêu chuẩn | Không đủ tiêu chuẩn | |
---|---|---|
Đã chấp nhận | 5 | 18 |
Bị từ chối | 5 | 72 |
Tổng | 10 | 90 |
Tỷ lệ học viên đủ điều kiện được nhận: 5/10 = 50% Tỷ lệ học viên không đủ điều kiện bị từ chối: 72/90 = 80% Tổng tỷ lệ học viên ở Brobdingnagian được nhận vào: (5+18)/100 = 23% |
Tỷ lệ cược bằng nhau là thoả mãn vì cả hai học viên đủ điều kiện của Lilliputian và Brobdingnagian đều có 50% cơ hội được nhận vào, còn Lilliputian và Brobdingnagian không đủ điều kiện có 80% cơ hội bị từ chối.
Tỷ lệ cân bằng được định nghĩa chính thức trong "Tính bình đẳng của cơ hội trong hoạt động học tập có giám sát" như sau: "công cụ dự đoán nút đáp ứng tỷ lệ cân bằng đối với thuộc tính được bảo vệ A và kết quả Y nếu đàn và A là độc lập, có điều kiện đối với Y".
thiên kiến của người thử nghiệm
Xem phần thiên vị xác nhận.
F
quy tắc ràng buộc về tính công bằng
Áp dụng quy tắc ràng buộc cho một thuật toán để đảm bảo đáp ứng một hoặc nhiều định nghĩa về tính công bằng. Sau đây là ví dụ về các quy tắc ràng buộc về tính công bằng:- Xử lý hậu kỳ kết quả của mô hình.
- Thay đổi hàm tổn thất để kết hợp hình phạt do vi phạm chỉ số về sự công bằng.
- Thêm trực tiếp một quy tắc ràng buộc toán học vào một bài toán tối ưu hoá.
chỉ số về tính công bằng
Một định nghĩa toán học về "sự công bằng" có thể đo lường được. Một số chỉ số thường dùng về tính công bằng bao gồm:
Nhiều chỉ số về tính công bằng mang tính loại trừ lẫn nhau; hãy xem các chỉ số về tính công bằng không tương thích.
G
thiên kiến phân bổ nhóm
Giả sử những gì đúng đối với một cá nhân thì cũng đúng với mọi người trong nhóm đó. Nếu bạn sử dụng phương pháp lấy mẫu sự thuận tiện để thu thập dữ liệu, thì tác động của thiên kiến trong mô hình phân bổ theo nhóm có thể trở nên nghiêm trọng hơn. Trong mẫu không đại diện, các thuộc tính có thể được thực hiện không phản ánh thực tế.
Hãy xem thêm thiên về tính đồng nhất ngoài nhóm và thiên vị trong nhóm.
Số lần bị đánh trúng bóng
thiên kiến lịch sử
Một loại thành kiến đã tồn tại trên thế giới và đã xuất hiện trong tập dữ liệu. Những thiên kiến này có xu hướng phản ánh các định kiến văn hoá, bất bình đẳng nhân khẩu học và định kiến hiện có đối với một số nhóm xã hội nhất định.
Ví dụ: hãy xem xét một mô hình phân loại dự đoán liệu người đăng ký vay có bị vỡ nợ hay không. Mô hình này được huấn luyện dựa trên dữ liệu về mặc định cho vay trong quá khứ từ những năm 1980 do các ngân hàng địa phương thuộc 2 cộng đồng khác nhau cung cấp. Nếu những người đăng ký trước đây từ Cộng đồng A có khả năng không vay được nhiều hơn 6 lần so với những người đăng ký từ Cộng đồng B, thì mô hình này có thể gặp phải sai lệch trong quá khứ. Do đó, mô hình này ít có khả năng phê duyệt các khoản vay trong Cộng đồng A hơn, ngay cả khi các điều kiện trong quá khứ dẫn đến tỷ lệ mặc định cao hơn của cộng đồng đó không còn phù hợp nữa.
I
thiên kiến ngầm
Tự động tạo ra một mối liên kết hoặc giả định dựa trên mô hình tư duy và kỷ niệm của mỗi người. Thành kiến ngầm có thể ảnh hưởng đến những điều sau:
- Cách thu thập và phân loại dữ liệu.
- Cách các hệ thống học máy được thiết kế và phát triển.
Ví dụ: khi xây dựng một thuật toán phân loại để xác định ảnh cưới, một kỹ sư có thể sử dụng sự hiện diện của chiếc váy màu trắng trong ảnh làm tính năng. Tuy nhiên, váy trắng chỉ thường có trong một số thời đại và trong một số nền văn hoá nhất định.
Xem thêm bài viết thiên vị xác nhận.
không tương thích của các chỉ số về tính công bằng
Ý tưởng cho rằng một số khái niệm về sự công bằng không tương thích lẫn nhau và không thể được thoả mãn đồng thời. Do đó, không có một chỉ số chung nào có thể áp dụng cho mọi bài toán về học máy để định lượng tính công bằng.
Mặc dù điều này nghe có vẻ không khuyến khích, nhưng sự không tương thích của các chỉ số về tính công bằng không có nghĩa là các nỗ lực về sự công bằng là không có kết quả. Thay vào đó, hệ thống này đề xuất rằng tính công bằng phải được định nghĩa theo ngữ cảnh cho một vấn đề nhất định về học máy, nhằm mục tiêu ngăn chặn các thiệt hại cụ thể cho những trường hợp sử dụng của vấn đề đó.
Hãy xem bài viết "Về khả năng (không) của sự công bằng" để biết nội dung thảo luận chi tiết hơn về chủ đề này.
tính công bằng của cá nhân
Chỉ số về tính công bằng giúp kiểm tra xem các cá nhân tương tự có được phân loại theo cách tương tự nhau hay không. Ví dụ: Học viện Brobdingnagian có thể muốn đáp ứng sự công bằng cho từng cá nhân bằng cách đảm bảo rằng hai học sinh có điểm giống nhau và điểm kiểm tra chuẩn hoá có khả năng được nhập học như nhau.
Xin lưu ý rằng tính công bằng của từng cá nhân hoàn toàn phụ thuộc vào cách bạn xác định "mức độ tương đồng" (trong trường hợp này là điểm và điểm kiểm tra). Đồng thời, bạn có thể có nguy cơ đưa ra các vấn đề mới về tính công bằng nếu chỉ số tương đồng của bạn bỏ lỡ các thông tin quan trọng (chẳng hạn như tính nghiêm ngặt trong chương trình học của học viên).
Hãy xem bài viết "Sự công bằng thông qua nhận thức" để biết nội dung thảo luận chi tiết hơn về sự công bằng cá nhân.
thiên kiến cùng nhóm
Nội dung thể hiện sự không phù hợp với một nhóm người hoặc đặc điểm riêng của một người. Nếu người kiểm thử hoặc người đánh giá có bạn bè, gia đình hoặc đồng nghiệp của nhà phát triển công nghệ học máy, thì sự thiên vị trong nhóm có thể vô hiệu hoá việc kiểm thử sản phẩm hoặc tập dữ liệu.
Thiên vị trong nhóm là một dạng của xu hướng ghi nhận trong nhóm. Xem thêm về thiên vị về tính đồng nhất ngoài nhóm.
N
thiên kiến không phản hồi
Xem phần thiên vị trong lựa chọn.
O
thiên kiến đồng nhất ngoài nhóm
Xu hướng thấy các thành viên ngoài nhóm giống với các thành viên trong nhóm hơn khi so sánh thái độ, giá trị, đặc điểm tính cách và các đặc điểm khác. Trong nhóm là những người mà bạn tương tác thường xuyên; ngoài nhóm là những người mà bạn không thường xuyên tương tác. Nếu bạn tạo một tập dữ liệu bằng cách yêu cầu mọi người cung cấp các thuộc tính về ngoài nhóm, thì các thuộc tính đó có thể ít sắc thái và định kiến hơn các thuộc tính mà người tham gia liệt kê cho những người trong nhóm của họ.
Ví dụ: Lilliputians có thể mô tả rất chi tiết nhà của những người hoa khác, trích dẫn những điểm khác biệt nhỏ về phong cách kiến trúc, cửa sổ, cửa ra vào và kích thước. Tuy nhiên, cũng có thể chỉ cần tuyên bố rằng tất cả người Brazil đều sống trong những ngôi nhà giống nhau.
Thiên vị về tính đồng nhất ngoài nhóm là một dạng của xu hướng phân bổ nhóm.
Hãy xem thêm về thiên kiến trong nhóm.
Điểm
thiên kiến tham gia
Từ đồng nghĩa với thiên kiến không phản hồi. Xem phần thiên vị trong lựa chọn.
xử lý hậu kỳ
Điều chỉnh đầu ra của mô hình sau khi mô hình đã chạy. Bạn có thể sử dụng quy trình xử lý hậu kỳ để thực thi các quy tắc ràng buộc về tính công bằng mà không cần sửa đổi mô hình.
Ví dụ: Người dùng có thể áp dụng xử lý hậu kỳ cho một thuật toán phân loại nhị phân bằng cách đặt một ngưỡng phân loại sao cho duy trì sự tương đương của cơ hội cho một số thuộc tính bằng cách kiểm tra để đảm bảo rằng tỷ lệ dương tính thực đối với tất cả các giá trị của thuộc tính đó là giống nhau.
tương đương dự đoán
Chỉ số về độ công bằng giúp kiểm tra xem liệu giá trị độ chính xác có tương đương với các nhóm con đang được xem xét hay không đối với một thuật toán phân loại nhất định.
Ví dụ: một mô hình dự đoán việc chấp nhận trường đại học sẽ đáp ứng tính tương đương dự đoán về quốc tịch nếu tỷ lệ chính xác của quốc tịch đó là như nhau đối với người dân lập tức và dân tộc Brobdingnagian.
Tình trạng tương đương dự đoán đôi khi còn được gọi là tỷ lệ ngang giá dự đoán.
Xem "Giải thích về định nghĩa công bằng" (phần 3.2.1) để thảo luận chi tiết hơn về tính tương đương dự đoán.
tỷ lệ tương đương dự đoán
Một tên khác của tính năng tương đương dự đoán.
đang xử lý trước
Xử lý dữ liệu trước khi dữ liệu đó được dùng để huấn luyện mô hình. Việc xử lý trước có thể đơn giản như việc xoá các từ không có trong từ điển tiếng Anh khỏi tập hợp văn bản tiếng Anh, hoặc phức tạp như việc thể hiện lại các điểm dữ liệu theo cách loại bỏ nhiều thuộc tính có tương quan với thuộc tính nhạy cảm nhất có thể. Quá trình xử lý trước có thể đáp ứng các hạn chế về tính công bằng.proxy (thuộc tính nhạy cảm)
Một thuộc tính dùng làm giá trị thay thế cho một thuộc tính nhạy cảm. Ví dụ: mã bưu chính của một cá nhân có thể được dùng làm proxy cho thu nhập, chủng tộc hoặc sắc tộc của họ.R
thiên kiến báo cáo
Trên thực tế, tần suất mà mọi người viết về các hành động, kết quả hoặc thuộc tính không phản ánh tần suất của chúng trong thế giới thực hoặc mức độ đặc điểm của một thuộc tính của một lớp cá nhân. Thiên vị trong báo cáo có thể ảnh hưởng đến thành phần của dữ liệu mà các hệ thống học máy học được.
Ví dụ: trong các cuốn sách, từ laughed (c cười) phổ biến hơn từ reathed (hít thở). Một mô hình học máy ước tính tần suất tương đối cười và thở từ một tập sách có thể xác định rằng cười thường xuyên hơn so với thở.
S
thiên kiến lấy mẫu
Xem phần thiên vị trong lựa chọn.
thiên kiến lựa chọn
Lỗi trong kết luận rút ra từ dữ liệu được lấy mẫu do một quy trình lựa chọn tạo ra sự khác biệt có hệ thống giữa các mẫu được quan sát trong dữ liệu và những mẫu không quan sát được. Tồn tại các dạng thiên kiến lựa chọn sau đây:
- thiên về mức độ phù hợp: Tập hợp được biểu thị trong tập dữ liệu không khớp với tập hợp mà mô hình học máy đang đưa ra dự đoán.
- độ lệch lấy mẫu: Dữ liệu không được thu thập ngẫu nhiên từ nhóm mục tiêu.
- thiên vị không phản hồi (còn gọi là thiên về tham gia): Người dùng thuộc một số nhóm nhất định chọn không tham gia khảo sát theo tỷ lệ khác với tỷ lệ người dùng thuộc các nhóm khác.
Ví dụ: giả sử bạn đang tạo một mô hình học máy để dự đoán mức độ thích thú của mọi người đối với một bộ phim. Để thu thập dữ liệu huấn luyện, bạn hãy phát một bản khảo sát cho tất cả mọi người ở hàng đầu rạp chiếu phim đang chiếu phim. Nhìn chung, đây có vẻ là một cách hợp lý để thu thập tập dữ liệu. Tuy nhiên, hình thức thu thập dữ liệu này có thể dẫn đến các dạng thiên kiến lựa chọn sau đây:
- thiên kiến mức độ phù hợp: Bằng cách lấy mẫu từ một nhóm người đã chọn xem phim, dự đoán của mô hình của bạn có thể không khái quát hoá cho những người chưa thể hiện mức độ quan tâm đó đối với bộ phim.
- thiên kiến lấy mẫu: Thay vì lấy mẫu ngẫu nhiên từ nhóm người dự định (tất cả những người xem phim), bạn chỉ lấy mẫu những người ở hàng đầu tiên. Có thể những người ngồi ở hàng đầu quan tâm đến bộ phim hơn những người ở hàng khác.
- thiên kiến không phản hồi: Nhìn chung, những người có ý kiến mạnh mẽ có xu hướng trả lời các bản khảo sát không bắt buộc thường xuyên hơn so với những người có quan điểm ôn hoà. Vì bài khảo sát về phim là không bắt buộc, nên các phản hồi có nhiều khả năng tạo thành phân phối nhị thức hơn so với phân phối thông thường (hình chuông).
thuộc tính nhạy cảm
Một thuộc tính của con người có thể được xem xét đặc biệt vì lý do pháp lý, đạo đức, xã hội hoặc cá nhân.U
không nhận biết (một thuộc tính nhạy cảm)
Một tình huống trong đó thuộc tính nhạy cảm xuất hiện nhưng không có trong dữ liệu huấn luyện. Vì các thuộc tính nhạy cảm thường có mối tương quan với các thuộc tính khác trong dữ liệu của một người, nên mô hình được huấn luyện mà không nhận biết được một thuộc tính nhạy cảm vẫn có thể gây ra tác động không đồng đều đối với thuộc tính đó, hoặc vi phạm các điều kiện ràng buộc khác về tính công bằng.