Phân loại

Mô-đun này cho thấy cách sử dụng hồi quy logistic cho các nhiệm vụ phân loại, đồng thời khám phá cách đánh giá hiệu quả của các mô hình phân loại.

Phân loại

  • Đôi khi, chúng tôi sử dụng mô hình hồi quy logistic cho kết quả đầu ra xác suất -- đây là một hồi quy trong (0, 1)
  • Trong những trường hợp khác, chúng tôi sẽ áp dụng ngưỡng cho giá trị của phân loại nhị phân riêng biệt
  • Lựa chọn ngưỡng là một lựa chọn quan trọng và có thể được điều chỉnh
  • Chúng tôi đánh giá mô hình phân loại như thế nào?
  • Chúng tôi đánh giá mô hình phân loại như thế nào?
  • Một biện pháp có thể áp dụng: Độ chính xác
    • số liệu dự đoán mà chúng tôi nhận được
  • Trong nhiều trường hợp, độ chính xác là một chỉ số kém hoặc gây hiểu lầm
    • Các trường hợp thường xảy ra nhất khi các loại sai sót khác nhau có chi phí khác nhau
    • Trường hợp điển hình bao gồm sự mất cân bằng lớp, khi cực kỳ dương tính hoặc âm tính cực kỳ hiếm
  • Đối với các vấn đề không cân bằng lớp, sẽ hữu ích để tách các loại lỗi khác nhau
Đúng là dương tính
Chúng tôi đã gọi đúng là sói!
Chúng tôi đã lưu thị trấn.

Cảnh báo sai
Lỗi: chúng tôi đã gọi nhầm.
Mọi người đều đang giận ở chúng ta.

Lỗi âm tính
Có một con sói, nhưng chúng tôi không phát hiện thấy. Chúng tôi đã ăn hết món gà của chúng tôi.
Nội dung phủ định thực sự
Không có chó sói, không có chuông báo.
Mọi người đều ổn.

  • Độ chính xác: (Tích cực thực) / (Tất cả dự đoán tích cực)
    • Khi mô hình có nói lớp "tích cực", có đúng không?
    • Trực quan: Mô hình có khóc "sói" quá thường xuyên không?
  • Độ chính xác: (Tích cực thực) / (Tất cả dự đoán tích cực)
    • Khi mô hình có nói lớp "tích cực", có đúng không?
    • Trực quan: Mô hình có khóc "sói" quá thường xuyên không?
  • Thu hồi: (True dương tính) / (Tất cả dương tính thực tế)
    • Trong số tất cả các trường hợp dương tính có thể xảy ra, mô hình có bao nhiêu kết quả xác định chính xác?
    • Trực quan: Có nhớ sói nào không?

Hãy khám phá các lựa chọn bên dưới.

Hãy xem xét mô hình phân loại giúp phân tách email thành hai danh mục: "spam" hoặc "không phải thư rác". Nếu bạn tăng ngưỡng phân loại, điều gì sẽ xảy ra với độ chính xác?
Tăng lên chắc chắn.
Việc tăng ngưỡng phân loại thường làm tăng độ chính xác; tuy nhiên, độ chính xác không đảm bảo sẽ tăng đơn điệu khi chúng tôi tăng ngưỡng này.
Có lẽ sẽ tăng.
Nhìn chung, việc tăng ngưỡng phân loại sẽ làm giảm kết quả dương tính giả, do đó làm tăng độ chính xác.
Có thể sẽ giảm.
Nhìn chung, việc tăng ngưỡng phân loại sẽ làm giảm kết quả dương tính giả, do đó làm tăng độ chính xác.
Giảm hẳn.
Nhìn chung, việc tăng ngưỡng phân loại sẽ làm giảm kết quả dương tính giả, do đó làm tăng độ chính xác.

Mỗi điểm là tỷ lệ TP và FP tại một ngưỡng quyết định.

Đường cong ROC cho thấy Tỷ lệ TP so với Tỷ lệ FP ở các ngưỡng phân loại khác nhau.
  • AUC: "Khu vực dưới đường cong ROC"
  • AUC: "Khu vực dưới đường cong ROC"
  • Diễn giải:
    • Nếu chúng ta chọn một số dương tính ngẫu nhiên và một số âm tính ngẫu nhiên, xác suất mô hình của chúng ta xếp hạng chúng theo đúng thứ tự là bao nhiêu?
  • AUC: "Khu vực dưới đường cong ROC"
  • Diễn giải:
    • Nếu chúng ta chọn một số dương tính ngẫu nhiên và một số âm tính ngẫu nhiên, xác suất mô hình của chúng ta xếp hạng chúng theo đúng thứ tự là bao nhiêu?
  • Hướng dẫn: đưa ra số liệu tổng hợp về hiệu suất tổng hợp trên tất cả các ngưỡng phân loại có thể có
  • Các dự đoán hồi quy logistic không được khách quan.
    • mức dự đoán trung bình == mức trung bình quan sát
  • Các dự đoán hồi quy logistic không được khách quan.
    • mức dự đoán trung bình == mức trung bình quan sát
  • Bias là một con chim cánh cụt.
    • Thành kiến 0 không có nghĩa là mọi thứ trong hệ thống của bạn đều hoàn hảo.
    • Nhưng đó là một bài kiểm tra vệ sinh tuyệt vời.
  • Nếu có thành kiến, bạn sẽ gặp phải vấn đề.
    • Bộ tính năng chưa hoàn chỉnh?
    • Đường ống bị lỗi?
    • Mẫu huấn luyện thiên lệch?
  • Không sửa độ chệch với lớp hiệu chỉnh, hãy sửa độ chệch trong mô hình.
  • Tìm kiếm độ chệch trong các phần dữ liệu -- phần này có thể hướng dẫn cải tiến.
Biểu đồ hiệu chỉnh