Mô-đun này cho thấy cách sử dụng hồi quy logistic cho các nhiệm vụ phân loại, đồng thời khám phá cách đánh giá hiệu quả của các mô hình phân loại.
Phân loại
Phân loại so với hồi quy
- Đôi khi, chúng tôi sử dụng mô hình hồi quy logistic cho kết quả đầu ra xác suất -- đây là một hồi quy trong (0, 1)
- Trong những trường hợp khác, chúng tôi sẽ áp dụng ngưỡng cho giá trị của phân loại nhị phân riêng biệt
- Lựa chọn ngưỡng là một lựa chọn quan trọng và có thể được điều chỉnh
Chỉ số đánh giá: Độ chính xác
- Chúng tôi đánh giá mô hình phân loại như thế nào?
Chỉ số đánh giá: Độ chính xác
- Chúng tôi đánh giá mô hình phân loại như thế nào?
- Một biện pháp có thể áp dụng: Độ chính xác
- số liệu dự đoán mà chúng tôi nhận được
Độ chính xác có thể gây hiểu lầm
- Trong nhiều trường hợp, độ chính xác là một chỉ số kém hoặc gây hiểu lầm
- Các trường hợp thường xảy ra nhất khi các loại sai sót khác nhau có chi phí khác nhau
- Trường hợp điển hình bao gồm sự mất cân bằng lớp, khi cực kỳ dương tính hoặc âm tính cực kỳ hiếm
Dương tính có thật và dương tính giả (FN)
- Đối với các vấn đề không cân bằng lớp, sẽ hữu ích để tách các loại lỗi khác nhau
Đúng là dương tính Chúng tôi đã gọi đúng là sói! Chúng tôi đã lưu thị trấn. |
Cảnh báo sai Lỗi: chúng tôi đã gọi nhầm. Mọi người đều đang giận ở chúng ta. |
Lỗi âm tính Có một con sói, nhưng chúng tôi không phát hiện thấy. Chúng tôi đã ăn hết món gà của chúng tôi. |
Nội dung phủ định thực sự Không có chó sói, không có chuông báo. Mọi người đều ổn. |
Chỉ số đánh giá: Độ chính xác và mức độ ghi nhớ
- Độ chính xác: (Tích cực thực) / (Tất cả dự đoán tích cực)
- Khi mô hình có nói lớp "tích cực", có đúng không?
- Trực quan: Mô hình có khóc "sói" quá thường xuyên không?
Chỉ số đánh giá: Độ chính xác và mức độ ghi nhớ
- Độ chính xác: (Tích cực thực) / (Tất cả dự đoán tích cực)
- Khi mô hình có nói lớp "tích cực", có đúng không?
- Trực quan: Mô hình có khóc "sói" quá thường xuyên không?
- Thu hồi: (True dương tính) / (Tất cả dương tính thực tế)
- Trong số tất cả các trường hợp dương tính có thể xảy ra, mô hình có bao nhiêu kết quả xác định chính xác?
- Trực quan: Có nhớ sói nào không?
Khi bạn hoàn tất, hãy nhấn phát ×x25b6 để tiếp tục
Hãy khám phá các lựa chọn bên dưới.
Hãy xem xét mô hình phân loại giúp phân tách email thành hai danh mục:
"spam" hoặc "không phải thư rác". Nếu bạn tăng ngưỡng phân loại, điều gì sẽ xảy ra với độ chính xác?
Tăng lên chắc chắn.
Việc tăng ngưỡng phân loại thường làm tăng độ chính xác; tuy nhiên, độ chính xác không đảm bảo sẽ tăng đơn điệu
khi chúng tôi tăng ngưỡng này.
Có lẽ sẽ tăng.
Nhìn chung, việc tăng ngưỡng phân loại sẽ làm giảm kết quả dương tính giả, do đó làm tăng độ chính xác.
Có thể sẽ giảm.
Nhìn chung, việc tăng ngưỡng phân loại sẽ làm giảm kết quả dương tính giả, do đó làm tăng độ chính xác.
Giảm hẳn.
Nhìn chung, việc tăng ngưỡng phân loại sẽ làm giảm kết quả dương tính giả, do đó làm tăng độ chính xác.
Đường cong ROC
Mỗi điểm là tỷ lệ TP và FP tại một ngưỡng quyết định.
Chỉ số đánh giá: AUC
- AUC: "Khu vực dưới đường cong ROC"
Chỉ số đánh giá: AUC
- AUC: "Khu vực dưới đường cong ROC"
- Diễn giải:
- Nếu chúng ta chọn một số dương tính ngẫu nhiên và một số âm tính ngẫu nhiên, xác suất mô hình của chúng ta xếp hạng chúng theo đúng thứ tự là bao nhiêu?
Chỉ số đánh giá: AUC
- AUC: "Khu vực dưới đường cong ROC"
- Diễn giải:
- Nếu chúng ta chọn một số dương tính ngẫu nhiên và một số âm tính ngẫu nhiên, xác suất mô hình của chúng ta xếp hạng chúng theo đúng thứ tự là bao nhiêu?
- Hướng dẫn: đưa ra số liệu tổng hợp về hiệu suất tổng hợp trên tất cả các ngưỡng phân loại có thể có
Xu hướng dự đoán
- Các dự đoán hồi quy logistic không được khách quan.
- mức dự đoán trung bình == mức trung bình quan sát
Xu hướng dự đoán
- Các dự đoán hồi quy logistic không được khách quan.
- mức dự đoán trung bình == mức trung bình quan sát
- Bias là một con chim cánh cụt.
- Thành kiến 0 không có nghĩa là mọi thứ trong hệ thống của bạn đều hoàn hảo.
- Nhưng đó là một bài kiểm tra vệ sinh tuyệt vời.
Xu hướng dự đoán (tiếp theo)
- Nếu có thành kiến, bạn sẽ gặp phải vấn đề.
- Bộ tính năng chưa hoàn chỉnh?
- Đường ống bị lỗi?
- Mẫu huấn luyện thiên lệch?
- Không sửa độ chệch với lớp hiệu chỉnh, hãy sửa độ chệch trong mô hình.
- Tìm kiếm độ chệch trong các phần dữ liệu -- phần này có thể hướng dẫn cải tiến.