آستانه ها و ماتریس سردرگمی

فرض کنید شما یک مدل رگرسیون لجستیک برای شناسایی ایمیل‌های هرزنامه دارید که مقداری بین 0 و 1 را پیش‌بینی می‌کند، که نشان‌دهنده احتمال اسپم بودن یک ایمیل است. پیش‌بینی 0.50 نشان‌دهنده احتمال 50 درصدی اسپم بودن ایمیل است، پیش‌بینی 0.75 نشان‌دهنده احتمال 75 درصدی اسپم بودن ایمیل است و غیره.

می‌خواهید این مدل را در یک برنامه ایمیل برای فیلتر کردن هرزنامه‌ها در یک پوشه ایمیل جداگانه اجرا کنید. اما برای انجام این کار، باید خروجی عددی خام مدل (مثلاً 0.75 ) را به یکی از دو دسته تبدیل کنید: "هرزنامه" یا "نه هرزنامه".

برای انجام این تبدیل، یک احتمال آستانه انتخاب می‌کنید که آستانه طبقه‌بندی نامیده می‌شود. نمونه‌هایی با احتمال بالاتر از مقدار آستانه، سپس به کلاس مثبت ، کلاسی که برای آن آزمایش می‌کنید (در اینجا، spam ) اختصاص داده می‌شوند. نمونه‌هایی با احتمال کمتر به کلاس منفی ، کلاس جایگزین (در اینجا، not spam ) اختصاص داده می‌شوند.

برای جزئیات بیشتر در مورد آستانه طبقه بندی اینجا را کلیک کنید

ممکن است از خود بپرسید: اگر امتیاز پیش‌بینی‌شده با آستانه طبقه‌بندی برابر باشد، چه اتفاقی می‌افتد (به عنوان مثال، نمره 0.5 که در آن آستانه طبقه‌بندی نیز 0.5 باشد)؟ رسیدگی به این مورد بستگی به پیاده سازی خاصی دارد که برای مدل طبقه بندی انتخاب شده است. اگر امتیاز و آستانه برابر باشد، کتابخانه Keras کلاس منفی را پیش‌بینی می‌کند، اما ابزارها/چارچوب‌های دیگر ممکن است به طور متفاوتی با این مورد برخورد کنند.

فرض کنید مدل یک ایمیل را 0.99 امتیاز می دهد و پیش بینی می کند که ایمیل 99٪ شانس اسپم شدن دارد و ایمیل دیگری 0.51 است و پیش بینی می کند که احتمال اسپم بودن آن 51٪ است. اگر آستانه طبقه بندی را روی 0.5 تنظیم کنید، مدل هر دو ایمیل را به عنوان هرزنامه طبقه بندی می کند. اگر آستانه را روی 0.95 تنظیم کنید، فقط ایمیلی که امتیاز 0.99 را دارد به عنوان هرزنامه طبقه بندی می شود.

در حالی که 0.5 ممکن است یک آستانه بصری به نظر برسد، اگر هزینه یک نوع طبقه بندی اشتباه بیشتر از دیگری باشد، یا اگر کلاس ها نامتعادل باشند، ایده خوبی نیست. اگر فقط 0.01 درصد ایمیل‌ها هرزنامه هستند، یا اگر ارسال نادرست ایمیل‌های قانونی بدتر از ورود هرزنامه به صندوق ورودی است، برچسب زدن هر چیزی که مدل حداقل 50 درصد آن را به‌عنوان هرزنامه می‌داند، نتایج نامطلوبی ایجاد می‌کند.

ماتریس سردرگمی

امتیاز احتمال واقعیت یا حقیقت پایه نیست. چهار نتیجه ممکن برای هر خروجی از یک طبقه بندی کننده باینری وجود دارد. برای مثال طبقه‌بندی کننده هرزنامه، اگر حقیقت پایه را به صورت ستونی و پیش‌بینی مدل را به صورت ردیفی قرار دهید، جدول زیر که ماتریس سردرگمی نامیده می‌شود، نتیجه می‌شود:

مثبت واقعی منفی واقعی
مثبت پیش بینی کرد مثبت واقعی (TP) : یک ایمیل هرزنامه که به درستی به عنوان ایمیل هرزنامه طبقه بندی شده است. اینها پیام های اسپم هستند که به طور خودکار به پوشه اسپم ارسال می شوند. مثبت کاذب (FP) : یک ایمیل بدون هرزنامه که به اشتباه به عنوان هرزنامه طبقه بندی شده است. اینها ایمیل های قانونی هستند که در پوشه اسپم جمع می شوند.
منفی پیش بینی کرد منفی کاذب (FN) : یک ایمیل هرزنامه که به اشتباه به عنوان غیر هرزنامه طبقه بندی شده است. اینها ایمیل‌های هرزنامه‌ای هستند که توسط فیلتر هرزنامه دستگیر نمی‌شوند و به صندوق ورودی راه پیدا می‌کنند. منفی واقعی (TN) : یک ایمیل بدون هرزنامه که به درستی به عنوان غیر هرزنامه طبقه بندی شده است. اینها ایمیل های قانونی هستند که مستقیماً به صندوق ورودی ارسال می شوند.

توجه داشته باشید که مجموع در هر ردیف، بدون در نظر گرفتن اعتبار، تمام مثبت های پیش بینی شده (TP + FP) و همه منفی های پیش بینی شده (FN + TN) را نشان می دهد. در عین حال، مجموع در هر ستون، تمام مثبت های واقعی (TP + FN) و همه منفی های واقعی (FP + TN) را بدون توجه به طبقه بندی مدل نشان می دهد.

وقتی مجموع موارد مثبت واقعی به مجموع موارد منفی واقعی نزدیک نباشد، مجموعه داده نامتعادل می شود. نمونه‌ای از مجموعه داده نامتعادل ممکن است مجموعه‌ای از هزاران عکس از ابرها باشد، که در آن نوع ابر نادری که به آن علاقه دارید، مثلاً ابرهای ولوتوس، فقط چند بار ظاهر می‌شود.

تأثیر آستانه بر مثبت و منفی درست و غلط

آستانه های مختلف معمولاً به تعداد متفاوتی از موارد مثبت درست و غلط و منفی درست و غلط منجر می شود. ویدئوی زیر دلیل این موضوع را توضیح می دهد.

سعی کنید خود آستانه را تغییر دهید.

این ویجت شامل سه مجموعه داده اسباب بازی است:

  • جدا شده ، که در آن مثال‌های مثبت و مثال‌های منفی عموماً به خوبی متمایز می‌شوند، و بیشتر نمونه‌های مثبت امتیاز بیشتری نسبت به نمونه‌های منفی دارند.
  • جدا نشده ، که در آن بسیاری از مثال‌های مثبت نمرات کمتری نسبت به نمونه‌های منفی دارند و بسیاری از مثال‌های منفی نمرات بالاتری نسبت به نمونه‌های مثبت دارند.
  • نامتعادل ، فقط شامل چند نمونه از کلاس مثبت است.

درک خود را بررسی کنید

1. یک مدل طبقه بندی فیشینگ یا بدافزار را تصور کنید که در آن وب سایت های فیشینگ و بدافزار در کلاس با برچسب 1 (درست) و وب سایت های بی ضرر در کلاس با برچسب 0 (نادرست) قرار دارند. این مدل به اشتباه یک وب سایت قانونی را به عنوان بدافزار طبقه بندی می کند. اسم این چیه؟
مثبت کاذب
یک مثال منفی (سایت قانونی) به اشتباه به عنوان نمونه مثبت (سایت بدافزار) طبقه بندی شده است.
یک مثبت واقعی
یک نکته مثبت واقعی یک سایت بدافزار است که به درستی به عنوان بدافزار طبقه بندی شده است.
منفی کاذب
منفی کاذب یک سایت بدافزار است که به اشتباه به عنوان یک سایت قانونی طبقه بندی شده است.
یک منفی واقعی
یک منفی واقعی یک سایت قانونی است که به درستی به عنوان یک سایت قانونی طبقه بندی شده است.
2. به طور کلی با افزایش آستانه طبقه بندی، تعداد موارد مثبت کاذب چه اتفاقی می افتد؟ در مورد نکات مثبت واقعی چطور؟ با نوار لغزنده بالا آزمایش کنید.
مثبت و نادرست هر دو کاهش می یابد.
با افزایش آستانه، مدل احتمالاً در مجموع موارد مثبت کمتری را پیش‌بینی می‌کند، هم درست و هم نادرست. یک طبقه‌بندی کننده هرزنامه با آستانه 0.9999 تنها در صورتی یک ایمیل را به عنوان هرزنامه برچسب‌گذاری می‌کند که طبقه‌بندی را حداقل 99.99٪ محتمل بداند، که به این معنی است که بعید است یک ایمیل قانونی را اشتباه برچسب گذاری کند، اما احتمال دارد ایمیل واقعی هرزنامه را نیز از دست بدهد.
هر دو مثبت واقعی و نادرست افزایش می یابد.
با استفاده از نوار لغزنده بالا، آستانه را روی 0.1 تنظیم کنید، سپس آن را روی 0.9 بکشید. تعداد مثبت کاذب و مثبت واقعی چه می شود؟
نکات مثبت واقعی افزایش می یابد. مثبت کاذب کاهش می یابد.
با استفاده از نوار لغزنده بالا، آستانه را روی 0.1 تنظیم کنید، سپس آن را روی 0.9 بکشید. تعداد مثبت کاذب و مثبت واقعی چه می شود؟
3. به طور کلی با افزایش آستانه طبقه بندی، تعداد منفی های کاذب چه اتفاقی می افتد؟ در مورد منفی های واقعی چطور؟ با نوار لغزنده بالا آزمایش کنید.
هر دو منفی درست و نادرست افزایش می یابد.
با افزایش آستانه، مدل احتمالاً به طور کلی موارد منفی بیشتری را پیش‌بینی می‌کند، هم درست و هم نادرست. در آستانه بسیار بالا، تقریباً همه ایمیل‌ها، اعم از هرزنامه و غیرهرزنامه، به عنوان غیر هرزنامه طبقه‌بندی می‌شوند.
منفی درست و نادرست هر دو کاهش می یابد.
با استفاده از نوار لغزنده بالا، آستانه را روی 0.1 تنظیم کنید، سپس آن را روی 0.9 بکشید. تعداد منفی های کاذب و منفی های درست چه می شود؟
منفی های واقعی افزایش می یابد. منفی های کاذب کاهش می یابد.
با استفاده از نوار لغزنده بالا، آستانه را روی 0.1 تنظیم کنید، سپس آن را روی 0.9 بکشید. تعداد منفی های کاذب و منفی های درست چه می شود؟