Önceki bölümde, her biri tek sınıflandırma eşiği değeri. Ancak daha küçük bir modelin kalitesini tüm olası eşikler genelinde test etmek için farklı araçlara ihtiyacınız vardır.
Alıcı çalıştırma özellik eğrisi (ROC)
ROC eğrisi tüm eşiklerde model performansının görsel bir temsilidir. Adın uzun versiyonu (alıcı çalışma özelliği), bir veya daha fazla geliştirildi.
ROC eğrisi, gerçek pozitif oranı (TPR) hesaplanarak alınır. her olası eşikte (uygulamada, ardından TPR'nin FPR'ye göre grafiğini oluşturun. Mükemmel bir model, belirli bir eşikte TPR'si 1,0 ve FPR'si 0,0'dır. noktasındaki bir nokta ile (0, 1) Diğer tüm eşikler yok sayılırsa veya aşağıdakiler geçerli olur:
![Şekil 1. FPR'ye (x ekseni) kıyasla TPR (y ekseni) grafiği
arasındaki çizgiyi ifade eder: (0,1) ile (1,1) arasındaki bir çizgi.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_1-0.png?authuser=1&hl=tr)
Eğrinin altındaki alan (AUC)
ROC eğrisinin (AUC) altındaki alan modelin bu olasılıktan rastgele seçilmiş pozitif ve negatif bir örnek verilirse bu, rastgele seçilmiş olumlu daha yüksektir.
Kenar uzunluğu 1 olan bir kare içeren yukarıdaki mükemmel modelin alanını 1,0 eğrisinin (AUC) altında tutar. Bu da aynı şekilde verilme olasılığının% 100 model, rastgele seçilen pozitif bir örneği doğru bir şekilde negatif bir örnekle verilebilir. Başka bir deyişle, teknolojinin varsa, AUC modelin bir değeri doğru değere rastgele seçilmiş bir dairenin sağında, rastgele seçilmiş kareden eşik değerini belirleyebilirsiniz.
Daha somut bir şekilde ifade etmek gerekirse, AUC ile bir spam sınıflandırıcısı 1.0 seçeneğinde her zaman rastgele bir spam e-posta adresinin rastgele bir meşru e-postadan daha fazla spam olabilir. Her birinin gerçek sınıflandırması e-posta, seçtiğiniz eşiğe bağlıdır.
İkili sınıflandırıcı içinse tam olarak rastgele tahminler veya yazı turada (ROC), (0,0) ile (1,1) arasında çapraz bir çizgi olan bir ROC bulunur. AUC: 0, 5 (Rastgele pozitif ve rastgele pozitif) doğru negatif bir örnektir.
Spam sınıflandırıcı örneğinde, AUC'si 0,5 olan bir spam sınıflandırıcısı, rastgele bir spam e-postanın spam olma olasılığı rastgele meşru e-posta almayı tercih edebilirsiniz.
![Şekil 2. FPR'ye (x ekseni) kıyasla TPR (y ekseni) grafiği
rastgele 50-50 tahmincinin performansı: (0,0)'dan çapraz bir çizginin performansı
(1,1) olarak değiştirmelidir.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-5.png?authuser=1&hl=tr)
(İsteğe bağlı, gelişmiş) Hassasiyet/geri çağırma eğrisi
AUC ve ROC, veri kümesi yaklaşık olarak büyük ölçüde olduğunda modellerin karşılaştırılmasında dengeyi koruyabilir. Veri kümesi dengesiz hale geldiğinde, hassasiyet/geri çağırma ve bu eğrilerin altındaki alan, daha iyi bir karşılaştırma görselleştirmeye yardımcı olan araçlardır. Hassasiyet/geri çağırma eğrileri tüm eksenlerde y ekseninde ve x ekseninde geri çağırma hassasiyeti eşiklerini de kullanabilirsiniz.
![(0,1)'den aşağı doğru dışbükey eğriyle hassasiyet geri çağırma eğrisi örneği
- (1,0)](https://developers.google.cn/static/machine-learning/crash-course/images/prauc.png?authuser=1&hl=tr)
Model ve eşik seçimi için AUC ve ROC
AUC, iki farklı modelin performansını karşılaştırmak için yararlı bir ölçümdür. ancak bunu da yapabilirsiniz. (bkz. Hassasiyet-geri çağırma eğrisi, yukarıdaki adımları uygulayın.) Daha geniş alana sahip model o kadar iyidir.
![Şekil 3.a. AUC=0,65 olan bir modelin ROC/AUC grafiği.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-65.png?authuser=1&hl=tr)
![Şekil 3.b. AUC=0,93 olan bir modelin ROC/AUC grafiği.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-93.png?authuser=1&hl=tr)
ROC eğrisinde (0,1)'e en yakın olan noktalar, en iyi performans gösteren eşikleri de belirleyebilirsiniz. Şurada tartışıldığı gibi: Eşikler Karışıklık matrisi ve Metrik ve denge seçimi bölümlerinde, seçtiğiniz eşik, işletmeniz için en önemli metriğin hangisi olduğuna göre kullanım alanına sahip olursunuz. Aşağıdakilerde A, B ve C noktalarını göz önünde bulundurun diyagramda her biri bir eşiği temsil eder:
![Şekil 4. üzerinde üç noktayı gösteren AUC=0,84 olan bir ROC eğrisi
eğrinin sırasıyla A,B, C olarak etiketlenmiş (0, 1)'e en yakın olan dışbükey bölümü.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_abc.png?authuser=1&hl=tr)
Yanlış pozitifler (yanlış alarmlar) çok pahalıya mal olacaksa, TPR olsa bile A noktasındaki gibi daha düşük bir FPR sağlayan bir eşik seçin. azaltılır. Öte yandan, yanlış pozitifler ucuz ve yanlış negatif ise (kaçırılan gerçek pozitifler) son derece maliyetli, C noktasının kritik eşiği olan TPR'yi en üst düzeye çıkarıyorsa tercih edilebilir. Maliyetler kabaca eşdeğerse B noktası en iyi dengeyi sağlayabilir.
Daha önce gördüğümüz verilerin ROC eğrisi şu şekildedir:
Alıştırma: Öğrendiklerinizi sınayın
![(0,0)'dan başlayıp sağa doğru ilerleyen ROC eğrisi
(1,1). Eğrinin EUC'si 0,77'dir.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-77.png?authuser=1&hl=tr)
![(0,0) ile arası yaklaşık olarak düz bir çizgi olan ROC eğrisi
(1,1), birkaç zikzak var. Eğrinin AUC değeri 0,508'dir.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-508.png?authuser=1&hl=tr)
![(0,0) ile (1,1) arasında zikzaklı yukarı ve sağa doğru ROC eğrisi.
Eğrinin AUC değeri 0,623'tür.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-623.png?authuser=1&hl=tr)
![Sağa ve sonra yukarı doğru dönen ROC eğrisi
(0,0) - (1,1). Eğrinin EUC'si 0,31'dir.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-31.png?authuser=1&hl=tr)
![Sağa ve sonra yukarı doğru dönen ROC eğrisi
(0,0) - (1,1). Eğrinin EUC'si 0,32'dir.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-32.png?authuser=1&hl=tr)
![yaklaşık olarak düz bir çizgiden oluşan ROC eğrisi
(0,0) - (1,1), birkaç zikzak ile. Eğride bir
0,508 AUC.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-508.png?authuser=1&hl=tr)
![üçgenden çapraz düz bir çizgi olan ROC eğrisi
(0,0) - (1,1). Eğrinin EUC'si 0,5'tir.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-5.png?authuser=1&hl=tr)
![İki dik çizgiden oluşan ROC eğrisi: dikey bir çizgi
(0,0) - (0,1) aralığında bir çizgi ve (0,1) ile (1,1) aralığında bir yatay çizgi.
Bu eğrinin EUC'si 1,0'dır.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_1-0.png?authuser=1&hl=tr)
(İsteğe bağlı, gelişmiş) Bonus sorusu
Bir miktar spam'in doğrudan spam klasörüne iş açısından kritik bir e-posta göndermekten daha kolay olur. Başardınız olduğu durum için bir spam sınıflandırıcısı eğitti. negatif sınıfın spam olmadığını belirtir. Aşağıdakilerden hangisi tercih eder misiniz?
![AUC=0,84 düzeyinde bir ROC eğrisi
(0,1)’e yakın olan bir eğri seçin. A noktası yaklaşık olarak
(0,25, 0,75). B noktası yaklaşık olarak (0,30, 0,90) civarındadır ve
en aza indiren bir TPR'dir. Nokta
C yaklaşık olarak (0,4, 0,95) değerindedir.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_abc.png?authuser=1&hl=tr)