Makine Öğrenimi Terimleri Sözlüğü: Metrikler

Bu sayfada, Metrikler sözlüğündeki terimler yer almaktadır. Tüm terimler için burayı tıklayın.

#fundamentals
#Metric

Doğru sınıflandırma tahminlerinin toplam tahmin sayısına bölünmesiyle elde edilen değer. Yani:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

Örneğin, 40 doğru ve 10 yanlış tahminde bulunan bir modelin doğruluk oranı şöyle olur:

Accuracy=4040 + 10=80%

İkili sınıflandırma, doğru tahminler ve yanlış tahminler kategorileri için belirli adlar sağlar. Dolayısıyla, ikili sınıflandırma için doğruluk formülü aşağıdaki gibidir:

Accuracy=TP+TNTP+TN+FP+FN

Bu örnekte:

Doğruluğu hassasiyet ve geri çağırma ile karşılaştırın.

Doğruluk bazı durumlarda değerli bir metrik olsa da bazı durumlarda son derece yanıltıcıdır. Doğruluk, genellikle sınıf dengesi bozuk veri kümelerini işleyen sınıflandırma modellerini değerlendirmek için iyi bir metrik değildir.

Örneğin, belirli bir subtropikal şehirde yüzyılda yalnızca 25 gün kar yağdığını varsayalım. Kar yağmayan günlerin (negatif sınıf) kar yağdığı günlere (pozitif sınıf) kıyasla çok daha fazla olması nedeniyle bu şehrin kar veri kümesi sınıf dengesi açısından dengesizdir. Her gün kar yağacağını veya yağmayacağını tahmin etmesi gereken ancak her gün "kar yağmayacak" tahmininde bulunan bir ikili sınıflandırma modeli düşünün. Bu model oldukça doğrudur ancak tahmin gücü yoktur. Aşağıdaki tabloda, yüzyıllık tahminlerin sonuçları özetlenmiştir:

Kategori Sayı
TP 0
TN 36499
FP 0
FN 25

Bu nedenle, bu modelin doğruluğu şu şekildedir:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

%99, 93 doğruluk oranı etkileyici bir yüzde gibi görünse de modelin tahmin gücü yoktur.

Sınıf dengesi bozuk veri kümelerinde eğitilen modelleri değerlendirmek için genellikle kesinlik ve geri çağırma, doğruluk metriğinden daha kullanışlıdır.


Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler bölümüne bakın.

PR eğrisinin altındaki alan

#Metric

PR AUC (PR Eğrisinin altındaki alan) başlıklı makaleyi inceleyin.

ROC eğrisinin altındaki alan

#Metric

AUC (ROC eğrisinin altındaki alan) konusuna bakın.

AUC (ROC eğrisinin altındaki alan)

#fundamentals
#Metric

İkili sınıflandırma modelinin pozitif sınıfları negatif sınıflardan ayırma yeteneğini gösteren 0,0 ile 1,0 arasında bir sayı. AUC ne kadar 1, 0'a yakınsa modelin sınıfları birbirinden ayırma yeteneği o kadar iyidir.

Örneğin, aşağıdaki görselde pozitif sınıfları (yeşil ovaller) negatif sınıflardan (mor dikdörtgenler) mükemmel şekilde ayıran bir sınıflandırıcı modeli gösterilmektedir. Gerçekçi olmayan bu mükemmel modelin AUC değeri 1,0'dur:

Bir tarafında 8 olumlu örnek, diğer tarafında 9 olumsuz örnek bulunan bir sayı çizgisi.

Buna karşılık, aşağıdaki görselde rastgele sonuçlar oluşturan bir sınıflandırıcı modelinin sonuçları gösterilmektedir. Bu modelin AUC değeri 0,5'tir:

6 pozitif ve 6 negatif örnek içeren bir sayı çizgisi.
          Örneklerin sırası şu şekildedir: olumlu, olumsuz, olumlu, olumsuz, olumlu, olumsuz, olumlu, olumsuz, olumlu, olumsuz, olumlu, olumsuz.

Evet, önceki modelin AUC değeri 0,0 değil 0,5'tir.

Çoğu model bu iki uç nokta arasındadır. Örneğin, aşağıdaki model pozitifleri negatiflerden bir derece ayırdığından AUC değeri 0,5 ile 1,0 arasındadır:

6 pozitif ve 6 negatif örnek içeren bir sayı çizgisi.
          Örneklerin sırası şu şekildedir: negatif, negatif, negatif, negatif, olumlu, negatif, olumlu, olumlu, negatif, olumlu, olumlu, olumlu.

AUC, sınıflandırma eşiği için ayarladığınız tüm değerleri yoksayar. Bunun yerine AUC, olası sınıflandırma eşiklerinin tümünü dikkate alır.

AUC, ROC eğrisinin altındaki alanı temsil eder. Örneğin, pozitifleri negatiflerden mükemmel şekilde ayıran bir modelin ROC eğrisi aşağıdaki gibi görünür:

Kartezyen çizim. x ekseni yanlış pozitif oranı, y ekseni ise gerçek pozitif orandır. Grafik 0,0'da başlar ve 0,1'e doğru düz bir çizgiyle, ardından 1,1'de bitecek şekilde sağa doğru düz bir çizgiyle devam eder.

AUC, önceki görselde gösterilen gri bölgenin alanıdır. Bu sıra dışı durumda alan, gri bölgenin uzunluğunun (1,0) gri bölgenin genişliğiyle (1,0) çarpımıdır. Dolayısıyla, 1,0 ve 1,0'un çarpımı tam olarak 1,0 AUC verir. Bu, mümkün olan en yüksek AUC puanıdır.

Buna karşılık, sınıfları hiç ayıramayan bir sınıflandırıcının ROC eğrisi aşağıdaki gibidir. Bu gri bölgenin alanı 0,5'tir.

Kartezyen çizim. x ekseni yanlış pozitif oranı, y ekseni ise gerçek pozitif orandır. Grafik 0,0'da başlar ve çapraz olarak 1,1'e gider.

Daha tipik bir ROC eğrisi yaklaşık olarak aşağıdaki gibi görünür:

Kartezyen çizim. x ekseni yanlış pozitif oranı, y ekseni ise gerçek pozitif orandır. Grafik 0,0'da başlar ve 1,0'a kadar düzensiz bir yay çizer.

Bu eğrin altındaki alanı manuel olarak hesaplamak zahmetli bir iş olduğundan, AUC değerleri genellikle bir program tarafından hesaplanır.


AUC, bir sınıflandırıcının rastgele seçilen olumlu bir örneğin aslında olumlu olduğundan, rastgele seçilen olumsuz bir örneğin olumlu olduğundan daha emin olma olasılığıdır.


Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Sınıflandırma: ROC ve AUC bölümüne bakın.

k değerinde ortalama hassasiyet

#language
#Metric

Bir modelin, sıralanmış sonuçlar (ör. kitap önerilerinin numaralandırılmış listesi) oluşturan tek bir istemdeki performansını özetleyen metrik. k değerinde ortalama hassasiyet, her ilgili sonuç için k değerinde hassasiyet değerlerinin ortalamasıdır. Bu nedenle, k için ortalama hassasiyet formülü şu şekildedir:

average precision at k=1nni=1precision at k for each relevant item

Bu örnekte:

  • n , listedeki alakalı öğelerin sayısıdır.

k'de hatırla ile karşılaştırın.

Bir büyük dil modeline aşağıdaki sorgunun verildiğini varsayalım:

List the 6 funniest movies of all time in order.

Büyük dil modeli ise aşağıdaki listeyi döndürür:

  1. The General
  2. Kötü
  3. Platoon
  4. Nedime
  5. Citizen Kane
  6. This is Spinal Tap
Döndürülen listedeki dört film çok komik (yani alakalı) ancak iki film dram (alakalı değil). Aşağıdaki tabloda sonuçlar ayrıntılı olarak açıklanmıştır:
Konum Film Alakalı mı? k değerinde hassasiyet
1 The General Evet 1,0
2 Kötü Evet 1,0
3 Platoon Hayır alakalı değil
4 Nedime Evet 0,75
5 Citizen Kane Hayır alakalı değil
6 This is Spinal Tap Evet 0,67

Alakalı sonuç sayısı 4'tür. Bu nedenle, 6'da ortalama hassasiyeti aşağıdaki gibi hesaplayabilirsiniz:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67) average precision at 6=~0.85

B

referans değer

#Metric

Başka bir modelin (genellikle daha karmaşık bir model) ne kadar iyi performans gösterdiğini karşılaştırmak için referans noktası olarak kullanılan bir model. Örneğin, mantıksal regresyon modeli, derin model için iyi bir referans değer olabilir.

Belirli bir sorun için referans değer, model geliştiricilerin yeni modelin yararlı olması için yeni modelin elde etmesi gereken minimum beklenen performansı ölçmesine yardımcı olur.

C

maliyet

#Metric

Kayıp ile eş anlamlıdır.

karşıt gerçeklik adaleti

#fairness
#Metric

Bir sınıflandırıcının, bir veya daha fazla hassas özellik dışında, bir kişi için ilk kişiyle aynı olan başka bir kişi için aynı sonucu verip vermediğini kontrol eden bir adaletlilik metriği. Bir sınıflandırıcıyı karşıt gerçeklik adaleti açısından değerlendirmek, bir modeldeki olası önyargı kaynaklarını ortaya çıkarmanın yöntemlerinden biridir.

Daha fazla bilgi için aşağıdakilerden birini inceleyin:

çapraz entropi

#Metric

Log kaybının çok sınıflı sınıflandırma sorunları için genelleştirilmiş hali. Çapraz entropi, iki olasılık dağılımı arasındaki farkı ölçer. Ayrıca şaşkınlık konusuna da bakın.

Kümülatif dağılım işlevi (KDF)

#Metric

Hedef değere eşit veya hedef değerden küçük örneklerin sıklığını tanımlayan bir işlev. Örneğin, sürekli değerlerin normal dağılımını düşünün. CDF, örneklerin yaklaşık% 50'sinin ortalamanın altında veya ortalamaya eşit, örneklerin yaklaşık% 84'ünün ise ortalamanın bir standart sapma üzerinde veya ortalamaya eşit olması gerektiğini gösterir.

D

demografik eşitlik

#fairness
#Metric

Bir modelin sınıflandırmasının sonuçları belirli bir hassas özelliğe bağlı değilse karşılanan bir adaletlilik metriği.

Örneğin, hem Lilliputlular hem de Brobdingnaglılar Glubbdubdrib Üniversitesi'ne başvurursa, bir grubun diğerinden ortalama olarak daha nitelikli olup olmadığına bakılmaksızın, kabul edilen Lilliputlular yüzdesi ile kabul edilen Brobdingnaglılar yüzdesi aynı olduğunda demografik eşitlik sağlanır.

Eşit olasılıklar ve fırsat eşitliği ile karşılaştırıldığında, toplu sınıflandırma sonuçlarının hassas özelliklere bağlı olmasına izin verir ancak belirli belirtilen gerçek doğruluk etiketlerinin sınıflandırma sonuçlarının hassas özelliklere bağlı olmasına izin vermez. Demografik eşitlik için optimizasyon yaparken yapılan trade-off'ları gösteren bir görselleştirme için "Daha akıllı makine öğrenimiyle ayrımcılığa karşı mücadele etme" başlıklı makaleyi inceleyin.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Adil olma: demografik eşitlik bölümüne bakın.

E

toprak işleyicinin mesafesi (EMD)

#Metric

İki dağılımın göreli benzerliğinin ölçümüdür. Toprağı hareket ettiren aracın mesafesi ne kadar düşükse dağılımlar o kadar benzer olur.

mesafeyi düzenleme

#language
#Metric

İki metin dizesinin birbirine ne kadar benzediğinin ölçümü. Makine öğrenimindeki düzenleme mesafesi şu nedenlerle yararlıdır:

  • Düzenleme mesafesinin hesaplanması kolaydır.
  • Düzenleme mesafesi, birbirine benzer olduğu bilinen iki dizeyi karşılaştırabilir.
  • Düzenleme mesafesi, farklı dizelerin belirli bir dizeye ne kadar benzediğini belirleyebilir.

Düzenleme mesafesinin her biri farklı dize işlemleri kullanan birkaç tanımı vardır. Örnek için Levenshtein mesafesi başlıklı makaleyi inceleyin.

deneysel kümülatif dağılım işlevi (eCDF veya EDF)

#Metric

Gerçek bir veri kümesinden alınan deneysel ölçümlere dayalı bir kümülatif dağılım fonksiyonu. x eksenindeki herhangi bir noktada işlevin değeri, veri kümesindeki gözlemlerin belirtilen değerden az veya eşit olan kesridir.

entropi

#df
#Metric

Bilgi teorisinde, olasılık dağılımının ne kadar tahmin edilemez olduğunun açıklaması. Alternatif olarak entropi, her örnek'in ne kadar bilgi içerdiği olarak da tanımlanır. Bir rastgele değişkenin tüm değerlerinin olasılığı eşit olduğunda dağılım mümkün olan en yüksek entropi değerine sahiptir.

"0" ve "1" olmak üzere iki olası değere sahip bir kümenin entropisi (örneğin, ikili sınıflandırma problemindeki etiketler) aşağıdaki formüle sahiptir:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Bu örnekte:

  • H entropidir.
  • p, "1" örneklerinin kesridir.
  • q, "0" örneklerinin kesridir. q = (1 - p) olduğunu unutmayın.
  • log genellikle log2'dir. Bu durumda entropi birimi bittir.

Örneğin, aşağıdakileri varsayalım:

  • 100 örnek "1" değerini içerir
  • 300 örnek "0" değerini içeriyor

Bu nedenle, entropi değeri:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = örnek başına 0,81 bit

Mükemmel şekilde dengelenmiş bir kümenin (örneğin, 200 "0" ve 200 "1") örnek başına entropisi 1,0 bit olur. Bir küme daha dengeli hale geldikçe entropisi 0, 0'a doğru hareket eder.

Karar ağaçlarında entropi, sınıflandırma karar ağacının büyümesi sırasında ayırıcı'nın koşulları seçmesine yardımcı olmak için bilgi kazancını formüle etmeye yardımcı olur.

Entropiyi şu verilerle karşılaştırın:

Entropi genellikle Shannon entropisi olarak adlandırılır.

Daha fazla bilgi için Karar Ağaçları kursunda Sayısal özelliklere sahip ikili sınıflandırma için tam bölücü bölümüne bakın.

fırsat eşitliği

#fairness
#Metric

Bir modelin, hassas bir özelliğin tüm değerleri için istenen sonucu eşit derecede iyi tahmin edip etmediğini değerlendirmek üzere kullanılan bir adaletlilik metriği. Diğer bir deyişle, bir model için istenen sonuç pozitif sınıf ise hedef, gerçek pozitif oranının tüm gruplar için aynı olmasını sağlamaktır.

Fırsat eşitliği, eşitleştirilmiş olasılıklar ile ilgilidir. Bu, hem gerçek pozitif oranlarının hem de yanlış pozitif oranlarının tüm gruplar için aynı olmasını gerektirir.

Glubbdubdrib Üniversitesi'nin hem Lilliputluları hem de Brobdingnaglıları titiz bir matematik programına kabul ettiğini varsayalım. Lilliput'un ortaokullarında zengin bir matematik müfredatı sunulur ve öğrencilerin büyük çoğunluğu üniversite programına uygundur. Brobdingnag'ın ortaokullarında matematik dersleri hiç verilmez. Bu nedenle, öğrencilerinin çok azı bu programa uygundur. Uygun öğrencilerin Lilliputian veya Brobdingnagian olmalarından bağımsız olarak kabul edilme olasılıkları eşitse, vatandaşlığa göre tercih edilen "kabul edildi" etiketi için fırsat eşitliği sağlanır.

Örneğin, Glubbdubdrib Üniversitesi'ne 100 Lilliput ve 100 Brobdingnag öğrenci başvurduğunu ve kabul kararlarının aşağıdaki gibi verildiğini varsayalım:

Tablo 1. Lilliputian başvuru sahipleri (%90'ı uygundur)

  Uygun Uygun Değil
Kabul edildi 45 3
Reddedildi 45 7
Toplam 90 10
Kabul edilen uygun öğrencilerin yüzdesi: 45/90 =%50
Kabul edilmeyen uygun olmayan öğrencilerin yüzdesi: 7/10 =%70
Kabul edilen Lilliputian öğrencilerin toplam yüzdesi: (45+3)/100 = %48

 

Tablo 2. Dev başvuru sahipleri (%10'u uygundur):

  Uygun Uygun Değil
Kabul edildi 5 9
Reddedildi 5 81
Toplam 10 90
Kabul edilen uygun öğrencilerin yüzdesi: 5/10 =%50
Kabul edilmeyen uygun olmayan öğrencilerin yüzdesi: 81/90 =%90
Kabul edilen Brobdingnagian öğrencilerin toplam yüzdesi: (5+9)/100 = %14

Yukarıdaki örneklerde, uygun Lilliput ve Brobdingnag vatandaşlarının kabul edilme şansı% 50 olduğundan uygun öğrencilerin kabulü için fırsat eşitliği sağlanmaktadır.

Fırsat eşitliği sağlanmış olsa da aşağıdaki iki adalet metriği sağlanmamıştır:

  • Demografik eşitlik: Lilliput ve Brobdingnag sakinleri üniversiteye farklı oranlarda kabul edilir. Lilliput sakinlerinin% 48'i, Brobdingnag sakinlerinin ise yalnızca% 14'ü kabul edilir.
  • Eşit olasılıklar: Uygun Lilliput ve Brobdingnag öğrencilerinin kabul edilme şansı aynı olsa da, uygun olmayan Lilliput ve Brobdingnag öğrencilerinin reddedilme şansının da aynı olması koşulu karşılanmaz. Uygun olmayan Lilliputian'ların ret oranı% 70 iken uygun olmayan Brobdingnag'ların ret oranı% 90'tır.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Adil olma: Fırsat eşitliği bölümüne bakın.

eşitlenmiş oranlar

#fairness
#Metric

Bir modelin, yalnızca bir sınıfa değil, hem pozitif sınıf hem de negatif sınıf ile ilgili olarak hassas bir özelliğin tüm değerleri için sonuçları eşit derecede iyi tahmin edip etmediğini değerlendirmek üzere kullanılan adalet metriği. Diğer bir deyişle, hem doğru pozitif oranı hem de yanlış negatif oranı tüm gruplar için aynı olmalıdır.

Eşitlenmiş oranlar, yalnızca tek bir sınıfın (pozitif veya negatif) hata oranlarına odaklanan fırsat eşitliği ile ilgilidir.

Örneğin, Glubbdubdrib Üniversitesi'nin hem Lilliputluları hem de Brobdingnaglıları sıkı bir matematik programına kabul ettiğini varsayalım. Lilliputians'ın ortaokullarında zengin bir matematik müfredatı sunulur ve öğrencilerin büyük çoğunluğu üniversite programına uygundur. Brobdingnag'ın ortaokullarında hiç matematik dersi verilmez. Bu nedenle, öğrencilerinin çok azı bu programa uygundur. Eşitlenmiş olasılıklar, başvuru sahibinin Lilliputian veya Brobdingnagian olması fark etmeksizin, uygun olan adayların programa kabul edilme olasılığının eşit olması ve uygun olmayan adayların reddedilme olasılığının eşit olması koşuluyla sağlanır.

Glubbdubdrib Üniversitesi'ne 100 Lilliput ve 100 Brobdingnag öğrenci başvurduğunu ve kabul kararlarının aşağıdaki şekilde alındığını varsayalım:

Tablo 3. Lilliputian başvuru sahipleri (%90'ı uygundur)

  Uygun Uygun Değil
Kabul edildi 45 2
Reddedildi 45 8
Toplam 90 10
Kabul edilen uygun öğrencilerin yüzdesi: 45/90 =%50
Kabul edilmeyen uygunsuz öğrencilerin yüzdesi: 8/10 =%80
Kabul edilen Lilliputian öğrencilerin toplam yüzdesi: (45+2)/100 = %47

 

Tablo 4. Dev başvuru sahipleri (%10'u uygundur):

  Uygun Uygun Değil
Kabul edildi 5 18
Reddedildi 5 72
Toplam 10 90
Kabul edilen uygun öğrencilerin yüzdesi: 5/10 =%50
Kabul edilmeyen uygun olmayan öğrencilerin yüzdesi: 72/90 =%80
Kabul edilen Brobdingnagian öğrencilerin toplam yüzdesi: (5+18)/100 = %23

Uygun Lilliput ve Brobdingnag öğrencilerinin kabul edilme şansı% 50, uygun olmayan Lilliput ve Brobdingnag öğrencilerinin reddedilme şansı ise% 80 olduğundan eşitlenmiş olasılıklar sağlanır.

Eşitlenmiş olasılıklar, "Gözetimli Öğrenmede Fırsat Eşitliği" başlıklı makalede şu şekilde tanımlanmıştır: "Ŷ ve A bağımsızsa, Y koşuluyla Ŷ öngörücüsü, korunan özellik A ve sonuç Y ile ilgili eşitlenmiş olasılıkları karşılar."

evals

#language
#generativeAI
#Metric

Öncelikle LLM değerlendirmeleri için kısaltma olarak kullanılır. Daha geniş bir açıdan bakıldığında evals, değerlendirme biçimlerinin kısaltmasıdır.

değerlendirme

#language
#generativeAI
#Metric

Bir modelin kalitesini ölçme veya farklı modelleri birbiriyle karşılaştırma işlemi.

Bir gözetimli makine öğrenimi modelini değerlendirmek için genellikle doğrulama kümesi ve test kümesi ile karşılaştırırsınız. LLM'yi değerlendirme genellikle daha kapsamlı kalite ve güvenlik değerlendirmelerini içerir.

C

F1

#Metric

Hem hassasiyet hem de geri çağırma metriklerini temel alan bir "toplama" ikili sınıflandırma metriği. Formül şu şekildedir:

F1=2 * precision * recallprecision + recall

Hassasiyet ve geri çağırma değerlerinin aşağıdaki gibi olduğunu varsayalım:

  • precision = 0,6
  • recall = 0,4

F1 değerini aşağıdaki gibi hesaplarsınız:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

Hassasiyet ve geri çağırma oldukça benzer olduğunda (önceki örnekte olduğu gibi), F1, bunların ortalamasına yakındır. Kesinlik ve hatırlama önemli ölçüde farklı olduğunda F1, daha düşük değere daha yakındır. Örneğin:

  • precision = 0,9
  • recall = 0,1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

adalet metriği

#fairness
#Metric

"Adalet"in ölçülebilir olan matematiksel bir tanımı. Yaygın olarak kullanılan adalet metriklerinden bazıları şunlardır:

Birçok adalet metriği birbirini dışlar. Adalet metriklerinin uyumsuzluğu başlıklı makaleyi inceleyin.

yanlış negatif (FN)

#fundamentals
#Metric

Modelin yanlışlıkla negatif sınıfı tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta mesajının spam olmadığını (negatif sınıf) tahmin ediyor ancak söz konusu e-posta mesajı aslında spam.

yanlış negatif oranı

#Metric

Modelin yanlışlıkla negatif sınıfı tahmin ettiği gerçek pozitif örneklerin oranı. Aşağıdaki formül, yanlış negatif oranı hesaplar:

false negative rate=false negativesfalse negatives+true positives

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Eşikler ve karışıklık matrisi bölümüne bakın.

yanlış pozitif (FP)

#fundamentals
#Metric

Modelin yanlışlıkla pozitif sınıfı tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta mesajının spam (pozitif sınıf) olduğunu tahmin eder ancak söz konusu e-posta mesajı aslında spam değildir.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Eşikler ve karışıklık matrisi bölümüne bakın.

yanlış pozitif oranı (FPR)

#fundamentals
#Metric

Modelin yanlışlıkla pozitif sınıfı tahmin ettiği gerçek negatif örneklerin oranı. Aşağıdaki formül, yanlış pozitif oranını hesaplar:

false positive rate=false positivesfalse positives+true negatives

Yanlış pozitif oranı, ROC eğrisinde x eksenidir.

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Sınıflandırma: ROC ve AUC bölümüne bakın.

özellik önem düzeyleri

#df
#Metric

Değişken önemleri için eş anlamlı.

başarı oranı

#generativeAI
#Metric

Bir yapay zeka modelinin oluşturulan metnini değerlendirmek için kullanılan bir metriktir. Başarı oranı, oluşturulan "başarılı" metin çıktılarının toplam oluşturulan metin çıktısı sayısına bölünmesiyle elde edilir. Örneğin, bir büyük dil modeli 10 kod bloğu oluşturduysa ve bunların beşi başarılı olduysa başarı oranı %50 olur.

Başarı oranı, istatistikler genelinde geniş bir şekilde faydalı olsa da makine öğrenimi kapsamında bu metrik, öncelikle kod oluşturma veya matematik problemleri gibi doğrulanabilir görevleri ölçmek için faydalıdır.

G

gini safsızlık

#df
#Metric

Entropy'ye benzer bir metrik. Bölücüler, sınıflandırma karar ağaçları için koşullar oluşturmak amacıyla gini safsızlık veya entropi değerlerinden türetilen değerleri kullanır. Bilgi kazancı entropi temellidir. Gini safsızlıktan türetilen metrik için evrensel olarak kabul edilen eşdeğer bir terim yoktur. Ancak bu adsız metrik, bilgi kazancı kadar önemlidir.

Gini safsızlık oranı, gini endeksi veya kısaca gini olarak da bilinir.

Gini kirliliği, aynı dağılımın yeni bir veri parçasının yanlış sınıflandırılma olasılığıdır. "0" ve "1" olmak üzere iki olası değere sahip bir grubun gini kirliliği (örneğin, ikili sınıflandırma problemindeki etiketler) aşağıdaki formülden hesaplanır:

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

Bu örnekte:

  • I, gini safsızlıktır.
  • p, "1" örneklerinin kesridir.
  • q, "0" örneklerinin kesridir. q = 1-p

Örneğin, aşağıdaki veri kümesini ele alalım:

  • 100 etiket (veri kümesinin %0,25'i) "1" değerini içeriyor
  • 300 etiket (veri kümesinin %0,75'i) "0" değerini içeriyor

Bu nedenle gini safsızlık değeri:

  • p = 0,25
  • q = 0,75
  • I = 1 - (0,252 + 0,752) = 0,375

Sonuç olarak, aynı veri kümesinden rastgele bir etiketin yanlış sınıflandırılma olasılığı% 37,5, doğru sınıflandırılma olasılığı ise% 62,5 olur.

Mükemmel şekilde dengelenmiş bir etiketin (örneğin, 200 "0" ve 200 "1") gini safsızlık değeri 0,5 olur. Dengesiz etiketlerin gini safsızlık değeri 0,0'a yakındır.


H

menteşe kaybı

#Metric

Sınıflandırma için karar sınırını her eğitim örneğinden mümkün olduğunca uzakta bulmak üzere tasarlanmış bir kayıp işlevi ailesidir. Böylece, örnekler ile sınır arasındaki marjı en üst düzeye çıkarır. KSVM'ler, menteşe kaybını (veya kare menteşe kaybı gibi ilgili bir işlevi) kullanır. İkili sınıflandırma için menteşe kaybı işlevi aşağıdaki gibi tanımlanır:

loss=max(0,1(yy))

Burada y, -1 veya +1 olan gerçek etiket, y' ise sınıflandırıcı modelinin ham çıkışıdır:

y=b+w1x1+w2x2+wnxn

Sonuç olarak, menteşe kaybının (y * y') ile karşılaştırmalı grafiği aşağıdaki gibi görünür:

İki birleştirilmiş çizgi segmentinden oluşan Kartezyen nokta grafiği. İlk çizgi segmenti (-3, 4) ile başlar ve (1, 0) ile biter. İkinci çizgi segmenti (1, 0) noktasında başlar ve eğimi 0 olan bir çizgiyle sonsuza kadar devam eder.

I

adalet metriklerinin uyumsuzluğu

#fairness
#Metric

Bazı adalet kavramlarının birbirine uymadığı ve aynı anda karşılanamayacağı fikri. Sonuç olarak, tüm makine öğrenimi sorunlarına uygulanabilecek, adaleti ölçmek için tek bir evrensel metrik yoktur.

Bu durum cesaret kırıcı görünse de adalet metriklerinin uyumsuzluğu, adalet çabalarının sonuçsuz olduğu anlamına gelmez. Bunun yerine, adalet kavramının bağlamsal olarak tanımlanması gerektiğini, böylece kullanım alanlarına özgü zararların önlenmesi gerektiğini öne sürüyor.

Adil olma metriklerinin uyumsuzluğu hakkında daha ayrıntılı bir tartışma için "Adil olmanın (im)mkansızlığı hakkında" başlıklı makaleyi inceleyin.

Bireysel adalet

#fairness
#Metric

Benzer kişilerin benzer şekilde sınıflandırılıp sınıflandırılmadığını kontrol eden bir adalet metriği. Örneğin, Brobdingnagian Akademisi, aynı notlara ve standartlaştırılmış sınav puanlarına sahip iki öğrencinin kabul edilme olasılığının eşit olmasını sağlayarak bireysel adaleti sağlamak isteyebilir.

Bireysel adaletin tamamen "benzerlik"i (bu durumda notlar ve sınav puanları) nasıl tanımladığınıza bağlı olduğunu ve benzerlik metriğiniz önemli bilgileri (ör. bir öğrencinin müfredatının titizliği) göz ardı ederse yeni adalet sorunları ortaya çıkarma riskiyle karşı karşıya kalabileceğinizi unutmayın.

Bireysel adalet hakkında daha ayrıntılı bilgi için "Farkındalık

bilgi kazancı

#df
#Metric

Karar ağaçlarında, bir düğümün entropisi ile alt düğümlerinin entropisinin ağırlıklı (örnek sayısına göre) toplamı arasındaki farktır. Bir düğümün entropisi, söz konusu düğümdeki örneklerin entropisidir.

Örneğin, aşağıdaki entropi değerlerini ele alalım:

  • Üst düğümün entropisi = 0,6
  • 16 alakalı örnek içeren bir alt düğümün entropisi = 0,2
  • 24 alakalı örnek içeren başka bir alt düğümün entropisi = 0,1

Dolayısıyla örneklerin% 40'ı bir alt düğümde, %60'ı ise diğer alt düğümdedir. Bu nedenle:

  • Alt düğümlerin ağırlıklı entropi toplamı = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Dolayısıyla bilgi kazancı şu şekildedir:

  • bilgi kazancı = üst öğenin entropisi - alt öğelerin ağırlıklı entropi toplamı
  • Bilgi kazancı = 0,6 - 0,14 = 0,46

Çoğu ayırıcı, bilgi kazanımını en üst düzeye çıkaran koşullar oluşturmaya çalışır.

değerlendiriciler arası anlaşma

#Metric

İnsan puanlayıcıların bir görevi yaparken ne sıklıkta anlaştığının ölçümü. Değerlendiriciler aynı fikirde değilse görev talimatlarının iyileştirilmesi gerekebilir. Bazen notlandırıcılar arası anlaşma veya değerlendiriciler arası güvenilirlik olarak da adlandırılır. Ayrıca, en popüler değerlendiriciler arası anlaşma ölçümlerinden biri olan Cohen kappasına da bakın.

Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Kategorik veriler: Sık karşılaşılan sorunlar bölümüne bakın.

L

L1 kaybı

#fundamentals
#Metric

Gerçek etiket değerleri ile bir modelin tahmin ettiği değerler arasındaki farkın mutlak değerini hesaplayan bir kayıp işlevi. Örneğin, beş örnek içeren bir grup için L1 kaybının hesaplanması aşağıda verilmiştir:

Örneğin gerçek değeri Modelin tahmini değeri Deltanın mutlak değeri
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 mağlubiyeti

L1 kaybı, L2 kaybına kıyasla aykırı değerlere karşı daha az hassastır.

Ortalama Mutlak Hata, örnek başına ortalama L1 kaybıdır.

L1loss=ni=0|yiˆyi|

where:
  • n, örnek sayısıdır.
  • y, etiketin gerçek değeridir.
  • ˆy, modelin y için tahmin ettiği değerdir.

Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Doğrusal regresyon: Kayıp bölümüne bakın.

L2 kaybı

#fundamentals
#Metric

Gerçek etiket değerleri ile bir modelin tahmin ettiği değerler arasındaki farkın karesini hesaplayan bir kayıp işlevi. Örneğin, beş örnek içeren bir grup için L2 kaybının hesaplanması aşağıda verilmiştir:

Örneğin gerçek değeri Modelin tahmini değeri Deltanın karesi
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 mağlubiyet

Kare alma işlemi nedeniyle L2 kaybı, aykırı değerlerin etkisini artırır. Yani L2 kaybı, kötü tahminlere L1 kaybına kıyasla daha güçlü tepki verir. Örneğin, önceki toplu işlem için L1 kaybı 16 yerine 8 olur. Tek bir aykırı değerin 16 değerin 9'unu oluşturduğuna dikkat edin.

Regresyon modelleri genellikle kayıp işlevi olarak L2 kaybını kullanır.

Ortalama Karesel Hata, örnek başına ortalama L2 kaybıdır. Kare kaybı, L2 kaybının başka bir adıdır.

L2loss=ni=0(yiˆyi)2

where:
  • n, örnek sayısıdır.
  • y, etiketin gerçek değeridir.
  • ˆy, modelin y için tahmin ettiği değerdir.

Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Mantıksal regresyon: Kayıp ve normalleştirme bölümüne bakın.

LLM değerlendirmeleri (evals)

#language
#generativeAI
#Metric

Büyük dil modellerinin (LLM'ler) performansını değerlendirmeye yönelik bir dizi metrik ve karşılaştırma. Genel olarak LLM değerlendirmeleri:

  • Araştırmacıların, LLM'lerin iyileştirilmesi gereken alanlarını belirlemesine yardımcı olun.
  • Farklı LLM'leri karşılaştırmak ve belirli bir görev için en iyi LLM'yi belirlemek için yararlıdır.
  • LLM'lerin güvenli ve etik bir şekilde kullanılmasına yardımcı olma

Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Büyük dil modelleri (LLM'ler) bölümüne bakın.

mağlubiyet

#fundamentals
#Metric

Gözetimli bir modelin eğitimi sırasında, modelin tahmininin etiketinden ne kadar uzak olduğunu gösteren bir ölçümdür.

Kayıp işlevi, kaybı hesaplar.

Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Doğrusal regresyon: Kayıp bölümüne bakın.

kayıp fonksiyonu

#fundamentals
#Metric

Eğitim veya test sırasında, bir toplu örnekteki kaybı hesaplayan matematiksel işlev. Kayıp işlevi, iyi tahminler yapan modeller için kötü tahminler yapan modellere kıyasla daha düşük bir kayıp döndürür.

Eğitimin amacı genellikle bir kayıp işlevinin döndürdüğü kaybı en aza indirmektir.

Birçok farklı kayıp fonksiyonu vardır. Oluşturduğunuz model türü için uygun kayıp işlevini seçin. Örneğin:

M

Ortalama Mutlak Hata (MAE)

#Metric

L1 kaybı kullanıldığında örnek başına ortalama kayıp. Ortalama mutlak hatayı aşağıdaki gibi hesaplayın:

  1. Bir toplu işlem için L1 kaybını hesaplama
  2. L1 kaybını, gruptaki örneklerin sayısına bölün.

Mean Absolute Error=1nni=0|yiˆyi|

Bu örnekte:

  • n, örnek sayısıdır.
  • y, etiketin gerçek değeridir.
  • ˆy, modelin y için tahmin ettiği değerdir.

Örneğin, aşağıdaki beş örnekten oluşan grupta L1 kaybının hesaplamasını ele alalım:

Örneğin gerçek değeri Modelin tahmini değeri Kayıp (gerçek ve tahmin edilen arasındaki fark)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 mağlubiyeti

Dolayısıyla L1 kaybı 8 ve örnek sayısı 5'tir. Bu nedenle, ortalama mutlak hata:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Ortalama mutlak hatayı ortalama karesel hata ve kök ortalama karesel hata ile karşılaştırın.

k değerinde ortalama hassasiyet (mAP@k)

#language
#generativeAI
#Metric

Doğrulama veri kümesinde tüm k için ortalama hassasiyet puanlarının istatistiksel ortalaması. k değerinde ortalama hassasiyetin bir kullanım alanı, öneri sistemi tarafından oluşturulan önerilerin kalitesini değerlendirmektir.

"Ortalama ortalama" ifadesi gereksiz görünse de metriğin adı uygundur. Sonuçta bu metrik, birden fazla k değerinde ortalama kesinlik değerinin ortalamasını bulur.

Her kullanıcı için önerilen romanların kişiselleştirilmiş bir listesini oluşturan bir öneri sistemi oluşturduğunuzu varsayalım. Seçilen kullanıcılardan gelen geri bildirimlere göre, k puanında aşağıdaki beş ortalama hassasiyeti hesaplarsınız (kullanıcı başına bir puan):

  • 0,73
  • 0,77
  • 0,67
  • 0,82
  • 0,76

Bu nedenle, K için ortalama ortalama hassasiyet şu şekildedir:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

Ortalama Karesel Hata (MSE)

#Metric

L2 kaybı kullanıldığında örnek başına ortalama kayıp. Ortalama karesel hatayı aşağıdaki gibi hesaplayın:

  1. Bir toplu işlem için L2 kaybını hesaplama
  2. L2 kaybını, gruptaki örneklerin sayısına bölün.
Mean Squared Error=1nni=0(yiˆyi)2 where:
  • n, örnek sayısıdır.
  • y, etiketin gerçek değeridir.
  • ˆy, modelin y için tahminidir.

Örneğin, aşağıdaki beş örnekten oluşan gruptaki kaybı ele alalım:

Gerçek değer Modelin tahmini Kayıp Kare kaybı
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 mağlubiyet

Bu nedenle, ortalama karesel hata:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Ortalama Karesel Hata, özellikle doğrusal regresyon için popüler bir eğitim optimizasyon aracıdır.

Ortalama karesel hatayı ortalama mutlak hata ve kök ortalama kare hatasıyla karşılaştırın.

TensorFlow Playground, kayıp değerlerini hesaplamak için Ortalama Kare Hata değerini kullanır.

Ayrık değerler, ortalama karesel hatayı önemli ölçüde etkiler. Örneğin, 1 kayıp 1'in karesidir ancak 3 kayıp 9'un karesidir. Önceki tabloda, 3 kayıp içeren örnek Ortalama Kare Hata değerinin yaklaşık% 56'sını oluştururken 1 kayıp içeren örneklerin her biri Ortalama Kare Hata değerinin yalnızca% 6'sını oluşturur.

Aykırı değerler, Ortalama Karesel Hata kadar güçlü bir şekilde Ortalama Mutlak Hatayı etkilemez. Örneğin, ortalama mutlak hatanın yalnızca yaklaşık% 38'i için 3 hesap kaybı.

Kırpma, uç değerlerdeki aykırı değerlerin modelinizin tahmin gücünü etkilemesini önlemenin bir yoludur.


metrik

#TensorFlow
#Metric

Önemsediğiniz bir istatistik.

Hedef, bir makine öğrenimi sisteminin optimize etmeye çalıştığı bir metriktir.

Metrics API (tf.metrics)

#Metric

Modelleri değerlendirmek için bir TensorFlow API'si. Örneğin, tf.metrics.accuracy, bir modelin tahminlerinin etiketlerle ne sıklıkta eşleştiğini belirler.

minimax kaybı

#Metric

Oluşturulan verilerin dağılımı ile gerçek verilerin dağılımı arasındaki çapraz entropi değerine dayalı üretici zıt ağlar için kayıp işlevi.

Minimax kaybı, üretken zıt ağları açıklamak için ilk makalede kullanılır.

Daha fazla bilgi için Üretken Düşman Ağlar kursundaki Kayıp İşlevleri bölümüne bakın.

model kapasitesi

#Metric

Bir modelin öğrenebileceği sorunların karmaşıklığı. Bir modelin öğrenebileceği sorunların karmaşıklığı arttıkça modelin kapasitesi de artar. Bir modelin kapasitesi genellikle model parametrelerinin sayısıyla artar. Sınıflandırıcı kapasitesinin resmi tanımı için VC boyutu başlıklı makaleyi inceleyin.

H

negatif sınıf

#fundamentals
#Metric

İkili sınıflandırmada bir sınıf pozitif, diğeri ise negatif olarak adlandırılır. Pozitif sınıf, modelin test ettiği şey veya etkinliktir ve negatif sınıf diğer olasılıktır. Örneğin:

  • Bir tıbbi testteki negatif sınıf "tümör değil" olabilir.
  • Bir e-posta sınıflandırıcısındaki negatif sınıf "spam değil" olabilir.

Pozitif sınıf ile karşılaştırın.

O

hedef

#Metric

Algoritmanızın optimize etmeye çalıştığı bir metrik.

hedef işlevi

#Metric

Bir modelin optimize etmeyi amaçladığı matematiksel formül veya metrik. Örneğin, doğrusal regresyon için hedef işlevi genellikle ortalama kare kaybıdır. Bu nedenle, doğrusal regresyon modeli eğitilirken eğitim, ortalama kare kaybını en aza indirmeyi amaçlar.

Bazı durumlarda amaç, hedef işlevi maksimuma çıkarmaktır. Örneğin, hedef işlevi doğruluk ise hedef, doğruluğu en üst düzeye çıkarmaktır.

Ayrıca loss özelliğine bakın.

P

k'da geçiş (pass@k)

#Metric

Büyük dil modelinin oluşturduğu kodun (ör. Python) kalitesini belirlemek için kullanılan metrik. Daha ayrıntılı olarak belirtmek gerekirse, k değerinde geçme, k adet oluşturulan kod bloğundan en az birinin tüm birim testlerini geçme olasılığını belirtir.

Büyük dil modelleri, karmaşık programlama sorunları için genellikle iyi kod oluşturmakta zorlanır. Yazılım mühendisleri, büyük dil modelinden aynı sorun için birden fazla (k) çözüm üretmesini isteyerek bu soruna uyum sağlar. Ardından yazılım mühendisleri, çözümlerin her birini birim testleriyle test eder. k değerinde geçmenin hesaplanması, birim testlerinin sonucuna bağlıdır:

  • Bu çözümlerden en az biri birim testini geçerse LLM, kod oluşturma zorluğunu geçer.
  • Çözümlerin hiçbiri birim testini geçemezse LLM, kod oluşturma mücadelesini başarısız olur.

k'ta geçiş için formül aşağıdaki gibidir:

pass at k=total number of passestotal number of challenges

Genel olarak, k değerleri ne kadar yüksek olursa k puanları da o kadar yüksek olur. Ancak k değerleri ne kadar yüksek olursa o kadar büyük dil modeli ve birim testi kaynağı gerekir.

Bir yazılım mühendisinin, büyük bir dil modelinden n=50 zorlu kodlama problemi için k=10 çözüm üretmesini istediğini varsayalım. Sonuçlar aşağıda verilmiştir:

  • 30 Kart
  • 20 Başarısız

Bu nedenle, 10 puanda geçme notu:

pass at 10=3050=0.6

performans

#Metric

Aşağıdaki anlamlara sahip olan aşırı yüklenmiş terim:

  • Yazılım mühendisliğindeki standart anlam. Yani: Bu yazılım ne kadar hızlı (veya verimli) çalışıyor?
  • Makine öğrenimindeki anlamı. Burada performans, şu soruya yanıt verir: Bu model ne kadar doğru? Yani, modelin tahminleri ne kadar iyi?

permütasyon değişkeni önemleri

#df
#Metric

Özelliğin değerlerini permütasyona tabi tuttuktan sonra bir modelin tahmin hatasındaki artışı değerlendiren bir değişken önemi türü. Permütasyon değişkeni önemi, modelden bağımsız bir metriktir.

şaşkınlık

#Metric

Bir modelin görevini ne kadar iyi yerine getirdiğini gösteren bir ölçümdür. Örneğin, kullanıcının telefon klavyesinde yazdığı bir kelimenin ilk birkaç harfini okumak ve kelimeyi tamamlamak için kullanılabilecek kelimelerin listesini sunmak göreviniz olduğunu varsayalım. Bu görev için kafa karışıklığı (P), listenizin kullanıcının yazmaya çalıştığı gerçek kelimeyi içermesi için sunmanız gereken tahmin sayısına yaklaşık olarak eşittir.

Kafa karışıklığı, çapraz entropi ile aşağıdaki şekilde ilişkilidir:

P=2cross entropy

pozitif sınıf

#fundamentals
#Metric

Test ettiğiniz sınıf.

Örneğin, bir kanser modelindeki pozitif sınıf "tümör" olabilir. Bir e-posta sınıflandırıcısındaki pozitif sınıf "spam" olabilir.

Negatif sınıf ile karşılaştırın.

Birçok testin "pozitif" sonucu genellikle istenmeyen bir sonuç olduğundan pozitif sınıf terimi kafa karıştırıcı olabilir. Örneğin, birçok tıbbi testte pozitif sınıf, tümörlere veya hastalıklara karşılık gelir. Genel olarak bir doktorun size "Tebrikler. Test sonuçlarınızın negatif olduğunu bildirmek isteriz." Bununla birlikte, pozitif sınıf, testin bulmaya çalıştığı etkinliktir.

Hem pozitif hem de negatif sınıflar için aynı anda test yaptığınızı kabul edin.


PR AUC (PR eğrisinin altındaki alan)

#Metric

Sınıflandırma eşiğinin farklı değerleri için noktaların (geri çağırma, hassasiyet) çizilmesiyle elde edilen, hassasiyet/geri çağırma eğrisinin altındaki alan.

precision

#Metric

Aşağıdaki soruyu yanıtlayan sınıflandırma modelleri için bir metrik:

Model pozitif sınıfı tahmin ettiğinde tahminlerin yüzde kaçı doğruydu?

Formül şu şekildedir:

Precision=true positivestrue positives+false positives

Bu örnekte:

  • Gerçek pozitif, modelin pozitif sınıfı doğru tahmin ettiği anlamına gelir.
  • Yanlış pozitif, modelin pozitif sınıfı yanlışlıkla tahmin ettiği anlamına gelir.

Örneğin, bir modelin 200 pozitif tahminde bulunduğunu varsayalım. Bu 200 olumlu tahminden:

  • 150'i gerçek pozitifti.
  • 50'si yanlış pozitifti.

Bu durumda:

Precision=150150+50=0.75

Doğruluk ve geri çağırma ile karşılaştırın.

Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler bölümüne bakın.

k değerinde hassasiyet (precision@k)

#language
#Metric

Sıralı (sıralı) bir öğe listesini değerlendirmek için kullanılan bir metrik. k değerinde hassasiyet, söz konusu listedeki ilk k öğenin "alakalı" olan kısmını tanımlar. Yani:

precision at k=relevant items in first k items of the listk

k değerinin, döndürülen listenin uzunluğundan az veya buna eşit olması gerekir. Döndürülen listenin uzunluğunun hesaplamaya dahil edilmediğini unutmayın.

Alaka düzeyi genellikle özneldir. Uzman değerlendiriciler bile hangi öğelerin alakalı olduğu konusunda genellikle aynı fikirde değildir.

Şununla karşılaştır:

Bir büyük dil modeline aşağıdaki sorgunun verildiğini varsayalım:

List the 6 funniest movies of all time in order.

Büyük dil modeli ise aşağıdaki tablonun ilk iki sütununda gösterilen listeyi döndürür:

Konum Film Alakalı mı?
1 The General Evet
2 Kötü Evet
3 Platoon Hayır
4 Nedime Evet
5 Citizen Kane Hayır
6 This is Spinal Tap Evet

İlk üç filmden ikisi alakalı olduğundan 3'te hassasiyet şu şekildedir:

precision at 3=23=0.67

İlk beş filmden dördü çok komiktir. Bu nedenle, 5'te hassasiyet şu şekildedir:

precision at 5=45=0.8

hassasiyet/geri çağırma eğrisi

#Metric

Farklı sınıflandırma eşiklerinde hassasiyet ve geri çağırma arasındaki ilişkiyi gösteren eğri.

Tahmin önyargısı

#Metric

Tahminlerin ortalamasının, veri kümesindeki etiketlerin ortalamasından ne kadar uzak olduğunu gösteren bir değer.

Makine öğrenimi modellerindeki önyargı terimi veya etik ve adaletle ilgili önyargı ile karıştırılmamalıdır.

tahmini eşleşme

#fairness
#Metric

Belirli bir sınıflandırıcı için hassasiyet oranlarının, ele alınan alt gruplar için eşdeğer olup olmadığını kontrol eden bir adaletlilik metriği.

Örneğin, üniversite kabulünü tahmin eden bir model, Lilliputians ve Brobdingnagians için doğruluk oranı aynıysa vatandaşlık için tahmini eşitliği karşılar.

Tahmini eşleşme bazen tahmini ücret eşleşmesi olarak da adlandırılır.

Tahmini eşitlik hakkında daha ayrıntılı bilgi için "Adil Oluş Tanımları Açıklandı" başlıklı makaleyi (3.2.1 numaralı bölüm) inceleyin.

tahmini ücret dengesi

#fairness
#Metric

Tahmini eşleşme için başka bir ad.

olasılık yoğunluk fonksiyonu

#Metric

Tam olarak belirli bir değere sahip veri örneklerinin sıklığını tanımlayan bir işlev. Bir veri kümesinin değerleri kesintisiz kayan noktalı sayılar olduğunda tam eşleşmeler nadiren gerçekleşir. Ancak, olasılık yoğunluk işlevini x değerinden y değerine entegrasyonu, x ile y arasındaki veri örneklerinin beklenen sıklığını verir.

Örneğin, ortalaması 200 ve standart sapması 30 olan normal bir dağılımı ele alalım. 211,4 ile 218,7 aralığına düşen veri örneklerinin beklenen sıklığını belirlemek için 211,4 ile 218,7 arasındaki normal dağılım için olasılık yoğunluk işlevini entegre edebilirsiniz.

K

hatırlanabilirlik

#Metric

Aşağıdaki soruyu yanıtlayan sınıflandırma modelleri için bir metrik:

Kesin referans pozitif sınıf olduğunda model, tahminlerin yüzde kaçında pozitif sınıfı doğru olarak tanımladı?

Formül şu şekildedir:

Recall=true positivestrue positives+false negatives

Bu örnekte:

  • Gerçek pozitif, modelin pozitif sınıfı doğru tahmin ettiği anlamına gelir.
  • Yanlış negatif, modelin negatif sınıfı yanlışlıkla tahmin ettiği anlamına gelir.

Örneğin, modelinizin kesin referansı pozitif sınıf olan örneklerde 200 tahmin yaptığını varsayalım. Bu 200 tahminden:

  • 180'i gerçek pozitifti.
  • 20 tanesi yanlış negatifti.

Bu durumda:

Recall=180180+20=0.9

Hatırlatma, özellikle pozitif sınıfın nadir olduğu sınıflandırma modellerinin tahmin gücünü belirlemek için kullanışlıdır. Örneğin, belirli bir hastalık için pozitif sınıfın milyon hastadan yalnızca 10'unda görüldüğü bir sınıf dengesi bozuk veri kümesi düşünün. Modelinizin beş milyon tahmin yaptığını ve aşağıdaki sonuçları verdiğini varsayalım:

  • 30 Gerçek Pozitif
  • 20 Yanlış Negatif
  • 4.999.000 Doğru Negatif
  • 950 Yanlış Pozitif

Bu modelin geri çağırma oranı şu şekildedir:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
Buna karşılık, bu modelin doğruluğu:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Bu yüksek doğruluk değeri etkileyici görünse de aslında anlamsızdır. Sınıf dengesi bozuk veri kümeleri için geri çağırma, doğruluktan çok daha kullanışlı bir metriktir.


Daha fazla bilgi için Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler başlıklı makaleyi inceleyin.

k değerinde geri çağırma (recall@k)

#language
#Metric

Sıralı (sıralı) bir öğe listesi yayınlayan sistemleri değerlendirmek için kullanılan bir metrik. k'ta geri çağırma, listelenen ilk k öğedeki alakalı öğelerin, döndürülen toplam alakalı öğe sayısına oranını tanımlar.

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

k değerinde hassasiyet ile kontrast.

Bir büyük dil modeline aşağıdaki sorgunun verildiğini varsayalım:

List the 10 funniest movies of all time in order.

Büyük dil modeli ise ilk iki sütunda gösterilen listeyi döndürür:

Konum Film Alakalı mı?
1 The General Evet
2 Kötü Evet
3 Platoon Hayır
4 Nedime Evet
5 This is Spinal Tap Evet
6 Uçak. Evet
7 Groundhog Day Evet
8 Monty Python and the Holy GrailEvet
9 Oppenheimer Hayır
10 Clueless Evet

Yukarıdaki listedeki sekiz film çok komik olduğu için "listedeki alakalı öğeler" olarak kabul edilir. Bu nedenle, k değerinde tüm hatırlama hesaplamalarında payda 8 olacaktır. Payda ne olacak? İlk 4 öğeden 3'ü alakalı olduğundan 4'te geri çağırma şu şekildedir:

recall at 4=38=0.375

İlk 8 filmden 7'si çok komik. Bu nedenle, 8. sıradaki hatırlama oranı şöyledir:

recall at 8=78=0.875

ROC (alıcı çalışma özelliği) eğrisi

#fundamentals
#Metric

İkili sınıflandırmada farklı sınıflandırma eşikleri için gerçek pozitif oranı ve yanlış pozitif oranı grafiği.

ROC eğrisinin şekli, ikili sınıflandırma modelinin pozitif sınıfları negatif sınıflardan ayırma yeteneğini gösterir. Örneğin, bir ikili sınıflandırma modelinin tüm negatif sınıfları tüm pozitif sınıflardan mükemmel şekilde ayırdığını varsayalım:

Sağ tarafta 8 pozitif örnek ve solda 7 negatif örnek içeren bir sayı çizgisi.

Önceki modelin ROC eğrisi aşağıdaki gibi görünür:

ROC eğrisi. X ekseni yanlış pozitif oranı, y ekseni ise gerçek pozitif orandır. Eğri, ters L şeklindedir. Eğri (0,0,0) ile başlar ve doğrudan (0,0,1) değerine gider. Ardından eğri (0,0; 1,0) noktasından (1,0; 1,0) noktasına gider.

Buna karşılık, aşağıdaki görselde, negatif sınıfları pozitif sınıflardan ayıramayan kötü bir modelin ham mantıksal regresyon değerleri grafik halinde gösterilmektedir:

Pozitif örneklerin ve negatif sınıfların tamamen birbirine karıştığı bir sayı çizgisi.

Bu modelin ROC eğrisi aşağıdaki gibi görünür:

Aslında (0,0) ile (1,1) arasında bir doğru olan ROC eğrisi.

Bu arada gerçek dünyada, çoğu ikili sınıflandırma modeli pozitif ve negatif sınıfları bir dereceye kadar ayırır ancak genellikle mükemmel bir şekilde ayırmaz. Bu nedenle, tipik bir ROC eğrisi iki uç nokta arasında bir yere düşer:

ROC eğrisi. X ekseni yanlış pozitif oranı, y ekseni ise gerçek pozitif orandır. ROC eğrisi, pusulayı batıdan kuzeye doğru kesen sarsıntılı bir yayın yaklaşık bir temsilidir.

ROC eğrisinde (0,0; 1,0) noktasına en yakın nokta, teorik olarak ideal sınıflandırma eşiğini tanımlar. Ancak gerçek dünyadaki diğer bazı sorunlar, ideal sınıflandırma eşiğinin seçimini etkiler. Örneğin, yanlış negatifler yanlış pozitiflerden çok daha fazla soruna yol açıyor olabilir.

AUC adlı sayısal metrik, ROC eğrisini tek bir kayan nokta değeri olarak özetler.

Kök ortalama kare hatası (RMSE)

#fundamentals
#Metric

Ortalama Karesel Hatanın karekökü.

ROUGE (Tahmin Değerlendirmesi İçin Hatırlama Odaklı Yardımcı)

#language
#Metric

Otomatik özetleme ve makine çevirisi modellerini değerlendiren bir metrik ailesi. ROUGE metrikleri, bir referans metninin bir yapay zeka modelinin oluşturulan metniyle örtüşme derecesini belirler. ROUGE ailesinin her üyesi, çakışma ölçümlerini farklı bir şekilde gerçekleştirir. Daha yüksek ROUGE puanları, referans metin ile oluşturulan metin arasında daha düşük ROUGE puanlarına kıyasla daha fazla benzerlik olduğunu gösterir.

Her ROUGE aile üyesi genellikle aşağıdaki metrikleri oluşturur:

  • Hassasiyet
  • Geri çağırma
  • F1

Ayrıntılar ve örnekler için:

ROUGE-L

#language
#Metric

Referans metin ve oluşturulan metin içindeki en uzun ortak alt dizinin uzunluğuna odaklanan ROUGE ailesinin bir üyesidir. Aşağıdaki formüller, ROUGE-L için geri çağırma ve kesinliği hesaplar:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

Ardından, ROUGE-L geri çağırma ve ROUGE-L doğruluğunu tek bir metriğe toplamak için F1 kullanabilirsiniz:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
Aşağıdaki referans metnini ve oluşturulan metni inceleyin.
Kategori Yapımcı kim? Metin
Referans metni Gerçek kişiler tarafından yapılan çeviri Çok çeşitli konularda bilgi edinmek istiyorum.
Oluşturulan metin ML modeli Çok şey öğrenmek istiyorum.
Bu nedenle:
  • En uzun ortak alt dize 5'tir (I want to of things)
  • Referans metindeki kelime sayısı 9'dur.
  • Oluşturulan metindeki kelime sayısı 7'dir.
Sonuç olarak:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

ROUGE-L, referans metin ve oluşturulan metindeki tüm yeni satırları yoksayar. Bu nedenle, en uzun ortak alt dize birden fazla cümleyi kapsayabilir. Referans metin ve oluşturulan metin birden fazla cümle içeriyorsa genellikle ROUGE-L'nin ROUGE-Lsum adlı bir varyasyonu daha iyi bir metriktir. ROUGE-Lsum, bir pasajdaki her cümle için en uzun ortak alt dizeyi belirler ve ardından bu en uzun ortak alt dizilerin ortalamasını hesaplar.

Aşağıdaki referans metnini ve oluşturulan metni inceleyin.
Kategori Yapımcı kim? Metin
Referans metni Gerçek kişiler tarafından yapılan çeviri Mars'ın yüzeyi kurudur. Suyun neredeyse tamamı yeraltındadır.
Oluşturulan metin ML modeli Mars'ın yüzeyi kurudur. Ancak suyun büyük bir kısmı yer altındadır.
Bu nedenle:
İlk cümle İkinci cümle
En uzun ortak dizi2 (Mars kuru) 3 (su yer altındadır)
Referans metninin cümle uzunluğu 6 7
Oluşturulan metnin cümle uzunluğu 5 8
Sonuç olarak:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Metric

ROUGE ailesindeki bir metrik grubu. Referans metin ile oluşturulan metin arasındaki belirli boyuttaki ortak N-gramları karşılaştırır. Örneğin:

  • ROUGE-1, referans metin ile oluşturulan metinde paylaşılan jetonların sayısını ölçer.
  • ROUGE-2, referans metin ile oluşturulan metinde paylaşılan bigramların (2 gram) sayısını ölçer.
  • ROUGE-3, referans metin ile oluşturulan metinde ortak üçlü grupların (üçlü gruplar) sayısını ölçer.

ROUGE-N ailesinin herhangi bir üyesi için ROUGE-N geri çağırma ve ROUGE-N hassasiyetini hesaplamak üzere aşağıdaki formülleri kullanabilirsiniz:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

Ardından, ROUGE-N geri çağırma ve ROUGE-N doğruluğunu tek bir metriğe toplamak için F1 kullanabilirsiniz:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
Bir makine öğrenimi modelinin çevirisinin, gerçek bir çevirmen tarafından yapılan çeviriye kıyasla ne kadar etkili olduğunu ölçmek için ROUGE-2'yi kullanmaya karar verdiğinizi varsayalım.
Kategori Yapımcı kim? Metin İkili gramlar
Referans metni Gerçek kişiler tarafından yapılan çeviri Çok çeşitli konularda bilgi edinmek istiyorum. I want, want to, to understand, understand a, a wide, wide variety, variety of, of things
Oluşturulan metin ML modeli Çok şey öğrenmek istiyorum. I want, want to, to learn, learn plenty, plenty of, of things
Bu nedenle:
  • Eşleşen 2 gram sayısı 3'tür (I want, want to ve of things).
  • Referans metindeki 2 gram sayısı 8'dir.
  • Oluşturulan metindeki 2 gram sayısı 6'dır.
Sonuç olarak:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROGUE-S

#language
#Metric

Skip-gram eşlemesini etkinleştiren, ROUGE-N'in hoşgörülü bir biçimidir. Yani ROUGE-N yalnızca tam olarak eşleşen N-gramları sayarken ROUGE-S bir veya daha fazla kelimeyle ayrılmış N-gramları da sayar. Örneğin aşağıdakileri göz önünde bulundurabilirsiniz:

ROUGE-N hesaplanırken 2 gramlık Beyaz bulutlar, Beyaz bulutlar ile eşleşmez. Ancak ROUGE-S hesaplanırken Beyaz bulutlar, Beyaz bulutlar ile eşleşir.

R-kare

#Metric

Bir etiketteki varyasyonun ne kadarının tek bir özellikten veya özellik grubundan kaynaklandığını gösteren bir regresyon metriği. R-kare, 0 ile 1 arasında bir değerdir ve aşağıdaki şekilde yorumlanabilir:

  • 0 olan R-kare değeri, etiketin varyasyonlarının hiçbirinin özellik grubundan kaynaklanmadığı anlamına gelir.
  • 1 olan R-kare değeri, bir etiketin tüm varyasyonunun özellik grubundan kaynaklandığı anlamına gelir.
  • 0 ile 1 arasında bir R-kare değeri, etiketin varyasyonunun belirli bir özellikten veya özellik grubundan ne kadar tahmin edilebileceğini gösterir. Örneğin, 0,10'luk bir R-kare değeri, etiketteki varyansın yüzde 10'unun özellik grubundan kaynaklandığı anlamına gelir. 0,20'lik bir R-kare değeri ise yüzde 20'sinin özellik grubundan kaynaklandığı anlamına gelir.

R kare, bir modelin tahmin ettiği değerler ile kesin referans arasındaki Pearson korelasyon katsayısının karesidir.

S

puanlama

#recsystems
#Metric

Öneri sisteminin, aday oluşturma aşamasında üretilen her öğe için bir değer veya sıralama sağlayan kısmı.

benzerlik ölçümü

#clustering
#Metric

Gruplandırma algoritmalarında, iki örneğin birbirine ne kadar benzediğini (ne kadar benzer olduğunu) belirlemek için kullanılan metrik.

seyreklik

#Metric

Bir vektör veya matriste sıfır (veya boş) olarak ayarlanan öğelerin sayısının, söz konusu vektör veya matristeki toplam giriş sayısına bölünmesiyle elde edilen değer. Örneğin, 98 hücresinin sıfır içerdiği 100 öğeli bir matrisi düşünün. Seyrekliğin hesaplanması aşağıdaki gibidir:

sparsity=98100=0.98

Özellik seyrekliği, bir özellik vektörünün seyrekliğini ifade eder. Model seyrekliği ise model ağırlıklarının seyrekliğini ifade eder.

kareli menteşe kaybı

#Metric

Mengene kaybının karesi. Kare eklem kaybı, aykırı değerleri normal eklem kaybına kıyasla daha sert şekilde cezalandırır.

kare kaybı

#fundamentals
#Metric

L2 kaybı ile eş anlamlıdır.

T

test kaybı

#fundamentals
#Metric

Bir modelin test veri kümesine göre kayıp değerini temsil eden bir metrik. Model oluştururken genellikle test kaybını en aza indirmeye çalışırsınız. Bunun nedeni, düşük test kaybının düşük eğitim kaybı veya düşük doğrulama kaybı olduğundan daha güçlü bir kalite sinyali olmasıdır.

Test kaybı ile eğitim kaybı veya doğrulama kaybı arasındaki büyük bir fark, bazen normalleştirme oranını artırmanız gerektiğini gösterir.

en iyi k doğruluğu

#language
#Metric

Oluşturulan listelerin ilk k konumunda bir "hedef etiketinin" görünme yüzdesi. Listeler, kişiselleştirilmiş öneriler veya softmax'e göre sıralanmış öğelerin listesi olabilir.

En yüksek k doğruluğu, k doğruluğu olarak da bilinir.

Ağaç yapraklarının resmine göre ağaç olasılıklarını belirlemek için yumuşak maksimum kullanan bir makine öğrenimi sistemi düşünün. Aşağıdaki tabloda, beş giriş ağaç resminden oluşturulan çıkış listeleri gösterilmektedir. Her satırda bir hedef etiketi ve en olası beş ağaç bulunur. Örneğin, hedef etiket akçaağaç olduğunda makine öğrenimi modeli, en olası ağaç olarak kayın, ikinci en olası ağaç olarak meşe vb. belirledi.

Hedef etiket 1 2 3 4 5
Maple karaağaç meşe maple kayın kavak
kızılcık meşe dogwood kavak Hickory Maple
meşe oak ıhlamur çekirge kızılağaç Linden
Linden Maple paw-paw meşe ıhlamur kavak
meşe çekirge Linden oak Maple paw-paw

Hedef etiketi ilk konumda yalnızca bir kez göründüğünden ilk sıradaki doğruluk değeri şöyledir:

top-1 accuracy=15=0.2

Hedef etiket, ilk üç konumdan birinde dört kez göründüğünden ilk 3 doğruluk değeri:

top-1 accuracy=45=0.8

toksik

#language
#Metric

İçeriğin kötüye kullanım amaçlı, tehdit edici veya rahatsız edici olma derecesi. Birçok makine öğrenimi modeli, toksisiteyi tespit edip ölçebilir. Bu modellerin çoğu, toksikliği kötüye kullanım amaçlı dil ve tehdit edici dil düzeyi gibi birden fazla parametreyle tanımlar.

eğitim kaybı

#fundamentals
#Metric

Belirli bir eğitim iterasyonunda modelin kayıp değerini temsil eden bir metrik. Örneğin, kayıp işlevinin ortalama kare hatası olduğunu varsayalım. 10.iterasyon için eğitim kaybı (ortalama kare hata) 2,2 ve 100.iterasyon için eğitim kaybı 1,9 olabilir.

Kayıp eğrisi, eğitim kaybını iterasyon sayısına göre gösterir. Kayıp eğrisi, eğitimle ilgili aşağıdaki ipuçlarını sağlar:

  • Aşağı doğru bir eğim, modelin iyileştiğini gösterir.
  • Yukarı doğru bir eğim, modelin kötüye gittiğini gösterir.
  • Düz bir eğim, modelin yakınsamaya ulaştığını gösterir.

Örneğin, aşağıdaki biraz idealize edilmiş kayıp eğrisi şunu gösterir:

  • İlk iterasyonlar sırasında hızlı bir model iyileşmesi anlamına gelen dik bir aşağı eğim.
  • Eğitimin sonuna yakın bir zamana kadar kademeli olarak düzleşen (ancak yine de aşağı doğru) bir eğim. Bu, modelin ilk iterasyonlara kıyasla biraz daha yavaş bir hızda iyileşmeye devam ettiğini gösterir.
  • Eğimin eğitim sonuna doğru düzleşmesi, yakınsama olduğunu gösterir.

Eğitim kaybının yinelemelere göre grafiği. Bu kayıp eğrisi, dik bir aşağı eğimle başlar. Eğim, sıfır olana kadar kademeli olarak düzleşir.

Eğitim kaybı önemli olsa da genelleştirme konusuna da göz atın.

Doğru negatif (TN)

#fundamentals
#Metric

Modelin negatif sınıfı doğru tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta mesajının spam olmadığını tahmin eder ve bu e-posta mesajı gerçekten spam değildir.

gerçek pozitif (TP)

#fundamentals
#Metric

Modelin pozitif sınıfı doğru tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta iletisinin spam olduğunu tahmin eder ve bu e-posta iletisi gerçekten spam olur.

gerçek pozitif oranı (TPR)

#fundamentals
#Metric

Hatırlama ile eş anlamlıdır. Yani:

true positive rate=true positivestrue positives+false negatives

Gerçek pozitif oran, ROC eğrisinde y eksenidir.

V

doğrulama kaybı

#fundamentals
#Metric

Belirli bir iterasyonda modelin doğrulama kümesindeki kayıp değerini temsil eden bir metrik.

Genelleştirme eğrisi konusuna da göz atın.

değişken önemleri

#df
#Metric

Her bir özelliğin modele göreli önemini gösteren bir puan grubu.

Örneğin, ev fiyatlarını tahmin eden bir karar ağacını düşünün. Bu karar ağacında üç özellik kullanıldığını varsayalım: beden, yaş ve stil. Üç özellik için değişken önem değerleri {beden=5,8, yaş=2,5, stil=4,7} olarak hesaplanırsa beden, karar ağacı için yaş veya stilden daha önemlidir.

ML uzmanlarını modellerin farklı yönleri hakkında bilgilendirebilecek farklı değişken önem metrikleri vardır.

W

Wasserstein kaybı

#Metric

Oluşturulan verilerin dağılımı ile gerçek veriler arasındaki yer değiştirici mesafesini temel alan, üretici zıt ağlarda yaygın olarak kullanılan kayıp işlevlerinden biridir.