Bu sayfada, Metrikler sözlüğündeki terimler yer almaktadır. Tüm terimler için burayı tıklayın.
A
doğruluk
Doğru sınıflandırma tahminlerinin toplam tahmin sayısına bölünmesiyle elde edilen değer. Yani:
Örneğin, 40 doğru ve 10 yanlış tahminde bulunan bir modelin doğruluk oranı şöyle olur:
İkili sınıflandırma, doğru tahminler ve yanlış tahminler kategorileri için belirli adlar sağlar. Dolayısıyla, ikili sınıflandırma için doğruluk formülü aşağıdaki gibidir:
Bu örnekte:
- TP, doğru pozitif (doğru tahminler) sayısını ifade eder.
- TN, doğru negatiflerin (doğru tahminler) sayısıdır.
- FP, yanlış pozitif (yanlış tahminler) sayısıdır.
- FN, yanlış negatif (yanlış tahminler) sayısını ifade eder.
Doğruluğu hassasiyet ve geri çağırma ile karşılaştırın.
Doğruluk ve sınıf dengesi bozuk veri kümeleri hakkında ayrıntılı bilgi için simgeyi tıklayın.
Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler bölümüne bakın.
PR eğrisinin altındaki alan
PR AUC (PR Eğrisinin altındaki alan) başlıklı makaleyi inceleyin.
ROC eğrisinin altındaki alan
AUC (ROC eğrisinin altındaki alan) konusuna bakın.
AUC (ROC eğrisinin altındaki alan)
İkili sınıflandırma modelinin pozitif sınıfları negatif sınıflardan ayırma yeteneğini gösteren 0,0 ile 1,0 arasında bir sayı. AUC ne kadar 1, 0'a yakınsa modelin sınıfları birbirinden ayırma yeteneği o kadar iyidir.
Örneğin, aşağıdaki görselde pozitif sınıfları (yeşil ovaller) negatif sınıflardan (mor dikdörtgenler) mükemmel şekilde ayıran bir sınıflandırıcı modeli gösterilmektedir. Gerçekçi olmayan bu mükemmel modelin AUC değeri 1,0'dur:
Buna karşılık, aşağıdaki görselde rastgele sonuçlar oluşturan bir sınıflandırıcı modelinin sonuçları gösterilmektedir. Bu modelin AUC değeri 0,5'tir:
Evet, önceki modelin AUC değeri 0,0 değil 0,5'tir.
Çoğu model bu iki uç nokta arasındadır. Örneğin, aşağıdaki model pozitifleri negatiflerden bir derece ayırdığından AUC değeri 0,5 ile 1,0 arasındadır:
AUC, sınıflandırma eşiği için ayarladığınız tüm değerleri yoksayar. Bunun yerine AUC, olası sınıflandırma eşiklerinin tümünü dikkate alır.
AUC ve ROC eğrileri arasındaki ilişki hakkında bilgi edinmek için simgeyi tıklayın.
AUC'nin daha resmi bir tanımı için simgeyi tıklayın.
Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Sınıflandırma: ROC ve AUC bölümüne bakın.
k değerinde ortalama hassasiyet
Bir modelin, sıralanmış sonuçlar (ör. kitap önerilerinin numaralandırılmış listesi) oluşturan tek bir istemdeki performansını özetleyen metrik. k değerinde ortalama hassasiyet, her ilgili sonuç için k değerinde hassasiyet değerlerinin ortalamasıdır. Bu nedenle, k için ortalama hassasiyet formülü şu şekildedir:
average precision at k=1nn∑i=1precision at k for each relevant item
Bu örnekte:
- n , listedeki alakalı öğelerin sayısıdır.
k'de hatırla ile karşılaştırın.
Örnek için simgeyi tıklayın
B
referans değer
Başka bir modelin (genellikle daha karmaşık bir model) ne kadar iyi performans gösterdiğini karşılaştırmak için referans noktası olarak kullanılan bir model. Örneğin, mantıksal regresyon modeli, derin model için iyi bir referans değer olabilir.
Belirli bir sorun için referans değer, model geliştiricilerin yeni modelin yararlı olması için yeni modelin elde etmesi gereken minimum beklenen performansı ölçmesine yardımcı olur.
C
maliyet
Kayıp ile eş anlamlıdır.
karşıt gerçeklik adaleti
Bir sınıflandırıcının, bir veya daha fazla hassas özellik dışında, bir kişi için ilk kişiyle aynı olan başka bir kişi için aynı sonucu verip vermediğini kontrol eden bir adaletlilik metriği. Bir sınıflandırıcıyı karşıt gerçeklik adaleti açısından değerlendirmek, bir modeldeki olası önyargı kaynaklarını ortaya çıkarmanın yöntemlerinden biridir.
Daha fazla bilgi için aşağıdakilerden birini inceleyin:
- Makine Öğrenimi Hızlandırılmış Kursu'ndaki Adil olma: Yanlış koşullu adil olma başlıklı makaleyi inceleyin.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
çapraz entropi
Log kaybının çok sınıflı sınıflandırma sorunları için genelleştirilmiş hali. Çapraz entropi, iki olasılık dağılımı arasındaki farkı ölçer. Ayrıca şaşkınlık konusuna da bakın.
Kümülatif dağılım işlevi (KDF)
Hedef değere eşit veya hedef değerden küçük örneklerin sıklığını tanımlayan bir işlev. Örneğin, sürekli değerlerin normal dağılımını düşünün. CDF, örneklerin yaklaşık% 50'sinin ortalamanın altında veya ortalamaya eşit, örneklerin yaklaşık% 84'ünün ise ortalamanın bir standart sapma üzerinde veya ortalamaya eşit olması gerektiğini gösterir.
D
demografik eşitlik
Bir modelin sınıflandırmasının sonuçları belirli bir hassas özelliğe bağlı değilse karşılanan bir adaletlilik metriği.
Örneğin, hem Lilliputlular hem de Brobdingnaglılar Glubbdubdrib Üniversitesi'ne başvurursa, bir grubun diğerinden ortalama olarak daha nitelikli olup olmadığına bakılmaksızın, kabul edilen Lilliputlular yüzdesi ile kabul edilen Brobdingnaglılar yüzdesi aynı olduğunda demografik eşitlik sağlanır.
Eşit olasılıklar ve fırsat eşitliği ile karşılaştırıldığında, toplu sınıflandırma sonuçlarının hassas özelliklere bağlı olmasına izin verir ancak belirli belirtilen gerçek doğruluk etiketlerinin sınıflandırma sonuçlarının hassas özelliklere bağlı olmasına izin vermez. Demografik eşitlik için optimizasyon yaparken yapılan trade-off'ları gösteren bir görselleştirme için "Daha akıllı makine öğrenimiyle ayrımcılığa karşı mücadele etme" başlıklı makaleyi inceleyin.
Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Adil olma: demografik eşitlik bölümüne bakın.
E
toprak işleyicinin mesafesi (EMD)
İki dağılımın göreli benzerliğinin ölçümüdür. Toprağı hareket ettiren aracın mesafesi ne kadar düşükse dağılımlar o kadar benzer olur.
mesafeyi düzenleme
İki metin dizesinin birbirine ne kadar benzediğinin ölçümü. Makine öğrenimindeki düzenleme mesafesi şu nedenlerle yararlıdır:
- Düzenleme mesafesinin hesaplanması kolaydır.
- Düzenleme mesafesi, birbirine benzer olduğu bilinen iki dizeyi karşılaştırabilir.
- Düzenleme mesafesi, farklı dizelerin belirli bir dizeye ne kadar benzediğini belirleyebilir.
Düzenleme mesafesinin her biri farklı dize işlemleri kullanan birkaç tanımı vardır. Örnek için Levenshtein mesafesi başlıklı makaleyi inceleyin.
deneysel kümülatif dağılım işlevi (eCDF veya EDF)
Gerçek bir veri kümesinden alınan deneysel ölçümlere dayalı bir kümülatif dağılım fonksiyonu. x eksenindeki herhangi bir noktada işlevin değeri, veri kümesindeki gözlemlerin belirtilen değerden az veya eşit olan kesridir.
entropi
Bilgi teorisinde, olasılık dağılımının ne kadar tahmin edilemez olduğunun açıklaması. Alternatif olarak entropi, her örnek'in ne kadar bilgi içerdiği olarak da tanımlanır. Bir rastgele değişkenin tüm değerlerinin olasılığı eşit olduğunda dağılım mümkün olan en yüksek entropi değerine sahiptir.
"0" ve "1" olmak üzere iki olası değere sahip bir kümenin entropisi (örneğin, ikili sınıflandırma problemindeki etiketler) aşağıdaki formüle sahiptir:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
Bu örnekte:
- H entropidir.
- p, "1" örneklerinin kesridir.
- q, "0" örneklerinin kesridir. q = (1 - p) olduğunu unutmayın.
- log genellikle log2'dir. Bu durumda entropi birimi bittir.
Örneğin, aşağıdakileri varsayalım:
- 100 örnek "1" değerini içerir
- 300 örnek "0" değerini içeriyor
Bu nedenle, entropi değeri:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = örnek başına 0,81 bit
Mükemmel şekilde dengelenmiş bir kümenin (örneğin, 200 "0" ve 200 "1") örnek başına entropisi 1,0 bit olur. Bir küme daha dengeli hale geldikçe entropisi 0, 0'a doğru hareket eder.
Karar ağaçlarında entropi, sınıflandırma karar ağacının büyümesi sırasında ayırıcı'nın koşulları seçmesine yardımcı olmak için bilgi kazancını formüle etmeye yardımcı olur.
Entropiyi şu verilerle karşılaştırın:
- gini impurity
- çapraz entropi kayıp işlevi
Entropi genellikle Shannon entropisi olarak adlandırılır.
Daha fazla bilgi için Karar Ağaçları kursunda Sayısal özelliklere sahip ikili sınıflandırma için tam bölücü bölümüne bakın.
fırsat eşitliği
Bir modelin, hassas bir özelliğin tüm değerleri için istenen sonucu eşit derecede iyi tahmin edip etmediğini değerlendirmek üzere kullanılan bir adaletlilik metriği. Diğer bir deyişle, bir model için istenen sonuç pozitif sınıf ise hedef, gerçek pozitif oranının tüm gruplar için aynı olmasını sağlamaktır.
Fırsat eşitliği, eşitleştirilmiş olasılıklar ile ilgilidir. Bu, hem gerçek pozitif oranlarının hem de yanlış pozitif oranlarının tüm gruplar için aynı olmasını gerektirir.
Glubbdubdrib Üniversitesi'nin hem Lilliputluları hem de Brobdingnaglıları titiz bir matematik programına kabul ettiğini varsayalım. Lilliput'un ortaokullarında zengin bir matematik müfredatı sunulur ve öğrencilerin büyük çoğunluğu üniversite programına uygundur. Brobdingnag'ın ortaokullarında matematik dersleri hiç verilmez. Bu nedenle, öğrencilerinin çok azı bu programa uygundur. Uygun öğrencilerin Lilliputian veya Brobdingnagian olmalarından bağımsız olarak kabul edilme olasılıkları eşitse, vatandaşlığa göre tercih edilen "kabul edildi" etiketi için fırsat eşitliği sağlanır.
Örneğin, Glubbdubdrib Üniversitesi'ne 100 Lilliput ve 100 Brobdingnag öğrenci başvurduğunu ve kabul kararlarının aşağıdaki gibi verildiğini varsayalım:
Tablo 1. Lilliputian başvuru sahipleri (%90'ı uygundur)
Uygun | Uygun Değil | |
---|---|---|
Kabul edildi | 45 | 3 |
Reddedildi | 45 | 7 |
Toplam | 90 | 10 |
Kabul edilen uygun öğrencilerin yüzdesi: 45/90 =%50 Kabul edilmeyen uygun olmayan öğrencilerin yüzdesi: 7/10 =%70 Kabul edilen Lilliputian öğrencilerin toplam yüzdesi: (45+3)/100 = %48 |
Tablo 2. Dev başvuru sahipleri (%10'u uygundur):
Uygun | Uygun Değil | |
---|---|---|
Kabul edildi | 5 | 9 |
Reddedildi | 5 | 81 |
Toplam | 10 | 90 |
Kabul edilen uygun öğrencilerin yüzdesi: 5/10 =%50 Kabul edilmeyen uygun olmayan öğrencilerin yüzdesi: 81/90 =%90 Kabul edilen Brobdingnagian öğrencilerin toplam yüzdesi: (5+9)/100 = %14 |
Yukarıdaki örneklerde, uygun Lilliput ve Brobdingnag vatandaşlarının kabul edilme şansı% 50 olduğundan uygun öğrencilerin kabulü için fırsat eşitliği sağlanmaktadır.
Fırsat eşitliği sağlanmış olsa da aşağıdaki iki adalet metriği sağlanmamıştır:
- Demografik eşitlik: Lilliput ve Brobdingnag sakinleri üniversiteye farklı oranlarda kabul edilir. Lilliput sakinlerinin% 48'i, Brobdingnag sakinlerinin ise yalnızca% 14'ü kabul edilir.
- Eşit olasılıklar: Uygun Lilliput ve Brobdingnag öğrencilerinin kabul edilme şansı aynı olsa da, uygun olmayan Lilliput ve Brobdingnag öğrencilerinin reddedilme şansının da aynı olması koşulu karşılanmaz. Uygun olmayan Lilliputian'ların ret oranı% 70 iken uygun olmayan Brobdingnag'ların ret oranı% 90'tır.
Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Adil olma: Fırsat eşitliği bölümüne bakın.
eşitlenmiş oranlar
Bir modelin, yalnızca bir sınıfa değil, hem pozitif sınıf hem de negatif sınıf ile ilgili olarak hassas bir özelliğin tüm değerleri için sonuçları eşit derecede iyi tahmin edip etmediğini değerlendirmek üzere kullanılan adalet metriği. Diğer bir deyişle, hem doğru pozitif oranı hem de yanlış negatif oranı tüm gruplar için aynı olmalıdır.
Eşitlenmiş oranlar, yalnızca tek bir sınıfın (pozitif veya negatif) hata oranlarına odaklanan fırsat eşitliği ile ilgilidir.
Örneğin, Glubbdubdrib Üniversitesi'nin hem Lilliputluları hem de Brobdingnaglıları sıkı bir matematik programına kabul ettiğini varsayalım. Lilliputians'ın ortaokullarında zengin bir matematik müfredatı sunulur ve öğrencilerin büyük çoğunluğu üniversite programına uygundur. Brobdingnag'ın ortaokullarında hiç matematik dersi verilmez. Bu nedenle, öğrencilerinin çok azı bu programa uygundur. Eşitlenmiş olasılıklar, başvuru sahibinin Lilliputian veya Brobdingnagian olması fark etmeksizin, uygun olan adayların programa kabul edilme olasılığının eşit olması ve uygun olmayan adayların reddedilme olasılığının eşit olması koşuluyla sağlanır.
Glubbdubdrib Üniversitesi'ne 100 Lilliput ve 100 Brobdingnag öğrenci başvurduğunu ve kabul kararlarının aşağıdaki şekilde alındığını varsayalım:
Tablo 3. Lilliputian başvuru sahipleri (%90'ı uygundur)
Uygun | Uygun Değil | |
---|---|---|
Kabul edildi | 45 | 2 |
Reddedildi | 45 | 8 |
Toplam | 90 | 10 |
Kabul edilen uygun öğrencilerin yüzdesi: 45/90 =%50 Kabul edilmeyen uygunsuz öğrencilerin yüzdesi: 8/10 =%80 Kabul edilen Lilliputian öğrencilerin toplam yüzdesi: (45+2)/100 = %47 |
Tablo 4. Dev başvuru sahipleri (%10'u uygundur):
Uygun | Uygun Değil | |
---|---|---|
Kabul edildi | 5 | 18 |
Reddedildi | 5 | 72 |
Toplam | 10 | 90 |
Kabul edilen uygun öğrencilerin yüzdesi: 5/10 =%50 Kabul edilmeyen uygun olmayan öğrencilerin yüzdesi: 72/90 =%80 Kabul edilen Brobdingnagian öğrencilerin toplam yüzdesi: (5+18)/100 = %23 |
Uygun Lilliput ve Brobdingnag öğrencilerinin kabul edilme şansı% 50, uygun olmayan Lilliput ve Brobdingnag öğrencilerinin reddedilme şansı ise% 80 olduğundan eşitlenmiş olasılıklar sağlanır.
Eşitlenmiş olasılıklar, "Gözetimli Öğrenmede Fırsat Eşitliği" başlıklı makalede şu şekilde tanımlanmıştır: "Ŷ ve A bağımsızsa, Y koşuluyla Ŷ öngörücüsü, korunan özellik A ve sonuç Y ile ilgili eşitlenmiş olasılıkları karşılar."
evals
Öncelikle LLM değerlendirmeleri için kısaltma olarak kullanılır. Daha geniş bir açıdan bakıldığında evals, değerlendirme biçimlerinin kısaltmasıdır.
değerlendirme
Bir modelin kalitesini ölçme veya farklı modelleri birbiriyle karşılaştırma işlemi.
Bir gözetimli makine öğrenimi modelini değerlendirmek için genellikle doğrulama kümesi ve test kümesi ile karşılaştırırsınız. LLM'yi değerlendirme genellikle daha kapsamlı kalite ve güvenlik değerlendirmelerini içerir.
C
F1
Hem hassasiyet hem de geri çağırma metriklerini temel alan bir "toplama" ikili sınıflandırma metriği. Formül şu şekildedir:
Örnekleri görmek için simgeyi tıklayın.
adalet metriği
"Adalet"in ölçülebilir olan matematiksel bir tanımı. Yaygın olarak kullanılan adalet metriklerinden bazıları şunlardır:
Birçok adalet metriği birbirini dışlar. Adalet metriklerinin uyumsuzluğu başlıklı makaleyi inceleyin.
yanlış negatif (FN)
Modelin yanlışlıkla negatif sınıfı tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta mesajının spam olmadığını (negatif sınıf) tahmin ediyor ancak söz konusu e-posta mesajı aslında spam.
yanlış negatif oranı
Modelin yanlışlıkla negatif sınıfı tahmin ettiği gerçek pozitif örneklerin oranı. Aşağıdaki formül, yanlış negatif oranı hesaplar:
Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Eşikler ve karışıklık matrisi bölümüne bakın.
yanlış pozitif (FP)
Modelin yanlışlıkla pozitif sınıfı tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta mesajının spam (pozitif sınıf) olduğunu tahmin eder ancak söz konusu e-posta mesajı aslında spam değildir.
Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Eşikler ve karışıklık matrisi bölümüne bakın.
yanlış pozitif oranı (FPR)
Modelin yanlışlıkla pozitif sınıfı tahmin ettiği gerçek negatif örneklerin oranı. Aşağıdaki formül, yanlış pozitif oranını hesaplar:
Yanlış pozitif oranı, ROC eğrisinde x eksenidir.
Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Sınıflandırma: ROC ve AUC bölümüne bakın.
özellik önem düzeyleri
Değişken önemleri için eş anlamlı.
başarı oranı
Bir yapay zeka modelinin oluşturulan metnini değerlendirmek için kullanılan bir metriktir. Başarı oranı, oluşturulan "başarılı" metin çıktılarının toplam oluşturulan metin çıktısı sayısına bölünmesiyle elde edilir. Örneğin, bir büyük dil modeli 10 kod bloğu oluşturduysa ve bunların beşi başarılı olduysa başarı oranı %50 olur.
Başarı oranı, istatistikler genelinde geniş bir şekilde faydalı olsa da makine öğrenimi kapsamında bu metrik, öncelikle kod oluşturma veya matematik problemleri gibi doğrulanabilir görevleri ölçmek için faydalıdır.
G
gini safsızlık
Entropy'ye benzer bir metrik. Bölücüler, sınıflandırma karar ağaçları için koşullar oluşturmak amacıyla gini safsızlık veya entropi değerlerinden türetilen değerleri kullanır. Bilgi kazancı entropi temellidir. Gini safsızlıktan türetilen metrik için evrensel olarak kabul edilen eşdeğer bir terim yoktur. Ancak bu adsız metrik, bilgi kazancı kadar önemlidir.
Gini safsızlık oranı, gini endeksi veya kısaca gini olarak da bilinir.
Gini safsızlık oranıyla ilgili matematiksel ayrıntılar için simgeyi tıklayın.
H
menteşe kaybı
Sınıflandırma için karar sınırını her eğitim örneğinden mümkün olduğunca uzakta bulmak üzere tasarlanmış bir kayıp işlevi ailesidir. Böylece, örnekler ile sınır arasındaki marjı en üst düzeye çıkarır. KSVM'ler, menteşe kaybını (veya kare menteşe kaybı gibi ilgili bir işlevi) kullanır. İkili sınıflandırma için menteşe kaybı işlevi aşağıdaki gibi tanımlanır:
Burada y, -1 veya +1 olan gerçek etiket, y' ise sınıflandırıcı modelinin ham çıkışıdır:
Sonuç olarak, menteşe kaybının (y * y') ile karşılaştırmalı grafiği aşağıdaki gibi görünür:
I
adalet metriklerinin uyumsuzluğu
Bazı adalet kavramlarının birbirine uymadığı ve aynı anda karşılanamayacağı fikri. Sonuç olarak, tüm makine öğrenimi sorunlarına uygulanabilecek, adaleti ölçmek için tek bir evrensel metrik yoktur.
Bu durum cesaret kırıcı görünse de adalet metriklerinin uyumsuzluğu, adalet çabalarının sonuçsuz olduğu anlamına gelmez. Bunun yerine, adalet kavramının bağlamsal olarak tanımlanması gerektiğini, böylece kullanım alanlarına özgü zararların önlenmesi gerektiğini öne sürüyor.
Adil olma metriklerinin uyumsuzluğu hakkında daha ayrıntılı bir tartışma için "Adil olmanın (im)mkansızlığı hakkında" başlıklı makaleyi inceleyin.
Bireysel adalet
Benzer kişilerin benzer şekilde sınıflandırılıp sınıflandırılmadığını kontrol eden bir adalet metriği. Örneğin, Brobdingnagian Akademisi, aynı notlara ve standartlaştırılmış sınav puanlarına sahip iki öğrencinin kabul edilme olasılığının eşit olmasını sağlayarak bireysel adaleti sağlamak isteyebilir.
Bireysel adaletin tamamen "benzerlik"i (bu durumda notlar ve sınav puanları) nasıl tanımladığınıza bağlı olduğunu ve benzerlik metriğiniz önemli bilgileri (ör. bir öğrencinin müfredatının titizliği) göz ardı ederse yeni adalet sorunları ortaya çıkarma riskiyle karşı karşıya kalabileceğinizi unutmayın.
Bireysel adalet hakkında daha ayrıntılı bilgi için "Farkındalık
bilgi kazancı
Karar ağaçlarında, bir düğümün entropisi ile alt düğümlerinin entropisinin ağırlıklı (örnek sayısına göre) toplamı arasındaki farktır. Bir düğümün entropisi, söz konusu düğümdeki örneklerin entropisidir.
Örneğin, aşağıdaki entropi değerlerini ele alalım:
- Üst düğümün entropisi = 0,6
- 16 alakalı örnek içeren bir alt düğümün entropisi = 0,2
- 24 alakalı örnek içeren başka bir alt düğümün entropisi = 0,1
Dolayısıyla örneklerin% 40'ı bir alt düğümde, %60'ı ise diğer alt düğümdedir. Bu nedenle:
- Alt düğümlerin ağırlıklı entropi toplamı = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Dolayısıyla bilgi kazancı şu şekildedir:
- bilgi kazancı = üst öğenin entropisi - alt öğelerin ağırlıklı entropi toplamı
- Bilgi kazancı = 0,6 - 0,14 = 0,46
Çoğu ayırıcı, bilgi kazanımını en üst düzeye çıkaran koşullar oluşturmaya çalışır.
değerlendiriciler arası anlaşma
İnsan puanlayıcıların bir görevi yaparken ne sıklıkta anlaştığının ölçümü. Değerlendiriciler aynı fikirde değilse görev talimatlarının iyileştirilmesi gerekebilir. Bazen notlandırıcılar arası anlaşma veya değerlendiriciler arası güvenilirlik olarak da adlandırılır. Ayrıca, en popüler değerlendiriciler arası anlaşma ölçümlerinden biri olan Cohen kappasına da bakın.
Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Kategorik veriler: Sık karşılaşılan sorunlar bölümüne bakın.
L
L1 kaybı
Gerçek etiket değerleri ile bir modelin tahmin ettiği değerler arasındaki farkın mutlak değerini hesaplayan bir kayıp işlevi. Örneğin, beş örnek içeren bir grup için L1 kaybının hesaplanması aşağıda verilmiştir:
Örneğin gerçek değeri | Modelin tahmini değeri | Deltanın mutlak değeri |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = L1 mağlubiyeti |
L1 kaybı, L2 kaybına kıyasla aykırı değerlere karşı daha az hassastır.
Ortalama Mutlak Hata, örnek başına ortalama L1 kaybıdır.
Resmi matematik işlemlerini görmek için simgeyi tıklayın.
Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Doğrusal regresyon: Kayıp bölümüne bakın.
L2 kaybı
Gerçek etiket değerleri ile bir modelin tahmin ettiği değerler arasındaki farkın karesini hesaplayan bir kayıp işlevi. Örneğin, beş örnek içeren bir grup için L2 kaybının hesaplanması aşağıda verilmiştir:
Örneğin gerçek değeri | Modelin tahmini değeri | Deltanın karesi |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = L2 mağlubiyet |
Kare alma işlemi nedeniyle L2 kaybı, aykırı değerlerin etkisini artırır. Yani L2 kaybı, kötü tahminlere L1 kaybına kıyasla daha güçlü tepki verir. Örneğin, önceki toplu işlem için L1 kaybı 16 yerine 8 olur. Tek bir aykırı değerin 16 değerin 9'unu oluşturduğuna dikkat edin.
Regresyon modelleri genellikle kayıp işlevi olarak L2 kaybını kullanır.
Ortalama Karesel Hata, örnek başına ortalama L2 kaybıdır. Kare kaybı, L2 kaybının başka bir adıdır.
Resmi matematik işlemlerini görmek için simgeyi tıklayın.
Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Mantıksal regresyon: Kayıp ve normalleştirme bölümüne bakın.
LLM değerlendirmeleri (evals)
Büyük dil modellerinin (LLM'ler) performansını değerlendirmeye yönelik bir dizi metrik ve karşılaştırma. Genel olarak LLM değerlendirmeleri:
- Araştırmacıların, LLM'lerin iyileştirilmesi gereken alanlarını belirlemesine yardımcı olun.
- Farklı LLM'leri karşılaştırmak ve belirli bir görev için en iyi LLM'yi belirlemek için yararlıdır.
- LLM'lerin güvenli ve etik bir şekilde kullanılmasına yardımcı olma
Daha fazla bilgi için Makine Öğrenimi Hızlandırılmış Kursu'ndaki Büyük dil modelleri (LLM'ler) bölümüne bakın.
mağlubiyet
Gözetimli bir modelin eğitimi sırasında, modelin tahmininin etiketinden ne kadar uzak olduğunu gösteren bir ölçümdür.
Kayıp işlevi, kaybı hesaplar.
Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Doğrusal regresyon: Kayıp bölümüne bakın.
kayıp fonksiyonu
Eğitim veya test sırasında, bir toplu örnekteki kaybı hesaplayan matematiksel işlev. Kayıp işlevi, iyi tahminler yapan modeller için kötü tahminler yapan modellere kıyasla daha düşük bir kayıp döndürür.
Eğitimin amacı genellikle bir kayıp işlevinin döndürdüğü kaybı en aza indirmektir.
Birçok farklı kayıp fonksiyonu vardır. Oluşturduğunuz model türü için uygun kayıp işlevini seçin. Örneğin:
- L2 kaybı (veya ortalama kare hata), doğrusal regresyon için kayıp işlevidir.
- Log kaybı, mantıksal regresyon için kayıp işlevidir.
M
Ortalama Mutlak Hata (MAE)
L1 kaybı kullanıldığında örnek başına ortalama kayıp. Ortalama mutlak hatayı aşağıdaki gibi hesaplayın:
- Bir toplu işlem için L1 kaybını hesaplama
- L1 kaybını, gruptaki örneklerin sayısına bölün.
Resmi matematik işlemlerini görmek için simgeyi tıklayın.
Örneğin, aşağıdaki beş örnekten oluşan grupta L1 kaybının hesaplamasını ele alalım:
Örneğin gerçek değeri | Modelin tahmini değeri | Kayıp (gerçek ve tahmin edilen arasındaki fark) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = L1 mağlubiyeti |
Dolayısıyla L1 kaybı 8 ve örnek sayısı 5'tir. Bu nedenle, ortalama mutlak hata:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
Ortalama mutlak hatayı ortalama karesel hata ve kök ortalama karesel hata ile karşılaştırın.
k değerinde ortalama hassasiyet (mAP@k)
Doğrulama veri kümesinde tüm k için ortalama hassasiyet puanlarının istatistiksel ortalaması. k değerinde ortalama hassasiyetin bir kullanım alanı, öneri sistemi tarafından oluşturulan önerilerin kalitesini değerlendirmektir.
"Ortalama ortalama" ifadesi gereksiz görünse de metriğin adı uygundur. Sonuçta bu metrik, birden fazla k değerinde ortalama kesinlik değerinin ortalamasını bulur.
Örnek görmek için simgeyi tıklayın.
Ortalama Karesel Hata (MSE)
L2 kaybı kullanıldığında örnek başına ortalama kayıp. Ortalama karesel hatayı aşağıdaki gibi hesaplayın:
- Bir toplu işlem için L2 kaybını hesaplama
- L2 kaybını, gruptaki örneklerin sayısına bölün.
Resmi matematik işlemlerini görmek için simgeyi tıklayın.
Örneğin, aşağıdaki beş örnekten oluşan gruptaki kaybı ele alalım:
Gerçek değer | Modelin tahmini | Kayıp | Kare kaybı |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = L2 mağlubiyet |
Bu nedenle, ortalama karesel hata:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
Ortalama Karesel Hata, özellikle doğrusal regresyon için popüler bir eğitim optimizasyon aracıdır.
Ortalama karesel hatayı ortalama mutlak hata ve kök ortalama kare hatasıyla karşılaştırın.
TensorFlow Playground, kayıp değerlerini hesaplamak için Ortalama Kare Hata değerini kullanır.
Aykırı değerlerle ilgili daha fazla ayrıntı görmek için simgeyi tıklayın.
metrik
Önemsediğiniz bir istatistik.
Hedef, bir makine öğrenimi sisteminin optimize etmeye çalıştığı bir metriktir.
Metrics API (tf.metrics)
Modelleri değerlendirmek için bir TensorFlow API'si. Örneğin, tf.metrics.accuracy
, bir modelin tahminlerinin etiketlerle ne sıklıkta eşleştiğini belirler.
minimax kaybı
Oluşturulan verilerin dağılımı ile gerçek verilerin dağılımı arasındaki çapraz entropi değerine dayalı üretici zıt ağlar için kayıp işlevi.
Minimax kaybı, üretken zıt ağları açıklamak için ilk makalede kullanılır.
Daha fazla bilgi için Üretken Düşman Ağlar kursundaki Kayıp İşlevleri bölümüne bakın.
model kapasitesi
Bir modelin öğrenebileceği sorunların karmaşıklığı. Bir modelin öğrenebileceği sorunların karmaşıklığı arttıkça modelin kapasitesi de artar. Bir modelin kapasitesi genellikle model parametrelerinin sayısıyla artar. Sınıflandırıcı kapasitesinin resmi tanımı için VC boyutu başlıklı makaleyi inceleyin.
H
negatif sınıf
İkili sınıflandırmada bir sınıf pozitif, diğeri ise negatif olarak adlandırılır. Pozitif sınıf, modelin test ettiği şey veya etkinliktir ve negatif sınıf diğer olasılıktır. Örneğin:
- Bir tıbbi testteki negatif sınıf "tümör değil" olabilir.
- Bir e-posta sınıflandırıcısındaki negatif sınıf "spam değil" olabilir.
Pozitif sınıf ile karşılaştırın.
O
hedef
Algoritmanızın optimize etmeye çalıştığı bir metrik.
hedef işlevi
Bir modelin optimize etmeyi amaçladığı matematiksel formül veya metrik. Örneğin, doğrusal regresyon için hedef işlevi genellikle ortalama kare kaybıdır. Bu nedenle, doğrusal regresyon modeli eğitilirken eğitim, ortalama kare kaybını en aza indirmeyi amaçlar.
Bazı durumlarda amaç, hedef işlevi maksimuma çıkarmaktır. Örneğin, hedef işlevi doğruluk ise hedef, doğruluğu en üst düzeye çıkarmaktır.
Ayrıca loss özelliğine bakın.
P
k'da geçiş (pass@k)
Büyük dil modelinin oluşturduğu kodun (ör. Python) kalitesini belirlemek için kullanılan metrik. Daha ayrıntılı olarak belirtmek gerekirse, k değerinde geçme, k adet oluşturulan kod bloğundan en az birinin tüm birim testlerini geçme olasılığını belirtir.
Büyük dil modelleri, karmaşık programlama sorunları için genellikle iyi kod oluşturmakta zorlanır. Yazılım mühendisleri, büyük dil modelinden aynı sorun için birden fazla (k) çözüm üretmesini isteyerek bu soruna uyum sağlar. Ardından yazılım mühendisleri, çözümlerin her birini birim testleriyle test eder. k değerinde geçmenin hesaplanması, birim testlerinin sonucuna bağlıdır:
- Bu çözümlerden en az biri birim testini geçerse LLM, kod oluşturma zorluğunu geçer.
- Çözümlerin hiçbiri birim testini geçemezse LLM, kod oluşturma mücadelesini başarısız olur.
k'ta geçiş için formül aşağıdaki gibidir:
pass at k=total number of passestotal number of challenges
Genel olarak, k değerleri ne kadar yüksek olursa k puanları da o kadar yüksek olur. Ancak k değerleri ne kadar yüksek olursa o kadar büyük dil modeli ve birim testi kaynağı gerekir.
Örnek için simgeyi tıklayın.
performans
Aşağıdaki anlamlara sahip olan aşırı yüklenmiş terim:
- Yazılım mühendisliğindeki standart anlam. Yani: Bu yazılım ne kadar hızlı (veya verimli) çalışıyor?
- Makine öğrenimindeki anlamı. Burada performans, şu soruya yanıt verir: Bu model ne kadar doğru? Yani, modelin tahminleri ne kadar iyi?
permütasyon değişkeni önemleri
Özelliğin değerlerini permütasyona tabi tuttuktan sonra bir modelin tahmin hatasındaki artışı değerlendiren bir değişken önemi türü. Permütasyon değişkeni önemi, modelden bağımsız bir metriktir.
şaşkınlık
Bir modelin görevini ne kadar iyi yerine getirdiğini gösteren bir ölçümdür. Örneğin, kullanıcının telefon klavyesinde yazdığı bir kelimenin ilk birkaç harfini okumak ve kelimeyi tamamlamak için kullanılabilecek kelimelerin listesini sunmak göreviniz olduğunu varsayalım. Bu görev için kafa karışıklığı (P), listenizin kullanıcının yazmaya çalıştığı gerçek kelimeyi içermesi için sunmanız gereken tahmin sayısına yaklaşık olarak eşittir.
Kafa karışıklığı, çapraz entropi ile aşağıdaki şekilde ilişkilidir:
pozitif sınıf
Test ettiğiniz sınıf.
Örneğin, bir kanser modelindeki pozitif sınıf "tümör" olabilir. Bir e-posta sınıflandırıcısındaki pozitif sınıf "spam" olabilir.
Negatif sınıf ile karşılaştırın.
Ek notlar için simgeyi tıklayın.
PR AUC (PR eğrisinin altındaki alan)
Sınıflandırma eşiğinin farklı değerleri için noktaların (geri çağırma, hassasiyet) çizilmesiyle elde edilen, hassasiyet/geri çağırma eğrisinin altındaki alan.
precision
Aşağıdaki soruyu yanıtlayan sınıflandırma modelleri için bir metrik:
Model pozitif sınıfı tahmin ettiğinde tahminlerin yüzde kaçı doğruydu?
Formül şu şekildedir:
Bu örnekte:
- Gerçek pozitif, modelin pozitif sınıfı doğru tahmin ettiği anlamına gelir.
- Yanlış pozitif, modelin pozitif sınıfı yanlışlıkla tahmin ettiği anlamına gelir.
Örneğin, bir modelin 200 pozitif tahminde bulunduğunu varsayalım. Bu 200 olumlu tahminden:
- 150'i gerçek pozitifti.
- 50'si yanlış pozitifti.
Bu durumda:
Doğruluk ve geri çağırma ile karşılaştırın.
Daha fazla bilgi için Makine Öğrenimi Acele Kursu'ndaki Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler bölümüne bakın.
k değerinde hassasiyet (precision@k)
Sıralı (sıralı) bir öğe listesini değerlendirmek için kullanılan bir metrik. k değerinde hassasiyet, söz konusu listedeki ilk k öğenin "alakalı" olan kısmını tanımlar. Yani:
precision at k=relevant items in first k items of the listk
k değerinin, döndürülen listenin uzunluğundan az veya buna eşit olması gerekir. Döndürülen listenin uzunluğunun hesaplamaya dahil edilmediğini unutmayın.
Alaka düzeyi genellikle özneldir. Uzman değerlendiriciler bile hangi öğelerin alakalı olduğu konusunda genellikle aynı fikirde değildir.
Şununla karşılaştır:
Örnek görmek için simgeyi tıklayın.
hassasiyet/geri çağırma eğrisi
Farklı sınıflandırma eşiklerinde hassasiyet ve geri çağırma arasındaki ilişkiyi gösteren eğri.
Tahmin önyargısı
Tahminlerin ortalamasının, veri kümesindeki etiketlerin ortalamasından ne kadar uzak olduğunu gösteren bir değer.
Makine öğrenimi modellerindeki önyargı terimi veya etik ve adaletle ilgili önyargı ile karıştırılmamalıdır.
tahmini eşleşme
Belirli bir sınıflandırıcı için hassasiyet oranlarının, ele alınan alt gruplar için eşdeğer olup olmadığını kontrol eden bir adaletlilik metriği.
Örneğin, üniversite kabulünü tahmin eden bir model, Lilliputians ve Brobdingnagians için doğruluk oranı aynıysa vatandaşlık için tahmini eşitliği karşılar.
Tahmini eşleşme bazen tahmini ücret eşleşmesi olarak da adlandırılır.
Tahmini eşitlik hakkında daha ayrıntılı bilgi için "Adil Oluş Tanımları Açıklandı" başlıklı makaleyi (3.2.1 numaralı bölüm) inceleyin.
tahmini ücret dengesi
Tahmini eşleşme için başka bir ad.
olasılık yoğunluk fonksiyonu
Tam olarak belirli bir değere sahip veri örneklerinin sıklığını tanımlayan bir işlev. Bir veri kümesinin değerleri kesintisiz kayan noktalı sayılar olduğunda tam eşleşmeler nadiren gerçekleşir. Ancak, olasılık yoğunluk işlevini x
değerinden y
değerine entegrasyonu, x
ile y
arasındaki veri örneklerinin beklenen sıklığını verir.
Örneğin, ortalaması 200 ve standart sapması 30 olan normal bir dağılımı ele alalım. 211,4 ile 218,7 aralığına düşen veri örneklerinin beklenen sıklığını belirlemek için 211,4 ile 218,7 arasındaki normal dağılım için olasılık yoğunluk işlevini entegre edebilirsiniz.
K
hatırlanabilirlik
Aşağıdaki soruyu yanıtlayan sınıflandırma modelleri için bir metrik:
Kesin referans pozitif sınıf olduğunda model, tahminlerin yüzde kaçında pozitif sınıfı doğru olarak tanımladı?
Formül şu şekildedir:
Recall=true positivestrue positives+false negatives
Bu örnekte:
- Gerçek pozitif, modelin pozitif sınıfı doğru tahmin ettiği anlamına gelir.
- Yanlış negatif, modelin negatif sınıfı yanlışlıkla tahmin ettiği anlamına gelir.
Örneğin, modelinizin kesin referansı pozitif sınıf olan örneklerde 200 tahmin yaptığını varsayalım. Bu 200 tahminden:
- 180'i gerçek pozitifti.
- 20 tanesi yanlış negatifti.
Bu durumda:
Recall=180180+20=0.9
Sınıf dengesi bozuk veri kümeleriyle ilgili notlar için simgeyi tıklayın.
Daha fazla bilgi için Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler başlıklı makaleyi inceleyin.
k değerinde geri çağırma (recall@k)
Sıralı (sıralı) bir öğe listesi yayınlayan sistemleri değerlendirmek için kullanılan bir metrik. k'ta geri çağırma, listelenen ilk k öğedeki alakalı öğelerin, döndürülen toplam alakalı öğe sayısına oranını tanımlar.
recall at k=relevant items in first k items of the listtotal number of relevant items in the list
k değerinde hassasiyet ile kontrast.
Örnek görmek için simgeyi tıklayın.
ROC (alıcı çalışma özelliği) eğrisi
İkili sınıflandırmada farklı sınıflandırma eşikleri için gerçek pozitif oranı ve yanlış pozitif oranı grafiği.
ROC eğrisinin şekli, ikili sınıflandırma modelinin pozitif sınıfları negatif sınıflardan ayırma yeteneğini gösterir. Örneğin, bir ikili sınıflandırma modelinin tüm negatif sınıfları tüm pozitif sınıflardan mükemmel şekilde ayırdığını varsayalım:
Önceki modelin ROC eğrisi aşağıdaki gibi görünür:
Buna karşılık, aşağıdaki görselde, negatif sınıfları pozitif sınıflardan ayıramayan kötü bir modelin ham mantıksal regresyon değerleri grafik halinde gösterilmektedir:
Bu modelin ROC eğrisi aşağıdaki gibi görünür:
Bu arada gerçek dünyada, çoğu ikili sınıflandırma modeli pozitif ve negatif sınıfları bir dereceye kadar ayırır ancak genellikle mükemmel bir şekilde ayırmaz. Bu nedenle, tipik bir ROC eğrisi iki uç nokta arasında bir yere düşer:
ROC eğrisinde (0,0; 1,0) noktasına en yakın nokta, teorik olarak ideal sınıflandırma eşiğini tanımlar. Ancak gerçek dünyadaki diğer bazı sorunlar, ideal sınıflandırma eşiğinin seçimini etkiler. Örneğin, yanlış negatifler yanlış pozitiflerden çok daha fazla soruna yol açıyor olabilir.
AUC adlı sayısal metrik, ROC eğrisini tek bir kayan nokta değeri olarak özetler.
Kök ortalama kare hatası (RMSE)
Ortalama Karesel Hatanın karekökü.
ROUGE (Tahmin Değerlendirmesi İçin Hatırlama Odaklı Yardımcı)
Otomatik özetleme ve makine çevirisi modellerini değerlendiren bir metrik ailesi. ROUGE metrikleri, bir referans metninin bir yapay zeka modelinin oluşturulan metniyle örtüşme derecesini belirler. ROUGE ailesinin her üyesi, çakışma ölçümlerini farklı bir şekilde gerçekleştirir. Daha yüksek ROUGE puanları, referans metin ile oluşturulan metin arasında daha düşük ROUGE puanlarına kıyasla daha fazla benzerlik olduğunu gösterir.
Her ROUGE aile üyesi genellikle aşağıdaki metrikleri oluşturur:
- Hassasiyet
- Geri çağırma
- F1
Ayrıntılar ve örnekler için:
ROUGE-L
Referans metin ve oluşturulan metin içindeki en uzun ortak alt dizinin uzunluğuna odaklanan ROUGE ailesinin bir üyesidir. Aşağıdaki formüller, ROUGE-L için geri çağırma ve kesinliği hesaplar:
Ardından, ROUGE-L geri çağırma ve ROUGE-L doğruluğunu tek bir metriğe toplamak için F1 kullanabilirsiniz:
ROUGE-L ile ilgili örnek bir hesaplama için simgeyi tıklayın.
ROUGE-L, referans metin ve oluşturulan metindeki tüm yeni satırları yoksayar. Bu nedenle, en uzun ortak alt dize birden fazla cümleyi kapsayabilir. Referans metin ve oluşturulan metin birden fazla cümle içeriyorsa genellikle ROUGE-L'nin ROUGE-Lsum adlı bir varyasyonu daha iyi bir metriktir. ROUGE-Lsum, bir pasajdaki her cümle için en uzun ortak alt dizeyi belirler ve ardından bu en uzun ortak alt dizilerin ortalamasını hesaplar.
ROUGE-Lsum için örnek bir hesaplama görmek üzere simgeyi tıklayın.
ROUGE-N
ROUGE ailesindeki bir metrik grubu. Referans metin ile oluşturulan metin arasındaki belirli boyuttaki ortak N-gramları karşılaştırır. Örneğin:
- ROUGE-1, referans metin ile oluşturulan metinde paylaşılan jetonların sayısını ölçer.
- ROUGE-2, referans metin ile oluşturulan metinde paylaşılan bigramların (2 gram) sayısını ölçer.
- ROUGE-3, referans metin ile oluşturulan metinde ortak üçlü grupların (üçlü gruplar) sayısını ölçer.
ROUGE-N ailesinin herhangi bir üyesi için ROUGE-N geri çağırma ve ROUGE-N hassasiyetini hesaplamak üzere aşağıdaki formülleri kullanabilirsiniz:
Ardından, ROUGE-N geri çağırma ve ROUGE-N doğruluğunu tek bir metriğe toplamak için F1 kullanabilirsiniz:
Örnek için simgeyi tıklayın.
ROGUE-S
Skip-gram eşlemesini etkinleştiren, ROUGE-N'in hoşgörülü bir biçimidir. Yani ROUGE-N yalnızca tam olarak eşleşen N-gramları sayarken ROUGE-S bir veya daha fazla kelimeyle ayrılmış N-gramları da sayar. Örneğin aşağıdakileri göz önünde bulundurabilirsiniz:
- reference text: Beyaz bulutlar
- Oluşturulan metin: Beyaz bulutlar
ROUGE-N hesaplanırken 2 gramlık Beyaz bulutlar, Beyaz bulutlar ile eşleşmez. Ancak ROUGE-S hesaplanırken Beyaz bulutlar, Beyaz bulutlar ile eşleşir.
R-kare
Bir etiketteki varyasyonun ne kadarının tek bir özellikten veya özellik grubundan kaynaklandığını gösteren bir regresyon metriği. R-kare, 0 ile 1 arasında bir değerdir ve aşağıdaki şekilde yorumlanabilir:
- 0 olan R-kare değeri, etiketin varyasyonlarının hiçbirinin özellik grubundan kaynaklanmadığı anlamına gelir.
- 1 olan R-kare değeri, bir etiketin tüm varyasyonunun özellik grubundan kaynaklandığı anlamına gelir.
- 0 ile 1 arasında bir R-kare değeri, etiketin varyasyonunun belirli bir özellikten veya özellik grubundan ne kadar tahmin edilebileceğini gösterir. Örneğin, 0,10'luk bir R-kare değeri, etiketteki varyansın yüzde 10'unun özellik grubundan kaynaklandığı anlamına gelir. 0,20'lik bir R-kare değeri ise yüzde 20'sinin özellik grubundan kaynaklandığı anlamına gelir.
R kare, bir modelin tahmin ettiği değerler ile kesin referans arasındaki Pearson korelasyon katsayısının karesidir.
S
puanlama
Öneri sisteminin, aday oluşturma aşamasında üretilen her öğe için bir değer veya sıralama sağlayan kısmı.
benzerlik ölçümü
Gruplandırma algoritmalarında, iki örneğin birbirine ne kadar benzediğini (ne kadar benzer olduğunu) belirlemek için kullanılan metrik.
seyreklik
Bir vektör veya matriste sıfır (veya boş) olarak ayarlanan öğelerin sayısının, söz konusu vektör veya matristeki toplam giriş sayısına bölünmesiyle elde edilen değer. Örneğin, 98 hücresinin sıfır içerdiği 100 öğeli bir matrisi düşünün. Seyrekliğin hesaplanması aşağıdaki gibidir:
Özellik seyrekliği, bir özellik vektörünün seyrekliğini ifade eder. Model seyrekliği ise model ağırlıklarının seyrekliğini ifade eder.
kareli menteşe kaybı
Mengene kaybının karesi. Kare eklem kaybı, aykırı değerleri normal eklem kaybına kıyasla daha sert şekilde cezalandırır.
kare kaybı
L2 kaybı ile eş anlamlıdır.
T
test kaybı
Bir modelin test veri kümesine göre kayıp değerini temsil eden bir metrik. Model oluştururken genellikle test kaybını en aza indirmeye çalışırsınız. Bunun nedeni, düşük test kaybının düşük eğitim kaybı veya düşük doğrulama kaybı olduğundan daha güçlü bir kalite sinyali olmasıdır.
Test kaybı ile eğitim kaybı veya doğrulama kaybı arasındaki büyük bir fark, bazen normalleştirme oranını artırmanız gerektiğini gösterir.
en iyi k doğruluğu
Oluşturulan listelerin ilk k konumunda bir "hedef etiketinin" görünme yüzdesi. Listeler, kişiselleştirilmiş öneriler veya softmax'e göre sıralanmış öğelerin listesi olabilir.
En yüksek k doğruluğu, k doğruluğu olarak da bilinir.
Örnek için simgeyi tıklayın.
toksik
İçeriğin kötüye kullanım amaçlı, tehdit edici veya rahatsız edici olma derecesi. Birçok makine öğrenimi modeli, toksisiteyi tespit edip ölçebilir. Bu modellerin çoğu, toksikliği kötüye kullanım amaçlı dil ve tehdit edici dil düzeyi gibi birden fazla parametreyle tanımlar.
eğitim kaybı
Belirli bir eğitim iterasyonunda modelin kayıp değerini temsil eden bir metrik. Örneğin, kayıp işlevinin ortalama kare hatası olduğunu varsayalım. 10.iterasyon için eğitim kaybı (ortalama kare hata) 2,2 ve 100.iterasyon için eğitim kaybı 1,9 olabilir.
Kayıp eğrisi, eğitim kaybını iterasyon sayısına göre gösterir. Kayıp eğrisi, eğitimle ilgili aşağıdaki ipuçlarını sağlar:
- Aşağı doğru bir eğim, modelin iyileştiğini gösterir.
- Yukarı doğru bir eğim, modelin kötüye gittiğini gösterir.
- Düz bir eğim, modelin yakınsamaya ulaştığını gösterir.
Örneğin, aşağıdaki biraz idealize edilmiş kayıp eğrisi şunu gösterir:
- İlk iterasyonlar sırasında hızlı bir model iyileşmesi anlamına gelen dik bir aşağı eğim.
- Eğitimin sonuna yakın bir zamana kadar kademeli olarak düzleşen (ancak yine de aşağı doğru) bir eğim. Bu, modelin ilk iterasyonlara kıyasla biraz daha yavaş bir hızda iyileşmeye devam ettiğini gösterir.
- Eğimin eğitim sonuna doğru düzleşmesi, yakınsama olduğunu gösterir.
Eğitim kaybı önemli olsa da genelleştirme konusuna da göz atın.
Doğru negatif (TN)
Modelin negatif sınıfı doğru tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta mesajının spam olmadığını tahmin eder ve bu e-posta mesajı gerçekten spam değildir.
gerçek pozitif (TP)
Modelin pozitif sınıfı doğru tahmin ettiği bir örnek. Örneğin, model belirli bir e-posta iletisinin spam olduğunu tahmin eder ve bu e-posta iletisi gerçekten spam olur.
gerçek pozitif oranı (TPR)
Hatırlama ile eş anlamlıdır. Yani:
Gerçek pozitif oran, ROC eğrisinde y eksenidir.
V
doğrulama kaybı
Belirli bir iterasyonda modelin doğrulama kümesindeki kayıp değerini temsil eden bir metrik.
Genelleştirme eğrisi konusuna da göz atın.
değişken önemleri
Her bir özelliğin modele göreli önemini gösteren bir puan grubu.
Örneğin, ev fiyatlarını tahmin eden bir karar ağacını düşünün. Bu karar ağacında üç özellik kullanıldığını varsayalım: beden, yaş ve stil. Üç özellik için değişken önem değerleri {beden=5,8, yaş=2,5, stil=4,7} olarak hesaplanırsa beden, karar ağacı için yaş veya stilden daha önemlidir.
ML uzmanlarını modellerin farklı yönleri hakkında bilgilendirebilecek farklı değişken önem metrikleri vardır.
W
Wasserstein kaybı
Oluşturulan verilerin dağılımı ile gerçek veriler arasındaki yer değiştirici mesafesini temel alan, üretici zıt ağlarda yaygın olarak kullanılan kayıp işlevlerinden biridir.