ML'ye eğilim: Eğitim ve Kayıp

Bir modeli eğitmek, tüm ağırlıklar için iyi değerleri öğrenmek (belirlemek) ve etiketli örneklerden önyargı oluşturmak anlamına gelir. Gözetimli öğrenmede, bir makine öğrenimi algoritması birçok örneği araştırarak ve kayıpları en aza indiren bir model bulmaya çalışarak model oluşturur. Bu sürece emirli risk en aza indirme denir.

Kayıp, kötü bir tahminin cezasıdır. Diğer bir deyişle kayıp, modelin tahmininin tek bir örnekte ne kadar kötü olduğunu gösteren bir sayıdır. Modelin tahmini mükemmelse kayıp sıfırdır. Aksi takdirde kayıp daha fazla olur. Bir modeli eğitmenin amacı, tüm örneklerde ortalama düşük kaybı olan bir ağırlık ve ön yargı kümesini bulmaktır. Örneğin, Şekil 3'te, sol tarafta düşük kayıp modeli, sağ tarafta da düşük kayıp modeli gösterilmektedir. Şekille ilgili olarak aşağıdaki noktalara dikkat edin:

  • Oklar kaybı gösterir.
  • Mavi çizgiler tahminleri temsil eder.

Her biri çizgi ve bazı veri noktaları gösteren iki Cartesian çizimi. İlk görüşmede, satır veriler için çok uygun değildir. Bu nedenle çizgi büyüktür. İkinci şemada, çizgi veriler için daha uygun olduğundan kayıp azdır.

3. Şekil. Sol modelde yüksek kayıp; doğru modelde düşük kayıp.

 

Sol çizimdeki okların sağ taraftaki emsallerinden çok daha uzun olduğuna dikkat edin. Açık bir şekilde sağdaki grafiğin çizgisi, sol çizgideki çizgiden çok daha iyi bir tahmine dayalı modeldir.

Bu şekilde bireysel kayıpları anlamlı bir biçimde toplayacak matematiksel bir işlev (kayıp işlevi) oluşturup oluşturamayacağınızı merak ediyor olabilirsiniz.

Burada inceleyeceğimiz doğrusal regresyon modelleri, kare kayıp (L2 kaybı olarak da bilinir) adlı bir kayıp işlevi kullanır. Tek bir örnek için kare kayıp aşağıdaki gibidir:

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

Ortalama kare hata (MSE), tüm veri kümesi için örnek başına ortalama kare kaybıdır. MSE'yi hesaplamak için tek tek örneklere ait tüm kare kayıplarını toplayın ve örnek sayısına bölün:

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

Bu örnekte:

  • \((x, y)\) şu özelliklere sahip bir örneği:
    • \(x\) , modelin tahmin yaparken kullandığı bir dizi özelliktir (örneğin, dakika/dakika, yaş, cinsiyet).
    • \(y\) , etiketin örneğidir (örneğin, sıcaklık).
  • \(prediction(x)\) ağırlıkların ve ön yargının bir dizi özellikle birlikte işlevdir \(x\).
  • \(D\) değer çifti olan, etiketlenmiş birçok örnek içeren bir veri kümesidir \((x, y)\) .
  • \(N\) \(D\)bölgesindeki örnek sayısıdır.

MSE genellikle makine öğreniminde kullanılır ancak ne tek pratik kayıp işlevi ne de tüm durumlar için en iyi kayıp işlevidir.