Bu sayfa, Cloud Translation API ile çevrilmiştir.

Kaybı Azaltma: Gradyan İniş

Yinelemeli yaklaşım diyagramında (Şekil 1) "İşlem parametresi güncellemeleri" başlıklı yeşil bir el dalgalı kutu vardı. Şimdi bu algoritmaya dayalı peri tozunu daha önemli bir şeyle değiştireceğiz.

Tüm olası $w_1$değerleri için kaybı hesaplamak üzere zamana ve bilgi işlem kaynaklarımıza sahip olduğumuzu varsayalım. İncelediğimiz regresyon problemleri için, sonuçta ortaya çıkan kayıp grafiği $w_1$ her zaman dışbükey olacaktır. Diğer bir deyişle, olay örgüsü her zaman şöyle bir kase şeklinde olacaktır:

Dikey eksen "kayıp", yatay ekseni ise ağırlık değeri olarak etiketlenmiş U şekilli bir eğrinin grafiği.

Şekil 2. Regresyon problemlerinde, ağırlık grafiklerine kıyasla dışbükey kayıp ortaya çıkar.

Dışbükey problemlerde yalnızca bir minimum değer vardır. Diğer bir deyişle, eğimin tam olarak 0 olduğu tek bir yer vardır. Bu minimum değer, kayıp fonksiyonunun kesiştiği yerdir.

Tüm veri kümesi genelinde düşünülebilir her $w_1$değeri için kayıp fonksiyonunu hesaplamak, yakınsaklık noktasını bulmak için verimsiz bir yol olur. Renk geçişi iniş adı verilen daha iyi bir mekanizmayı (makine öğreniminde çok popüler) inceleyelim.

Gradyan düşüşün ilk aşaması $w_1$için bir başlangıç değeri (başlangıç noktası) seçmektir. Başlangıç noktası çok önemli değildir. Bu nedenle birçok algoritma $w_1$ 0'a ayarlanır veya rastgele bir değer seçer. Aşağıdaki şekilde, 0'dan biraz daha büyük bir başlangıç noktası seçtiğimiz gösterilmektedir:

U şekilli bir eğrinin grafiği. Eğrinin sol tarafının yaklaşık yarısı kadar olan bir nokta "Başlangıç Noktası" olarak etiketlenir.

3. Şekil. Gradyan iniş için başlangıç noktası.

Daha sonra gradyan iniş algoritması, başlangıç noktasında kayıp eğrisinin gradyanını hesaplar. Burada, Şekil 3'te, kaybın gradyanı, eğrinin türevine (eğimi) eşittir ve size hangi yolun "daha sıcak" veya "daha soğuk" olduğunu bildirir. Birden fazla ağırlık olduğunda gradyan, ağırlıklara göre kısmi türevlerin bir vektörüdür.

Kısmi türevler ve renk geçişleri hakkında daha fazla bilgi edinmek için artı simgesini tıklayın.

Makine öğrenimiyle ilgili matematik çok ilginç. Daha fazla bilgi edinmek için bağlantıyı tıklamanıza sevindik. Ancak, TensorFlow'un tüm gradyan hesaplamalarını sizin için işlediğini, dolayısıyla burada verilen hesaplamayı anlamanız gerekmediğini lütfen unutmayın.

Kısmi türevler

Çok değişkenli işlev, birden fazla bağımsız değişkeni olan bir işlevdir. Örneğin:

$$f(x,y) = e^{2y}\sin(x)$$

$x$ile ilişkili $f$ kısmi türev, aşağıdaki şekilde belirtilmiştir:

$$ \partial f \over \partial x $$

bağımsız fonksiyonu olarak kabul edilen $f$ değişkeni $x$ tür. Aşağıdakileri bulmak için:

$$\partial f \over \partial x $$

$y$ sabit değeri tutmanız gerekir (yani $f$ artık bir değişkenin fonksiyonu $x$) ve $x$'a göre $f$ normal türevini almanız gerekir. Örneğin, $y$ 1'e sabitlendiğinde önceki işlev şu şekilde olur:

$$ f(x) = e^2\sin(x) $$

Bu yalnızca bir değişkenin $x$fonksiyonudur. Bu değişkenin türevi şu şekildedir:

$$ e^2\cos(x) $$

Genel olarak, $y$ sabit olarak düşünülürse, $f$ şunya $x$ uygun şekilde kısmi türevi şu şekilde hesaplanır:

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

Benzer şekilde, bunun yerine $x$ sabit tutarsak $f$ ifadesinin $y$ kısmi türevi $y$ şöyle olur:

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

Kısmi türev, bir değişkene biraz tepki verdiğinizde fonksiyonun ne kadar değiştiğini size sezgisel olarak söyler. Yukarıdaki örnekte:

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

Yani başlangıç olarak $(0,1)$, sabit $y$ sabit ve az hareket $x$ ederseniz,$f$ değiştirdiğiniz tutarın yaklaşık 7,4 katı değişir $x$.

Makine öğreniminde kısmi türevler çoğunlukla bir fonksiyonun gradyanıyla birlikte kullanılır.

Gradyanlar

Bir işlevin gradyanı, aşağıdaki şekilde belirtilir, tüm bağımsız değişkenlere göre kısmi türevlerin vektörüdür:

$$ \nabla f $$

Örneğin:

$$ f(x,y) = e^{2y}\sin(x) $$

şunu yap:

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

Aşağıdakileri göz önünde bulundurun:

$$\nabla f$$	Fonksiyonda en büyük artış yönünde noktalar.
$$ {-\nabla f} $$	Fonksiyonda en büyük azalma yönünde noktalar.

Vektördeki boyutların sayısı, $f$formülündeki değişken sayısına eşittir. Diğer bir deyişle, vektör işlevin alan alanı içindedir. Örneğin, şu fonksiyonun grafiği $f(x,y)$:

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

üç boyutlu olarak görüntülendiğinde $z = f(x,y)$ en az $(2,0,4)$ile bir vadi gibi görünür:

$f(x,y)$ gradyanı, yükseklikteki maksimum artış için hangi yönde$(x,y)$ hareket edeceğinizi gösteren iki boyutlu bir vektördür. Dolayısıyla, renk geçişinin negatif değeri sizi yükseklikteki maksimum azalma yönünde hareket ettirir. Başka bir deyişle, gradyan vektör noktalarının negatif noktası, vadiye doğru ilerliyor.

Makine öğreniminde, gradyanlar gradyan inişte kullanılır. Genellikle en aza indirgemeye çalıştığımız birçok değişken için bir kayıp işlevi görürüz ve bunu, işlevin gradyanının negatifini uygulayarak yapmaya çalışırız.

Renk geçişinin bir vektör olduğunu, bu nedenle aşağıdaki özelliklerin her ikisine de sahip olduğunu unutmayın:

yol tarifi
büyüklük

Renk geçişi, her zaman kayıp işlevindeki en dik artış yönünü gösterir. Gradyan iniş algoritması, kaybı mümkün olduğunca hızlı bir şekilde azaltmak için negatif renk geçişinin yönünde bir adım atar.

U şekilli bir eğrinin grafiği. Eğrinin sol tarafındaki bir nokta "Başlangıç Noktası" olarak etiketlenir. "Negatif gradyan" etiketli bir ok, bu noktadan sağa işaret ediyor.

4. Şekil. Gradyan iniş, negatif renk geçişlerini temel alır.

Kayıp işlevi eğrisi boyunca bir sonraki noktayı belirlemek için gradyan iniş algoritması, aşağıdaki şekilde gösterildiği gibi başlangıç noktasına gradyanın büyüklüğünün bir kısmını ekler:

5. Şekil. Bir gradyan adımı, bizi kayıp eğrisinde bir sonraki noktaya taşıyor.

Daha sonra gradyan inişi, daha sonra bu işlemi tekrarlayarak minimum değere daha da yaklaşır.

Yinelemeli bir Yaklaşım

Öğrenme Oranı