Özellik Haçları: Doğrusal Olmayan Kodlama

Şekil 1 ve 2'de aşağıdaki gibi düşünün:

  • Mavi noktalar hasta ağaçları temsil eder.
  • Turuncu noktalar, sağlıklı ağaçları temsil eder.

Kuzeydoğu mahallesinde mavi noktalar, güneybatı çeyrekte turuncu noktalar yer alır.

Şekil 1. Bu sorun doğrusal bir sorun mu?

Hasta ağaçları sağlıklı ağaçlardan düzgün bir şekilde ayıran bir çizgi çizebilir misiniz? Elbette. Bu doğrusal bir sorundur. Çizgi mükemmel olmaz. Bir veya iki hasta ağacının "sağlıklı" olma ihtimali olsa da çizginiz iyi bir gösterge olacaktır.

Şimdi aşağıdaki resme bakın:

Kuzeydoğu ve güneybatı çeyreklerde mavi noktalar, kuzeybatı ve güneydoğu çeyreklerinde ise turuncu noktalar yer alır.

Şekil 2. Bu sorun doğrusal bir sorun mu?

Hasta ağaçları sağlıklı ağaçlardan düzgün bir şekilde ayıran tek bir düz çizgi çizebilir misiniz? Hayır, isteyemezsiniz. Bu doğrusal olmayan bir sorundur. Çizdiğiniz tüm çizgiler ağaç sağlığı için kötü bir ön gösterge olacaktır.

Yatay çizginin uçağı kırması haricinde, Şekil 2'dekiyle aynı çizim. Mavi ve turuncu noktalar çizginin üzerinde, mavi ve turuncu noktalar çizginin altındadır.

3. Şekil. Tek bir satır bu iki sınıfı birbirinden ayıramaz.

 

Şekil 2'de gösterilen doğrusal olmayan sorunu çözmek için özellik çaprazı oluşturun. Özellik çaprazı, iki veya daha fazla giriş özelliğini bir araya getirerek özellik alanındaki doğrusal olmayan kodlamayı kodlayan yapay bir özelliktir. (Çapraz terimi ürünler arası ifadesinden gelir.) Şimdi çapraz \(x_3\) yazdırarak \(x_1\) ve \(x_2\),

$$x_3 = x_1x_2$$

Yeni eklenen bu özellik \(x_3\) diğer özellikler gibi işlenir. Doğrusal formül şu şekilde olur:

$$y = b + w_1x_1 + w_2x_2 + w_3x_3$$

Doğrusal bir algoritma, \(w_3\)için de \(w_1\) ve \(w_2\)için olduğu gibi bir ağırlık öğrenebilir. Diğer bir deyişle, \(w_3\) doğrusal olmayan bilgileri kodlasa da doğrusal modelin \(w_3\)değerini belirlemek için eğitilme şeklini değiştirmeniz gerekmez.

Özellik çarpı işareti türleri

Birçok farklı türde özellik haçısı oluşturabiliriz. Örnek:

  • [A X B]: İki özelliğin değerlerinin çarpılmasıyla oluşturulan özellik.
  • [A x B x C x D x E]: Beş özelliğin değerlerinin çarpılmasıyla oluşturulan bir özellik havası.
  • [A x A]: Tek bir özelliği özetleyerek oluşturulan bir özelliktir.

Olasılıksal gradyan inişi sayesinde doğrusal modeller verimli şekilde eğitilebilir. Sonuç olarak, ölçeklendirilmiş doğrusal modelleri özellik haçlarıyla desteklemek, genel olarak büyük ölçekli veri kümeleriyle ilgili eğitim vermenin etkili bir yöntemi olmuştur.