Gözetimli benzerlik ölçümü

Manuel olarak birleştirilen özellik verilerini karşılaştırmak yerine, özellik verilerini yerleşim olarak adlandırılan temsillere indirgeyebilir ve ardından yerleşimleri karşılaştırabilirsiniz. Yerleşimler, özellik verilerinin kendisi üzerinde gözetimli bir derin sinir ağı (DNN) eğitilerek oluşturulur. Yerleşimler, özellik verilerini genellikle özellik verilerinden daha az boyuta sahip bir yerleştirme alanındaki bir vektörle eşler. Makine Öğrenimi Hızlandırılmış Kursu'nun Embedding'ler modülünde embedding'ler, Nöral ağlar modülünde ise nöral ağlar ele alınmaktadır. Benzer örneklerin (ör. aynı kullanıcılar tarafından izlenen benzer konulardaki YouTube videoları) yerleştirilme vektörleri, yerleştirme alanında birbirine yakın olur. Gözetimli benzerlik ölçüsü, örnek çiftlerinin benzerliğini ölçmek için bu "yakınlığı" kullanır.

Gözetimli öğrenmeden yalnızca benzerlik ölçümümüzü oluşturmak için bahsettiğimizi unutmayın. Ardından, manuel veya gözetimli olsun benzerlik ölçüsü, bir algoritma tarafından gözetimsiz küme oluşturma işlemi gerçekleştirmek için kullanılır.

Manuel ve gözetimli ölçümlerin karşılaştırması

Bu tabloda, ihtiyaçlarınıza bağlı olarak manuel veya gözetimli benzerlik ölçümünün ne zaman kullanılacağı açıklanmaktadır.

GereksinimManuelGözetimli
İlişkili özelliklerdeki gereksiz bilgileri ortadan kaldırır mı? Hayır, özellikler arasındaki ilişkileri incelemeniz gerekir. Evet, DNN gereksiz bilgileri ortadan kaldırır.
Hesaplanan benzerlikler hakkında bilgi verir mi? Evet Hayır, yerleştirilen öğelerin kodu çözülemez.
Birkaç özelliğe sahip küçük veri kümeleri için uygun mu? Evet. Hayır, küçük veri kümeleri bir DNN için yeterli eğitim verisi sağlamaz.
Birçok özelliğe sahip büyük veri kümeleri için uygun mu? Hayır, birden fazla özellikten gereksiz bilgileri manuel olarak kaldırmak ve ardından bunları birleştirmek çok zordur. Evet, DNN gereksiz bilgileri otomatik olarak ortadan kaldırır ve özellikleri birleştirir.

Gözetimli benzerlik ölçümü oluşturma

Gözetimli benzerlik ölçümü oluşturma sürecine genel bir bakış aşağıda verilmiştir:

Giriş özelliği verileri. DNN'yi seçin: otomatik kodlayıcı veya tahmin aracı.
      Yerleştirilmiş öğeleri ayıklayın. Ölçümü seçin: Nokta çarpımı, kosinüs veya Euclidean
Şekil 1: Gözetimli bir benzerlik ölçümü oluşturma adımları.

Bu sayfada DNN'ler ele alınırken aşağıdaki sayfalarda kalan adımlar açıklanmaktadır.

DNN'yi eğitim etiketlerine göre seçme

Hem giriş hem de etiket olarak aynı özellik verilerini kullanan bir DNN eğiterek özellik verilerinizi daha düşük boyutlu yerleştirmelere indirin. Örneğin, ev verileri söz konusu olduğunda DNN, fiyat, boyut ve posta kodu gibi özellikleri kendileri tahmin etmek için bu özellikleri kullanır.

Otomatik kodlayıcı

Giriş verilerinin kendisini tahmin ederek giriş verilerinin gömmelerini öğrenen bir DNN'ye otomatik kodlayıcı denir. Bir otomatik kodlayıcının gizli katmanları, giriş ve çıkış katmanlarından daha küçük olduğundan otomatik kodlayıcı, giriş özelliği verilerinin sıkıştırılmış bir temsilini öğrenmek zorunda kalır. DNN eğitildikten sonra benzerliği hesaplamak için en küçük gizli katmandan yerleştirmeleri çıkarın.

Ortadaki üç düğüme sıkıştırılmış, aynı giriş ve çıkış verileri için çok sayıda düğüm gösteren bir şekil.
       beş gizli katmandan oluşur.
Şekil 2: Otomatik kodlayıcı mimarisi.

Tahmin aracı

Otomatik kodlayıcı, yerleştirme oluşturmak için en basit seçenektir. Ancak benzerlik belirlemede belirli özellikler diğerlerinden daha önemli olabileceğinde otomatik kodlayıcı en uygun seçim değildir. Örneğin, şirket içi verilerde fiyatın posta kodundan daha önemli olduğunu varsayalım. Bu gibi durumlarda, DNN için eğitim etiketi olarak yalnızca önemli özelliği kullanın. Bu DNN, tüm giriş özelliklerini tahmin etmek yerine belirli bir giriş özelliğini tahmin ettiğinden tahmin DNN'si olarak adlandırılır. Yerleşimler genellikle son yerleşim katmanından ayıklanır.

Giriş vektöründeki çok sayıda düğümün, üç gizli katman boyunca azaltılarak iç içe yerleştirilmelerin çıkarılacağı üç düğümlü bir katmana dönüştürüldüğünü gösteren bir resim. Son çıkış katmanı, tahmin edilen etiket değeridir.
Şekil 3: Tahmin aracı mimarisi.

Etiket olacak bir özellik seçerken:

  • Kayıp, sayısal özellikler için hesaplanıp yorumlanması daha kolay olduğundan kategorik özelliklere kıyasla sayısal özellikleri tercih edin.

  • Etiket olarak kullandığınız özelliği DNN girişinden kaldırın. Aksi takdirde DNN, çıkışı mükemmel şekilde tahmin etmek için bu özelliği kullanır. (Bu, etiket sızıntısı için uç bir örnektir.)

Etiket seçiminize bağlı olarak, oluşturulan DNN ya bir otomatik kodlayıcı ya da bir tahmin aracı olur.