Manuel olarak birleştirilen özellik verilerini karşılaştırmak yerine, özellik verilerini yerleşim olarak adlandırılan temsillere indirgeyebilir ve ardından yerleşimleri karşılaştırabilirsiniz. Yerleşimler, özellik verilerinin kendisi üzerinde gözetimli bir derin sinir ağı (DNN) eğitilerek oluşturulur. Yerleşimler, özellik verilerini genellikle özellik verilerinden daha az boyuta sahip bir yerleştirme alanındaki bir vektörle eşler. Makine Öğrenimi Hızlandırılmış Kursu'nun Embedding'ler modülünde embedding'ler, Nöral ağlar modülünde ise nöral ağlar ele alınmaktadır. Benzer örneklerin (ör. aynı kullanıcılar tarafından izlenen benzer konulardaki YouTube videoları) yerleştirilme vektörleri, yerleştirme alanında birbirine yakın olur. Gözetimli benzerlik ölçüsü, örnek çiftlerinin benzerliğini ölçmek için bu "yakınlığı" kullanır.
Gözetimli öğrenmeden yalnızca benzerlik ölçümümüzü oluşturmak için bahsettiğimizi unutmayın. Ardından, manuel veya gözetimli olsun benzerlik ölçüsü, bir algoritma tarafından gözetimsiz küme oluşturma işlemi gerçekleştirmek için kullanılır.
Manuel ve gözetimli ölçümlerin karşılaştırması
Bu tabloda, ihtiyaçlarınıza bağlı olarak manuel veya gözetimli benzerlik ölçümünün ne zaman kullanılacağı açıklanmaktadır.
Gereksinim | Manuel | Gözetimli |
---|---|---|
İlişkili özelliklerdeki gereksiz bilgileri ortadan kaldırır mı? | Hayır, özellikler arasındaki ilişkileri incelemeniz gerekir. | Evet, DNN gereksiz bilgileri ortadan kaldırır. |
Hesaplanan benzerlikler hakkında bilgi verir mi? | Evet | Hayır, yerleştirilen öğelerin kodu çözülemez. |
Birkaç özelliğe sahip küçük veri kümeleri için uygun mu? | Evet. | Hayır, küçük veri kümeleri bir DNN için yeterli eğitim verisi sağlamaz. |
Birçok özelliğe sahip büyük veri kümeleri için uygun mu? | Hayır, birden fazla özellikten gereksiz bilgileri manuel olarak kaldırmak ve ardından bunları birleştirmek çok zordur. | Evet, DNN gereksiz bilgileri otomatik olarak ortadan kaldırır ve özellikleri birleştirir. |
Gözetimli benzerlik ölçümü oluşturma
Gözetimli benzerlik ölçümü oluşturma sürecine genel bir bakış aşağıda verilmiştir:
Bu sayfada DNN'ler ele alınırken aşağıdaki sayfalarda kalan adımlar açıklanmaktadır.
DNN'yi eğitim etiketlerine göre seçme
Hem giriş hem de etiket olarak aynı özellik verilerini kullanan bir DNN eğiterek özellik verilerinizi daha düşük boyutlu yerleştirmelere indirin. Örneğin, ev verileri söz konusu olduğunda DNN, fiyat, boyut ve posta kodu gibi özellikleri kendileri tahmin etmek için bu özellikleri kullanır.
Otomatik kodlayıcı
Giriş verilerinin kendisini tahmin ederek giriş verilerinin gömmelerini öğrenen bir DNN'ye otomatik kodlayıcı denir. Bir otomatik kodlayıcının gizli katmanları, giriş ve çıkış katmanlarından daha küçük olduğundan otomatik kodlayıcı, giriş özelliği verilerinin sıkıştırılmış bir temsilini öğrenmek zorunda kalır. DNN eğitildikten sonra benzerliği hesaplamak için en küçük gizli katmandan yerleştirmeleri çıkarın.

Tahmin aracı
Otomatik kodlayıcı, yerleştirme oluşturmak için en basit seçenektir. Ancak benzerlik belirlemede belirli özellikler diğerlerinden daha önemli olabileceğinde otomatik kodlayıcı en uygun seçim değildir. Örneğin, şirket içi verilerde fiyatın posta kodundan daha önemli olduğunu varsayalım. Bu gibi durumlarda, DNN için eğitim etiketi olarak yalnızca önemli özelliği kullanın. Bu DNN, tüm giriş özelliklerini tahmin etmek yerine belirli bir giriş özelliğini tahmin ettiğinden tahmin DNN'si olarak adlandırılır. Yerleşimler genellikle son yerleşim katmanından ayıklanır.

Etiket olacak bir özellik seçerken:
Kayıp, sayısal özellikler için hesaplanıp yorumlanması daha kolay olduğundan kategorik özelliklere kıyasla sayısal özellikleri tercih edin.
Etiket olarak kullandığınız özelliği DNN girişinden kaldırın. Aksi takdirde DNN, çıkışı mükemmel şekilde tahmin etmek için bu özelliği kullanır. (Bu, etiket sızıntısı için uç bir örnektir.)
Etiket seçiminize bağlı olarak, oluşturulan DNN ya bir otomatik kodlayıcı ya da bir tahmin aracı olur.