Manuel olarak birleştirilen özellik verilerini karşılaştırmak yerine, özellik denemenizin temsillere yönelik veriler embeddings'i (Yerleştirmeler) tıklayın ve yerleştirme. Yerleştirmeler, derin sinirselgözetimli bir kişinin eğitilmesiyle ağ (DNN) aracılığıyla verilerdir. Yerleştirmeler, özellik verilerini bir yerleştirilmiş öğedeki bir vektörle eşler genelde özellik verilerinden daha az boyuta sahip bir alan oluşturur. Gömmeler konusunda ele alınan konular: Yerleştirmeler modülünde anlatacağım. Ayrıca, sinir ağları da Nöral ağlar modülünü kullanabilirsiniz. Benzer örnekler için vektörler yerleştirme (ör. web sitesindeki YouTube videoları) Aynı kullanıcılar tarafından izlenen benzer konular, yerleştirilmiş öğelerde birbirine yakın boşluk oluşturur. Gözetimli benzerlik ölçüsü bu "yakınlık" iki benzerlik modelini kullanarak örnekler.
Unutmayın, yalnızca benzerliğimizi sağlamak için gözetimli öğrenmeden bahsedeceğim. Benzerlik ölçüsü ister manuel ister gözetimli olsun, daha sonra gözetimsiz kümeleme gerçekleştirmek için bir algoritma
Manuel ve Gözetimli Ölçümlerin Karşılaştırması
Bu tabloda, manuel veya gözetimli benzerliğin ne zaman kullanılacağı açıklanmaktadır. farklı ölçümler yapabilirsiniz.
Gereksinim | Manuel | Gözetimli |
---|---|---|
İlişkili özelliklerdeki gereksiz bilgileri ortadan kaldırır mı? | Hayır, özellikler arasındaki ilişkileri araştırmanız gerekir. | Evet, DNN gereksiz bilgileri ortadan kaldırır. |
Hesaplanmış benzerliklerle ilgili analiz sağlıyor mu? | Evet | Hayır, yerleştirilmiş öğeler çözümlenemez. |
Az sayıda özelliğe sahip küçük veri kümeleri için uygun mu? | Evet. | Hayır, küçük veri kümeleri DNN için yeterli eğitim verisi sağlamaz. |
Birçok özelliğe sahip büyük veri kümeleri için uygun mu? | Hayır, gereksiz bilgileri birden fazla özellikten manuel olarak elemek bunları birleştirmek çok zor. | Evet. DNN, gereksiz bilgileri otomatik olarak ortadan kaldırır ve özellikleri bir araya getirir. |
Gözetimli benzerlik ölçüsü oluşturma
Gözetimli benzerlik ölçümü oluşturma sürecine ilişkin bir genel bakışı burada bulabilirsiniz:
Bu sayfada DNN'ler ele alınmaktadır. Sonraki sayfalarda kalan adımlar ele alınmaktadır.
Eğitim etiketlerine göre DNN seçin
DNN'yi eğiterek özellik verilerinizi daha düşük boyutlu yerleştirmelere hem giriş hem de etiket olarak aynı özellik verilerini kullanır. Örneğin, DNN, ev verileri söz konusu olduğunda posta kodu: bu özellikleri tahmin etmek için.
Otomatik kodlayıcı
Giriş verilerinin kendisini tahmin ederek giriş verilerinin yerleştirmelerini öğrenen bir DNN otomatik kodlayıcı olarak adlandırılır. Otomatik kodlayıcının gizli katmanları daha küçük olduğu için Bu durumda, otomatik kodlayıcının farklı bir kod giriş özelliği verilerinin sıkıştırılmış temsilidir. DNN eğitildikten sonra benzerliği hesaplamak için en küçük gizli katmandan yapılan yerleştirmeleri ayıklama.
Tahminci
Otomatik kodlayıcı, yerleştirme oluşturmak için en basit seçenektir. Ancak Otomatik kodlayıcı ideal seçenek değildir. Belirli özellikler daha fazla daha önemlidir. Örneğin, şirket içi veriler, fiyatın posta kodundan daha önemli olduğunu varsayın. Böyle durumlarda eğitim etiketi olarak yalnızca önemli özelliği eklemeniz gerekir. Bu DNN'den beri tüm giriş özelliklerini tahmin etmek yerine belirli bir giriş özelliğini tahmin ederse, predictor DNN'dir. Gömülü öğeler genellikle son yerleştiren katman.
Etiket olacak özelliği seçerken:
Kayıp ve kategorik özelliklere göre sayısal değerleri tercih ederler sayısal özelliklerde hesaplanıp yorumlanması daha kolaydır.
DNN girişinden etiket olarak kullandığınız özelliği kaldırın veya Aksi takdirde DNN, sonucu mükemmel bir şekilde tahmin etmek için bu özelliği kullanır. (Bu, etiket sızıntısı ile ilgili çok uç bir örnek.)
Etiket seçiminize bağlı olarak, sonuçta ortaya çıkan DNN otomatik kodlayıcı veya tahmin edici gibi araçlar vardır.