Aşağıdaki alıştırmada, manuel olarak benzerlik ölçüsü oluşturma süreci gösterilmektedir.
Evlerde aşağıdaki gibi basit bir veri kümeniz olduğunu varsayalım:
Özellik | Tür |
---|---|
Fiyat | Pozitif tam sayı |
Boyut | Metrekare cinsinden pozitif kayan nokta değeri |
Posta kodu | Tamsayı |
Yatak odası sayısı | Tamsayı |
Ev türü | "tek_aile", "çok aileli", "daire", "parti"den bir metin değeri |
Garaj | Hayır/evet için 0/1 |
Renkler | Çok değerli kategorik: "beyaz", "sarı", "yeşil" standart renklerden bir veya daha fazla değer |
Ön işleme
İlk adım, sayısal özelliklerin fiyat, boyut, yatak odası sayısı ve posta kodu gibi önceden işlenmesidir. Bu özelliklerin her biri için farklı bir işlem gerçekleştirmeniz gerekir. Örneğin, bu durumda fiyatlandırma verilerinin iki yönlü bir dağılıma uyduğunu varsayalım. Bu durumda ne yapmanız gerekir?
Aşağıdaki alanda, boyut verilerini nasıl işleyeceğinizi açıklamayı deneyin.
Aşağıdaki alanda, yatak odası sayısıyla ilgili verileri nasıl işleyeceğinizi açıklamayı deneyin.
Posta kodlarını nasıl temsil etmelisiniz? Posta kodlarını boylama ve enleme dönüştürün. Ardından bu değerleri, diğer sayısal değerleri işlediğiniz gibi işleyin.
Özellik Başına Benzerliği Hesaplama
Şimdi her özelliğin benzerliğini hesaplamanın zamanı geldi. Sayısal özellikler için farkı bulmanız yeterlidir. Bir evin garajı gibi ikili özellikler için 0 veya 1 değerini alma farkını da bulabilirsiniz. Peki ya kategoriz özellikler? Öğrenmek için aşağıdaki soruları yanıtlayın.
Genel Benzerliği Hesaplama
Her özellik için benzerliği sayısal olarak hesapladınız. Ancak kümeleme algoritması, küme evleriyle genel benzerliği gerektirir. Özellik başına benzerliği kök ortalama kare hatası (RMSE) ile birleştirerek ev çiftleri arasındaki genel benzerliği hesaplayın. Diğer bir deyişle,\(s_1,s_2,\ldots,s_N\) özelliklerin \(N\) benzerlerini temsil eder:
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
Manuel Benzerlik Ölçümü ile ilgili sınırlamalar
Bu alıştırmada da gösterildiği gibi, veriler karmaşık hale geldiğinde benzerliklerin anlam açısından anlamlı bir şekilde doğru şekilde ölçülmesi için verilerin işlenmesi ve birleştirilmesi gitgide zorlaşmaktadır. Renk verilerini göz önünde bulundurun. Renk gerçekten kategorik olmalı mı? Yoksa kırmızı ve kestane gibi renkleri siyah ve beyaza göre daha yüksek bir benzerlikte mi atamalıyız? Verileri birleştirmeyle ilgili olarak garaj özelliğimizin fiyatını kurum fiyatıyla eşit olarak ağırlıklandırdık. Bununla birlikte, evin fiyatı bir garajdan çok daha önemlidir. Onları eşit bir şekilde tartmak mantıklı mı?
Örnekler arasındaki benzerliği gerçekten yansıtmayan bir benzerlik önlemi oluşturursanız türettiğiniz kümeler anlamlı olmaz. Bu durum, kategorik verilerde genellikle geçerlidir ve bizi gözetimli bir ölçüye dönüştürür.