Manuel Benzerlik Ölçüm Alıştırması

Aşağıdaki alıştırmada, manuel olarak benzerlik ölçüsü oluşturma süreci gösterilmektedir.

Evlerde aşağıdaki gibi basit bir veri kümeniz olduğunu varsayalım:

ÖzellikTür
FiyatPozitif tam sayı
Boyut Metrekare cinsinden pozitif kayan nokta değeri
Posta koduTamsayı
Yatak odası sayısıTamsayı
Ev türü"tek_aile", "çok aileli", "daire", "parti"den bir metin değeri
GarajHayır/evet için 0/1
RenklerÇok değerli kategorik: "beyaz", "sarı", "yeşil" standart renklerden bir veya daha fazla değer

Ön işleme

İlk adım, sayısal özelliklerin fiyat, boyut, yatak odası sayısı ve posta kodu gibi önceden işlenmesidir. Bu özelliklerin her biri için farklı bir işlem gerçekleştirmeniz gerekir. Örneğin, bu durumda fiyatlandırma verilerinin iki yönlü bir dağılıma uyduğunu varsayalım. Bu durumda ne yapmanız gerekir?

Verileriniz iki taraflı bir dağılıma uyuyorsa hangi işlemi yapmalısınız?
Verilerden miktarlar oluşturun ve [0,1] olarak ölçeklendirin.
Bu, verilerin iki yönlü dağıtımından sonra atılacak doğru adımdır.
Günlük dönüştürme ve ölçek [0,1].
Bu, veriler bir Güç Hukuku dağıtımını takip ettiğinde atılacak adımdır.
Normalleştir ve [0,1] olarak ölçeklendir.
Bu, veriler bir Gauss dağılımı olduğunda uygulayacağınız adımdır.

Aşağıdaki alanda, boyut verilerini nasıl işleyeceğinizi açıklamayı deneyin.

Aşağıdaki alanda, yatak odası sayısıyla ilgili verileri nasıl işleyeceğinizi açıklamayı deneyin.

Posta kodlarını nasıl temsil etmelisiniz? Posta kodlarını boylama ve enleme dönüştürün. Ardından bu değerleri, diğer sayısal değerleri işlediğiniz gibi işleyin.

Özellik Başına Benzerliği Hesaplama

Şimdi her özelliğin benzerliğini hesaplamanın zamanı geldi. Sayısal özellikler için farkı bulmanız yeterlidir. Bir evin garajı gibi ikili özellikler için 0 veya 1 değerini alma farkını da bulabilirsiniz. Peki ya kategoriz özellikler? Öğrenmek için aşağıdaki soruları yanıtlayın.

Aşağıdaki özelliklerden hangisi çok değerlidir (birden fazla değere sahip olabilir?)
Renk
Konutlar birden fazla renkte olabilir (ör. beyaz süslemeli mavi). Bu nedenle renk çok değerli bir özelliktir.
Posta kodu
Her konutun yalnızca bir posta kodu olabilir. Bu, tek tip bir özelliktir.
Tür
Eviniz yalnızca tek bir tür, ev, apartman veya daire olabilir. Bu, tek tip bir özelliktir.
Çok değerli bir özelliğin benzerliğini hesaplamak için aşağıdaki benzerlik önlemlerinden hangisini kullanmanız gerekir?
Jaccard benzerliği
Evlere sabit bir renk grubundan renk atandığını varsayalım. Ardından, ortak değerlerin oranını (Jaccard benzerliği) kullanarak benzerliği hesaplayın.
Öklid uzaklığı
Yalnızca tek bir değere sahip (posta kodu özellikleri) "posta kodu" ve "tür" özellikleri için özellik eşleşiyorsa benzerlik önlemi 0'dır. Aksi takdirde, benzerlik ölçüsü 1'dir.

Genel Benzerliği Hesaplama

Her özellik için benzerliği sayısal olarak hesapladınız. Ancak kümeleme algoritması, küme evleriyle genel benzerliği gerektirir. Özellik başına benzerliği kök ortalama kare hatası (RMSE) ile birleştirerek ev çiftleri arasındaki genel benzerliği hesaplayın. Diğer bir deyişle,\(s_1,s_2,\ldots,s_N\) özelliklerin \(N\) benzerlerini temsil eder:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Manuel Benzerlik Ölçümü ile ilgili sınırlamalar

Bu alıştırmada da gösterildiği gibi, veriler karmaşık hale geldiğinde benzerliklerin anlam açısından anlamlı bir şekilde doğru şekilde ölçülmesi için verilerin işlenmesi ve birleştirilmesi gitgide zorlaşmaktadır. Renk verilerini göz önünde bulundurun. Renk gerçekten kategorik olmalı mı? Yoksa kırmızı ve kestane gibi renkleri siyah ve beyaza göre daha yüksek bir benzerlikte mi atamalıyız? Verileri birleştirmeyle ilgili olarak garaj özelliğimizin fiyatını kurum fiyatıyla eşit olarak ağırlıklandırdık. Bununla birlikte, evin fiyatı bir garajdan çok daha önemlidir. Onları eşit bir şekilde tartmak mantıklı mı?

Örnekler arasındaki benzerliği gerçekten yansıtmayan bir benzerlik önlemi oluşturursanız türettiğiniz kümeler anlamlı olmaz. Bu durum, kategorik verilerde genellikle geçerlidir ve bizi gözetimli bir ölçüye dönüştürür.