Bu sayfa, Cloud Translation API ile çevrilmiştir.

Manuel Benzerlik Ölçüm Alıştırması

Aşağıdaki alıştırmada, manuel olarak benzerlik ölçüsü oluşturma süreci gösterilmektedir.

Evlerde aşağıdaki gibi basit bir veri kümeniz olduğunu varsayalım:

Özellik	Tür
Fiyat	Pozitif tam sayı
Boyut	Metrekare cinsinden pozitif kayan nokta değeri
Posta kodu	Tamsayı
Yatak odası sayısı	Tamsayı
Ev türü	"tek_aile", "çok aileli", "daire", "parti"den bir metin değeri
Garaj	Hayır/evet için 0/1
Renkler	Çok değerli kategorik: "beyaz", "sarı", "yeşil" standart renklerden bir veya daha fazla değer

Ön işleme

İlk adım, sayısal özelliklerin fiyat, boyut, yatak odası sayısı ve posta kodu gibi önceden işlenmesidir. Bu özelliklerin her biri için farklı bir işlem gerçekleştirmeniz gerekir. Örneğin, bu durumda fiyatlandırma verilerinin iki yönlü bir dağılıma uyduğunu varsayalım. Bu durumda ne yapmanız gerekir?

Verileriniz iki taraflı bir dağılıma uyuyorsa hangi işlemi yapmalısınız?

Verilerden miktarlar oluşturun ve [0,1] olarak ölçeklendirin.

Bu, verilerin iki yönlü dağıtımından sonra atılacak doğru adımdır.

Günlük dönüştürme ve ölçek [0,1].

Bu, veriler bir Güç Hukuku dağıtımını takip ettiğinde atılacak adımdır.

Normalleştir ve [0,1] olarak ölçeklendir.

Bu, veriler bir Gauss dağılımı olduğunda uygulayacağınız adımdır.

Aşağıdaki alanda, boyut verilerini nasıl işleyeceğinizi açıklamayı deneyin.

Beden verilerini önceden şu şekilde işlerim:

Yanıtınızı kontrol etmek için artı simgesini tıklayın

Boyutun enerji Hukuku, Poisson veya Gauss dağılımına uygun olup olmadığını kontrol edin.

Güç yasası: Günlük dönüşüm ve ölçeklendirme ölçütü: [0,1].
Poisson: Niceller oluşturun ve şu şekilde ölçeklendirin: [0,1].
Gaussca: Normalleştir ve [0,1] olarak ölçeklendir.

Aşağıdaki alanda, yatak odası sayısıyla ilgili verileri nasıl işleyeceğinizi açıklamayı deneyin.

Oda sayısını aşağıdaki şekilde işlerim:

Yanıtınızı kontrol etmek için artı simgesini tıklayın

Yatak odası sayısının dağılımını kontrol edin. Büyük olasılıkla, aykırı değerleri kırpmak ve [0,1] değerine ölçeklendirmek de yeterli olacaktır ancak bir güç çipi dağıtımı bulursanız günlük dönüştürme işlemi gerekebilir.

Posta kodlarını nasıl temsil etmelisiniz? Posta kodlarını boylama ve enleme dönüştürün. Ardından bu değerleri, diğer sayısal değerleri işlediğiniz gibi işleyin.

Özellik Başına Benzerliği Hesaplama

Şimdi her özelliğin benzerliğini hesaplamanın zamanı geldi. Sayısal özellikler için farkı bulmanız yeterlidir. Bir evin garajı gibi ikili özellikler için 0 veya 1 değerini alma farkını da bulabilirsiniz. Peki ya kategoriz özellikler? Öğrenmek için aşağıdaki soruları yanıtlayın.

Aşağıdaki özelliklerden hangisi çok değerlidir (birden fazla değere sahip olabilir?)

Renk

Konutlar birden fazla renkte olabilir (ör. beyaz süslemeli mavi). Bu nedenle renk çok değerli bir özelliktir.

Posta kodu

Her konutun yalnızca bir posta kodu olabilir. Bu, tek tip bir özelliktir.

Tür

Eviniz yalnızca tek bir tür, ev, apartman veya daire olabilir. Bu, tek tip bir özelliktir.

Çok değerli bir özelliğin benzerliğini hesaplamak için aşağıdaki benzerlik önlemlerinden hangisini kullanmanız gerekir?

Jaccard benzerliği

Evlere sabit bir renk grubundan renk atandığını varsayalım. Ardından, ortak değerlerin oranını (Jaccard benzerliği) kullanarak benzerliği hesaplayın.

Öklid uzaklığı

Yalnızca tek bir değere sahip (posta kodu özellikleri) "posta kodu" ve "tür" özellikleri için özellik eşleşiyorsa benzerlik önlemi 0'dır. Aksi takdirde, benzerlik ölçüsü 1'dir.

Genel Benzerliği Hesaplama

Her özellik için benzerliği sayısal olarak hesapladınız. Ancak kümeleme algoritması, küme evleriyle genel benzerliği gerektirir. Özellik başına benzerliği kök ortalama kare hatası (RMSE) ile birleştirerek ev çiftleri arasındaki genel benzerliği hesaplayın. Diğer bir deyişle,\(s_1,s_2,\ldots,s_N\) özelliklerin \(N\) benzerlerini temsil eder:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Manuel Benzerlik Ölçümü ile ilgili sınırlamalar

Bu alıştırmada da gösterildiği gibi, veriler karmaşık hale geldiğinde benzerliklerin anlam açısından anlamlı bir şekilde doğru şekilde ölçülmesi için verilerin işlenmesi ve birleştirilmesi gitgide zorlaşmaktadır. Renk verilerini göz önünde bulundurun. Renk gerçekten kategorik olmalı mı? Yoksa kırmızı ve kestane gibi renkleri siyah ve beyaza göre daha yüksek bir benzerlikte mi atamalıyız? Verileri birleştirmeyle ilgili olarak garaj özelliğimizin fiyatını kurum fiyatıyla eşit olarak ağırlıklandırdık. Bununla birlikte, evin fiyatı bir garajdan çok daha önemlidir. Onları eşit bir şekilde tartmak mantıklı mı?

Örnekler arasındaki benzerliği gerçekten yansıtmayan bir benzerlik önlemi oluşturursanız türettiğiniz kümeler anlamlı olmaz. Bu durum, kategorik verilerde genellikle geçerlidir ve bizi gözetimli bir ölçüye dönüştürür.

Manuel Benzerlik Ölçümü

Manuel Benzerlik Egzersizi