Kümeleme nedir?

Bir araştırmadan elde edilen hasta bilgilerini içeren bir veri kümesiyle çalıştığınızı uygulayacaksınız. Veri kümesi karmaşıktır ve hem kategorik hem de sayısal özellikler. Veri kümesindeki kalıpları ve benzerlikleri bulmak istiyorsunuz. Bu göreve nasıl yaklaşabilirsiniz?

Kümeleme gözetimsiz bir özel bir makine öğrenimi tekniği olan etiketsiz örnekler bir listesini kullanabilirsiniz. (Örnekler etiketlenmişse veya ne tür bir gruplamaya sınıflandırmasına tabidir.) Varsayımsal bir hastayı düşünün yeni bir tedavi protokolünü değerlendirmek için tasarlanan bir çalışmadır. Çalışma esnasında hastalar belirtileri ve belirtilerin ciddiyetini haftada kaç kez raporladıklarını belirtiler. Araştırmacılar benzer kriterlere sahip hastaları gruplandırmak için kümeleme analizini kullanabilir kümelere ayırmanızı sağlar. Şekil 1'de olası bir gruplandırma gösterilmiştir üç kümeye dönüştürmeyi başardık.

Sol tarafta belirti şiddeti ile belirti sayısının karşılaştırıldığı grafik
   gösteren veri noktaları gösterilir.
   Sağ tarafta ise aynı grafik yalnızca üç kümenin her biri renkli olarak gösteriliyor.
Şekil 1: Üç küme halinde gruplandırılmış etiketlenmemiş örnekler (simüle edilmiş veriler)
.

Şekil 1'in solundaki etiketlenmemiş verilere bakarak, Veriler, benzerlik resmi tanımı olmasa bile üç küme oluşturur veri noktaları arasında. Ancak gerçek uygulamalarda, bu yapılandırmanın benzerlik ölçüsü veya örnekleri karşılaştırmak için kullanılan metriği özelliklerini ifade eder. Örneklerde yalnızca birkaç özellik varsa ve ölçmek çok kolay. Ancak proje sayısı özellik artar, özellik birleştirme ve karşılaştırma daha az sezgisel hale gelir. ve daha karmaşık hale getirir. Farklı benzerlik ölçümleri daha uygun veya az uygun olabilir farklı kümeleme senaryolarına değineceğiz. Bu kursta, tercihinize uygun uygun benzerlik ölçüsü almalısınız: Manuel benzerlik ölçümleri ve Yerleştirmelerdeki benzerlik ölçümü.

Kümelemeden sonra her gruba küme kimliği adı verilen benzersiz bir etiket atanır. Kümeleme güçlü bir yöntemdir, çünkü büyük ve karmaşık veri kümelerini tek bir küme kimliğine ekleyebilirsiniz.

Kümelemenin kullanım alanları

Kümeleme çeşitli sektörlerde kullanışlıdır. Bazı yaygın uygulamalar kümeleme için:

  • Pazar segmentasyonu
  • Sosyal ağ analizi
  • Arama sonucu gruplaması
  • Tıbbi görüntüleme
  • Görüntü segmentasyonu
  • Anormallik algılama

Kümelemeye ilişkin bazı spesifik örnekler:

  • Hertzsprung-Russell diyagramı , parlaklık ve sıcaklığa göre çizildiğinde yıldız kümelerini gösteriyor.
  • Önceden bilinmeyen genetik benzerlikleri ve genetik benzerlikleri gösteren türler arasındaki farklılıklar, sınıflandırmaların revizyonuna yol açmıştır benzerlikleri yaşandı.
  • 5 Büyükler kişilik özellikleri modeli, bir araya getiren kelimeleri kişiliği 5 gruba ayırır. İlgili içeriği oluşturmak için kullanılan ONALTILIK model 5 yerine 6 küme kullanır.

Atıf

Bir kümedeki bazı örneklerde özellik verileri eksik olduğunda, bu kümenin kümedeki diğer örneklerde eksik veriler var. Buna imputasyon. Örneğin, daha az popüler olan videolar daha popüler videolarla birleştirilebilir. video önerilerini iyileştirir.

Veri sıkıştırma

Konuştuğumuz gibi, ilgili küme kimliği tüm cihazlar için örnek olabilir. Bu değiştirme işlemi, özellik sayısını ve modellerin depolanması, işlenmesi ve eğitilmesi için gereken kaynakları da azaltır verileri temel alabilir. Bu tasarruflar, çok büyük veri kümeleri için önemli hale gelir.

Örneğin, tek bir YouTube videosunda aşağıdakiler gibi özellik verileri bulunabilir:

  • izleyicinin konumu, zamanı ve demografisi
  • yorum zaman damgaları, metinler ve kullanıcı kimlikleri
  • video etiketleri

YouTube videolarını kümeleme özelliği, bu özellik grubunu Böylece veriler sıkıştırılır.

Gizliliği koruma

Kullanıcıları kümeleyerek ve kullanıcı verilerini ilişkilendirerek gizliliği bir şekilde koruyabilirsiniz kullanıcı kimlikleri yerine küme kimlikleri kullanın. Muhtemel bir örnek vermek gerekirse, model eğitmek için izleme geçmişi Kullanıcı kimliklerini iletmek yerine kullanıcıları kümeleyebilir ve yalnızca küme kimliğini aktarabilirsiniz. Bu ayrı ayrı izleme geçmişlerinin kullanıcılara bağlanmasını engeller. Not kullanıcı sayısının yeterli olduğunu ve bu kullanıcı sayısının gizliliği korumak.