Kümeleme Algoritmaları

hızlıca kümeleme algoritması türlerine ve her türü ne zaman seçmeniz gerektiğine bakalım.

Kümeleme algoritması seçerken, algoritmanın veri kümenize ölçeklendirilip ölçeklendirilmediğini değerlendirmeniz gerekir. Makine öğreniminde veri kümelerinin milyonlarca örneği olabilir ancak tüm kümeleme algoritmaları verimli bir şekilde ölçeklendirilemez. Birçok küme algoritması, tüm örnek çiftler arasındaki benzerliği hesaplayarak çalışır. Bu, karmaşık çalışma notasyonunda \(O(n^2)\) belirtilen \(n\)örnek sayısının karesi olarak çalışma zamanının arttığı anlamına gelir. \(O(n^2)\) Örneklerin sayısı milyon olduğunda algoritmalar pratik değildir. Bu kurs, \(O(n)\)karmaşıklığına ve yani algoritmanın doğrusal olarak ölçeklendirildiği \(n\)k ortalamalı algoritmaya odaklanmaktadır.

Kümeleme Türleri

Kümelemeye çeşitli yaklaşımlar vardır. Kapsamlı bir liste için Küme Algoritmaları Kapsamlı Anketi Xu, D. Tian, Y. Ann Verileri. Bilim (2015) 2: 165. Her yaklaşım, belirli bir veri dağıtımı için en uygun yöntemdir. Aşağıda, k ortalama değerleriyle merkeze dayalı kümelemeye odaklanan dört yaygın yaklaşımdan bahsedilmektedir.

Centroid Tabanlı Kümeleme

Centroid tabanlı kümeleme, verileri hiyerarşik olmayan kümeler halinde düzenler. Aşağıda tanımlanan hiyerarşik kümenin aksine bu en çok kullanılan kronolojik kümeleme algoritmasıdır. Centroid tabanlı algoritmalar etkilidir ancak ilk koşullar ve aykırı değerlere karşı hassastır. Bu kurs verimli, etkili ve basit bir kümeleme algoritması olduğundan k ortalamalarına odaklanmaktadır.

Cerroid tabanlı kümeleme kullanılarak kümeler halinde gruplandırılmış örnekler.
           Çizgiler, kümelerin arasındaki kenarlıkları gösterir.
Şekil 1: Cidroid tabanlı kümeleme örneği.

Yoğunluğa Dayalı Kümeleme

Yoğunluğa dayalı kümeleme, örnek yoğunluğunun yüksek olduğu alanları kümelere bağlar. Bu, yoğun alanlar bağlanabildiği sürece rastgele şekilli dağıtımlara izin verir. Bu algoritmalar, farklı yoğunluklara ve yüksek boyutlara sahip verilerle ilgili zorluk yaşar. Ayrıca bu algoritmalar, tasarım gereği kümelere aykırı değerler atamaz.

Yoğunluğa dayalı kümeleme kullanılarak iki küme halinde gruplandırılmış örnekler. Kümeler doğrusal olarak ayrılamaz.
Şekil 2: Yoğunluğa dayalı kümeleme örneği.

Dağıtım Tabanlı Kümeleme

Bu kümeleme yaklaşımı, verilerin Gauss dağıtımları gibi dağıtımlardan oluştuğunu varsayar. Şekil 3'te dağıtıma dayalı algoritma, verileri üç Gauss dağıtımı şeklinde gruplandırmaktadır. Dağın merkezine olan uzaklık arttıkça noktanın dağıtım noktasına ait olma olasılığı da azalır. Bantlar değişim olasılığında düşüş olduğunu gösterir. Verilerinizdeki dağılımın türünü bilmiyorsanız farklı bir algoritma kullanmanız gerekir.

Dağıtıma dayalı kümeleme kullanılarak kümelenen örnekler. Her bir kümedeki örneklerin yoğunluğunun gölgesi, kümelerin dağılımlarla nasıl eşleştiğini gösterir.
Şekil 3: Dağıtıma dayalı kümeleme örneği.

Hiyerarşik Kümeleme

Hiyerarşik kümeleme, bir küme ağacı oluşturur. Taksonomi gibi hiyerarşik verilere ise hiyerarşik kümeleme uygundur. Örnek için Oksana Lukjancenko, Trudy Wassenaar ve Dave Ussery'nin Sıra Dizisi Escherichia coli Genomes karşılaştırmasını inceleyin. Buna ek olarak bir başka avantaj, ağacı doğru düzeyde keserek istediğiniz sayıda küme seçilebilmesidir.

Hiyerarşik ağaç kullanılarak kümelenen hayvanlar.
Şekil 4: Hayvanları gruplandıran hiyerarşik ağaç örneği.