Makine Öğrenimi Sözlüğü: Kümeleme

Bu sayfa Kümeleme sözlüğü terimlerini içerir. Tüm sözlük terimleri için burayı tıklayın.

CEVAP

toplu kümeleme

#clustering

Hiyerarşik kümeleme bölümünü inceleyin.

C

merkez

#clustering

k-ortalamalar veya k-ortanca algoritmasıyla belirlenen küme merkezi. Örneğin, k 3 ise k-ortalaması veya k-ortanca algoritması, 3 merkezi bulur.

merkez tabanlı kümeleme

#clustering

Verileri hiyerarşik olmayan kümeler halinde düzenleyen bir kümeleme algoritması. k ortalaması, en yaygın kullanılan merkez tabanlı kümeleme algoritmasıdır.

Hiyerarşik kümeleme algoritmalarıyla kontrast oluşturun.

kümeleme

#clustering

Özellikle gözetimsiz öğrenme sırasında alakalı örnekleri gruplandırma. Tüm örnekler gruplandırıldıktan sonra, bir insan isteğe bağlı olarak her kümeyi anlamlandırabilir.

Birçok kümeleme algoritması mevcuttur. Örneğin, k-ortalamalar algoritma kümesi örnekleri, aşağıdaki şemada olduğu gibi bir merkez merkezine yakınlıklarına göre belirlenir:

X ekseninin ağaç genişliği ve y ekseninin ağaç yüksekliği olarak etiketlendiği iki boyutlu bir grafik. Grafikte iki merkez
          ve birkaç düzine veri noktası bulunmaktadır. Veri noktaları, yakınlıklarına göre kategorize edilir. Yani bir merkeze en yakın veri noktaları küme 1, diğer merkeze en yakın veri noktaları ise küme 2 olarak sınıflandırılır.

Daha sonra gerçek bir araştırmacı, kümeleri inceleyebilir ve örneğin, küme 1'i "cüce ağaçlar" ve küme 2'yi "tam boyutlu ağaçlar" olarak etiketleyebilir.

Başka bir örnek olarak, bir örneğin merkez noktasından uzaklığına dayanan, aşağıdaki şekilde gösterilen bir kümeleme algoritmasını ele alalım:

Düzinelerce veri noktası, neredeyse dart tahtasının merkezindeki delikler gibi eşmerkezli daireler halinde düzenlenmiştir. Veri noktalarının en iç halkası küme 1, orta halka 2 ve en dıştaki halka küme 3 olarak sınıflandırılır.

D

bölme

#clustering

Hiyerarşik kümeleme bölümünü inceleyin.

VR

hiyerarşik kümeleme

#clustering

Kümeler ağacı oluşturan bir kümeleme algoritması kategorisi. Hiyerarşik kümeleme, botanik sınıflandırmalar gibi hiyerarşik veriler için çok uygundur. İki tür hiyerarşik kümeleme algoritması vardır:

  • Toplama kümeleme, öncelikle her örneği kendi kümesine atar ve en yakın kümeleri yinelemeli olarak birleştirerek bir hiyerarşik ağaç oluşturur.
  • Bölmeli kümeleme, önce tüm örnekleri tek bir kümede gruplandırır ve ardından kümeyi tekrarlı bir şekilde hiyerarşik bir ağaca böler.

Merkez tabanlı kümeleme ile kontrast oluşturun.

K

k-ortalaması

#clustering

Gözetimsiz öğrenmede örnekleri gruplandıran popüler bir kümeleme algoritması. K-ortalaması algoritması temel olarak aşağıdakileri yapar:

  • En iyi k merkez noktalarını (centroid olarak bilinir) yinelemeli bir şekilde belirler.
  • Her örneği en yakın merkeze atar. Aynı merkeze en yakın örnekler de aynı gruba aittir.

K-ortalaması algoritması, her bir örnekten en yakın merkeze olan mesafelerin kümülatif karesini en aza indirmek için merkez konumlarını seçer.

Örneğin, köpek boyunun köpeğin genişliğine göre aşağıdaki grafiğini inceleyin:

Birkaç düzine veri noktası içeren Kartezyen grafik.

k=3 ise k-ortalamalar algoritması üç merkezi nokta belirler. Her örnek en yakın merkezine atanır ve üç grup elde edilir:

Üç sentroit eklenmiş dışında, önceki çizimdekiyle aynı Kartezyen grafik.
          Önceki veri noktaları, her biri belirli bir merkeze en yakın veri noktalarını temsil eden üç farklı gruba ayrılmıştır.

Bir üreticinin köpekler için küçük, orta ve büyük kazaklar için ideal bedenleri belirlemek istediğini hayal edin. Üç merkez, bu kümedeki her bir köpeğin ortalama yüksekliğini ve ortalama genişliğini tanımlar. Dolayısıyla, üretici muhtemelen kazak bedenlerini bu üç sentroite dayandırmalıdır. Bir kümenin merkezi genellikle kümenin bir örneği olmadığını unutmayın.

Yukarıdaki resimlerde, yalnızca iki özelliğe (yükseklik ve genişlik) sahip örnekler için k-ortalaması gösterilmektedir. K ortalamalarının örnekleri birçok özellikte gruplandırabildiğini unutmayın.

k-ortanca değeri

#clustering

k-ortalamalar ile yakından ilişkili bir kümeleme algoritması. Bu ikisi arasındaki pratik fark şudur:

  • K ortalamalarında, sentroidler, bir merkez adayı ile örneklerinin her biri arasındaki mesafenin karelerinin toplamının en aza indirilmesiyle belirlenir.
  • K-ortasında, sentroidler, bir merkez adayı ile örneklerinin her biri arasındaki mesafe toplamının en aza indirilmesiyle belirlenir.

Uzaklık tanımlarının da farklı olduğunu unutmayın:

  • k-ortalaması, merkezin örneğe olan Öklid uzaklığı temel alınarak belirlenir. (İki boyutta Öklid uzaklığı, hipotenüsü hesaplamak için Pisagor teoreminin kullanılması anlamına gelir.) Örneğin, (2,2) ile (5,-2) arasındaki k-ortalama mesafe şöyle olur:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-ortanca değeri, merkezin örneğe göre Manhattan mesafesini temel alır. Bu mesafe, her bir boyuttaki mutlak deltaların toplamıdır. Örneğin, (2,2) ile (5,-2) arasındaki k-ortanca mesafesi şöyle olur:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

benzerlik ölçümü

#clustering

Kümeleme algoritmalarında, herhangi iki örneğin ne kadar benzer olduğunu (ne kadar benzer) belirlemek için kullanılan metrik.

eskiz

#clustering

Gözetimsiz makine öğreniminde, örnekler üzerinde ön benzerlik analizi gerçekleştiren bir algoritma kategorisi. Çizim algoritmaları, benzer olması muhtemel noktaları tanımlamak için konuma duyarlı bir karma işlevi kullanır ve daha sonra bunları gruplar halinde gruplandırır.

Çizim, büyük veri kümelerinde benzerlik hesaplamaları için gereken hesaplamayı azaltır. Veri kümesindeki her bir örnek çifti için benzerliği hesaplamak yerine, yalnızca her paketteki her bir nokta çifti için benzerliği hesaplarız.

T

zaman serisi analizi

#clustering

Geçici verileri analiz eden bir makine öğrenimi ve istatistik alt alanıdır. Sınıflandırma, kümeleme, öngörme ve anormallik algılama gibi birçok makine öğrenimi problemi zaman serisi analizi gerektirir. Örneğin, geçmiş satış verilerini temel alarak gelecekteki kışlık palto satışlarını tahmin etmek için zaman serisi analizini kullanabilirsiniz.

U

gözetimsiz makine öğrenimi

#clustering
#fundamentals

Bir veri kümesindeki (genellikle etiketlenmemiş bir veri kümesi) kalıpları bulmak için bir model eğitme.

Gözetimsiz makine öğreniminin en yaygın kullanımı, verileri benzer örneklerden oluşan gruplar halinde kümelemektir. Örneğin, gözetimsiz bir makine öğrenimi algoritması, şarkıları müziğin çeşitli özelliklerine göre kümeler. Ortaya çıkan kümeler, diğer makine öğrenimi algoritmalarına (ör. müzik öneri hizmetine) girdi olabilir. Yararlı etiketler yetersiz veya eksik olduğunda kümeleme işe yarayabilir. Örneğin, kötüye kullanımı önleme ve sahtekarlık gibi alanlarda kümeler, kullanıcıların verileri daha iyi anlamasına yardımcı olabilir.

Gözetimli makine öğrenimi ile karşılaştırma.