Bu sayfa Kümeleme sözlüğü terimlerini içerir. Tüm sözlük terimleri için burayı tıklayın.
CEVAP
toplu kümeleme
Hiyerarşik kümeleme bölümünü inceleyin.
C
merkez
k-ortalamalar veya k-ortanca algoritmasıyla belirlenen küme merkezi. Örneğin, k 3 ise k-ortalaması veya k-ortanca algoritması, 3 merkezi bulur.
merkez tabanlı kümeleme
Verileri hiyerarşik olmayan kümeler halinde düzenleyen bir kümeleme algoritması. k ortalaması, en yaygın kullanılan merkez tabanlı kümeleme algoritmasıdır.
Hiyerarşik kümeleme algoritmalarıyla kontrast oluşturun.
kümeleme
Özellikle gözetimsiz öğrenme sırasında alakalı örnekleri gruplandırma. Tüm örnekler gruplandırıldıktan sonra, bir insan isteğe bağlı olarak her kümeyi anlamlandırabilir.
Birçok kümeleme algoritması mevcuttur. Örneğin, k-ortalamalar algoritma kümesi örnekleri, aşağıdaki şemada olduğu gibi bir merkez merkezine yakınlıklarına göre belirlenir:
Daha sonra gerçek bir araştırmacı, kümeleri inceleyebilir ve örneğin, küme 1'i "cüce ağaçlar" ve küme 2'yi "tam boyutlu ağaçlar" olarak etiketleyebilir.
Başka bir örnek olarak, bir örneğin merkez noktasından uzaklığına dayanan, aşağıdaki şekilde gösterilen bir kümeleme algoritmasını ele alalım:
D
bölme
Hiyerarşik kümeleme bölümünü inceleyin.
VR
hiyerarşik kümeleme
Kümeler ağacı oluşturan bir kümeleme algoritması kategorisi. Hiyerarşik kümeleme, botanik sınıflandırmalar gibi hiyerarşik veriler için çok uygundur. İki tür hiyerarşik kümeleme algoritması vardır:
- Toplama kümeleme, öncelikle her örneği kendi kümesine atar ve en yakın kümeleri yinelemeli olarak birleştirerek bir hiyerarşik ağaç oluşturur.
- Bölmeli kümeleme, önce tüm örnekleri tek bir kümede gruplandırır ve ardından kümeyi tekrarlı bir şekilde hiyerarşik bir ağaca böler.
Merkez tabanlı kümeleme ile kontrast oluşturun.
K
k-ortalaması
Gözetimsiz öğrenmede örnekleri gruplandıran popüler bir kümeleme algoritması. K-ortalaması algoritması temel olarak aşağıdakileri yapar:
- En iyi k merkez noktalarını (centroid olarak bilinir) yinelemeli bir şekilde belirler.
- Her örneği en yakın merkeze atar. Aynı merkeze en yakın örnekler de aynı gruba aittir.
K-ortalaması algoritması, her bir örnekten en yakın merkeze olan mesafelerin kümülatif karesini en aza indirmek için merkez konumlarını seçer.
Örneğin, köpek boyunun köpeğin genişliğine göre aşağıdaki grafiğini inceleyin:
k=3 ise k-ortalamalar algoritması üç merkezi nokta belirler. Her örnek en yakın merkezine atanır ve üç grup elde edilir:
Bir üreticinin köpekler için küçük, orta ve büyük kazaklar için ideal bedenleri belirlemek istediğini hayal edin. Üç merkez, bu kümedeki her bir köpeğin ortalama yüksekliğini ve ortalama genişliğini tanımlar. Dolayısıyla, üretici muhtemelen kazak bedenlerini bu üç sentroite dayandırmalıdır. Bir kümenin merkezi genellikle kümenin bir örneği olmadığını unutmayın.
Yukarıdaki resimlerde, yalnızca iki özelliğe (yükseklik ve genişlik) sahip örnekler için k-ortalaması gösterilmektedir. K ortalamalarının örnekleri birçok özellikte gruplandırabildiğini unutmayın.
k-ortanca değeri
k-ortalamalar ile yakından ilişkili bir kümeleme algoritması. Bu ikisi arasındaki pratik fark şudur:
- K ortalamalarında, sentroidler, bir merkez adayı ile örneklerinin her biri arasındaki mesafenin karelerinin toplamının en aza indirilmesiyle belirlenir.
- K-ortasında, sentroidler, bir merkez adayı ile örneklerinin her biri arasındaki mesafe toplamının en aza indirilmesiyle belirlenir.
Uzaklık tanımlarının da farklı olduğunu unutmayın:
- k-ortalaması, merkezin örneğe olan Öklid uzaklığı temel alınarak belirlenir. (İki boyutta Öklid uzaklığı, hipotenüsü hesaplamak için Pisagor teoreminin kullanılması anlamına gelir.) Örneğin, (2,2) ile (5,-2) arasındaki k-ortalama mesafe şöyle olur:
- k-ortanca değeri, merkezin örneğe göre Manhattan mesafesini temel alır. Bu mesafe, her bir boyuttaki mutlak deltaların toplamıdır. Örneğin, (2,2) ile (5,-2) arasındaki k-ortanca mesafesi şöyle olur:
S
benzerlik ölçümü
Kümeleme algoritmalarında, herhangi iki örneğin ne kadar benzer olduğunu (ne kadar benzer) belirlemek için kullanılan metrik.
eskiz
Gözetimsiz makine öğreniminde, örnekler üzerinde ön benzerlik analizi gerçekleştiren bir algoritma kategorisi. Çizim algoritmaları, benzer olması muhtemel noktaları tanımlamak için konuma duyarlı bir karma işlevi kullanır ve daha sonra bunları gruplar halinde gruplandırır.
Çizim, büyük veri kümelerinde benzerlik hesaplamaları için gereken hesaplamayı azaltır. Veri kümesindeki her bir örnek çifti için benzerliği hesaplamak yerine, yalnızca her paketteki her bir nokta çifti için benzerliği hesaplarız.
T
zaman serisi analizi
Geçici verileri analiz eden bir makine öğrenimi ve istatistik alt alanıdır. Sınıflandırma, kümeleme, öngörme ve anormallik algılama gibi birçok makine öğrenimi problemi zaman serisi analizi gerektirir. Örneğin, geçmiş satış verilerini temel alarak gelecekteki kışlık palto satışlarını tahmin etmek için zaman serisi analizini kullanabilirsiniz.
U
gözetimsiz makine öğrenimi
Bir veri kümesindeki (genellikle etiketlenmemiş bir veri kümesi) kalıpları bulmak için bir model eğitme.
Gözetimsiz makine öğreniminin en yaygın kullanımı, verileri benzer örneklerden oluşan gruplar halinde kümelemektir. Örneğin, gözetimsiz bir makine öğrenimi algoritması, şarkıları müziğin çeşitli özelliklerine göre kümeler. Ortaya çıkan kümeler, diğer makine öğrenimi algoritmalarına (ör. müzik öneri hizmetine) girdi olabilir. Yararlı etiketler yetersiz veya eksik olduğunda kümeleme işe yarayabilir. Örneğin, kötüye kullanımı önleme ve sahtekarlık gibi alanlarda kümeler, kullanıcıların verileri daha iyi anlamasına yardımcı olabilir.
Gözetimli makine öğrenimi ile karşılaştırma.