Glosarium Machine Learning: Pengelompokan

Halaman ini berisi istilah Pengelompokan glosarium. Untuk semua istilah glosarium, klik di sini.

J

pengklasteran aglomeratif

#clustering

Lihat pengelompokan hierarkis.

C

sentroid

#clustering

Pusat cluster sebagaimana ditentukan oleh algoritma k-means atau k-median. Misalnya, jika k bernilai 3, maka algoritme k-means atau k-median akan menemukan 3 sentroid.

pengklasteran berbasis sentroid

#clustering

Kategori algoritma pengelompokan yang mengatur data menjadi cluster yang tidak hierarkis. k-means adalah algoritme pengelompokan berbasis sentroid yang paling banyak digunakan.

Berbeda dengan algoritma pengelompokan hierarkis.

pengelompokan

#clustering

Mengelompokkan contoh terkait, terutama selama unsupervised learning. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan arti pada setiap cluster.

Ada banyak algoritma pengklasteran. Misalnya, contoh cluster algoritma k-means berdasarkan kedekatannya dengan sentroid, seperti dalam diagram berikut:

Grafik dua dimensi yang sumbu x diberi label lebar pohon,
          dan sumbu y diberi label tinggi pohon. Grafik berisi dua sentroid dan beberapa belas titik data. Titik data dikategorikan berdasarkan kedekatannya. Artinya, titik data yang terdekat dengan satu sentroid dikategorikan sebagai cluster 1, sedangkan yang terdekat dengan sentroid lainnya dikategorikan sebagai cluster 2.

Kemudian, peneliti manusia dapat meninjau cluster dan, misalnya, memberi label cluster 1 sebagai "pohon kerdil" dan cluster 2 sebagai "pohon berukuran penuh".

Sebagai contoh lain, pertimbangkan algoritma pengelompokan berdasarkan jarak contoh dari titik tengah, yang diilustrasikan sebagai berikut:

Puluhan titik data disusun dalam lingkaran konsentris, hampir seperti lubang di tengah papan panah. Lingkaran terdalam dari titik data dikategorikan sebagai cluster 1, cincin tengah dikategorikan sebagai cluster 2, dan cincin terluar sebagai cluster 3.

D

pengelompokan divisif

#clustering

Lihat pengelompokan hierarkis.

H

pengelompokan hierarkis

#clustering

Kategori algoritma pengelompokan yang membuat pohon cluster. Pengelompokan hierarki sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis algoritma pengelompokan hierarkis:

  • Pengelompokan aglomeratif menetapkan setiap contoh ke clusternya sendiri terlebih dahulu, dan secara berulang menggabungkan cluster terdekat untuk membuat pohon hierarki.
  • Pengelompokan divisif mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, lalu secara berulang membagi cluster ke dalam pohon hierarki.

Berbeda dengan pengelompokan berbasis sentroid.

K

k-mean

#clustering

Algoritma pengelompokan populer yang mengelompokkan contoh dalam unsupervised learning. Algoritma k-means pada dasarnya melakukan hal berikut:

  • Secara berulang menentukan titik tengah k terbaik (dikenal sebagai sentroid).
  • Menetapkan setiap contoh ke sentroid terdekat. Contoh tersebut yang terdekat dengan sentroid yang sama akan berada di grup yang sama.

Algoritma k-means memilih lokasi sentroid untuk meminimalkan kuadrat kumulatif jarak dari setiap contoh ke sentroid terdekatnya.

Misalnya, pertimbangkan plot tinggi dan lebar berikut:

Sebuah plot Kartesius dengan beberapa puluh titik data.

Jika k=3, algoritma k-means akan menentukan tiga sentroid. Setiap contoh ditetapkan ke sentroid terdekatnya, sehingga menghasilkan tiga kelompok:

Plot Kartesius yang sama seperti pada ilustrasi sebelumnya, kecuali dengan tambahan tiga sentroid.
          Titik data sebelumnya dikelompokkan ke dalam tiga grup yang berbeda, di mana setiap grup mewakili titik data yang terdekat dengan sentroid tertentu.

Bayangkan bahwa produsen ingin menentukan ukuran yang ideal untuk olahraga kecil, sedang, dan besar untuk. Tiga sentroid mengidentifikasi tinggi rata-rata dan lebar rata-rata setiap di gugus tersebut. Jadi, produsen mungkin harus mendasarkan ukuran sweter pada tiga sentroid tersebut. Perhatikan bahwa sentroid cluster biasanya bukan merupakan contoh dalam cluster.

Ilustrasi sebelumnya menunjukkan k-means untuk contoh dengan dua fitur saja (tinggi dan lebar). Perhatikan bahwa k-means dapat mengelompokkan contoh di banyak fitur.

k-median

#clustering

Algoritma pengelompokan yang terkait erat dengan k-means. Perbedaan praktis antara keduanya adalah sebagai berikut:

  • Dalam k-means, sentroid ditentukan dengan meminimalkan jumlah kuadrat jarak antara kandidat sentroid dan setiap contohnya.
  • Dalam k-median, sentroid ditentukan dengan meminimalkan jumlah jarak antara kandidat sentroid dan setiap contohnya.

Perhatikan bahwa definisi jarak juga berbeda:

  • k-means bergantung pada jarak Euclidean dari sentroid ke contoh. (Dalam dua dimensi, jarak Euclidean berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-means antara (2,2) dan (5,-2) adalah:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah delta absolut di setiap dimensi. Misalnya, jarak k-median antara (2,2) dan (5,-2) adalah:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

ukuran kesamaan

#clustering

Dalam algoritma pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip dua contoh yang diberikan.

membuat sketsa

#clustering

Dalam unsupervised machine learning, kategori algoritma yang melakukan analisis kesamaan awal pada contoh. Algoritma Sketching menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi titik-titik yang mungkin mirip, lalu mengelompokkannya ke dalam bucket.

Sketching mengurangi komputasi yang diperlukan untuk penghitungan kesamaan pada set data besar. Alih-alih menghitung kesamaan untuk setiap pasangan contoh dalam set data, kami menghitung kesamaan hanya untuk setiap pasangan titik dalam setiap bucket.

T

analisis deret waktu

#clustering

Subbidang machine learning dan statistik yang menganalisis data sementara. Banyak jenis masalah machine learning memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda dapat menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin di masa mendatang per bulan berdasarkan data penjualan historis.

U

unsupervised machine learning

#clustering
#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.

Penggunaan paling umum dari unsupervised machine learning adalah untuk mengelompokkan data ke dalam grup contoh yang serupa. Misalnya, algoritma unsupervised machine learning dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritma machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu ketika label yang berguna jumlahnya terbatas atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia untuk lebih memahami data.

Berbeda dengan supervised machine learning.