Halaman ini berisi istilah Pengelompokan glosarium. Untuk semua istilah glosarium, klik di sini.
J
pengklasteran aglomeratif
Lihat pengelompokan hierarkis.
C
sentroid
Pusat cluster sebagaimana ditentukan oleh algoritma k-means atau k-median. Misalnya, jika k bernilai 3, maka algoritme k-means atau k-median akan menemukan 3 sentroid.
pengklasteran berbasis sentroid
Kategori algoritma pengelompokan yang mengatur data menjadi cluster yang tidak hierarkis. k-means adalah algoritme pengelompokan berbasis sentroid yang paling banyak digunakan.
Berbeda dengan algoritma pengelompokan hierarkis.
pengelompokan
Mengelompokkan contoh terkait, terutama selama unsupervised learning. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan arti pada setiap cluster.
Ada banyak algoritma pengklasteran. Misalnya, contoh cluster algoritma k-means berdasarkan kedekatannya dengan sentroid, seperti dalam diagram berikut:
Kemudian, peneliti manusia dapat meninjau cluster dan, misalnya, memberi label cluster 1 sebagai "pohon kerdil" dan cluster 2 sebagai "pohon berukuran penuh".
Sebagai contoh lain, pertimbangkan algoritma pengelompokan berdasarkan jarak contoh dari titik tengah, yang diilustrasikan sebagai berikut:
D
pengelompokan divisif
Lihat pengelompokan hierarkis.
H
pengelompokan hierarkis
Kategori algoritma pengelompokan yang membuat pohon cluster. Pengelompokan hierarki sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis algoritma pengelompokan hierarkis:
- Pengelompokan aglomeratif menetapkan setiap contoh ke clusternya sendiri terlebih dahulu, dan secara berulang menggabungkan cluster terdekat untuk membuat pohon hierarki.
- Pengelompokan divisif mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, lalu secara berulang membagi cluster ke dalam pohon hierarki.
Berbeda dengan pengelompokan berbasis sentroid.
K
k-mean
Algoritma pengelompokan populer yang mengelompokkan contoh dalam unsupervised learning. Algoritma k-means pada dasarnya melakukan hal berikut:
- Secara berulang menentukan titik tengah k terbaik (dikenal sebagai sentroid).
- Menetapkan setiap contoh ke sentroid terdekat. Contoh tersebut yang terdekat dengan sentroid yang sama akan berada di grup yang sama.
Algoritma k-means memilih lokasi sentroid untuk meminimalkan kuadrat kumulatif jarak dari setiap contoh ke sentroid terdekatnya.
Misalnya, pertimbangkan plot tinggi dan lebar berikut:
Jika k=3, algoritma k-means akan menentukan tiga sentroid. Setiap contoh ditetapkan ke sentroid terdekatnya, sehingga menghasilkan tiga kelompok:
Bayangkan bahwa produsen ingin menentukan ukuran yang ideal untuk olahraga kecil, sedang, dan besar untuk. Tiga sentroid mengidentifikasi tinggi rata-rata dan lebar rata-rata setiap di gugus tersebut. Jadi, produsen mungkin harus mendasarkan ukuran sweter pada tiga sentroid tersebut. Perhatikan bahwa sentroid cluster biasanya bukan merupakan contoh dalam cluster.
Ilustrasi sebelumnya menunjukkan k-means untuk contoh dengan dua fitur saja (tinggi dan lebar). Perhatikan bahwa k-means dapat mengelompokkan contoh di banyak fitur.
k-median
Algoritma pengelompokan yang terkait erat dengan k-means. Perbedaan praktis antara keduanya adalah sebagai berikut:
- Dalam k-means, sentroid ditentukan dengan meminimalkan jumlah kuadrat jarak antara kandidat sentroid dan setiap contohnya.
- Dalam k-median, sentroid ditentukan dengan meminimalkan jumlah jarak antara kandidat sentroid dan setiap contohnya.
Perhatikan bahwa definisi jarak juga berbeda:
- k-means bergantung pada jarak Euclidean dari sentroid ke contoh. (Dalam dua dimensi, jarak Euclidean berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-means antara (2,2) dan (5,-2) adalah:
- k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah delta absolut di setiap dimensi. Misalnya, jarak k-median antara (2,2) dan (5,-2) adalah:
S
ukuran kesamaan
Dalam algoritma pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip dua contoh yang diberikan.
membuat sketsa
Dalam unsupervised machine learning, kategori algoritma yang melakukan analisis kesamaan awal pada contoh. Algoritma Sketching menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi titik-titik yang mungkin mirip, lalu mengelompokkannya ke dalam bucket.
Sketching mengurangi komputasi yang diperlukan untuk penghitungan kesamaan pada set data besar. Alih-alih menghitung kesamaan untuk setiap pasangan contoh dalam set data, kami menghitung kesamaan hanya untuk setiap pasangan titik dalam setiap bucket.
T
analisis deret waktu
Subbidang machine learning dan statistik yang menganalisis data sementara. Banyak jenis masalah machine learning memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda dapat menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin di masa mendatang per bulan berdasarkan data penjualan historis.
U
unsupervised machine learning
Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.
Penggunaan paling umum dari unsupervised machine learning adalah untuk mengelompokkan data ke dalam grup contoh yang serupa. Misalnya, algoritma unsupervised machine learning dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritma machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu ketika label yang berguna jumlahnya terbatas atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia untuk lebih memahami data.
Berbeda dengan supervised machine learning.