ee.Clusterer.wekaKMeans

Raggruppa i dati utilizzando l'algoritmo k-means. Può utilizzare la distanza euclidea (impostazione predefinita) o la distanza di Manhattan. Se viene utilizzata la distanza di Manhattan, i centroidi vengono calcolati come mediana componente per componente anziché come media. Per ulteriori informazioni, vedi:

D. Arthur, S. Vassilvitskii: k-means++: the advantages of careful seeding. In: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.

UtilizzoResi
ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)Clusterer
ArgomentoTipoDettagli
nClustersNumero interoNumero di cluster.
initNumero intero, valore predefinito: 0Metodo di inizializzazione da utilizzare. 0 = casuale, 1 = k-means++, 2 = canopy, 3 = farthest first.
canopiesBooleano, valore predefinito: falseUtilizza i baldacchini per ridurre il numero di calcoli della distanza.
maxCandidatesNumero intero, valore predefinito: 100Numero massimo di canopie candidate da conservare in memoria in qualsiasi momento quando utilizzi il clustering delle canopie. La distanza T2 più le caratteristiche dei dati determineranno il numero di chiome candidate che vengono formate prima che vengano eseguite le potature periodiche e finali, il che potrebbe comportare un consumo eccessivo di memoria. Questa impostazione evita che un numero elevato di chiome candidate consumi memoria.
periodicPruningNumero intero, valore predefinito: 10000Frequenza di potatura delle chiome a bassa densità quando si utilizza il clustering delle chiome.
minDensityNumero intero, valore predefinito: 2Densità minima della chioma, quando si utilizza il clustering delle chiome, al di sotto della quale una chioma verrà potata durante la potatura periodica.
t1Float, valore predefinito: -1,5La distanza T1 da utilizzare quando si utilizza il clustering canopy. Un valore < 0 viene considerato un moltiplicatore positivo per T2.
t2Float, valore predefinito: -1La distanza T2 da utilizzare quando si utilizza il clustering canopy. I valori < 0 causano l'utilizzo di un'euristica basata sulla deviazione standard dell'attributo.
distanceFunctionStringa, valore predefinito: "Euclidea"Funzione di distanza da utilizzare. Le opzioni sono: euclidea e Manhattan.
maxIterationsNumero intero, valore predefinito: nullNumero massimo di iterazioni.
preserveOrderBooleano, valore predefinito: falseConserva l'ordine delle istanze.
fastBooleano, valore predefinito: falseConsente calcoli della distanza più rapidi, utilizzando valori limite. Disattiva il calcolo/l'output di errori/distanze al quadrato.
seedNumero intero, valore predefinito: 10Il seed di randomizzazione.