ee.Clusterer.wekaKMeans

Agrupa los datos en clústeres con el algoritmo k-means. Se puede usar la distancia euclidiana (predeterminada) o la distancia Manhattan. Si se usa la distancia Manhattan, los centroides se calculan como la mediana por componentes en lugar de la media. Para obtener más información, consulta lo siguiente:

D. Arthur, S. Vassilvitskii: k-means++: The advantages of careful seeding. En: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.

UsoMuestra
ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)Clusterer
ArgumentoTipoDetalles
nClustersNúmero enteroEs la cantidad de clústeres.
initNúmero entero, valor predeterminado: 0Es el método de inicialización que se usará. 0 = Aleatorio, 1 = K-means++, 2 = Canopy, 3 = Farthest first.
canopiesBooleano, valor predeterminado: falsoUsa doseles para reducir la cantidad de cálculos de distancia.
maxCandidatesNúmero entero, valor predeterminado: 100Cantidad máxima de agrupamientos candidatos que se pueden conservar en la memoria en cualquier momento cuando se usa la agrupación en clústeres de dosel. La distancia T2 y las características de los datos determinarán cuántos grupos candidatos se formarán antes de que se realicen las podas periódicas y finales, lo que podría generar un consumo excesivo de memoria. Este parámetro de configuración evita que una gran cantidad de posibles doseles consuman memoria.
periodicPruningNúmero entero. El valor predeterminado es 10000.Frecuencia con la que se podan los doseles de baja densidad cuando se usa el agrupamiento de doseles.
minDensityNúmero entero, valor predeterminado: 2Es la densidad mínima de la copa cuando se usa el agrupamiento de copas, por debajo de la cual se podará una copa durante la poda periódica.
t1Número de punto flotante, valor predeterminado: -1.5Es la distancia T1 que se usará cuando se realice el agrupamiento en clústeres de dosel. Un valor < 0 se toma como un multiplicador positivo para T2.
t2Número de punto flotante, valor predeterminado: -1Es la distancia T2 que se debe usar cuando se usa el agrupamiento en clústeres de dosel. Los valores menores que 0 hacen que se use una heurística basada en la desviación estándar del atributo.
distanceFunctionCadena, valor predeterminado: "Euclidean"Es la función de distancia que se usará. Las opciones son: euclidiana y Manhattan.
maxIterationsNúmero entero, valor predeterminado: nuloCantidad máxima de iteraciones.
preserveOrderBooleano, valor predeterminado: falsoSe conserva el orden de las instancias.
fastBooleano, valor predeterminado: falsoPermite cálculos de distancia más rápidos con valores de corte. Inhabilita el cálculo o la salida de errores o distancias al cuadrado.
seedNúmero entero, valor predeterminado: 10Es la semilla de aleatorización.