Nesta página, você encontra os termos do glossário de clustering. Para ver todos os termos do glossário, clique aqui.
A
clustering aglomerativo
Consulte clustering hierárquico.
C
centroid
O centro de um cluster, conforme determinado por um algoritmo k-means ou k-median. Por exemplo, se k é 3, o algoritmo k-means ou k-median encontra três centroides.
clustering baseado em centroide
Uma categoria de algoritmos de clustering que organiza os dados em clusters não hierárquicos. k-means é o algoritmo de clustering baseado em centroide mais usado.
Contraste com algoritmos de clustering hierárquico.
clustering
Agrupar exemplos relacionados, especialmente durante o aprendizado não supervisionado. Depois que todos os exemplos estiverem agrupados, um humano poderá, opcionalmente, fornecer significado para cada cluster.
Há muitos algoritmos de clustering. Por exemplo, os exemplos de clusters de algoritmo k-means baseados na proximidade deles com um centroide, como no diagrama a seguir:
Um pesquisador humano pode revisar os clusters e, por exemplo, rotular o cluster 1 como "árvores anãs" e o cluster 2 como "árvores de tamanho real".
Como outro exemplo, considere um algoritmo de clustering com base na distância de um exemplo de um ponto central, ilustrado a seguir:
D
agrupamento divisivo
Consulte clustering hierárquico.
H
clustering hierárquico
Uma categoria de algoritmos de clustering que criam uma árvore de clusters. O clustering hierárquico é adequado para dados hierárquicos, como taxonomias botânicas. Há dois tipos de algoritmos de clustering hierárquicos:
- Primeiro, o clustering aglomerativo atribui cada exemplo ao próprio cluster e mescla iterativamente os clusters mais próximos para criar uma árvore hierárquica.
- Primeiro, o clustering divisivo agrupa todos os exemplos em um único cluster e, em seguida, o divide iterativamente em uma árvore hierárquica.
Contraste com o clustering baseado em centroide.
K
k-means
Um algoritmo de clustering conhecido que agrupa exemplos em aprendizado não supervisionado. O algoritmo k-means basicamente faz o seguinte:
- Determina iterativamente os melhores k pontos centrais (conhecidos como centróides).
- Atribui cada exemplo ao centroide mais próximo. Os exemplos mais próximos do mesmo centroide pertencem ao mesmo grupo.
O algoritmo k-means escolhe locais centroides para minimizar o quadrado cumulativo das distâncias de cada exemplo até o centroide mais próximo.
Por exemplo, considere o seguinte gráfico da altura e da largura dos cachorros:
Se k=3, o algoritmo k-means vai determinar três centroides. Cada exemplo é atribuído ao centroide mais próximo, produzindo três grupos:
Imagine que um fabricante quer determinar os tamanhos ideais para suéteres pequenos, médios e grandes para cães. Os três centroides identificam a altura e a largura médias de cada cachorro nesse cluster. Portanto, o fabricante provavelmente deve basear os tamanhos de suéteres nesses três centroides. Observe que o centroide de um cluster normalmente não é um exemplo no cluster.
As ilustrações anteriores mostram k-means para exemplos com apenas dois elementos (altura e largura). Observe que o k-means pode agrupar exemplos em muitos atributos.
k-mediana
Um algoritmo de clustering relacionado a k-means. A diferença prática entre as duas é a seguinte:
- Em k-means, os centroides são determinados minimizando a soma dos quadrados da distância entre um candidato a centroide e cada um de seus exemplos.
- Em k-mediana, os centroides são determinados minimizando a soma da distância entre um candidato a centroide e cada um dos seus exemplos.
As definições de distância também são diferentes:
- k-means depende da distância euclidiana do centroide até um exemplo. Em duas dimensões, a distância euclidiana significa usar o teorema de Pitágoras para calcular a hipotenusa. Por exemplo, a distância k-means entre (2,2) e (5,-2) seria:
- k-median depende da distância de Manhattan do centroide até um exemplo. Essa distância é a soma dos deltas absolutos de cada dimensão. Por exemplo, a distância k-mediana entre (2,2) e (5,-2) seria:
S
medida de similaridade
Nos algoritmos de clustering, a métrica usada para determinar a semelhança entre dois exemplos.
esboços
Em machine learning não supervisionado, uma categoria de algoritmos que realizam uma análise preliminar de similaridade em exemplos. Os algoritmos de esboço usam uma função de hash sensível à localidade para identificar pontos que provavelmente são semelhantes e, em seguida, agrupá-los em buckets.
Os esboços reduzem o cálculo necessário para cálculos de similaridade em grandes conjuntos de dados. Em vez de calcular a semelhança para cada par de exemplos no conjunto de dados, calculamos a semelhança apenas para cada par de pontos dentro de cada bucket.
T
análise de série temporal
Um subcampo de machine learning e estatística que analisa dados temporais. Muitos tipos de problemas de machine learning exigem análise de séries temporais, incluindo classificação, clustering, previsão e detecção de anomalias. Por exemplo, é possível usar a análise de série temporal para prever as vendas futuras de casacos de inverno por mês com base nos dados históricos.
U
machine learning não supervisionado
Treinar um model para encontrar padrões em um conjunto de dados, normalmente um conjunto de dados não rotulado.
O uso mais comum do machine learning não supervisionado é cluster de dados em grupos de exemplos semelhantes. Por exemplo, um algoritmo de aprendizado de máquina não supervisionado pode agrupar músicas com base em várias propriedades delas. Os clusters resultantes podem se tornar uma entrada para outros algoritmos de machine learning (por exemplo, para um serviço de recomendação de músicas). O clustering pode ajudar quando os rótulos úteis estiverem escassos ou ausentes. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar os humanos a entender melhor os dados.
Contraste com o machine learning supervisionado.