Esta página contém os termos do glossário de clusterização. Para conferir todos os termos do glossário, clique aqui.
A
clustering aglomerativo
Consulte clustering hierárquico.
C
centroid
O centro de um cluster determinado por um algoritmo k-means ou k-mediana. Por exemplo, se k for 3, o algoritmo k-means ou k-median vai encontrar três centróides.
Consulte Algoritmos de agrupamento no curso de agrupamento para mais informações.
Clustering com base no centroide
Uma categoria de algoritmos de agrupamento que organiza dados em clusters não hierárquicos. O k-means é o algoritmo de agrupamento baseado em centroide mais usado.
Compare com os algoritmos de agrupamento hierárquico.
Consulte Algoritmos de agrupamento no curso de agrupamento para mais informações.
clustering
Agrupar exemplos relacionados, principalmente durante o aprendizado não supervisionado. Depois que todos os exemplos forem agrupados, uma pessoa pode fornecer significado a cada cluster.
Existem muitos algoritmos de agrupamento. Por exemplo, o algoritmo k-means agrupa exemplos com base na proximidade de um centroide, como no diagrama a seguir:
Um pesquisador humano pode analisar os clusters e, por exemplo, rotular o cluster 1 como "árvores anãs" e o cluster 2 como "árvores de tamanho normal".
Como outro exemplo, considere um algoritmo de agrupamento baseado na distância de um exemplo de um ponto central, ilustrado da seguinte maneira:
Consulte o curso sobre agrupamento para mais informações.
D
clustering divisive
Consulte clustering hierárquico.
H
clustering hierárquico
Uma categoria de algoritmos de clustering que cria uma árvore de clusters. O agrupamento hierárquico é adequado para dados hierárquicos, como as taxonomias botânicas. Há dois tipos de algoritmos de agrupamento hierárquico:
- O clustering aglomerativo primeiro atribui cada exemplo ao próprio cluster e mescla de forma iterativa os clusters mais próximos para criar uma árvore hierárquica.
- O clustering divisivo agrupa primeiro todos os exemplos em um cluster e, em seguida, divide o cluster de forma iterativa em uma árvore hierárquica.
Compare com a agrupamento com base no centroide.
Consulte Algoritmos de clustering no curso de clustering para mais informações.
K
k-means
Um algoritmo de clustering conhecido que agrupa exemplos no aprendizado não supervisionado. O algoritmo k-means basicamente faz o seguinte:
- Determina iterativamente os melhores pontos centrais k (conhecidos como centroides).
- Atribui cada exemplo ao centroide mais próximo. Os exemplos mais próximos do mesmo centroide pertencem ao mesmo grupo.
O algoritmo k-means escolhe locais de centroide para minimizar o quadrado cumulativo das distâncias de cada exemplo para o centroide mais próximo.
Por exemplo, considere o seguinte gráfico de altura do cão em relação à largura:
Se k=3, o algoritmo k-means vai determinar três centroides. Cada exemplo é atribuído ao centroide mais próximo, gerando três grupos:
Imagine que um fabricante quer determinar os tamanhos ideais para suéteres pequenos, médios e grandes para cães. Os três centroides identificam a altura média e a largura média de cada cão nesse cluster. Portanto, o fabricante provavelmente deve basear os tamanhos dos suéteres nesses três centroides. O centroide de um cluster normalmente não é um exemplo no cluster.
As ilustrações anteriores mostram o k-means para exemplos com apenas dois recursos (altura e largura). O k-means pode agrupar exemplos em vários recursos.
k-median
Um algoritmo de agrupamento intimamente relacionado a k-means. A diferença prática entre os dois é a seguinte:
- Em k-means, os centroides são determinados minimizando a soma dos quadrados da distância entre um centroide candidato e cada um dos exemplos.
- Na k-mediana, os centroides são determinados minimizando a soma da distância entre um centroide candidato e cada um dos exemplos.
As definições de distância também são diferentes:
- O k-means depende da distância euclidiana do centroide para um exemplo. Em duas dimensões, a distância euclidiana significa usar o teorema de Pitágoras para calcular a hipotenusa. Por exemplo, a distância k-means entre (2,2) e (5,-2) seria:
- A mediana k usa a distância de Manhattan do centróide para um exemplo. Essa distância é a soma das deltas absolutas em cada dimensão. Por exemplo, a distância da mediana k entre (2,2) e (5,-2) seria:
S
medida de similaridade
Em algoritmos de agrupamento, a métrica usada para determinar o quanto dois exemplos são semelhantes.
esboçar
Em machine learning não supervisionado, uma categoria de algoritmos que realiza uma análise preliminar de similaridade em exemplos. Os algoritmos de esboço usam uma função hash sensível à localidade para identificar pontos que provavelmente são semelhantes e, em seguida, agrupam esses pontos em buckets.
O esboço reduz a computação necessária para cálculos de similaridade em grandes conjuntos de dados. Em vez de calcular a semelhança para cada par de exemplos no conjunto de dados, calculamos a semelhança apenas para cada par de pontos em cada bucket.
T
análise de séries temporais
Um subcampo do aprendizado de máquina e da estatística que analisa dados temporais. Muitos tipos de problemas de machine learning exigem análise de séries temporais, incluindo classificação, agrupamento, previsão e detecção de anomalias. Por exemplo, você pode usar a análise de séries temporais para prever as vendas futuras de casacos de inverno por mês com base nos dados históricos de vendas.
U
machine learning não supervisionado
Treinar um modelo para encontrar padrões em um conjunto de dados, normalmente um conjunto de dados não rotulado.
O uso mais comum do aprendizado de máquina não supervisionado é agrupar dados em grupos de exemplos semelhantes. Por exemplo, um algoritmo de aprendizado de máquina não supervisionado pode agrupar músicas com base em várias propriedades da música. Os clusters resultantes podem se tornar uma entrada para outros algoritmos de aprendizado de máquina, por exemplo, para um serviço de recomendação de músicas. O agrupamento pode ajudar quando os rótulos úteis são escassos ou ausentes. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar as pessoas a entender melhor os dados.
Compare com o machine learning supervisionado.