Glossário de machine learning: clustering

Esta página contém os termos do glossário de clustering. Para todos os termos do glossário, clique aqui.

A

cluster aglomerativo

#clustering

Consulte clustering hierárquico.

C

centroid

#clustering

O centro de um cluster conforme determinado por um algoritmo k-means ou k-median. Por exemplo, se k for 3, o algoritmo k-means ou k-median encontrará 3 centroides.

clustering baseado em centroide

#clustering

Uma categoria de algoritmos de clustering que organiza dados em clusters não hierárquicos. k-means é o algoritmo de clustering baseado em centróide mais usado.

Contraste com algoritmos de clustering hierárquico.

clustering

#clustering

Agrupamento de exemplos relacionados, principalmente durante aprendizado não supervisionado. Depois que todos os exemplos forem agrupados, um humano poderá, opcionalmente, fornecer significado para cada cluster.

Existem muitos algoritmos de clustering. Por exemplo, o algoritmo k-means agrupa exemplos com base na proximidade com um centroide, como no diagrama a seguir:

Um gráfico bidimensional no qual o eixo x é rotulado como "largura da árvore" e o eixo y é rotulado como "altura da árvore". O gráfico contém dois centroides e várias dezenas de pontos de dados. Os pontos de dados são categorizados com base na proximidade. Ou seja, os pontos de dados mais próximos de um centroide são categorizados como "cluster 1", enquanto os mais próximos do outro centroide são categorizados como "cluster 2".

Um pesquisador poderia revisar os clusters e, por exemplo, rotular o cluster 1 como "árvores anãs" e o cluster 2 como "árvores em tamanho original".

Como outro exemplo, considere um algoritmo de clustering baseado na distância de um exemplo de um ponto central, ilustrado da seguinte maneira:

Dezenas de pontos de dados são organizados em círculos concêntricos, quase como buracos ao redor do centro de um dardo. O anel mais interno de pontos de dados é categorizado como "cluster 1", o anel médio é classificado como "cluster 2" e o anel mais externo como "cluster 3".

D)

clustering divisivo

#clustering

Consulte clustering hierárquico.

H

clustering hierárquico

#clustering

Uma categoria de algoritmos de clustering que criam uma árvore de clusters. O cluster hierárquico é adequado para dados hierárquicos, como taxonomias botânicas. Há dois tipos de algoritmos de clustering hierárquicos:

  • O cluster aglomerativo primeiro atribui cada exemplo ao próprio cluster e mescla iterativamente os clusters mais próximos para criar uma árvore hierárquica.
  • O clustering divisivo primeiro agrupa todos os exemplos em um cluster e, em seguida, divide o cluster iterativamente em uma árvore hierárquica.

Contraste com o clustering baseado em centróide.

K

k-means

#clustering

Um conhecido algoritmo de clustering que agrupa exemplos em aprendizado não supervisionado. O algoritmo k-means basicamente faz o seguinte:

  • Determina iterativamente os melhores k pontos centrais (conhecidos como centroides).
  • Atribui cada exemplo ao centroide mais próximo. Os exemplos mais próximos do mesmo centroide pertencem ao mesmo grupo.

O algoritmo k-means escolhe locais do centroide para minimizar o quadrado cumulativo das distâncias de cada exemplo para o centroide mais próximo.

Por exemplo, considere o seguinte gráfico da altura do cachorro em relação à largura:

Um gráfico cartesiano com dezenas de pontos de dados.

Se k=3, o algoritmo k-means determinará três centroides. Cada exemplo é atribuído ao centroide mais próximo, produzindo três grupos:

O mesmo gráfico cartesiano da ilustração anterior, mas com três centroides adicionados.
          Os pontos de dados anteriores são agrupados em três grupos distintos. Cada grupo representa os pontos de dados mais próximos de um centróide específico.

Imagine que um fabricante queira determinar os tamanhos ideais para suéteres pequenos, médios e grandes para cães. Os três centroides identificam a altura e a largura médias de cada cão nesse cluster. Portanto, o fabricante provavelmente deve basear os tamanhos de suéter nesses três centroides. Observe que o centroide de um cluster geralmente não é um exemplo no cluster.

As ilustrações anteriores mostram k-means para exemplos com apenas dois atributos (altura e largura). Os k-means podem agrupar exemplos em vários recursos.

k-mediana

#clustering

Um algoritmo de clustering intimamente relacionado a k-means. A diferença prática entre os dois é a seguinte:

  • Em k-means, os centroides são determinados minimizando a soma dos quadrados da distância entre um candidato a centroide e cada um dos exemplos.
  • No k-median, os centroides são determinados minimizando a soma da distância entre um candidato centroide e cada um dos exemplos.

As definições de distância também são diferentes:

  • k-means depende da distância euclidiana do centroide para um exemplo. Em duas dimensões, a distância euclidiana significa usar o teorema de Pitágoras para calcular a hipotenusa. Por exemplo, a distância k-means entre (2,2) e (5,-2) seria:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • O k-median depende da distância de Manhattan do centroide até um exemplo. Essa distância é a soma dos deltas absolutos em cada dimensão. Por exemplo, a distância k-mediana entre (2,2) e (5,-2) seria:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

medida de similaridade

#clustering

Nos algoritmos de clustering, a métrica usada para determinar a semelhança de dois exemplos.

desenho

#clustering

Em machine learning não supervisionado, uma categoria de algoritmos que realizam uma análise de similaridade preliminar em exemplos. Os algoritmos de esboço usam uma função de hash sensível à localidade para identificar pontos que provavelmente serão semelhantes e, em seguida, agrupá-los em buckets.

O esboço diminui a computação necessária para cálculos de similaridade em grandes conjuntos de dados. Em vez de calcular a semelhança para cada par de exemplos no conjunto de dados, calculamos a semelhança apenas para cada par de pontos dentro de cada bucket.

T

análise de séries temporais

#clustering

Um subcampo de machine learning e estatística que analisa dados temporais. Muitos tipos de problemas de machine learning exigem análise de série temporal, incluindo classificação, clustering, previsão e detecção de anomalias. Por exemplo, é possível usar a análise de série temporal para prever as vendas futuras de casacos de inverno por mês com base nos dados históricos de vendas.

U

machine learning não supervisionado

#clustering
#fundamentals

Treinamento de um modelo para encontrar padrões em um conjunto de dados, normalmente um conjunto de dados não rotulado.

O uso mais comum de machine learning não supervisionado é agrupar dados em grupos de exemplos semelhantes. Por exemplo, um algoritmo de aprendizado de máquina não supervisionado pode agrupar músicas com base em várias propriedades da música. Os clusters resultantes podem se tornar uma entrada para outros algoritmos de machine learning (por exemplo, para um serviço de recomendação de música). O clustering pode ajudar quando rótulos úteis são escassos ou ausentes. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar as pessoas a entender melhor os dados.

Contraste com o machine learning supervisionado.