Чтобы кластеризовать данные, выполните следующие действия:
- Подготовьте данные.
- Создайте метрику сходства.
- Запустите алгоритм кластеризации.
- Интерпретируйте результаты и настройте кластеризацию.
На этой странице кратко описаны шаги. Мы углубимся в последующие разделы.
Подготовьте данные
Как и в случае с любой проблемой машинного обучения, вы должны нормализовать, масштабировать и преобразовать данные объектов перед обучением или точной настройкой модели на основе этих данных. Кроме того, перед кластеризацией убедитесь, что подготовленные данные позволяют точно рассчитать сходство между примерами.
Создать показатель сходства
Прежде чем алгоритм кластеризации сможет группировать данные, ему необходимо знать, насколько похожи пары примеров. Вы можете количественно оценить сходство между примерами, создав показатель сходства, который требует тщательного понимания ваших данных.
Запустить алгоритм кластеризации
Алгоритм кластеризации использует метрику сходства для кластерных данных. В этом курсе используются k-средние.
Интерпретируйте результаты и скорректируйте
Поскольку кластеризация не создает и не включает в себя основную «истину», с которой вы можете проверить выходные данные, важно проверить результат на соответствие вашим ожиданиям как на уровне кластера, так и на уровне примера. Если результат выглядит странным или некачественным, поэкспериментируйте с предыдущими тремя шагами. Продолжайте повторять до тех пор, пока качество выходных данных не будет соответствовать вашим потребностям.