의료진의 환자 정보가 포함된 데이터세트를 사용하여 있습니다. 데이터 세트는 복잡하며 범주형 및 숫자 특성입니다. 데이터 세트에서 패턴과 유사성을 찾으려고 합니다. 이 작업에 어떻게 접근할 수 있을까요?
클러스터링은 비지도 고안된 머신러닝 기법은 라벨이 없는 예 기반으로 결정됩니다. (예에 라벨이 지정되어 있는 경우 그룹화를 분류에 포함됨) 가상의 환자 고려 새로운 치료 프로토콜을 평가하기 위해 고안된 연구입니다. 연구가 진행되는 동안 환자들은 증상을 경험하는 주당 횟수와 중증도를 보고 증상이 나타납니다. 연구원들은 클러스터링 분석을 사용하여 유사한 질환을 앓고 있는 환자를 그룹화할 수 있음 그룹화할 수 있습니다 그림 1은 한 가지 가능한 그룹화를 보여줍니다. 시뮬레이션된 데이터를 3개의 클러스터로 구성할 수 있습니다
<ph type="x-smartling-placeholder">그림 1 왼쪽에 라벨이 지정되지 않은 데이터를 보면 유사성에 대한 공식 정의 없이도 데이터가 세 개의 클러스터를 형성함 학습합니다. 그러나 실제 애플리케이션에서는 유사성 측정 또는 샘플을 비교하는 데 사용되는 측정항목을 정의합니다. 특성에 대한 예측입니다 예에 특성이 몇 개만 있는 경우 유사성을 시각화하고 측정하는 것은 간단합니다. 하지만 특성 증가, 특성 결합 및 비교가 덜 직관적임 더 복잡해집니다. 다양한 유사성 척도가 더 적합할 수도 있고 그렇지 않을 수도 있음 다양한 클러스터링 시나리오에 대해 다루며, 이 과정에서는 적절한 유사성 측정 방법을 살펴보겠습니다. 수동 유사성 측정 및 임베딩의 유사성 측정.
클러스터링 후 각 그룹에 클러스터 ID라는 고유한 라벨이 할당됩니다. 클러스터링은 대규모의 복잡한 데이터 세트를 단순화할 수 있으므로 강력하며, 여러 기능을 단일 클러스터 ID에 추가할 수도 있습니다
클러스터링 사용 사례
클러스터링은 다양한 산업에서 유용합니다. 일반적인 애플리케이션 클러스터링:
- 시장 세분화
- 소셜 네트워크 분석
- 검색결과 그룹화
- 의료 영상
- 이미지 세분화
- 이상 감지
클러스터링의 구체적인 예는 다음과 같습니다.
- Hertzsprung-Russell 다이어그램 은 광도와 온도를 기준으로 별을 표시한 클러스터를 보여줍니다.
- 이전에 알려지지 않은 유전적 유사성을 보여주는 유전자 시퀀싱 종 간 유사성으로 인해 분류가 수정되었습니다. 보여주었습니다.
- Big 5 인간과 대화할 수 있게 해 주는 단어들을 모아서 성격을 5개 그룹으로 설명합니다 이 헥사코 5개가 아닌 6개의 클러스터를 사용합니다.
대치
클러스터의 일부 예시에 누락된 특성 데이터가 있는 경우 누락되었다는 의미입니다. 이를 가리켜 대칭입니다. 예를 들어 인기가 낮은 동영상을 더 인기 있는 동영상과 묶을 수 있습니다. 맞춤 동영상을 개선할 수 있습니다
데이터 압축
앞서 설명한 것처럼 관련 클러스터 ID는 모든 예로 들 수 있습니다 이러한 대체는 특성의 수를 줄이고 모델을 저장, 처리, 학습시키는 데 필요한 리소스도 모델을 학습시킬 수 있습니다 데이터 세트의 크기가 매우 큰 경우 이와 같은 비용 절감 효과가 상당히 큽니다.
예를 들어 하나의 YouTube 동영상에 다음과 같은 기능 데이터가 포함될 수 있습니다.
- 시청자 위치, 시간, 인구통계
- 댓글 타임스탬프, 텍스트, 사용자 ID
- 동영상 태그
YouTube 동영상 클러스터링은 이러한 기능들을 단일 클러스터 ID로 이루어지므로 데이터를 압축할 수 있습니다
개인 정보 보호
사용자를 클러스터링하고 사용자 데이터를 연결하여 개인 정보를 어느 정도 보호할 수 있습니다. 사용자 ID 대신 클러스터 ID를 사용합니다. 한 가지 가능한 예를 들어보자면 모델을 학습시키기 위해 시청 기록 사용자 ID를 전달하는 대신 사용자를 클러스터링하고 클러스터 ID만 전달할 수도 있습니다. 이 개별 시청 기록이 개별 사용자에게 연결되지 않도록 합니다. 참고 클러스터에 충분히 많은 수의 사용자가 포함되어야 개인 정보를 보호할 수 있습니다