지도 유사성 측정

수동으로 결합된 특성 데이터를 비교하는 대신 특성의 크기를 줄여서 데이터를 표현이라고 하는 임베딩인 경우)하고 임베딩을 학습합니다 임베딩은 지도 심층신경망을 학습시켜 생성됩니다. 네트워크 (DNN)를 학습합니다. 임베딩은 특성 데이터를 임베딩의 벡터에 매핑합니다. 일반적으로 특성 데이터보다 적은 차원으로 이루어진 공간이 있습니다. 임베딩은 임베딩 섹션에서 신경망에 대해서는 신경망 모듈을 마칩니다 유사한 예에 대한 임베딩 벡터(예: 같은 사용자가 비슷한 주제를 시청한 경우 한 임베딩에서 근접한 주제를 보게 됩니다. 있습니다. 지도 유사성 측정은 는 '가까움'이라는 표현을 사용합니다. 는 임베딩 쌍의 유사성을 예로 들 수 있습니다

지도 학습에 관해 이야기할 때는 유사성을 형성하기 위한 목적으로만 사용한다는 점을 기억하세요 있습니다. 그런 다음 수동이든 지도이든 유사성 측정을 알고리즘에서 비지도 클러스터링을 수행할 수 있습니다

수동 조치와 감독 대상 조치 비교

이 표에서는 수동 또는 지도 유사성을 사용해야 하는 경우를 설명합니다. 필요에 따라 측정할 수 있습니다

요구사항수동감독 대상
상관관계가 있는 특성에서 중복 정보를 없앨 수 있나요? 아니요. 특성 간의 상관관계를 조사해야 합니다. 예, DNN은 중복 정보를 제거합니다.
계산된 유사성에 대한 유용한 정보 제공 아니요, 임베딩은 해독할 수 없습니다.
특성이 적은 소규모 데이터 세트에 적합한가요? 예. 아니요. 작은 데이터 세트는 DNN에 충분한 학습 데이터를 제공하지 않습니다.
많은 특성을 가진 대규모 데이터 세트에 적합한가요? 아니요, 여러 기능에서 중복 정보를 수동으로 제거 이를 결합하는 것은 매우 어렵습니다. 예, DNN은 중복 정보를 자동으로 제거하고 특성이 결합됩니다

지도 유사성 측정 만들기

다음은 지도 유사성 측정을 만드는 프로세스에 대한 개요입니다.

<ph type="x-smartling-placeholder">
</ph> 특성 데이터를 입력합니다. DNN(자동 인코더 또는 예측기)을 선택합니다.
      임베딩을 추출합니다. 측정값 선택: 내적, 코사인 또는
      유클리드 거리.
그림 1: 지도 유사성을 만드는 단계 측정하세요.

이 페이지에서는 DNN을 설명하지만 다음 페이지에서는 나머지 단계를 다룹니다.

학습 라벨에 따라 DNN 선택

특성 데이터를 저차원 임베딩으로 축소하는 DNN을 입력 및 라벨과 동일한 특성 데이터를 사용합니다. 예를 들어 하우스 데이터의 경우 DNN은 가격, 크기 및 이러한 특성 자체를 예측할 수 있습니다

Autoencoder

입력 데이터 자체를 예측하여 입력 데이터의 임베딩을 학습하는 DNN 자동 인코더라고 합니다. 자동 인코더의 히든 레이어는 입력 및 출력 레이어보다 자동 인코더는 압축된 표현을 생성합니다. DNN이 학습되면 가장 작은 히든 레이어에서 임베딩을 추출하여 유사성을 계산합니다.

<ph type="x-smartling-placeholder">
</ph> 동일한 노드에서 많은 노드를 보여주는 그림
       입력 및 출력 데이터로 구성되며, 중간에 3개의 노드로 압축됩니다.
       5개의 히든 레이어로 구성됩니다.
그림 2: 자동 인코더 아키텍처

예측자

오토인코더는 임베딩을 생성하는 가장 간단한 방법입니다. 하지만 특정 특성이 더 많을 수 있는 경우에 자동 인코더가 최적의 선택이 아님 다른 것에 비해 중요하다는 것을 알 수 있습니다. 예를 들어, 내부 데이터, 가격이 우편번호보다 더 중요하다고 가정합니다. 이러한 경우 중요한 특성만 DNN의 학습 라벨로 사용 이 DNN은 모든 입력 특성을 예측하는 대신 특정 입력 특성을 예측하는 경우 예측자 DNN입니다. 임베딩은 일반적으로 임베딩 레이어입니다.

<ph type="x-smartling-placeholder">
</ph> 입력 벡터의 많은 노드를 보여주는 그림
       3개의 히든 레이어가 3노드 레이어로 축소되고,
       임베딩을 추출해야 합니다 마지막 출력 레이어는
       label 값입니다.
그림 3: 예측자 아키텍처

라벨이 될 지형지물을 선택할 때:

  • 손실이 발생하므로 범주형 특성보다 숫자 특성 선호 숫자 특성을 계산하고 해석하기가 더 쉽습니다.

  • DNN에 대한 입력에서 라벨로 사용하는 특성을 삭제합니다. 그렇지 않으면 DNN은 이 특성을 사용하여 출력을 완벽하게 예측합니다. (이는 라벨 유출의 극단적인 예입니다.)

라벨 선택에 따라 결과 DNN은 자동 인코더 또는 예측자입니다.