임베딩: 저차원 공간으로 변환

임베딩은 비교적 낮은 차원의 공간으로 고차원 벡터로 변환했습니다. 고차원적 개념과 자세한 내용은 범주형 데이터 데이터 모듈을 마칩니다

임베딩을 사용하면 대규모 데이터에서 머신러닝을 더 쉽게 수행할 수 있습니다 특성 벡터입니다. 식사 항목을 나타내는 희소 벡터로, 이전 섹션을 참고하세요. 이상적으로 임베딩은 의미가 더 유사한 입력을 더 가깝게 배치하여 입력의 의미 체계를 도출합니다. 임베딩 공간에 들어가 있습니다. 예를 들어, 좋은 임베딩은 '자동차'라는 단어 '차고'와 더 가까움 '코끼리'로 분류하기 시작하죠. 임베딩을 학습시켜 모델 간에 재사용될 수 있습니다

임베딩 벡터가 정보를 나타내는 방식을 알아보려면 1차원으로 표현된 요리를 핫도그 피자, 샐러드, shawarma, borscht, '최소한의 광고' 샌드위치" '샌드위치 같아' 하는 말이에요. "샌드위치" 단일 차원입니다.

그림 3. 샌드위치의 축을 따라, 가장 낮은 것부터 가장 높은 것까지:
    보르시, 샐러드, 피자, 핫도그, 샤와르마.
그림 3. '샌드위치'라는 상상의 차원에 있는 음식

이 줄에서 사과 슈트루델 가을까요? hot dogshawarma 사이에 배치될 수 있습니다. 하지만 사과는 슈트루델에는 달콤이라는 추가 측정기준도 있습니다. 디저트 (음식이 디저트와 얼마나 비슷한지)를 비교하여 다른 옵션과 매우 다릅니다 다음 그림은 이를 '디저트'를 추가하여 측정기준:

그림 4. 이전과 같은 이미지이지만 세로축은 다음과 같습니다.
    디저트로 만들 수 있습니다. 핫도그와 샤와르마 사이에 있는 사과 슈트루델
    가로축보다 위쪽으로 축이 위치해 있습니다.
그림 4. '샌드위치'로 표시된 음식 '디저트'입니다.

임베딩은 n차원 공간에서 각 항목을 n으로 표현 부동 소수점 수 (일반적으로 –1~1 또는 0~1 범위). 예를 들어, 그림 4의 임베딩은 2차원 공간을 나타냅니다. '사과 슈트루델' 항목 위치: 그래프의 오른쪽 상단 사분면이며 점 (0.5, 0.3), 반면 '핫도그'는 그래프의 오른쪽 아래 사분면에 있습니다. 점수 (0.2, –0.5)가 할당될 수 있습니다.

임베딩에서 두 항목 간의 거리를 계산할 수 있습니다. 수학적으로 이 둘의 상대적 유사성으로 해석할 수 있으며 개의 항목이 있습니다. 서로 가까운 두 개의 사물(예: shawarmahot dog) 두 개의 사물이 서로 멀리 떨어져 있는 경우보다 더 밀접한 관련이 있다는 것을 기타(예: apple strudel, borscht)

또한 그림 4의 2D 공간에서 apple strudel는 1D 공간보다 shawarmahot dog에서 비롯됩니다. 직관: apple strudel는 핫도그나 샤와르마만큼 뜨거운 음식과 비슷하지 않음 CANNOT TRANSLATE

이제 다른 항목보다 훨씬 유동적인 보르시를 생각해 보세요. 이 세 번째 측정기준인 유동성 (음식의 액체의 정도)을 나타냅니다. 이 차원을 추가하면 항목을 다음과 같은 3D로 시각화할 수 있습니다.

그림 5. 이전과 같은 이미지이지만 세 번째 축이 있는 액체
    보르시가 그 축을 따라 멀리 이동했습니다.
그림 5. '샌드위치'로 표시된 음식 '디저트', 및 '유동성'이라 할 수 있습니다.

이 3D 공간에서 Tanguan으로 이동하나요? 그것은 사과 슈트루델 같은 달콤한 디저트를 넣은 것이 가장 중요합니다. 만들 수 있습니다. 다음과 같은 게재위치를 사용할 수 있습니다.

그림 6. 이전과 같은 이미지이지만 탱위가 위쪽에 배치됨
    샌드위치 같은 맛은 적당합니다.
그림 6. 이전 이미지에 탕유안을 더합니다. "디저트" 및 '유동성' '샌드위치'는 낮게 설정할 수 있습니다.

이 3차원에 얼마나 많은 정보가 표현되는지 알 수 있습니다. 육류 또는 구운 정도와 같은 추가적인 측정기준을 생각해 볼 수도 있습니다.

실제 임베딩 공간

위의 음식 예시에서 본 것처럼, 작은 다차원 공간도 의미상 유사한 항목을 자유롭게 그룹화하고 서로 다른 항목들이 서로 멀리 떨어져 있을 수 있습니다. 벡터의 위치 (거리 및 방향) 좋은 임베딩으로 의미 체계를 인코딩할 수 있습니다 예를 들어 실제 임베딩의 시각화는 기하학적 관계를 설명하고 어떤 단어일 수도 있습니다. 거리는 출처: 'Canada' 목적지: '오타와' '튀르키예'에서의 거리와 거의 비슷합니다. ~ '앙카라'

그림 7. 단어를 나타내는 단어 임베딩의 세 가지 예
      기하학적 관계: 성별 (남자/여자 및 왕/여왕은 대략적으로
      동사 시제 (걷기/걷기 및 수영/수영은 대략적으로)
      수도 (터키/앙카라 및 베트남/하노이)는
      동일한 길이로 작성)합니다. <ph type="x-smartling-placeholder">
</ph> 그림 7. 임베딩은 주목할 만한 비유를 만들어낼 수 있습니다.

의미 있는 임베딩 공간은 머신러닝 모델이 패턴을 감지하는 데 도움이 됨 학습합니다.

운동

이 연습에서는 임베딩 단어를 시각화하는 Projector 도구 word2vec라는 임베딩을 사용하여 벡터 공간에서 70,000개 이상의 영어 단어를 숫자로 나타냅니다.

작업 1

다음 작업을 수행한 후 아래 질문에 답하세요.

  1. 삽입 프로젝터 도구를 엽니다.

  2. 오른쪽 패널에서 Search 필드에 atom 단어를 입력합니다. 그런 다음 아래 결과 (4개 일치 아래)에서 atom 단어를 클릭합니다. 내 그림 8과 같이 표시됩니다.

    그림 8. &#39;atom&#39;이 있는 Embedding Projector 도구 스크린샷
    입력합니다 (빨간색 원으로 표시됨). 이
    점 중 하나에 &#39;원자&#39;라는 단어가 새겨지고
    근처 지점에 대한 단어 주석을 추가할 수도 있습니다. &#39;가장 가까운
    포인트&#39; &#39;원자&#39;, &#39;분자&#39;, &#39;전자&#39;라는 단어가 포함되어 있습니다. 목록에 있음
    벡터 공간에서 &#39;atom&#39;에 가장 가까운 단어로 표현합니다. <ph type="x-smartling-placeholder">
    </ph> 그림 8. 'Atom'이라는 단어가 포함된 프로젝터 도구 삽입 추가됨 을 입력합니다.
  3. 다시 오른쪽 패널에서 점 101개 분리 버튼 (상단)을 클릭합니다. Search 필드)를 사용하여 atom에 가장 가까운 100개 단어를 표시합니다. 내 화면 그림 9와 같아야 합니다.

    그림 9. 이제 Embedding Projector 도구의 스크린샷
    &#39;101개 포인트 격리&#39; (빨간색 동그라미로 표시된 버튼) 시각화
    그러면 그림 8에서 &#39;atom&#39;이라는 단어만 표시되도록 업데이트되어
    &#39;원자&#39;라는 단어를 포함하는 벡터 공간에서 가장 가까운 100개 단어
    &#39;nucleus&#39;, &#39;particle&#39;의 4가지 단어로 구분할 수 있습니다. <ph type="x-smartling-placeholder">
    </ph> 그림 9. 프로젝터 삽입 도구, 이제 '101 점 분리' 기능 제공 클릭합니다 (빨간색 원으로 표시됨).

이제 원래 스페이스에서 가장 가까운 지점 아래에 나열된 단어를 검토합니다. 이 단어를 어떻게 설명할 수 있나요?

여기를 클릭하여 답변 확인

가장 가까운 단어의 대부분은 일반적으로 'atoms'라는 복수형 형태의 'atom'과 같이 'atom'이라는 단어가 포함된 단어 '전자'를 뜻하는 '분자' 'nucleus'라고 합니다.

작업 2

다음 작업을 수행한 후 아래 질문에 답하세요.

  1. 오른쪽 패널에서 Show All Data 버튼을 클릭하여 데이터를 재설정합니다. 시각화를 사용하는 것이 더 나을 것입니다.

  2. 오른쪽 패널의 검색 입력란에 uranium이라는 단어를 입력합니다. 화면이 그림 10과 같이 표시됩니다.

    그림 10. &#39;uranium&#39;이 포함된 Embedding Projector 도구 스크린샷
    검색어를 입력하세요. 그래프 중앙의 시각화는
    점 중 하나에 &#39;우라늄&#39;이라는 단어를 주석으로 달고
    사용할 수 있습니다. &#39;가장 가까운 포인트&#39; 목록에
    단어 &#39;석탄&#39;, &#39;동위원소&#39;, &#39;니켈&#39;, &#39;산화물&#39;, &#39;광석&#39;, &#39;아연&#39; 및
    &#39;망가니즈&#39; 벡터 공간에서 가장 가까운 단어로 나열되고
    &#39;우라늄&#39;입니다. <ph type="x-smartling-placeholder">
    </ph> 그림 10. 프로젝터 도구, "우라늄"이라는 단어 검색어 목록에 추가할 수 있습니다.

원래 스페이스에서 가장 가까운 지점 아래에 나열된 단어를 검토합니다. 방법 atom에 가장 가까운 단어와 다른 단어는 무엇인가요?

여기를 클릭하여 답변 확인

우라늄은 화학 원소 가장 가까운 단어는 아연, 망간, 구리 및 알루미늄입니다.

작업 3

다음 작업을 수행한 후 아래 질문에 답하세요.

  1. 오른쪽 패널에서 Show All Data 버튼을 클릭하여 데이터를 재설정합니다. 시각화를 사용하는 것이 더 나을 것입니다.

  2. 오른쪽 패널에서 검색 입력란에 orange라는 단어를 입력합니다. 내 그림 11과 같이 표시됩니다.

    그림 11. &#39;주황색&#39;이 표시된 Embedding Projector 도구 스크린샷
    검색어를 입력하세요. 도구 중앙의 시각화는
    점 중 하나에 &#39;오렌지&#39;라는 단어를 주석으로 추가하고
    주변 지점에 대한 주석을 추가합니다. &#39;가장 가까운 포인트&#39; 목록,
    단어 &#39;노란색&#39;, &#39;초록색&#39;, &#39;파란색&#39;, &#39;보라색&#39;, &#39;색상&#39; 목록에 있음
    벡터 공간에서 &#39;오렌지&#39;에 가장 가까운 단어로 표현합니다. <ph type="x-smartling-placeholder">
    </ph> 그림 11. 프로젝터 삽입 도구, "오렌지"라는 단어 검색어 목록에 추가할 수 있습니다.

원래 스페이스에서 가장 가까운 지점 아래에 나열된 단어를 검토합니다. 여기에 표시된 단어 유형과 단어 유형에서 어떤 점이 눈에 띄나요? 없다면 어떻게 해야 하나요?

여기를 클릭하여 답변 확인

거의 모든 가장 가까운 단어는 '노란색'과 같은 다른 색상입니다. '녹색'으로 '파란색' '자주색' '빨간색'으로 표시됩니다. 가장 가까운 단어 중 하나만("juice") 단어의 다른 의미 (감귤류 과일)를 언급합니다. 기타 과일 사용자가 예상할 수 있는 단어입니다. '바나나'를 목록을 만들지 않음 가장 가까운 용어입니다.

이 예시는 정적 임베딩의 주요 단점 중 하나를 보여줍니다. 예: word2vec와 같은 것입니다. 단어의 가능한 모든 의미는 단일 벡터 공간의 포인트이므로 '오렌지'에 대한 유사성 분석을 할 때 입니다 특정 표시에 대해 가장 가까운 점을 분리할 수 없음 '오렌지'와 같이 (과일)로, '오렌지'는 아님 (색상).