embedding은 비교적 낮은 차원의 공간으로 고차원 벡터로 변환했습니다. 고차원적 개념과 자세한 내용은 범주형 데이터 데이터 모듈을 마칩니다
임베딩을 사용하면 대규모 데이터에서 머신러닝을 더 쉽게 수행할 수 있습니다 특성 벡터입니다. 식사 항목을 나타내는 희소 벡터로, 이전 섹션을 참고하세요. 이상적으로 임베딩은 의미가 더 유사한 입력을 더 가깝게 배치하여 입력의 의미 체계를 도출합니다. 임베딩 공간에 들어가 있습니다. 예를 들어, 좋은 임베딩은 '자동차'라는 단어 '차고'와 더 가까움 '코끼리'로 분류하기 시작하죠. 임베딩을 학습시켜 모델 간에 재사용될 수 있습니다
임베딩 벡터가 정보를 나타내는 방식을 알아보려면 1차원으로 표현된 요리를 핫도그 피자, 샐러드, shawarma, borscht, '최소한의 광고' 샌드위치" '샌드위치 같아' 하는 말이에요. "샌드위치" 단일 차원입니다.
이 줄에서
사과 슈트루델
가을까요? hot dog
과 shawarma
사이에 배치될 수 있습니다. 하지만 사과는
슈트루델에는 달콤이라는 추가 측정기준도 있습니다.
디저트 (음식이 디저트와 얼마나 비슷한지)를 비교하여
다른 옵션과 매우 다릅니다 다음 그림은 이를
'디저트'를 추가하여 측정기준:
임베딩은 n차원 공간에서 각 항목을 n으로 표현 부동 소수점 수 (일반적으로 –1~1 또는 0~1 범위). 예를 들어, 그림 4의 임베딩은 2차원 공간을 나타냅니다. '사과 슈트루델' 항목 위치: 그래프의 오른쪽 상단 사분면이며 점 (0.5, 0.3), 반면 '핫도그'는 그래프의 오른쪽 아래 사분면에 있습니다. 점수 (0.2, –0.5)가 할당될 수 있습니다.
임베딩에서 두 항목 간의 거리를 계산할 수 있습니다.
수학적으로
이 둘의 상대적 유사성으로 해석할 수 있으며
개의 항목이 있습니다. 서로 가까운 두 개의 사물(예: shawarma
및 hot dog
)
두 개의 사물이 서로 멀리 떨어져 있는 경우보다 더 밀접한 관련이 있다는 것을
기타(예: apple strudel
, borscht
)
또한 그림 4의 2D 공간에서 apple strudel
는
1D 공간보다 shawarma
및 hot dog
에서 비롯됩니다.
직관: apple strudel
는 핫도그나 샤와르마만큼 뜨거운 음식과 비슷하지 않음
CANNOT TRANSLATE
이제 다른 항목보다 훨씬 유동적인 보르시를 생각해 보세요. 이 세 번째 측정기준인 유동성 (음식의 액체의 정도)을 나타냅니다. 이 차원을 추가하면 항목을 다음과 같은 3D로 시각화할 수 있습니다.
이 3D 공간에서 tangyuan 이동 그것은 사과 슈트루델 같은 달콤한 디저트를 넣는 것이 가장 좋습니다. 만들 수 있습니다. 다음과 같은 게재위치를 사용할 수 있습니다.
이 3차원에 얼마나 많은 정보가 표현되는지 알 수 있습니다. 육류 또는 구운 정도와 같은 추가적인 측정기준을 생각해 볼 수도 있습니다.
실제 임베딩 공간
위의 음식 예시에서 본 것처럼, 작은 다차원 공간도 의미상 유사한 항목을 자유롭게 그룹화하고 서로 다른 항목들이 서로 멀리 떨어져 있을 수 있습니다. 벡터의 위치 (거리 및 방향) 좋은 임베딩으로 의미 체계를 인코딩할 수 있습니다 예를 들어 실제 임베딩의 시각화는 기하학적 관계를 설명하고 어떤 단어일 수도 있습니다. 거리는 출처: 'Canada' 목적지: '오타와' '튀르키예'에서의 거리와 거의 비슷합니다. ~ '앙카라'
<ph type="x-smartling-placeholder">의미 있는 임베딩 공간은 머신러닝 모델이 패턴을 감지하는 데 도움이 됨 학습합니다.
운동
이 연습에서는 임베딩 단어를 시각화하는 Projector 도구 word2vec라는 임베딩을 사용하여 벡터 공간에서 70,000개 이상의 영어 단어를 숫자로 나타냅니다.
작업 1
다음 작업을 수행한 후 아래 질문에 답하세요.
삽입 프로젝터 도구를 엽니다.
오른쪽 패널에서 Search 필드에 atom 단어를 입력합니다. 그런 다음 아래 결과 (4개 일치 아래)에서 atom 단어를 클릭합니다. 내 그림 8과 같이 표시됩니다.
<ph type="x-smartling-placeholder">다시 오른쪽 패널에서 점 101개 분리 버튼 (상단)을 클릭합니다. Search 필드)를 사용하여 atom에 가장 가까운 100개 단어를 표시합니다. 내 화면 그림 9와 같아야 합니다.
<ph type="x-smartling-placeholder">
이제 원래 스페이스에서 가장 가까운 지점 아래에 나열된 단어를 검토합니다. 이 단어를 어떻게 설명할 수 있나요?
여기를 클릭하여 답변 확인
가장 가까운 단어의 대부분은 일반적으로 'atoms'라는 복수형 형태의 'atom'과 같이 'atom'이라는 단어로 대체 단어 '전자'를 뜻하는 '분자' 'nucleus'라고 합니다.
작업 2
다음 작업을 수행한 후 아래 질문에 답하세요.
오른쪽 패널에서 Show All Data 버튼을 클릭하여 데이터를 재설정합니다. 시각화를 사용하는 것이 더 나을 것입니다.
오른쪽 패널의 검색 입력란에 uranium이라는 단어를 입력합니다. 화면이 그림 10과 같이 표시됩니다.
<ph type="x-smartling-placeholder">
원래 스페이스에서 가장 가까운 지점 아래에 나열된 단어를 검토합니다. 방법 atom에 가장 가까운 단어와 다른 단어는 무엇인가요?
여기를 클릭하여 답변 확인
우라늄은 화학 원소 가장 가까운 단어는 아연, 망간, 구리 및 알루미늄입니다.
작업 3
다음 작업을 수행한 후 아래 질문에 답하세요.
오른쪽 패널에서 Show All Data 버튼을 클릭하여 데이터를 재설정합니다. 시각화를 사용하는 것이 더 나을 것입니다.
오른쪽 패널에서 검색 입력란에 orange라는 단어를 입력합니다. 내 그림 11과 같이 표시됩니다.
<ph type="x-smartling-placeholder">
원래 스페이스에서 가장 가까운 지점 아래에 나열된 단어를 검토합니다. 여기에 표시된 단어 유형과 단어 유형에서 어떤 점이 눈에 띄나요? 없다면 어떻게 해야 하나요?
여기를 클릭하여 답변 확인
거의 모든 가장 가까운 단어는 '노란색'과 같은 다른 색상입니다. '녹색'으로 '파란색' '자주색' '빨간색'으로 표시됩니다. 가장 가까운 단어 중 하나만("juice") 단어의 다른 의미 (감귤류 과일)를 언급하는 것입니다. 기타 과일 사용자가 예상할 수 있는 단어입니다. '바나나'를 목록에 없는 가장 가까운 용어입니다.
이 예시는 정적 임베딩의 주요 단점 중 하나를 보여줍니다. 예: word2vec와 같은 것입니다. 단어의 가능한 모든 의미는 단일 벡터 공간의 포인트이므로 '오렌지'에 대한 유사성 분석을 할 때 입니다 특정 표시에 대해 가장 가까운 점을 분리할 수 없음 '오렌지'와 같이 (과일) '오렌지'는 아님 (색상).