embedding은
비교적 낮은 차원의 공간으로
고차원 벡터로 변환했습니다. 고차원적 개념과
자세한 내용은 범주형 데이터
데이터
모듈을 마칩니다
임베딩을 사용하면 대규모 데이터에서 머신러닝을 더 쉽게 수행할 수 있습니다
특성 벡터입니다.
식사 항목을 나타내는 희소 벡터로,
이전 섹션을 참고하세요. 이상적으로 임베딩은
의미가 더 유사한 입력을 더 가깝게 배치하여 입력의 의미 체계를 도출합니다.
임베딩 공간에 들어가 있습니다. 예를 들어, 좋은 임베딩은
'자동차'라는 단어 '차고'와 더 가까움 '코끼리'로 분류하기 시작하죠. 임베딩을 학습시켜
모델 간에 재사용될 수 있습니다
임베딩 벡터가 정보를 나타내는 방식을 알아보려면
1차원으로 표현된 요리를
핫도그
피자,
샐러드,
shawarma,
borscht,
'최소한의 광고'
샌드위치"
'샌드위치 같아' 하는 말이에요. "샌드위치" 단일 차원입니다.
그림 3. '샌드위치'라는 상상의 차원에 있는 음식
이 줄에서
사과 슈트루델
가을까요? hot dog과 shawarma 사이에 배치될 수 있습니다. 하지만 사과는
슈트루델에는 달콤이라는 추가 측정기준도 있습니다.
디저트 (음식이 디저트와 얼마나 비슷한지)를 비교하여
다른 옵션과 매우 다릅니다 다음 그림은 이를
'디저트'를 추가하여 측정기준:
그림 4. '샌드위치'로 표시된 음식 '디저트'입니다.
임베딩은 n차원 공간에서 각 항목을 n으로 표현
부동 소수점 수 (일반적으로 –1~1 또는 0~1 범위).
예를 들어, 그림 4의 임베딩은
2차원 공간을 나타냅니다. '사과 슈트루델' 항목 위치:
그래프의 오른쪽 상단 사분면이며 점 (0.5, 0.3),
반면 '핫도그'는 그래프의 오른쪽 아래 사분면에 있습니다.
점수 (0.2, –0.5)가 할당될 수 있습니다.
임베딩에서 두 항목 간의 거리를 계산할 수 있습니다.
수학적으로
이 둘의 상대적 유사성으로 해석할 수 있으며
개의 항목이 있습니다. 서로 가까운 두 개의 사물(예: shawarma 및 hot dog)
두 개의 사물이 서로 멀리 떨어져 있는 경우보다 더 밀접한 관련이 있다는 것을
기타(예: apple strudel, borscht)
또한 그림 4의 2D 공간에서 apple strudel는
1D 공간보다 shawarma 및 hot dog에서 비롯됩니다.
직관: apple strudel는 핫도그나 샤와르마만큼 뜨거운 음식과 비슷하지 않음
CANNOT TRANSLATE
이제 다른 항목보다 훨씬 유동적인 보르시를 생각해 보세요. 이
세 번째 측정기준인 유동성 (음식의 액체의 정도)을 나타냅니다.
이 차원을 추가하면 항목을 다음과 같은 3D로 시각화할 수 있습니다.
그림 5. '샌드위치'로 표시된 음식 '디저트', 및
'유동성'이라 할 수 있습니다.
이 3D 공간에서
tangyuan 이동 그것은
사과 슈트루델 같은 달콤한 디저트를 넣는 것이 가장 좋습니다.
만들 수 있습니다. 다음과 같은 게재위치를 사용할 수 있습니다.
그림 6. 이전 이미지에 탕유안을 더합니다.
"디저트" 및 '유동성' '샌드위치'는 낮게 설정할 수 있습니다.
이 3차원에 얼마나 많은 정보가 표현되는지 알 수 있습니다.
육류 또는 구운 정도와 같은 추가적인 측정기준을 생각해 볼 수도 있습니다.
실제 임베딩 공간
위의 음식 예시에서 본 것처럼, 작은 다차원 공간도
의미상 유사한 항목을 자유롭게 그룹화하고
서로 다른 항목들이 서로 멀리 떨어져 있을 수 있습니다. 벡터의 위치 (거리 및 방향)
좋은 임베딩으로 의미 체계를
인코딩할 수 있습니다 예를 들어
실제 임베딩의 시각화는 기하학적 관계를 설명하고
어떤 단어일 수도 있습니다. 거리는
출처: 'Canada' 목적지: '오타와' '튀르키예'에서의 거리와 거의 비슷합니다. ~
'앙카라'
<ph type="x-smartling-placeholder"></ph>
<ph type="x-smartling-placeholder"></ph>
그림 7. 임베딩은 주목할 만한 비유를 만들어낼 수 있습니다.
오른쪽 패널에서 Show All Data 버튼을 클릭하여 데이터를 재설정합니다.
시각화를 사용하는 것이 더 나을 것입니다.
오른쪽 패널에서 검색 입력란에 orange라는 단어를 입력합니다. 내
그림 11과 같이 표시됩니다.
<ph type="x-smartling-placeholder"></ph>
<ph type="x-smartling-placeholder"></ph>
그림 11. 프로젝터 삽입 도구, "오렌지"라는 단어
검색어 목록에 추가할 수 있습니다.
원래 스페이스에서 가장 가까운 지점 아래에 나열된 단어를 검토합니다.
여기에 표시된 단어 유형과 단어 유형에서 어떤 점이 눈에 띄나요?
없다면 어떻게 해야 하나요?
여기를 클릭하여 답변 확인
거의 모든 가장 가까운 단어는 '노란색'과 같은 다른 색상입니다. '녹색'으로
'파란색' '자주색' '빨간색'으로 표시됩니다. 가장 가까운 단어 중 하나만("juice")
단어의 다른 의미 (감귤류 과일)를 언급하는 것입니다. 기타 과일
사용자가 예상할 수 있는 단어입니다. '바나나'를 목록에 없는
가장 가까운 용어입니다.
이 예시는 정적 임베딩의 주요 단점 중 하나를 보여줍니다.
예: word2vec와 같은 것입니다. 단어의 가능한 모든 의미는 단일
벡터 공간의 포인트이므로 '오렌지'에 대한 유사성 분석을 할 때 입니다
특정 표시에 대해 가장 가까운 점을 분리할 수 없음
'오렌지'와 같이 (과일) '오렌지'는 아님 (색상).
[null,null,["최종 업데이트: 2024-09-05(UTC)"],[[["Embeddings are low-dimensional representations of high-dimensional data, often used to capture semantic relationships between items."],["Embeddings place similar items closer together in the embedding space, allowing for efficient machine learning on large datasets."],["The distance between points in an embedding space represents the relative similarity between the corresponding items."],["Real-world embeddings can encode complex relationships, like those between countries and their capitals, allowing models to detect patterns."],["Static embeddings like word2vec represent all meanings of a word with a single point, which can be a limitation in some cases."]]],[]]