임베딩: 저차원 공간으로 변환

고차원 데이터를 저차원 공간에 매핑하여 희소 입력 데이터의 핵심 문제를 해결할 수 있습니다.

앞서 영화 연습에서 확인했듯이 작은 다차원 공간도 의미론적으로 유사한 항목을 그룹화하고 유사하지 않은 항목을 서로 멀리 유지할 수 있습니다. 벡터 공간의 위치 (거리 및 방향)는 좋은 임베딩으로 의미 체계를 인코딩할 수 있습니다. 예를 들어 실제 임베딩의 다음 시각화에서는 국가와 수도 간의 관계와 같은 시맨틱 관계를 캡처하는 기하학적 관계를 보여줍니다.

성별 (남성/여성 및 왕/여왕), 동사 시제 (걷기/걷기 및 수영/수영), 수도 (터키/앙카라/베트남/하노이)와 같이 단어 관계를 기하학적으로 나타내는 단어 삽입의 세 가지 예

그림 4. 임베딩은 놀라운 비유를 만들어낼 수 있습니다.

이러한 종류의 의미 있는 공간은 머신러닝 시스템이 학습 작업에 도움이 될 수 있는 패턴을 감지할 기회를 제공합니다.

네트워크 축소

다양한 시맨틱 관계를 인코딩하기에 충분한 차원이 필요하지만, 시스템을 더 빠르게 학습시킬 수 있을 정도로 작은 임베딩 공간도 필요합니다. 유용한 임베딩은 수백 차원 정도일 수 있습니다. 이는 자연어 작업에 사용되는 어휘의 크기보다 몇 자릿수 작은 크기입니다.

범주형 입력 데이터

임베딩 얻기