임베딩은 고차원 벡터를 변환할 수 있는 비교적 저차원의 공간입니다. 임베딩을 사용하면 단어를 나타내는 희소 벡터와 같은 큰 입력에 대해 더 쉽게 머신러닝을 수행할 수 있습니다. 임베딩은 의미론적으로 유사한 입력을 임베딩 공간에 서로 가깝게 배치하여 입력의 일부 시맨틱을 캡처하는 것이 이상적입니다. 임베딩을 학습하고 여러 모델에서 재사용할 수 있습니다.
임베딩
협업 필터링의 동기
- 입력: 사용자 500,000명이 시청한 영화 1,000,000편
- 작업: 사용자에게 영화 추천
이 문제를 해결하려면 어떤 영화가 서로 비슷한지 파악하는 방법이 필요합니다.
유사성을 기준으로 영화 정리 (1일)
유사성을 기준으로 영화 정리 (2일)
2차원 임베딩
2차원 임베딩
d차원 임베딩
- 영화에 대한 사용자의 관심을 d 측면에서 대략적으로 설명할 수 있다고 가정
- 각 영화는 차원 d의 값이 영화가 해당 측면에 얼마나 해당하는지를 나타내는 d차원 포인트가 됩니다.
- 임베딩은 데이터에서 학습 가능
심층 네트워크에서의 임베딩 학습
- 별도의 학습 프로세스가 필요하지 않습니다. 임베딩 레이어는 차원당 하나의 단위를 포함하는 히든 레이어일 뿐입니다.
- 감독 대상 정보 (예: 사용자가 동일한 두 영화를 시청)는 원하는 작업에 맞게 학습된 임베딩을 조정합니다.
- 직관적으로 히든 단위는 최종 목표를 가장 잘 최적화할 수 있는 방식으로 d차원 공간에서 항목을 구성하는 방법을 찾습니다.
입력 표현
- 각 예 (이 행렬의 행)는 사용자가 시청한 특성 (영화)의 희소 벡터입니다.
- 이 예시는 밀집 표현으로 다음과 같이 표현됩니다. (0, 1, 0, 1, 0, 0, 0, 1)
공간 및 시간 측면에서 효율적이지 않음
입력 표현
- 각 특성을 0, ..., 영화 #~1에 있는 정수로 매핑하는 사전을 만듭니다.
- 희소 벡터를 사용자가 시청한 영화로 효율적으로 표현합니다. 이는 다음과 같이 나타낼 수 있습니다.
심층망의 임베딩 레이어
주택 판매 가격을 예측하는 회귀 문제:
심층망의 임베딩 레이어
주택 판매 가격을 예측하는 회귀 문제:
심층망의 임베딩 레이어
주택 판매 가격을 예측하는 회귀 문제:
심층망의 임베딩 레이어
주택 판매 가격을 예측하는 회귀 문제:
심층망의 임베딩 레이어
주택 판매 가격을 예측하는 회귀 문제:
심층망의 임베딩 레이어
주택 판매 가격을 예측하는 회귀 문제:
심층망의 임베딩 레이어
필기 입력된 숫자를 예측하는 멀티클래스 분류:
심층망의 임베딩 레이어
필기 입력된 숫자를 예측하는 멀티클래스 분류:
심층망의 임베딩 레이어
필기 입력된 숫자를 예측하는 멀티클래스 분류:
심층망의 임베딩 레이어
필기 입력된 숫자를 예측하는 멀티클래스 분류:
심층망의 임베딩 레이어
필기 입력된 숫자를 예측하는 멀티클래스 분류:
심층망의 임베딩 레이어
필기 입력된 숫자를 예측하는 멀티클래스 분류:
심층망의 임베딩 레이어
필기 입력된 숫자를 예측하는 멀티클래스 분류:
심층망의 임베딩 레이어
협업 필터링으로 추천 영화 추천:
심층망의 임베딩 레이어
협업 필터링으로 추천 영화 추천:
심층망의 임베딩 레이어
협업 필터링으로 추천 영화 추천:
심층망의 임베딩 레이어
협업 필터링으로 추천 영화 추천:
심층망의 임베딩 레이어
협업 필터링으로 추천 영화 추천:
심층망의 임베딩 레이어
협업 필터링으로 추천 영화 추천:
심층망의 임베딩 레이어
협업 필터링으로 추천 영화 추천:
기하학적 보기와 대응
딥 네트워크
- 각 숨겨진 단위는 측정기준 (잠재 특성)에 해당합니다.
- 영화 레이어와 히든 레이어 사이의 가장자리 가중치는 좌표 값입니다.
단일 영화 임베딩의 기하학적 보기
임베딩 밝기 수 선택
- 고차원 임베딩은 입력 값 간의 관계를 더 정확하게 표현할 수 있음
- 고차원이 될수록 과적합의 가능성이 높아지며 학습이 느려집니다.
- 경험적 법칙 (시작은 좋은데 검증 데이터를 사용하여 조정해야 함): $$ dimensions \approx \sqrt[4]{possible\;values} $$
도구로서의 임베딩
- 유사한 항목이 서로 가까운 방식으로 항목 (예: 영화, 텍스트 등)을 저차원의 실제 벡터에 매핑합니다.
- 의미 있는 유사성 측정항목을 생성하기 위해 밀집 데이터 (예: 오디오)에 임베딩을 적용할 수도 있습니다.
- 다양한 데이터 유형 (예: 텍스트, 이미지, 오디오 등)을 함께 삽입하여 유사성을 정의합니다.