임베딩

사용자가 좋아하는 음식을 입력하면 비슷한 음식을 추천해 주는 음식 추천 애플리케이션을 개발하고 있다고 가정해 보겠습니다. 이 앱은 사용자가 좋아할 만한 음식을 정확히 추천하기 위해, 음식 간의 유사성을 예측할 수 있는 머신러닝(ML) 모델을 필요로 합니다. 예를 들어, “팬케이크를 좋아하신다면 크레페를 추천합니다”처럼 말이죠.

모델을 학습시키기 위해 수프, 핫도그, 샐러드, 피자, 샌드위치 등 인기 있는 5,000개의 음식 항목으로 구성된 데이터 세트를 선별합니다.

그림 1. 다섯 가지 음식 항목에 대한 삽화. 왼쪽 위부터
시계 방향으로 수프, 핫도그, 샐러드, 피자, 샌드위치. — **그림 1.** 음식 데이터 세트에 포함된 음식 항목의 샘플.

데이터 세트에 있는 각 음식 항목을 원-핫 인코딩 으로 표현한 meal 특성을 만듭니다. 인코딩이란 모델 학습을 위해 데이터의 초기 수치적 표현을 선택하는 과정을 의미합니다.

그림 2. 상단: 수프의 원-핫 인코딩 시각화.
벡터 [1, 0, 0, 0, …, 0]이 여섯 개의 상자 위에 표시되어 있으며,
각 상자는 왼쪽에서 오른쪽으로
벡터의 숫자와 일치하도록 정렬되어 있습니다. 상자에는 다음과 같은 이미지가
왼쪽에서 오른쪽 순으로 들어 있습니다: 수프, 핫도그, 샐러드, 피자, [비어 있음],
샌드위치. 중간: 핫도그의 원-핫 인코딩 시각화.
벡터 [0, 1, 0, 0, …, 0]이 여섯 개의 상자 위에 표시되어 있으며, 각 상자는
벡터의 숫자들과 왼쪽에서 오른쪽으로 정렬되어 있습니다. 상자의 이미지 배열은 위 수프 시각화와 동일합니다. 하단: 샌드위치의 원-핫 인코딩 시각화. 벡터 [0, 0, 0, 0, …, 1]이 여섯 개의 상자 위에 표시되어 있으며, 각 상자는
벡터의 숫자들과 왼쪽에서 오른쪽으로 정렬되어 있습니다. 상자는 왼쪽에서
오른쪽으로 수프와 핫도그 시각화에서 사용된 이미지들과 동일한 이미지를 가지고
있습니다. — **그림 2.** 수프, 핫도그, 샌드위치의 원-핫 인코딩. 각 원-핫 인코딩 벡터는 데이터 세트에 있는 음식 항목마다 하나의 항목이 포함되어 총 길이가 5,000입니다. 다이어그램의 생략 기호는 표시되지 않은 4,995개의 항목을 나타냅니다.

희소 데이터 표현의 일반적인 문제

이러한 원-핫 인코딩을 검토해 보면, 데이터 표현 방식에 다소 문제가 있다는 것을 알 수 있습니다.

가중치 수. 입력 벡터가 클수록 신경망에 필요한 가중치의 수도 많아집니다. 원-핫 인코딩에 M개의 항목이 있고, 입력 후 첫 번째 레이어에 N개의 노드가 있다면, 그 레이어에 M×N개의 가중치를 학습해야 합니다.
데이터 포인트 수. 모델의 가중치가 많을수록 효과적인 학습을 위해 더 많은 데이터가 필요합니다.
계산량. 가중치가 많을수록 모델을 학습하고 사용하는 데 더 많은 계산이 필요합니다. 따라서 하드웨어가 이를 지원하지 못할 가능성이 높습니다.
메모리양. 모델에 가중치가 많을수록, 모델을 학습하고 처리하는 가속기에 더 많은 메모리가 필요합니다. 이를 효율적으로 확장하는 것은 매우 어렵습니다.
기기 내 머신러닝(ODML) 지원의 어려움. 로컬 디바이스에서 ML 모델을 처리하지 않고 실행하려면 모델을 작게 만드는 데 집중해야 하며 가중치의 수를 줄이는 것이 중요합니다.

이 모듈에서는 이러한 문제를 해결할 수 있는 희소 데이터의 저차원 표현인 임베딩을 만드는 방법을 학습합니다.

지식 테스트 (10분)

임베딩 공간 및 정적 임베딩 (10분)

임베딩 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

희소 데이터 표현의 일반적인 문제

임베딩