숫자 데이터: 모델이 특성 벡터를 사용하여 데이터를 수집하는 방법

지금까지는 모델이 데이터 레이크에 직접 작용하여 데이터 세트의 행입니다. 하지만 모델은 실제로 데이터를 수집하는 방식이 약간 다릅니다.

예를 들어 데이터 세트가 5개의 열을 제공하지만 그중 2개만 제공한다고 가정해 보겠습니다. 열 (bd)은 모델의 특성입니다. 처리 시 3행의 예에서 모델이 단순히 데이터 세트의 내용을 강조 표시된 두 개의 셀 (3b와 3d)은 다음과 같습니다.

그림 1. 데이터 세트에서 직접 예시를 수집하는 모델
            3행의 b열과 d열이 강조표시되어 있습니다.
그림 1. 모델이 예시를 가져오는 방법은 아닙니다.

실제로 모델은 실제로 특성 벡터를 사용할 수 있습니다. 한 가지 예를 구성하는 부동 소수점 값으로 표현됩니다.

그림 2. 특성 벡터는 데이터 세트 사이의 중개자임
            살펴보겠습니다
그림 2. 진실에 더 가깝지만 현실적이지 않음

하지만 특성 벡터는 데이터 세트의 원시 값을 거의 사용하지 않습니다. 대신 일반적으로 데이터 세트의 값을 표현으로 처리해야 합니다. 모델 학습에 사용할 수 있습니다. 따라서 보다 현실적인 방법은 이 특성 벡터는 다음과 같을 수 있습니다.

그림 3. 특성 벡터에는 두 개의 부동 소수점 값이 포함됩니다.
            0.13 및 0.47. 보다 현실적인 특성 벡터입니다.
그림 3. 보다 현실적인 특성 벡터입니다.

모델이 2012년 9월 11일부터 변경된 값보다 데이터 세트의 실제 값이 얼마나 될까요? 놀랍게도 답은 '아니요'입니다.

원시 데이터 세트 값을 학습 가능한 값으로 표현하는 최선의 방법을 결정해야 합니다. 값을 정의합니다. 이 프로세스를 특성 추출, 머신러닝의 중요한 부분입니다. 가장 일반적인 특성 추출 기법은 다음과 같습니다.

  • 정규화: 변환 중 표준 범위로 변환합니다.
  • 비닝 (또는 버케팅): 숫자 변환 값을 범위 버킷으로 그룹화합니다.

이 단원에서는 정규화와 비닝을 다룹니다. 다음 단원인 범주형 데이터를 사용한 작업 다양한 형태의 예를 들어 다음과 같은 사전 처리를 문자열과 같이 숫자가 아닌 데이터를 부동 소수점 값으로 변환

특성 벡터의 모든 값은 부동 소수점 값이어야 합니다. 그러나 많은 경우 특성은 기본적으로 문자열 또는 기타 숫자가 아닌 값입니다. 따라서 특성 추출의 많은 부분은 숫자가 아닌 값을 숫자 값입니다. 이후 모듈에서 이 내용을 많이 보게 됩니다.