범주형 데이터 작업

를 통해 개인정보처리방침을 정의할 수 있습니다.

범주형 데이터에는 가능한 값의 특정 집합입니다. 예를 들면 다음과 같습니다.

  • 국립공원에 있는 다양한 종의 동물
  • 특정 도시의 거리 이름
  • 이메일의 스팸 여부
  • 집 외관을 채색하는 색상은
  • 숫자 사용 시 Data 모듈

숫자는 범주형 데이터일 수도 있습니다.

숫자 데이터 유의미하게 곱할 수 있습니다. 예를 들어 넓이를 기준으로 주택의 가치를 예측하는 모델입니다. 주택 가격을 평가하는 데 유용한 모델은 일반적으로 실행할 수 있습니다 다른 모든 조건이 같으면 200제곱미터 크기의 주택이 미터는 정사각형이 100개인 한 집보다 약 2배 더 가치가 있어야 함 미터

종종 정수 값을 포함하는 특성을 다음과 같이 나타내야 합니다. 숫자 데이터 대신 범주형 데이터를 사용합니다. 예를 들어 우편함이 값이 정수인 코드 특성입니다. 여러분이 범주형이 아닌 숫자로 특성을 추출해야 하는 경우 숫자 관계를 찾기 위해 서로 다른 우편번호에 적용됩니다. 즉, 모델에 우편번호 20004를 우편번호보다 두 배 (또는 절반) 큰 신호로 처리 10002입니다. 우편번호를 범주형 데이터로 표현하면 모델이 각 개별 우편번호에 별도로 가중치를 부여합니다.

인코딩

인코딩은 범주형 또는 기타 데이터를 숫자 벡터로 변환하는 것을 의미합니다. 여러 가지 기준이 있습니다 이 전환이 필요한 이유는 모델이 부동 소수점 값만 학습합니다. 학습될 수 없는 문자열과 "dog" 또는 "maple" 이 모듈에서는 다양한 인코딩 방법을 사용합니다.