수치 데이터: 좋은 숫자 특성의 특성

이 단원에서는 원시 데이터를 적절한 곳에 매핑하고 특성 벡터가 포함됩니다. 좋은 숫자 특성은 품질 중 한 가지만 나타냅니다.

명확한 이름

각 특징은 온라인상에서 모든 사람에게 명확하고 합리적이며 명백한 의미를 가져야 합니다. 프로젝트입니다 예를 들어 다음 특성 값의 의미는 혼란스러움:

권장하지 않음

주택_연령: 851472000

반대로 다음과 같은 특성 이름과 값은 훨씬 더 명확합니다.

권장

House_age_years: 27세

학습 전에 확인 또는 테스트함

이 모듈에서는 이상점인 경우 주제는 한 번 더 언급할 수 있을 만큼 중요했습니다. 경우에 따라 잘못된 데이터가 불분명한 값을 초래합니다. 예를 들어 다음 user_age_in_years은(는) 다음을 확인하지 않은 소스에서 제공되었습니다. 다음과 같습니다.

권장하지 않음

연간_사용자_연령: 224

하지만 만 24세는 가능합니다.

권장

user_age_in_years: 24세

데이터를 확인하세요.

합리적

'특수 값' 그 외의 연속적인 상황에서 의도적인 기능을 사용할 수 있습니다. 예를 들어 watch_time_in_seconds라는 연속 특성이 있다고 가정해 보겠습니다. 0과 30 사이의 부동 소수점 값을 보유할 수 있지만 부재를 나타냅니다. 다음과 같습니다.

권장하지 않음

watch_time_in_seconds: -1

watch_time_in_seconds가 -1이면 모델이 강제로 시간을 거슬러 올라가 영화를 보는 것이 어떤 의미인지 알아보세요. 결과 모델은 잘 예측하지 못할 수 있습니다

더 나은 방법은 한 가지 더 나은 방법이 무엇인지를 나타내는 watch_time_in_seconds 여부 값이 제공됩니다. 예를 들면 다음과 같습니다.

권장

watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

이제 분리하다고 유한한 값 세트에 속해야 하는 숫자 특성입니다. 이 이 경우, 값이 누락된 경우 유한집합입니다. 불연속 특성을 사용하면 모델이 다양한 가중치를 학습합니다. 누락된 특성에 대한 원래 가중치를 포함하여 각 값에 대한 가중치를 부여합니다.