이 단원에서는 원시 데이터를 적절한 곳에 매핑하고 특성 벡터가 포함됩니다. 좋은 숫자 특성은 품질 중 한 가지만 나타냅니다.
명확한 이름
각 특징은 온라인상에서 모든 사람에게 명확하고 합리적이며 명백한 의미를 가져야 합니다. 프로젝트입니다 예를 들어 다음 특성 값의 의미는 혼란스러움:
권장하지 않음
주택_연령: 851472000
반대로 다음과 같은 특성 이름과 값은 훨씬 더 명확합니다.
권장
House_age_years: 27세
학습 전에 확인 또는 테스트함
이 모듈에서는
이상점인 경우 주제는
한 번 더 언급할 수 있을 만큼 중요했습니다. 경우에 따라 잘못된 데이터가
불분명한 값을 초래합니다. 예를 들어
다음 user_age_in_years
은(는) 다음을 확인하지 않은 소스에서 제공되었습니다.
다음과 같습니다.
권장하지 않음
연간_사용자_연령: 224
하지만 만 24세는 가능합니다.
권장
user_age_in_years: 24세
데이터를 확인하세요.
합리적
'특수 값' 그 외의 연속적인 상황에서 의도적인
기능을 사용할 수 있습니다. 예를 들어 watch_time_in_seconds
라는 연속 특성이 있다고 가정해 보겠습니다.
0과 30 사이의 부동 소수점 값을 보유할 수 있지만 부재를 나타냅니다.
다음과 같습니다.
권장하지 않음
watch_time_in_seconds: -1
watch_time_in_seconds
가 -1이면 모델이 강제로
시간을 거슬러 올라가 영화를 보는 것이 어떤 의미인지 알아보세요. 결과 모델은
잘 예측하지 못할 수 있습니다
더 나은 방법은 한 가지 더 나은 방법이 무엇인지를 나타내는
watch_time_in_seconds
여부
값이 제공됩니다. 예를 들면 다음과 같습니다.
권장
watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=Truewatch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False
이제 분리하다고 유한한 값 세트에 속해야 하는 숫자 특성입니다. 이 이 경우, 값이 누락된 경우 유한집합입니다. 불연속 특성을 사용하면 모델이 다양한 가중치를 학습합니다. 누락된 특성에 대한 원래 가중치를 포함하여 각 값에 대한 가중치를 부여합니다.