Числові дані: якості хороших числових ознак

У цьому розділі ми розглянули способи зіставлення необроблених даних із відповідними векторами ознак. Хороші числові ознаки мають якості, описані в цьому розділі.

Мають чітку назву

Значення кожної ознаки має бути чітке, розумне й очевидне для будь-якої людини, що працює над проектом. Наприклад, значення ознаки, наведеної нижче, не зрозуміле.

Не рекомендовано

house_age: 851472000

Натомість назва й значення ознаки, наведеної нижче, набагато зрозуміліші.

Рекомендовано

house_age_years: 27

Пройшли перевірку або тестування перед навчанням

У цьому модулі викидам уже було присвячено багато часу, однак тема досить важлива, щоб повернутися до неї ще раз. Іноді до незрозумілих значень призводять неправильні дані (а не хибні вибори розробників). Наприклад, ознаку user_age_in_years (вік_користувача_в_роках) отримано з джерела, яке не перевіряло відповідні значення.

Не рекомендовано

user_age_in_years: 224

Але вік людини може бути 24 роки.

Рекомендовано

user_age_in_years: 24

Перевіряйте дані!

Є розумними

"Магічне значення" – це навмисний розрив у неперервній ознаці. Припустімо, що неперервна ознака з назвою watch_time_in_seconds (час_перегляду_в_секундах) може містити будь-яке число з рухомою комою від 0 до 30, але має магічне значення –1, яке вказує на відсутність вимірювання.

Не рекомендовано

watch_time_in_seconds: -1

Значення –1 ознаки watch_time_in_seconds змусить модель спробувати з’ясувати, що означає переглядати фільм, перемотуючи його назад. Отримана модель навряд чи надаватиме хороші прогнози.

Кращий метод – створити окрему логічну ознаку, яка вказує, чи надається значення watch_time_in_seconds. Нижче наведено приклади.

Рекомендовано

watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

Тепер розгляньмо дискретну числову ознаку, значення якої має бути зі скінченного набору значень. Якщо значення такої ознаки відсутнє, слід позначити його за допомогою нового числа зі скінченного набору. За допомогою дискретної ознаки модель дізнається про різні вагові коефіцієнти для кожного значення, зокрема початкові вагові коефіцієнти для відсутніх ознак.