Числові дані: як модель отримує і імпортує дані за допомогою векторів ознак

Досі у вас могло скластися враження, що для роботи моделі безпосередньо використовують рядки з набору даних; однак насправді вони імпортують відомості дещо інакше.

Припустімо, що набір даних містить п’ять стовпців, але лише два з них (b і d) є ознаками для моделі. Хіба модель, обробляючи приклад із рядка 3, просто бере вміст двох виділених клітинок (3b й 3d), як показано нижче?

Рисунок 1. Модель, що імпортує приклад безпосередньо з набору даних.
            Стовпці b й d рядка 3 виділено.
Рисунок 1. Не зовсім точна ілюстрація того, як модель імпортує приклади.

Насправді модель фактично імпортує масив значень із рухомою комою, який називається вектором ознак. Вектор ознак можна уявити як значення з рухомою комою, з яких складається один приклад.

Рисунок 2. Вектор ознак є посередником між набором даних і моделлю.
Рисунок 2. Ця ілюстрація ближча до істини, але нереалістична.

Проте вектори ознак рідко використовують необроблені значення з набору даних. Зазвичай потрібно перетворити значення з набору даних на представлення, на основі яких модель може краще навчатися. Тому реалістичніший вектор ознак виглядатиме приблизно так:

Рисунок 3. Вектор ознак містить два значення з рухомою комою: 0,13 і 0,47. Реалістичніший вектор ознак.
Рисунок 3. Реалістичніший вектор ознак.

Хіба модель не створюватиме кращі прогнози, навчаючись на фактичних значеннях із набору даних, а не на змінених? Як не дивно, відповідь – ні.

Необхідно визначити найкращий спосіб представляти необроблені значення з набору даних як навчальні значення вектора ознак. Цей процес називається конструюванням ознак і є важливою частиною машинного навчання. Нижче наведено найпоширеніші методи конструювання ознак.

У цьому розділі йдеться про нормалізацію і групування. У наступному розділі Робота з категорійними даними розглядаються інші форми попередньої обробки даних, зокрема перетворення нечислових даних, наприклад рядків, у значення з рухомою комою.

У векторі ознак кожне значення має бути числом із рухомою комою. Звісно, багато ознак – це рядки або інші нечислові значення, тому значна частина процесу конструювання ознак направлена на те, щоб представляти нечислові значення як числові. Це питання неодноразово розглядатиметься в наступних модулях.