Робота з категорійними даними

Категорійні дані мають певний набір можливих значень. Нижче наведено приклади.

  • Різні види тварин у національному парку
  • Назви вулиць у певному місті
  • Є електронний лист спамом чи ні
  • Кольори, якими пофарбовано фасади будинків
  • Сегментовані числа, описані в модулі Робота із числовими даними

Числа також можуть бути категорійними даними

Істинні числові дані можна змістовно помножити. Наприклад, візьмімо модель, яка прогнозує вартість будинку на основі його площі. Зверніть увагу, що корисна модель для визначення цін на житло зазвичай спирається на сотні характеристик. З огляду на це, за інших рівних умов, будинок площею 200 квадратних метрів має коштувати приблизно вдвічі дорожче, ніж такий самий будинок площею 100 квадратних метрів.

Часто слід представляти ознаки, у яких є цілі числа, як категорійні дані, а не числові. Наприклад, візьмімо поштовий індекс, значення якого – цілі числа. Представивши цю ознаку числовим, а не категорійним способом, ви попросите модель знайти числову залежність між різними поштовими індексами. Тобто модель буде вважати поштовий індекс 20004 удвічі більшим (чи меншим) сигналом, ніж поштовий індекс 10002. Якщо представити поштові індекси як категорійні дані, модель зможе зважувати кожен із них окремо.

Кодування

Кодування означає перетворення категорійних або інших даних на числові вектори, на яких модель може навчатися. Таке перетворення необхідне, оскільки моделі можуть навчатися лише на значеннях із рухомою комою; для цього не підходять сегменти, наприклад "dog" або "maple". У цьому модулі пояснюються різні методи кодування категорійних даних.