Робота із числовими даними

Спеціалісти з машинного навчання витрачають набагато більше часу на оцінювання, очищення й перетворення даних, ніж на створення моделей. Дані настільки важливі, що цьому аспекту в курсі присвячено цілих три розділи:

У цьому розділі розглядаються числові дані, тобто цілі числа або значення з рухомою комою, які поводяться як числа: вони доповнювані, злічувані, послідовні тощо. Наступний модуль присвячено категоріальним даним, які можуть містити числа, що поводяться як категорії. З третього модуля ви дізнаєтеся, як підготувати дані так, щоб забезпечити якісні результати на етапах навчання й оцінювання моделі.

Приклади числових даних:

  • температура;
  • вага;
  • кількість оленів, що зимують у природному заповіднику.

На відміну від них, поштові індекси США хоч і є п’яти- або дев’ятизначними числами, але не поводяться як такі й не відображають математичні співвідношення. Поштовий індекс 40004 (округ Нельсон, штат Кентуккі) не вдвічі більший кількісно за поштовий індекс 20002 (Вашингтон, округ Колумбія). Ці числа представляють категорії (географічні райони) і вважаються категорійними даними.