Моделі машинного навчання можуть навчатися лише на значеннях із рухомою комою. Однак багато ознак із набору даних спочатку не є такими значеннями. Тому важлива частина машинного навчання – це трансформація цих ознак у значення з рухомою комою.
Припустімо, що street names
(назви вулиць) є ознакою. Більшість назв вулиць – це рядки, такі як "Бродвей" або "Вілаказі".
Модель не може навчатися на таких даних, тому слід перетворити, наприклад, "Бродвей" на число з рухомою комою. У модулі Категорійні дані пояснюється, як це зробити.
Крім того, слід навіть трансформувати більшість ознак із рухомою комою. Це називається нормалізацією, і в процесі такої трансформації числа з рухомою комою перетворюються на обмежений діапазон значень, що покращує навчання моделі. У модулі Числові дані пояснюється, як це зробити.
Робіть вибірку даних, якщо їх забагато
Деякі організації мають велику кількість даних. Якщо набір даних містить забагато прикладів, слід вибрати з них підмножину для навчання. Якщо можливо, виберіть підмножину, найдоречнішу для прогнозів, які робитиме модель.
Фільтруйте приклади, що містять ідентифікаційну інформацію
З хороших наборів даних виключено приклади, що містять ідентифікаційну інформацію. Це правило допомагає захистити конфіденційність, але може впливати на модель.
Докладну інформацію на ці теми наведено в модулі "Безпека й конфіденційність", який ви знайдете далі в курсі.