Набори даних: перетворення даних

Моделі машинного навчання можуть навчатися лише на значеннях із рухомою комою. Однак багато ознак із набору даних спочатку не є такими значеннями. Тому важлива частина машинного навчання – це трансформація цих ознак у значення з рухомою комою.

Припустімо, що street names (назви вулиць) є ознакою. Більшість назв вулиць – це рядки, такі як "Бродвей" або "Вілаказі". Модель не може навчатися на таких даних, тому слід перетворити, наприклад, "Бродвей" на число з рухомою комою. У модулі Категорійні дані пояснюється, як це зробити.

Крім того, слід навіть трансформувати більшість ознак із рухомою комою. Це називається нормалізацією, і в процесі такої трансформації числа з рухомою комою перетворюються на обмежений діапазон значень, що покращує навчання моделі. У модулі Числові дані пояснюється, як це зробити.

Робіть вибірку даних, якщо їх забагато

Деякі організації мають велику кількість даних. Якщо набір даних містить забагато прикладів, слід вибрати з них підмножину для навчання. Якщо можливо, виберіть підмножину, найдоречнішу для прогнозів, які робитиме модель.

Фільтруйте приклади, що містять ідентифікаційну інформацію

З хороших наборів даних виключено приклади, що містять ідентифікаційну інформацію. Це правило допомагає захистити конфіденційність, але може впливати на модель.

Докладну інформацію на ці теми наведено в модулі "Безпека й конфіденційність", який ви знайдете далі в курсі.