Набори даних, узагальнення й надмірне навчання

Вступ

Цей модуль починається з навідного запитання. Виберіть одну з відповідей.

Якби для свого проекту машинного навчання вам довелося віддати пріоритет одному з варіантів покращення, наведених нижче, який із них мав би найбільший вплив?
Покращення якості набору даних
Дані – це головне. Якість і розмір набору даних важливіші, ніж те, який алгоритм ви використовуєте для створення моделі.
Застосування розумнішої функції втрат для навчання моделі
Завдяки кращій функції втрат модель справді зможе навчатися швидше, але це другорядне завдання у порівнянні з іншим пунктом цього списку.

А нижче ще одне навідне запитання, яке дасть вам ще краще уявлення про модуль.

Спробуйте вгадати, скільки часу зазвичай іде на підготовку й трансформацію даних для проекту машинного навчання.
Більша частина часу, виділеного на проект
Так, спеціалісти з машинного навчання витрачають більшу частину часу на створення наборів даних і конструювання ознак.
Менша частина часу, виділеного на проект
Закладайте більше часу! Як правило, 80% часу, виділеного на проект машинного навчання, витрачається на створення наборів даних і трансформацію даних.

Із цього модуля ви дізнаєтеся більше про характеристики наборів даних для машинного навчання, а також про те, як підготувати дані, щоб забезпечити високоякісні результати під час навчання й оцінювання моделі.