Zbiory danych, uogólnienie i nadmierne dopasowanie
Wprowadzenie
Ten moduł rozpoczyna się od pytania na początku.
Wybierz jedną z tych odpowiedzi:
Gdyby trzeba było potraktować priorytetowo ulepszenie jednego z poniższych obszarów
w Twoim projekcie
systemów uczących się, który pozwoliłby
wpływ na media?
Poprawianie jakości zbioru danych
Dane mają priorytet nad wszystkim.
Jakość i rozmiar zbioru danych mają większe znaczenie
do tworzenia modeli.
Zastosowanie bardziej inteligentnej funkcji straty do trenowania modelu
Prawda, lepsza funkcja straty może przyśpieszyć trenowanie modelu, ale
do innego elementu na tej liście jest ciągle odległa sekunda.
A oto kolejne pytanie wstępne:
Zgadnij: ile czasu w Twoim projekcie
związanym z systemami uczącymi się
Czy organizacja poświęca zwykle czas na przygotowywanie i przekształcanie danych?
Ponad połowa czasu trwania projektu
Tak, specjaliści ds. systemów uczących się spędzają większość czasu
jak tworzyć zbiory danych
i pracować nad funkcjami.
Mniej niż połowa czasu trwania projektu
Planuj dalej! Systemy uczące się są wykorzystywane zazwyczaj w 80% czasu
na tworzenie zbiorów danych i przekształcanie danych.
W tym module poznasz cechy systemów uczących się
i o tym, jak przygotować dane, aby zapewnić wysoką jakość
trenowania i oceniania modelu.
[null,null,["Ostatnia aktualizacja: 2024-08-13 UTC."],[[["This module emphasizes the critical role of data quality in machine learning projects, highlighting that it significantly impacts model performance more than algorithm choice."],["Machine learning practitioners typically dedicate a substantial portion of their project time (around 80%) to data preparation and transformation, including tasks like dataset construction and feature engineering."],["The module covers key concepts in data preparation, such as identifying data characteristics, handling unreliable data, understanding data labels, and splitting datasets for training and evaluation."],["Learners will gain insights into techniques for improving data quality, mitigating issues like overfitting, and interpreting loss curves to assess model performance."],["This module builds upon foundational machine learning concepts, assuming familiarity with topics like linear regression, numerical and categorical data handling, and basic machine learning principles."]]],[]]