Specjaliści ds. systemów uczących się poświęcają znacznie więcej czasu na ocenę, sprzątanie i transformację niż na tworzeniu modeli. Dane są tak ważne, że ten kurs poświęca temu tematowi 3 całe jednostki:
- Praca z danymi liczbowymi (ta jednostka)
- Praca z danymi kategorialnymi
- Zbiory danych, uogólnianie i nadmierne dopasowanie
Ta część koncentruje się dane liczbowe, oznaczające liczby całkowite lub wartości zmiennoprzecinkowe które zachowują się jak liczby. czyli sumować się, zliczać, porządkować, i tak dalej. Następna część dotyczy danych kategorialnych, które mogą zawierają liczby, które są podobne do kategorii. Trzecia część dotyczy sposobów przygotowywanie danych w celu zapewnienia wysokiej jakości wyników podczas trenowania i oceniania; i modelu.
Przykłady danych liczbowych:
- Temperatura
- Waga
- Liczba jeleni zimujących w rezerwacie przyrody
Natomiast kody pocztowe w USA, mimo są pięciocyfrowymi lub dziewięciocyfrowymi liczbami, nie zachowuj się jak liczby ani nie reprezentują w matematyce. Kod pocztowy 40004 (w hrabstwie Nelson w stanie Kentucky) to nie dwukrotnie więcej niż w przypadku kodu pocztowego 20002 (w Waszyngtonie). Te numery reprezentują kategorie, konkretne obszary geograficzne i są uważane dane kategorialne.