پزشکان ML زمان بسیار بیشتری را برای ارزیابی، تمیز کردن و تبدیل داده ها نسبت به ساخت مدل ها صرف می کنند. داده ها به قدری مهم هستند که این دوره سه واحد کامل را به این موضوع اختصاص می دهد:
- کار با داده های عددی (این واحد)
- کار با داده های طبقه بندی شده
- مجموعه داده ها، تعمیم و برازش بیش از حد
این واحد بر روی داده های عددی تمرکز می کند، یعنی اعداد صحیح یا مقادیر ممیز شناور که مانند اعداد رفتار می کنند. یعنی افزودنی، قابل شمارش، مرتب و غیره هستند. واحد بعدی بر روی داده های طبقه بندی تمرکز می کند، که می تواند شامل اعدادی باشد که مانند دسته ها رفتار می کنند. بخش سوم بر نحوه آماده سازی داده های شما برای اطمینان از نتایج با کیفیت بالا هنگام آموزش و ارزیابی مدل تمرکز می کند.
نمونه هایی از داده های عددی عبارتند از:
- دما
- وزن
- تعداد آهوهای زمستان گذران در حفاظتگاه طبیعی
در مقابل، کدهای پستی ایالات متحده، علیرغم اینکه اعداد پنج رقمی یا نه رقمی هستند، مانند اعداد رفتار نمی کنند و روابط ریاضی را نشان نمی دهند. کد پستی 40004 (در شهرستان نلسون، کنتاکی) دو برابر کد پستی 20002 (در واشنگتن دی سی) نیست. این اعداد نشان دهنده دسته ها، به ویژه مناطق جغرافیایی هستند و داده های طبقه بندی شده در نظر گرفته می شوند.