پزشکان ML زمان بسیار بیشتری را برای ارزیابی، تمیز کردن و تبدیل داده ها نسبت به ساخت مدل ها صرف می کنند. داده ها به قدری مهم هستند که این دوره سه واحد کامل را به این موضوع اختصاص می دهد:
این واحد بر روی داده های عددی تمرکز می کند، یعنی اعداد صحیح یا مقادیر ممیز شناور که مانند اعداد رفتار می کنند. یعنی افزودنی، قابل شمارش، مرتب و غیره هستند. واحد بعدی بر روی داده های طبقه بندی تمرکز می کند، که می تواند شامل اعدادی باشد که مانند دسته ها رفتار می کنند. بخش سوم بر نحوه آماده سازی داده های شما برای اطمینان از نتایج با کیفیت بالا هنگام آموزش و ارزیابی مدل تمرکز می کند.
نمونه هایی از داده های عددی عبارتند از:
دما
وزن
تعداد آهوهای زمستان گذران در حفاظتگاه طبیعی
در مقابل، کدهای پستی ایالات متحده، علیرغم اینکه اعداد پنج رقمی یا نه رقمی هستند، مانند اعداد رفتار نمی کنند و روابط ریاضی را نشان نمی دهند. کد پستی 40004 (در شهرستان نلسون، کنتاکی) دو برابر کد پستی 20002 (در واشنگتن دی سی) نیست. این اعداد نشان دهنده دسته ها، به ویژه مناطق جغرافیایی هستند و داده های طبقه بندی شده در نظر گرفته می شوند.
تاریخ آخرین بهروزرسانی 2024-11-07 بهوقت ساعت هماهنگ جهانی.
[null,null,["تاریخ آخرین بهروزرسانی 2024-11-07 بهوقت ساعت هماهنگ جهانی."],[[["This module focuses on preparing numerical data, such as temperature or weight, for use in machine learning models."],["Machine learning practitioners spend significant time on data preparation tasks like cleaning and transformation."],["The module covers techniques like feature scaling, outlier detection, and binning to improve data quality for model training."],["Learners should have a basic understanding of machine learning concepts before starting this module."],["Categorical data, like postal codes, will be addressed in a separate module due to its distinct characteristics and handling requirements."]]],[]]