مجموعه داده ها: تبدیل داده ها
با مجموعهها، منظم بمانید
ذخیره و طبقهبندی محتوا براساس اولویتهای شما.
مدلهای یادگیری ماشینی فقط میتوانند روی مقادیر ممیز شناور آموزش ببینند. با این حال، بسیاری از ویژگی های مجموعه داده ها به طور طبیعی مقادیر ممیز شناور نیستند . بنابراین، یکی از بخش های مهم یادگیری ماشین، تبدیل ویژگی های غیر ممیز شناور به نمایش های ممیز شناور است.
به عنوان مثال، فرض کنید street names
یک ویژگی است. اغلب نامهای خیابانها رشتهای هستند، مانند «برادوی» یا «ویلاکازی». مدل شما نمیتواند در «برادوی» تمرین کند، بنابراین باید «برادوی» را به یک عدد ممیز شناور تبدیل کنید. ماژول Category Data نحوه انجام این کار را توضیح می دهد.
علاوه بر این، شما حتی باید اکثر ویژگی های ممیز شناور را تغییر دهید. این فرآیند تبدیل که نرمال سازی نامیده می شود، اعداد ممیز شناور را به یک محدوده محدود تبدیل می کند که آموزش مدل را بهبود می بخشد. ماژول داده های عددی نحوه انجام این کار را توضیح می دهد.
زمانی که دادههای زیادی دارید نمونه بگیرید
برخی از سازمان ها دارای داده های فراوانی هستند.هنگامی که مجموعه داده حاوی مثال های بسیار زیادی است، باید زیر مجموعه ای از نمونه ها را برای آموزش انتخاب کنید. در صورت امکان، زیرمجموعه ای را انتخاب کنید که بیشترین ارتباط را با پیش بینی های مدل شما دارد.
نمونه های حاوی PII را فیلتر کنید
مجموعه داده های خوب نمونه های حاوی اطلاعات شناسایی شخصی (PII) را حذف نمی کنند. این خط مشی به حفظ حریم خصوصی کمک می کند اما می تواند بر مدل تأثیر بگذارد.
برای اطلاعات بیشتر در مورد این موضوعات، ماژول ایمنی و حریم خصوصی را در ادامه دوره ببینید.
جز در مواردی که غیر از این ذکر شده باشد،محتوای این صفحه تحت مجوز Creative Commons Attribution 4.0 License است. نمونه کدها نیز دارای مجوز Apache 2.0 License است. برای اطلاع از جزئیات، به خطمشیهای سایت Google Developers مراجعه کنید. جاوا علامت تجاری ثبتشده Oracle و/یا شرکتهای وابسته به آن است.
تاریخ آخرین بهروزرسانی 2025-07-29 بهوقت ساعت هماهنگ جهانی.
[null,null,["تاریخ آخرین بهروزرسانی 2025-07-29 بهوقت ساعت هماهنگ جهانی."],[[["\u003cp\u003eMachine learning models require all data, including features like street names, to be transformed into numerical (floating-point) representations for training.\u003c/p\u003e\n"],["\u003cp\u003eNormalization is crucial for optimizing model training by converting existing floating-point features to a specific range.\u003c/p\u003e\n"],["\u003cp\u003eWhen dealing with large datasets, selecting a relevant subset of data for training is essential for model performance.\u003c/p\u003e\n"],["\u003cp\u003eProtecting user privacy by excluding Personally Identifiable Information (PII) from datasets is a critical consideration.\u003c/p\u003e\n"]]],[],null,["# Datasets: Transforming data\n\nMachine learning models can only train on floating-point values.\nHowever, many dataset features are *not* naturally floating-point values.\nTherefore, one important part of machine learning is transforming\nnon-floating-point features to floating-point representations.\n\nFor example, suppose `street names` is a feature. Most street names\nare strings, such as \"Broadway\" or \"Vilakazi\".\nYour model can't train on \"Broadway\", so you must transform \"Broadway\"\nto a floating-point number. The [Categorical Data\nmodule](/machine-learning/crash-course/categorical-data)\nexplains how to do this.\n\nAdditionally, you should even transform most floating-point features.\nThis transformation process, called\n[**normalization**](/machine-learning/glossary#normalization), converts\nfloating-point numbers to a constrained range that improves model training.\nThe [Numerical Data\nmodule](/machine-learning/crash-course/numerical-data)\nexplains how to do this.\n\nSample data when you have too much of it\n----------------------------------------\n\nSome organizations are blessed with an abundance of data.\n\nWhen the dataset contains too many examples, you must select a *subset*\nof examples for training. When possible, select the subset that is most\nrelevant to your model's predictions.\n\nFilter examples containing PII\n------------------------------\n\nGood datasets omit examples containing Personally Identifiable Information\n(PII). This policy helps safeguard privacy but can influence the model.\n\nSee the Safety and Privacy module later in the course for more on these topics.\n| **Key terms:**\n|\n- [Normalization](/machine-learning/glossary#normalization) \n[Help Center](https://support.google.com/machinelearningeducation)"]]