مجموعات البيانات: تحويل البيانات
تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
لا يمكن تدريب نماذج تعلُّم الآلة إلا على القيم الكسورية.
ومع ذلك، لا تكون العديد من ميزات مجموعة البيانات قيمًا عشرية طبيعية.
لذلك، يُعدّ تحويل
السمات غير الشاردية إلى تمثيلات شاردية أحد الأجزاء المهمة في تعلُّم الآلة.
على سبيل المثال، لنفترض أنّ street names
هي ميزة. معظم أسماء الشوارع
هي سلاسل، مثل "Broadway" أو "Vilakazi".
لا يمكن تدريب النموذج على "Broadway"، لذا عليك تحويل "Broadway"
إلى رقم عشري. توضّح وحدة "البيانات النوعية"
كيفية إجراء ذلك.
بالإضافة إلى ذلك، يجب تحويل معظم ميزات النقطة العائمة.
تُعرف عملية التحويل هذه باسم
التسوية، وهي تعمل على تحويل
الأرقام الكسورية إلى نطاق محدود يُحسِّن من تدريب النموذج.
توضّح وحدة "البيانات الرقمية"
كيفية إجراء ذلك.
تحليل عيّنات البيانات عندما يكون لديك الكثير منها
تمتلك بعض المؤسسات وفرة من البيانات.
عندما تحتوي مجموعة البيانات على عدد كبير جدًا من الأمثلة، عليك اختيار مجموعة فرعية
من الأمثلة للتدريب. اختَر المجموعة الفرعية الأكثر
صلة بتوقّعات النموذج كلما أمكن ذلك.
أمثلة على الفلاتر التي تحتوي على معلومات تحديد الهوية الشخصية
تحذف مجموعات البيانات الجيدة الأمثلة التي تحتوي على معلومات تحديد الهوية الشخصية
(PII). تساعد هذه السياسة في حماية الخصوصية، ولكن يمكن أن تؤثّر في النموذج.
يمكنك الاطّلاع على وحدة "الأمان والخصوصية" لاحقًا في الدورة للحصول على مزيد من المعلومات حول هذه المواضيع.
إنّ محتوى هذه الصفحة مرخّص بموجب ترخيص Creative Commons Attribution 4.0 ما لم يُنصّ على خلاف ذلك، ونماذج الرموز مرخّصة بموجب ترخيص Apache 2.0. للاطّلاع على التفاصيل، يُرجى مراجعة سياسات موقع Google Developers. إنّ Java هي علامة تجارية مسجَّلة لشركة Oracle و/أو شركائها التابعين.
تاريخ التعديل الأخير: 2025-07-27 (حسب التوقيت العالمي المتفَّق عليه)
[null,null,["تاريخ التعديل الأخير: 2025-07-27 (حسب التوقيت العالمي المتفَّق عليه)"],[[["\u003cp\u003eMachine learning models require all data, including features like street names, to be transformed into numerical (floating-point) representations for training.\u003c/p\u003e\n"],["\u003cp\u003eNormalization is crucial for optimizing model training by converting existing floating-point features to a specific range.\u003c/p\u003e\n"],["\u003cp\u003eWhen dealing with large datasets, selecting a relevant subset of data for training is essential for model performance.\u003c/p\u003e\n"],["\u003cp\u003eProtecting user privacy by excluding Personally Identifiable Information (PII) from datasets is a critical consideration.\u003c/p\u003e\n"]]],[],null,["# Datasets: Transforming data\n\nMachine learning models can only train on floating-point values.\nHowever, many dataset features are *not* naturally floating-point values.\nTherefore, one important part of machine learning is transforming\nnon-floating-point features to floating-point representations.\n\nFor example, suppose `street names` is a feature. Most street names\nare strings, such as \"Broadway\" or \"Vilakazi\".\nYour model can't train on \"Broadway\", so you must transform \"Broadway\"\nto a floating-point number. The [Categorical Data\nmodule](/machine-learning/crash-course/categorical-data)\nexplains how to do this.\n\nAdditionally, you should even transform most floating-point features.\nThis transformation process, called\n[**normalization**](/machine-learning/glossary#normalization), converts\nfloating-point numbers to a constrained range that improves model training.\nThe [Numerical Data\nmodule](/machine-learning/crash-course/numerical-data)\nexplains how to do this.\n\nSample data when you have too much of it\n----------------------------------------\n\nSome organizations are blessed with an abundance of data.\n\nWhen the dataset contains too many examples, you must select a *subset*\nof examples for training. When possible, select the subset that is most\nrelevant to your model's predictions.\n\nFilter examples containing PII\n------------------------------\n\nGood datasets omit examples containing Personally Identifiable Information\n(PII). This policy helps safeguard privacy but can influence the model.\n\nSee the Safety and Privacy module later in the course for more on these topics.\n| **Key terms:**\n|\n- [Normalization](/machine-learning/glossary#normalization) \n[Help Center](https://support.google.com/machinelearningeducation)"]]