لا يمكن تدريب نماذج تعلُّم الآلة إلا على القيم الكسورية. ومع ذلك، لا تكون العديد من ميزات مجموعة البيانات قيمًا عشرية طبيعية. لذلك، يُعدّ تحويل السمات غير الشاردية إلى تمثيلات شاردية أحد الأجزاء المهمة في تعلُّم الآلة.
على سبيل المثال، لنفترض أنّ street names
هي ميزة. معظم أسماء الشوارع
هي سلاسل، مثل "Broadway" أو "Vilakazi".
لا يمكن تدريب النموذج على "Broadway"، لذا عليك تحويل "Broadway"
إلى رقم عشري. توضّح وحدة "البيانات النوعية"
كيفية إجراء ذلك.
بالإضافة إلى ذلك، يجب تحويل معظم ميزات النقطة العائمة. تُعرف عملية التحويل هذه باسم التسوية، وهي تعمل على تحويل الأرقام الكسورية إلى نطاق محدود يُحسِّن من تدريب النموذج. توضّح وحدة "البيانات الرقمية" كيفية إجراء ذلك.
تحليل عيّنات البيانات عندما يكون لديك الكثير منها
تمتلك بعض المؤسسات وفرة من البيانات. عندما تحتوي مجموعة البيانات على عدد كبير جدًا من الأمثلة، عليك اختيار مجموعة فرعية من الأمثلة للتدريب. اختَر المجموعة الفرعية الأكثر صلة بتوقّعات النموذج كلما أمكن ذلك.
أمثلة على الفلاتر التي تحتوي على معلومات تحديد الهوية الشخصية
تحذف مجموعات البيانات الجيدة الأمثلة التي تحتوي على معلومات تحديد الهوية الشخصية (PII). تساعد هذه السياسة في حماية الخصوصية، ولكن يمكن أن تؤثّر في النموذج.
يمكنك الاطّلاع على وحدة "الأمان والخصوصية" لاحقًا في الدورة للحصول على مزيد من المعلومات حول هذه المواضيع.