مجموعات البيانات: تحويل البيانات

لا يمكن تدريب نماذج تعلُّم الآلة إلا على قيم النقاط العائمة. ومع ذلك، فإن العديد من ميزات مجموعة البيانات ليست قيمًا عائمة طبيعية. وبالتالي، فإن أحد الأجزاء المهمة في التعلم الآلي هو تحويل العناصر غير العائمة إلى تمثيلات النقطة العائمة.

على سبيل المثال، لنفترض أن street names ميزة. معظم أسماء الشوارع عبارة عن سلاسل، مثل "Broadway" أو "فيلاكازي". لا يمكن تدريب نموذجك على "برودواي"، لذا يجب تحويل "برودواي". إلى رقم فاصل عائم. البيانات الفئوية الوحدة يشرح كيفية القيام بذلك.

بالإضافة إلى ذلك، عليك تحويل معظم ميزات النقاط العائمة. عملية التحويل هذه، تسمى normalization، وتحوّل أرقام النقطة العائمة إلى نطاق محدود يحسن تدريب النموذج. البيانات الرقمية الوحدة يشرح كيفية القيام بذلك.

أخذ عينات من البيانات عندما يكون لديك الكثير منها

تتمتع بعض المنظمات بوفرة من البيانات. عندما تحتوي مجموعة البيانات على أمثلة كثيرة جدًا، يجب تحديد مجموعة فرعية من أمثلة التدريب. وإذا أمكن، حدد المجموعة الفرعية الأكثر ذات صلة بتوقعات نموذجك

أمثلة على الفلاتر التي تحتوي على معلومات تحديد الهوية الشخصية

تحذف مجموعات البيانات الجيدة الأمثلة التي تحتوي على معلومات تحديد الهوية الشخصية (PII). تساعد هذه السياسة في حماية الخصوصية، ولكنّها قد تؤثّر في النموذج.

راجع وحدة "الأمان والخصوصية" لاحقًا في الدورة التدريبية للحصول على المزيد من المعلومات حول هذه المواضيع.