مصائد البيانات
تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
أهداف التعلُّم
في هذه الوحدة، ستتعلم ما يلي:
- التحقيق في المشاكل المحتملة الكامنة في مجموعات البيانات الأولية أو التي تمت معالجتها، بما في ذلك
مشكلات الجمع والجودة.
- تحديد التحيزات والاستنتاجات غير الصالحة والاستنتاجات.
- العثور على المشكلات الشائعة في تحليل البيانات، بما في ذلك الارتباط
والصلة وعدم الصلة.
- يفحص مخطط المشكلات الشائعة وسوء التصورات
خيارات العرض والتصميم المضللة.
تحفيز تعلُّم الآلة
على الرغم من أنه ليس بهذه الروعة كبُنى النماذج وغيرها من أعمال النماذج في مرحلة ما بعد إطلاق التطبيق،
يعد استكشاف البيانات والتوثيق والمعالجة المسبقة أمرًا بالغ الأهمية
مجال تعلُّم الآلة. يمكن أن يندرج ممارسو تعلُّم الآلة ضمن فئة Nithya Sambasivan et al. يسمى
تتاليات البيانات
في دراسة ACM لعام 2021
إذا لم يفهموا جيدًا ما يلي:
- الظروف التي يتم بموجبها جمع بياناتهم
- جودة البيانات وخصائصها وقيودها
- ما يمكن وما لا يمكن أن تعرضه البيانات
إن تدريب النماذج على البيانات السيئة
أن تكتشف فقط في وقت المخرجات المنخفضة الجودة أن هناك مشكلات
مع البيانات. وبالمثل، يمكن أن يؤدي الفشل في استيعاب قيود البيانات،
والتحيزات في جمع البيانات، أو الخلط بين السببية،
يمكن أن يؤدي إلى نتائج واعدة وغير مُحقَّقة بشكل مفرط، مما قد يؤدي إلى
فقدان الثقة.
تتناول هذه الدورة فخاخ البيانات الشائعة والخفية التي يستخدمها التعلم الآلي
قد يواجهها الممارسون في عملهم.
إنّ محتوى هذه الصفحة مرخّص بموجب ترخيص Creative Commons Attribution 4.0 ما لم يُنصّ على خلاف ذلك، ونماذج الرموز مرخّصة بموجب ترخيص Apache 2.0. للاطّلاع على التفاصيل، يُرجى مراجعة سياسات موقع Google Developers. إنّ Java هي علامة تجارية مسجَّلة لشركة Oracle و/أو شركائها التابعين.
تاريخ التعديل الأخير: 2024-07-26 (حسب التوقيت العالمي المتفَّق عليه)
[null,null,["تاريخ التعديل الأخير: 2024-07-26 (حسب التوقيت العالمي المتفَّق عليه)"],[[["\u003cp\u003eThis module teaches you to identify potential issues in datasets, including biases and invalid inferences, ultimately helping you build better ML models.\u003c/p\u003e\n"],["\u003cp\u003eUnderstanding data limitations and collection conditions is crucial to avoid "data cascades" that lead to poor model performance and wasted resources.\u003c/p\u003e\n"],["\u003cp\u003eThe module explores common data analysis pitfalls, such as mistaking correlation for causation, and emphasizes the importance of proper data exploration and preprocessing in machine learning workflows.\u003c/p\u003e\n"],["\u003cp\u003eBy recognizing common problems in charts and data visualizations, you'll be able to avoid misperceptions and ensure accurate data representation.\u003c/p\u003e\n"]]],[],null,["# Data traps\n\n\u003cbr /\u003e\n\n| **Estimated time:** 1.5 hours\n\nLearning objectives\n-------------------\n\nIn this module, you will learn to:\n\n- Investigate potential issues underlying raw or processed datasets, including collection and quality issues.\n- Identify biases, invalid inferences, and rationalizations.\n- Find common issues in data analysis, including correlation, relatedness, and irrelevance.\n- Examine a chart for common problems, misperceptions, and misleading display and design choices.\n\nML motivation\n-------------\n\nWhile not as glamorous as model architectures and other downstream model work,\ndata exploration, documentation, and preprocessing are critical to\nML work. ML practitioners can fall into what Nithya Sambasivan et al. called\n[data cascades](https://research.google/blog/data-cascades-in-machine-learning/)\nin their [2021 ACM paper](https://dl.acm.org/doi/10.1145/3411764.3445518)\nif they do not deeply understand:\n\n- the conditions under which their data is collected\n- the quality, characteristics, and limitations of the data\n- what the data can and can't show\n\nIt's very expensive to train models on bad data and\nonly find out at the point of low-quality outputs that there were problems\nwith the data. Likewise, a failure to grasp the limitations of data, human\nbiases in collecting data, or mistaking correlation for causation,\ncan result in over-promising and under-delivering results, which can lead to a\nloss of trust.\n\nThis course walks through common but subtle data traps that ML and data\npractitioners may encounter in their work."]]