تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
قبل إنشاء ناقلات السمات، ننصحك بدراسة البيانات الرقمية بطريقتين:
عرض بياناتك في شكل مخططات أو رسوم بيانية
الحصول على إحصاءات عن بياناتك
عرض بياناتك بشكل مرئي
يمكن أن تساعدك الرسوم البيانية في العثور على الشذوذ أو الأنماط المخفية في البيانات.
لذلك، قبل التعمّق في التحليل، اطّلِع على
بياناتك بشكل بياني، إما كمخطّطات نقاط مبعثرة أو مخطّطات مدرّجات تكرارية. يمكنك عرض الرسوم البيانية ليس فقط في بداية مسار البيانات، ولكن أيضًا أثناء عمليات تحويل البيانات. تساعدك الرسومات المرئية في التحقّق باستمرار من افتراضاتك.
يُرجى العِلم أنّ بعض أدوات العروض المرئية محسَّنة لتنسيقات بيانات معيّنة.
قد تساعدك أداة العروض المرئية التي تساعدك في تقييم وحدات تخزين البيانات المؤقتة للبروتوكول في تقييم بيانات CSV، وقد لا تساعدك في ذلك.
تقييم بياناتك إحصائيًا
بالإضافة إلى التحليل المرئي، ننصحك أيضًا بتقييم الميزات والعلامات المحتملة رياضيًا، من خلال جمع إحصاءات أساسية، مثل:
المتوسط والمتوسّط الحسابي
الانحراف المعياري
القيم عند تقسيم الربع: القيمة المئوية 0 و25 و50 و75 و100
الشريحة المئوية 0 هي الحد الأدنى لقيمة هذا العمود، وتشكل
الشريحة المئوية 100 الحد الأقصى لقيمة هذا العمود. (القيمة المئوية الخمسون
هي المتوسط).
العثور على القيم الشاذة
القيمة الشاذة هي قيمة بعيدة
عن معظم القيم الأخرى في ميزة أو تصنيف. غالبًا ما تتسبب القيم الشاذة في حدوث مشاكل
في تدريب النماذج، لذا من المهم العثور عليها.
عندما يختلف الفرق بين الشريحة المئوية 0 والشريحة المئوية 25 بشكلٍ كبير عن الفرق بين الشريحة المئوية 75 والشريحة المئوية 100، من المرجّح أن تحتوي مجموعة البيانات على قيم شاذة.
يمكن أن تندرج القيم الشاذة ضمن أيّ من الفئات التالية:
يرجع سبب القيم الشاذة إلى خطأ.
على سبيل المثال، ربما أدخل أحد المختبِرين صفرًا إضافيًا عن طريق الخطأ،
أو ربما حدث عطل في أداة جمع البيانات.
وبشكل عام، ستحذف الأمثلة التي تحتوي على قيم شاذة للخطأ.
القيمة الشاذة هي نقطة بيانات مشروعة، وليست خطأ.
في هذه الحالة، هل سيحتاج النموذج المدّرب
في نهاية المطاف إلى استنتاج توقّعات جيدة بشأن القيم الشاذة هذه؟
إذا كانت الإجابة بنعم، احتفظ بهذه القيم الشاذة في مجموعة التدريب. بعد كل شيء، فإنّ القيم الشاذة
في ميزات معيّنة تعكس أحيانًا القيم الشاذة في التصنيف، لذا يمكن أن تساعد القيم الشاذة النموذج في إجراء توقّعات أفضل.
يُرجى الحذر، إذ إنّ القيم الشاذة للغاية يمكن أن تضرّ بنموذجك.
إذا لم يكن الأمر كذلك، احذف القيم الشاذة أو طبِّق أساليب أكثر شمولاً لهندسة ميزات
، مثل الاقتصاص.
تاريخ التعديل الأخير: 2025-02-26 (حسب التوقيت العالمي المتفَّق عليه)
[null,null,["تاريخ التعديل الأخير: 2025-02-26 (حسب التوقيت العالمي المتفَّق عليه)"],[[["\u003cp\u003eBefore creating feature vectors, it is crucial to analyze numerical data by visualizing it through plots and graphs and calculating basic statistics like mean, median, and standard deviation.\u003c/p\u003e\n"],["\u003cp\u003eVisualizations, such as scatter plots and histograms, can reveal anomalies and patterns in the data, aiding in identifying potential issues early in the data analysis process.\u003c/p\u003e\n"],["\u003cp\u003eOutliers, values significantly distant from others, should be identified and handled appropriately, either by correcting mistakes, retaining legitimate outliers for model training, or applying techniques like clipping.\u003c/p\u003e\n"],["\u003cp\u003eStatistical evaluation helps in understanding the distribution and characteristics of data, providing insights into potential feature and label relationships.\u003c/p\u003e\n"],["\u003cp\u003eWhile basic statistics and visualizations provide valuable insights, it's essential to remain vigilant as anomalies can still exist in seemingly well-balanced data.\u003c/p\u003e\n"]]],[],null,["# Numerical data: First steps\n\nBefore creating feature vectors, we recommend studying numerical data in\ntwo ways:\n\n- Visualize your data in plots or graphs.\n- Get statistics about your data.\n\nVisualize your data\n-------------------\n\nGraphs can help you find anomalies or patterns hiding in the data.\nTherefore, before getting too far into analysis, look at your\ndata graphically, either as scatter plots or histograms. View graphs not\nonly at the beginning of the data pipeline, but also throughout data\ntransformations. Visualizations help you continually check your assumptions.\n\nWe recommend working with pandas for visualization:\n\n- [Working with Missing Data (pandas\n Documentation)](http://pandas.pydata.org/pandas-docs/stable/missing_data.html)\n- [Visualizations (pandas\n Documentation)](http://pandas.pydata.org/pandas-docs/stable/visualization.html)\n\nNote that certain visualization tools are optimized for certain data formats.\nA visualization tool that helps you evaluate protocol buffers may or may not\nbe able to help you evaluate CSV data.\n\nStatistically evaluate your data\n--------------------------------\n\nBeyond visual analysis, we also recommend evaluating potential features and\nlabels mathematically, gathering basic statistics such as:\n\n- mean and median\n- standard deviation\n- the values at the quartile divisions: the 0th, 25th, 50th, 75th, and 100th percentiles. The 0th percentile is the minimum value of this column; the 100th percentile is the maximum value of this column. (The 50th percentile is the median.)\n\nFind outliers\n-------------\n\nAn [**outlier**](/machine-learning/glossary#outliers) is a value *distant*\nfrom most other values in a feature or label. Outliers often cause problems\nin model training, so finding outliers is important.\n\nWhen the delta between the 0th and 25th percentiles differs significantly\nfrom the delta between the 75th and 100th percentiles, the dataset probably\ncontains outliers.\n| **Note:** Don't over-rely on basic statistics. Anomalies can also hide in seemingly well-balanced data.\n\nOutliers can fall into any of the following categories:\n\n- The outlier is due to a *mistake*. For example, perhaps an experimenter mistakenly entered an extra zero, or perhaps an instrument that gathered data malfunctioned. You'll generally delete examples containing mistake outliers.\n- The outlier is a legitimate data point, *not a mistake* . In this case, will your trained model ultimately need to infer good predictions on these outliers?\n - If yes, keep these outliers in your training set. After all, outliers in certain features sometimes mirror outliers in the label, so the outliers could actually *help* your model make better predictions. Be careful, extreme outliers can still hurt your model.\n - If no, delete the outliers or apply more invasive feature engineering techniques, such as [**clipping**](/machine-learning/glossary#clipping).\n\n| **Key terms:**\n|\n| - [Clipping](/machine-learning/glossary#clipping)\n- [Outliers](/machine-learning/glossary#outliers) \n[Help Center](https://support.google.com/machinelearningeducation)"]]