البيانات الرقمية: كيف يستوعب نموذج البيانات باستخدام متجهات الخصائص
تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
حتى الآن، قدّمنا لك انطباعًا بأنّ النموذج يعمل مباشرةً على
صفوف مجموعة بيانات معيّنة، ولكنّ النماذج تعالج البيانات بشكل مختلف نوعًا ما.
على سبيل المثال، لنفترض أنّ مجموعة البيانات توفّر خمسة أعمدة، ولكن عمودَين فقط من هذه
الأعمدة (b وd) هما سمتان في النموذج. عند معالجة
المثال في الصف 3، هل يأخذ النموذج ببساطة محتويات
الخليتين المميّزتين (3b و3d) على النحو التالي؟
الشكل 1. لا يشير ذلك إلى الطريقة الدقيقة التي يحصل بها النموذج على أمثلة.
في الواقع، يعالج النموذج مصفوفة من القيم الكسورية العشرية تُسمى
متجه السمات. يمكنك اعتبار
متجه السمات على أنّه القيم الكسورية التي تتألف من مثال واحد.
الشكل 2. قريبة من الحقيقة، ولكن ليست واقعية
ومع ذلك، نادرًا ما تستخدِم ناقلات السمات القيم الأوّلية لمجموعة البيانات.
بدلاً من ذلك، عليك عادةً معالجة قيم مجموعة البيانات إلى تمثيلات
يمكن لنموذجك التعلّم منها بشكل أفضل. وبالتالي، قد يبدو متجه ميزات أكثر واقعية على النحو التالي:
الشكل 3. مصفوفة ميزات أكثر واقعية
ألا يُفترض أن يقدّم النموذج تنبؤات أفضل من خلال التدريب على القيمة
الفعلية في مجموعة البيانات بدلاً من القيم المعدَّلة؟
والمفاجأة هي أنّ الإجابة هي "لا".
يجب تحديد أفضل طريقة لتمثيل قيم مجموعة البيانات الأولية كقيم
قابلة للتدريب في متجه السمات.
تُعرف هذه العملية باسم
هندسة الميزات،
وهي جزء حيوي من التعلم الآلي.
في ما يلي الأساليب الأكثر شيوعًا لهندسة الميزات:
التجميع (يُشار إليه أيضًا باسم
التصنيف): تحويل القيم
العددية إلى مجموعات من النطاقات.
تتناول هذه الوحدة تسويّة البيانات وتجميعها. تتناول الوحدة التالية،
العمل مع البيانات الفئوية،
أشكالًا أخرى من
المعالجة الأولية، مثل
تحويل البيانات غير الرقمية، مثل السلاسل، إلى قيم نقطية عائمة.
يجب أن تكون كل قيمة في مصفوفة السمات قيمة عددية عشرية. ومع ذلك، فإنّ العديد من
السمات هي سلاسل أو قيم غير رقمية أخرى. نتيجةً لذلك، يتمثل
جزء كبير من هندسة الميزات في تمثيل القيم غير الرقمية كقيمة
رقمية. سترى الكثير من هذه الممارسات في الوحدات اللاحقة.
تاريخ التعديل الأخير: 2025-01-03 (حسب التوقيت العالمي المتفَّق عليه)
[null,null,["تاريخ التعديل الأخير: 2025-01-03 (حسب التوقيت العالمي المتفَّق عليه)"],[[["\u003cp\u003eModels ingest data through floating-point arrays called feature vectors, which are derived from dataset features.\u003c/p\u003e\n"],["\u003cp\u003eFeature vectors often utilize processed or transformed values instead of raw dataset values to enhance model learning.\u003c/p\u003e\n"],["\u003cp\u003eFeature engineering is the crucial process of converting raw data into suitable representations for the model, encompassing techniques like normalization and binning.\u003c/p\u003e\n"],["\u003cp\u003eNon-numerical data like strings must be converted into numerical values for use in feature vectors, a key aspect of feature engineering.\u003c/p\u003e\n"]]],[],null,["# Numerical data: How a model ingests data using feature vectors\n\nUntil now, we've given you the impression that a model acts directly on the\nrows of a dataset; however, models actually ingest data somewhat differently.\n\nFor example, suppose a dataset provides five columns, but only two of those\ncolumns (`b` and `d`) are features in the model. When processing\nthe example in row 3, does the model simply grab the contents of the\nhighlighted two cells (3b and 3d) as follows?\n**Figure 1.** Not exactly how a model gets its examples.\n\nIn fact, the model actually ingests an array of floating-point values called a\n[**feature vector**](/machine-learning/glossary#feature-vector). You can think\nof a feature vector as the floating-point values comprising one example.\n**Figure 2.** Closer to the truth, but not realistic.\n\nHowever, feature vectors seldom use the dataset's *raw values*.\nInstead, you must typically process the dataset's values into representations\nthat your model can better learn from. So, a more realistic\nfeature vector might look something like this:\n**Figure 3.** A more realistic feature vector.\n\nWouldn't a model produce better predictions by training from the\n*actual* values in the dataset than from *altered* values?\nSurprisingly, the answer is no.\n\nYou must determine the best way to represent raw dataset values as trainable\nvalues in the feature vector.\nThis process is called\n[**feature engineering**](/machine-learning/glossary#feature-engineering),\nand it is a vital part of machine learning.\nThe most common feature engineering techniques are:\n\n- [**Normalization**](/machine-learning/glossary#normalization): Converting numerical values into a standard range.\n- [**Binning**](/machine-learning/glossary#binning) (also referred to as [**bucketing**](/machine-learning/glossary#bucketing)): Converting numerical values into buckets of ranges.\n\nThis unit covers normalizing and binning. The next unit,\n[Working with categorical data](/machine-learning/crash-course/categorical-data),\ncovers other forms of\n[**preprocessing**](/machine-learning/glossary#preprocessing), such as\nconverting non-numerical data, like strings, to floating point values.\n\nEvery value in a feature vector must be a floating-point value. However, many\nfeatures are naturally strings or other non-numerical values. Consequently,\na large part of feature engineering is representing non-numerical values as\nnumerical values. You'll see a lot of this in later modules.\n| **Key terms:**\n|\n| - [Binning](/machine-learning/glossary#binning)\n| - [Bucketing](/machine-learning/glossary#bucketing)\n| - [Feature engineering](/machine-learning/glossary#feature_engineering)\n| - [Feature vector](/machine-learning/glossary#feature_vector)\n| - [Normalization](/machine-learning/glossary#normalization)\n- [Preprocessing](/machine-learning/glossary#preprocessing) \n[Help Center](https://support.google.com/machinelearningeducation)"]]