تشكّل خوارزميات تصنيف النصوص أساس مجموعة من أنظمة البرامج التي تعالج البيانات النصية على نطاق واسع. ويستخدم برنامج البريد الإلكتروني تصنيف النص لتحديد ما إذا كان سيتم إرسال الرسائل الواردة إلى البريد الوارد أو فلترتها إلى مجلد الرسائل غير المرغوب فيها. تستخدم منتديات المناقشة تصنيف النصوص لتحديد ما إذا كان يجب الإبلاغ عن التعليقات باعتبارها غير ملائمة.
هذان مثالان على تصنيف المواضيع، مع تصنيف مستند نصي إلى أحد المواضيع المحدّدة مسبقًا. في العديد من مشاكل تصنيف المواضيع، يستند هذا التصنيف بشكل أساسي إلى الكلمات الرئيسية في النص.
الشكل 1: يُستخدم تصنيف الموضوع لوضع علامة على الرسائل الإلكترونية الواردة غير المرغوب فيها، والتي تتم فلترتها في مجلد الرسائل غير المرغوب فيها.
هناك نوع آخر شائع من تصنيف النصوص هو تحليل الآراء، والهدف منه هو تحديد استقطاب المحتوى النصي، وهو نوع رأي يعبّر عنه. يمكن أن يكون هذا التقييم عبارة عن تقييم ثنائي/لم يعجبني، أو مجموعة أكثر دقة من الخيارات، مثل تقييم بالنجوم من 1 إلى 5. تشمل أمثلة تحليل العواطف تحليل مشاركات Twitter لتحديد ما إذا كان المستخدمون قد أبدوا إعجابهم بفيلم Black Panther أو استنباط رأي الجمهور العام عن علامة تجارية جديدة لأحذية Nike من مراجعات Walmart.
يشرح لك هذا الدليل بعض أفضل الممارسات الأساسية لتعلُّم الآلة لحلّ مشاكل تصنيف النصوص. إليك ما ستتعلّمه:
- سير العمل الشامل والشامل لحلّ مشاكل تصنيف النص باستخدام تقنية تعلُّم الآلة
- كيفية اختيار النموذج المناسب لمشكلة تصنيف النص
- كيفية تنفيذ النموذج الذي اخترته باستخدام TensorFlow
سير عمل تصنيف النصوص
في ما يلي نظرة عامة عالية المستوى على سير العمل المُستخدَم لحلّ مشاكل تعلُّم الآلة:
- الخطوة 1: جمع البيانات
- الخطوة 2: استكشاف بياناتك
- الخطوة 2.5: اختيار نموذج*
- الخطوة 3: إعداد بياناتك
- الخطوة 4: إنشاء النموذج وتدريبه وتقييمه
- الخطوة 5: ضبط المَعلمات الفائقة
- الخطوة 6: نشر النموذج
الشكل 2: سير عمل لحل مشاكل تعلُّم الآلة
توضّح الأقسام التالية كل خطوة بالتفصيل، وكيفية تنفيذها في البيانات النصية.