الخطوة 1: جمع البيانات

يُعدّ جمع البيانات أهم خطوة في حلّ أيّ مشكلة في تعلُّم الآلة المراقَب. يمكن أن تكون أداة تصنيف النص بنفس مستوى جودة مجموعة البيانات التي تم إنشاؤها منها.

إذا لم تكن لديك مشكلة معيّنة تريد حلّها وتريد فقط التعرّف على تصنيف النصوص بشكل عام، تتوفّر مجموعة كبيرة من مجموعات البيانات المفتوحة المصدر. يمكنك العثور على روابط لبعضها في خوارزمية GitHub. من ناحية أخرى، إذا كنت تعالج مشكلة محددة، ستحتاج إلى جمع البيانات اللازمة. توفّر العديد من المؤسسات واجهات برمجة تطبيقات علنية للوصول إلى بياناتها، على سبيل المثال، Twitter API أو NY Times API. قد تتمكّن من الاستفادة من هذه المشاكل لحلّ المشكلة التي تحاول حلّها.

في ما يلي بعض الأمور المهمة التي يجب تذكّرها عند جمع البيانات:

  • إذا كنت تستخدم واجهة برمجة تطبيقات عامة، عليك فهم قيود واجهة برمجة التطبيقات قبل استخدامها. على سبيل المثال، تضع بعض واجهات برمجة التطبيقات حدًا أقصى لمعدّل الطلبات التي يمكنك تنفيذها.
  • من الأفضل الحصول على مزيد من الأمثلة التدريبية (المشار إليها باسم عيّنات في بقية هذا الدليل). سيساعد هذا النموذج في تعميم النماذج بشكل أفضل.
  • يجب التأكّد من أنّ عدد العيّنات class لدرجة غير متوازن بشكل كبير. وهذا يعني أنه يجب أن يكون لديك عدد مشابه من العيّنات في كل صف.
  • تأكّد من أن العيّنات تغطي مساحة المدخلات المحتملة بشكل كافٍ، وليس فقط الحالات الشائعة.

في هذا الدليل، سنستخدم مجموعة بيانات مراجعات الأفلام على الإنترنت (IMDb) لتوضيح سير العمل. تحتوي مجموعة البيانات هذه على مراجعات الأفلام التي نشرها المستخدمون على موقع IMDb الإلكتروني، بالإضافة إلى التصنيفات المقابلة ("الإيجابية" أو "السالبة") التي تشير إلى ما إذا كان المُراجع قد أعجب الفيلم أم لا. وهذا هو مثال كلاسيكي لمشكلة تحليل المشاعر.