تحديد التصنيفات والمصادر

التصنيفات المباشرة في مقابل التصنيفات المشتقة

يكون تعلُّم الآلة أسهل عندما تكون تصنيفاتك واضحة. أفضل تصنيف هو تصنيف مباشر لما تريد توقعه. على سبيل المثال، إذا كنت تريد توقع ما إذا كان المستخدم من محبي أغاني تايلور سويفت، سيكون التصنيف المباشر هو: "المستخدم هو من محبي تايلور سويفت".

قد تكون إحدى اختبارات المعجبين البسيطة هي ما إذا كان المستخدم قد شاهد الفيديو الذي نشرته "تايلور سويفت" على YouTube. شاهد المستخدم"شركة الإنتاج" "النسخ النصي] فيديو لـ"تايلور سويفت"على YouTube" تصنيف مُشتق لأنّه لا يقيس بشكل مباشر ما تريد توقّعه. هل هذا التصنيف المسبَق هو مؤشر موثوق به أن المستخدم يحب تايلور سويفت؟ يجب أن يكون النموذج جيدًا مثل العلاقة بين التصنيف المشتق وتوقعك المطلوب.

مصادر التصنيفات

يمكن أن يكون مخرجات النموذج إما حدثًا أو سمة. وينتج عن ذلك النوعين التاليين من التصنيفات:

  • التصنيف المباشر للأحداث، مثل "هل نقر المستخدم على أهم نتيجة بحث؟"
  • التصنيف المباشر للسمات، مثل "هل سينفق المعلن أكثر من X دولار أمريكي في الأسبوع المقبل؟"

التصنيفات المباشرة للأحداث

بالنسبة إلى الأحداث، تكون التصنيفات المباشرة عادةً بسيطة، لأنه يمكنك تسجيل سلوك المستخدم أثناء الحدث لاستخدامه كتصنيف. عند تصنيف الأحداث، اطرح على نفسك الأسئلة التالية:

  • كيف يتم تنظيم سجلاتك؟
  • ما الذي يُعتبر "حدثًا" في سجلاتك؟

على سبيل المثال، هل يسجّل النظام نقر المستخدم على نتيجة بحث أو عندما يُجري مستخدم بحثًا؟ إذا كانت لديك سجلات نقرات، أدرك أنك لن ترى مرة ظهور مطلقًا بدون نقرة. ستحتاج إلى السجلات التي تكون فيها الأحداث مرات ظهور، لذلك ستغطي جميع الحالات التي يرى فيها المستخدم أهم نتيجة بحث.

التصنيفات المباشرة للسمات

لنفترض أن تصنيفك هو "سينفق المعلن أكثر من X دولار أمريكي في الأسبوع المقبل". ويمكنك عادةً استخدام الأيام السابقة من أجل توقّع ما سيحدث في الأيام اللاحقة. على سبيل المثال، يوضّح الرسم البياني التالي بيانات التدريب العشرة التي تنبّه إلى الأيام السبعة التالية:

تقويم يوضّح الحظر لمدة 10 أيام متبوعًا مباشرةً بجزء من 7 أيام
يستخدم النموذج بيانات من فترة الحظر التي تبلغ 10 أيام لإجراء توقعات على مدار 7 أيام.

يجب مراعاة التأثيرات الموسمية أو التأثيرات الدورية، على سبيل المثال، قد ينفق المعلِنون المزيد في عطلات نهاية الأسبوع. لهذا السبب، قد تفضّل استخدام فترة 14 يومًا بدلاً من ذلك، أو استخدام التاريخ كميزة حتى يتمكّن النموذج من التعرّف على التأثيرات السنوية.

تحتاج التصنيفات المباشرة إلى سجلات السلوك السابق

في الحالات السابقة، لاحظ أننا نحتاج إلى بيانات عن النتيجة الحقيقية. سواء كان الأمر يتعلق بالمعلنين الذين أنفقوا أو رأوا المستخدمون فيديوهات "تايلور سويفت"، احتجنا إلى بيانات سابقة لاستخدام تعلُم الآلة المراقَب. تعمل تقنية تعلُم الآلة على وضع توقعات بناءً على ما حدث في الماضي، لذلك إذا لم يكن لديك سجلات سابقة، ستحتاج إلى الحصول عليها.

ماذا لو لم يكن لديك بيانات لتسجيل الدخول؟

من المحتمل أنّ منتجك غير متوفّر بعد، وبالتالي لا تتوفّر أي بيانات لتسجيلها. وفي هذه الحالة، يمكنك اتخاذ إجراء واحد أو أكثر مما يلي:

  • استخدِم إرشاديًا لعملية الإطلاق الأولى، ثم درِّب نظامًا استنادًا إلى البيانات المسجَّلة.
  • استخدِم السجلّات من مشكلة مشابهة لبدء النظام.
  • استخدِم المصنّفين لإنشاء البيانات من خلال إكمال المهام.

لماذا يجب استخدام البيانات المصنّفة من البشر؟

هناك مزايا وعيوب لاستخدام البيانات التي يصنّفها الإنسان.

الإيجابيات

  • يمكن لمُصنِّفي المخالفات تنفيذ مجموعة كبيرة من المهام.
  • تفرض عليك البيانات الحصول على تعريف واضح للمشكلة.

السلبيات

  • وتكون البيانات مكلفة لنطاقات معيّنة.
  • عادةً ما تتطلب البيانات الجيدة تكرارات متعددة.

تحسين الجودة

تحقَّق دائمًا من عمل المصنّفين. على سبيل المثال، يمكنك تصنيف 1000 مثال بنفسك، ومعرفة مدى مطابقة نتائجك للمصنِّفين&#39؛ (يعد تصنيف البيانات بنفسك من الممارسات الرائعة للتعرّف على بياناتك.) إذا كان هناك تناقضات، لا تفترض أن تقييماتك صحيحة، خاصةً إذا كان هناك تقدير للقيمة. إذا واجه خبراء تصنيف أخطاءً، يمكنك إضافة تعليمات لمساعدتهم وإعادة المحاولة.

من المفيد الاطّلاع على بياناتك يدويًا بغض النظر عن الطريقة التي حصلت بها على البيانات. نفّذ "أندريه كارباتي" هذه المشاركة على منصّة ImageNet وكتبها عن التجربة.