قواعد التعلم الآلي:

أفضل الممارسات في مجال هندسة تعلُّم الآلة

مارتن زينكيفيتش

يهدف هذا المستند إلى مساعدة المستخدمين الذين لديهم معرفة أساسية بالآليات. الاستفادة من أفضل ممارسات Google في مجال التعلم الآلي. أُنشأها جون هنتر، الذي كان متخصصًا أسلوبًا لتعلم الآلة، على غرار دليل إرشادات Google C++ وغيرها من الأدلة الشائعة للبرمجة العملية. إذا كنت قد أخذت صفًا في التعلم الآلي، أو قمت بإنشاء أو عمل نموذج تعلم آلي، لديهم الخلفية اللازمة لقراءة هذا المستند.

يقدّم "مارتن زينكيفيتش" 10 قواعد من قواعده المفضّلة من التعلم الآلي. يمكنك مواصلة القراءة للتعرّف على جميع القواعد الـ 43.

المصطلحات

وسيتم طرح البنود التالية مرارًا وتكرارًا في مناقشتنا حول التعلم الآلي:

  • المثيل: الشيء الذي تريد إنشاء التنبؤ. على سبيل المثال، قد يكون المثيل صفحة ويب تريد التصنيف على أنه "حول القطط" أو "ليس عن القطط".
  • التصنيف: هو إجابة لمهمة توقّع واردة من خلال نظام التعلم الآلي، أو الإجابة الصحيحة المقدمة في بيانات التدريب. بالنسبة على سبيل المثال، قد يكون التصنيف لصفحة ويب "حول القطط".
  • الميزة: سمة لمثيل مستخدَم في مهمة توقُّع. بالنسبة على سبيل المثال، قد تحتوي صفحة ويب على الميزة "تحتوي على كلمة 'قطة'".
  • عمود الميزة: مجموعة من الميزات ذات الصلة، مثل مجموعة كل العناصر الممكنة البلدان التي قد يعيش فيها المستخدمون. قد يتضمن المثال ميزة واحدة أو أكثر موجود في عمود الميزة. "عمود العنصر" هو مصطلح خاص بـ Google. يشار إلى عمود الميزة باسم "مساحة الاسم" في نظام VW (في Yahoo/Microsoft)، أو الحقل.
  • مثال: مثيل (مع ميزاته) وتصنيف.
  • النموذج: تمثيل إحصائي لمهمة توقّع. تتدرب على نموذج على الأمثلة ثم استخدام النموذج لعمل التنبؤات.
  • المقياس: رقم يهمّك. ويمكن تحسينه بشكل مباشر أو عدم تحسينه.
  • الهدف: مقياس تحاول الخوارزمية تحسينه.
  • المخطط: البنية الأساسية التي تحيط بخوارزمية تعلُّم الآلة. يتضمن جمع البيانات من الواجهة الأمامية، ووضعها في بيانات التدريب وتدريب نموذج أو أكثر وتصدير النماذج إلى الإنتاج.
  • نسبة النقر إلى الظهور: النسبة المئوية لزوّار صفحة ويب ممن ينقرون على وربطه في أحد الإعلانات.

نظرة عامة

لإنشاء منتجات رائعة:

هل يشبه التعلم الآلي المهندس العظيم الذي أنت أو خبيرًا في تعلُّم الآلة

فمعظم المشاكل التي ستواجهها هي في الواقع مشاكل هندسية. بالتساوي من خلال جميع موارد خبير التعلم الآلي الرائع، فإن معظم مكاسب من ميزات رائعة، وليست خوارزميات التعلم الآلي الرائعة. لذا، فإن العناصر الأساسية هو:

  1. احرص على أن يكون المسار ثابتًا من البداية إلى النهاية.
  2. ابدأ بهدف معقول.
  3. إضافة ميزات المنطق السليم بطريقة بسيطة.
  4. تأكَّد من بقاء مسار الأحداث ثابتًا.

سيعمل هذا النهج بشكل جيد لفترة زمنية طويلة. الابتعاد عن هذا المنهج فقط عندما لا يكون هناك المزيد نصائح بسيطة لتقدمك إلى مسافة أطول. تؤدي إضافة التعقيد إلى إبطاء الإصدارات المستقبلية.

وبمجرد الانتهاء من تنفيذ الحيل البسيطة، يمكن أن يكون التعلم الآلي ستكون بالفعل في مستقبلك. راجع القسم الذي يتناول المرحلة الثالثة مشروعات التعلم الآلي.

يتم ترتيب هذا المستند على النحو التالي:

  1. سيساعدك الجزء الأول في فهم ما إذا فإن الوقت مناسب لإنشاء نظام التعلم الآلي.
  2. يتعلق الجزء الثاني بنشر المسار الأول.
  3. ويتناول الجزء الثالث إطلاق مع إضافة ميزات جديدة إلى المسار الصحيح، وكيفية تقييم النماذج وانحراف خدمة التدريب.
  4. تشير رسالة الأشكال البيانية الجزء الأخير بشأن ما يجب فعله عند الوصول إلى هضبة.
  5. بعد ذلك، هناك قائمة بالأعمال ذات الصلة الملحق مع بعض خلفية عن الأنظمة شائعة الاستخدام كأمثلة في هذا المستند.

قبل التعلم الآلي

القاعدة الأولى: لا تخشَ إطلاق منتج بدون تعلُّم الآلة.

التعلم الآلي رائع، لكنه يتطلب بيانات. نظريًا، يمكنك أخذ البيانات من مشكلة مختلفة ثم تعديل النموذج لمنتج جديد، ولكن هذا من المحتمل أن يكون أداؤها ضعيفًا جدًا الإرشادات: إذا كنت تعتقد أن التعلم الآلي سيعطيك تحسُّنًا بنسبة 100%، وسيمنحك الإرشاد 50% الطريق إلى هناك.

على سبيل المثال، إذا كنت بصدد ترتيب التطبيقات في أحد أسواق التطبيقات، يمكنك استخدام معدل التثبيت أو عدد عمليات التثبيت كإرشادات. إذا كنت تكتشف الرسائل غير المرغوب فيها، تصفية الناشرين الذين أرسلوا رسائل غير مرغوب فيها من قبل لا تخف من الاستعانة بمراجعين تحرير أي منهما. إذا كنت بحاجة إلى ترتيب جهات الاتصال، يمكنك ترتيب جهات الاتصال الأكثر استخدامًا. الأعلى (أو حتى الترتيب أبجديًا). فإذا لم تفشل تقنية التعلم الآلي مطلوبة لمنتجك، فلا تستخدمه حتى تتوفر لديك بيانات.

القاعدة رقم 2: أولاً، صمم المقاييس ونفذها.

قبل إضفاء الطابع الرسمي على ما سيفعله نظام التعلم الآلي لديك، تتبع ممكن في نظامك الحالي. قم بذلك للأسباب التالية:

  1. من الأسهل الحصول على إذن من مستخدمي النظام في وقت سابق.
  2. إذا كنت تعتقد أن هناك شيئًا ما قد يكون مصدر قلق في المستقبل، من الأفضل الحصول على البيانات التاريخية الآن.
  3. إذا صممت نظامك مع وضع أدوات المقاييس في الاعتبار، فإن الأمور سيكون أفضل في المستقبل. على وجه التحديد، أنت لا تريد أن تجد نفسك للسلاسل في السجلات لقياس مقاييسك!
  4. ستلاحظ التغييرات في الأشياء والعناصر التي لم تتغير. على سبيل المثال: لنفترض أنك تريد تحسين المستخدمين النشطين لمدة يوم واحد مباشرةً. ومع ذلك، أثناء عمليات المعالجة المبكرة بالنظام، قد تلاحظ لا تؤثر التغييرات الكبيرة في تجربة المستخدم على تجربة المستخدم بشكل ملحوظ المقياس.

يقيس فريق Google Plus توسيع نطاق كل قراءة، إعادة المشاركة لكل قراءة، وعمليات +1 لكل القراءة والتعليقات/القراءة والتعليقات لكل مستخدم وإعادة المشاركة لكل مستخدم وما إلى ذلك التي يستخدمها في حساب مدى جودة منشور في وقت العرض. لاحظ أيضًا أن للتجربة، يمكنك من خلاله تجميع المستخدمين في مجموعات الإحصاءات حسب التجربة عرض القاعدة رقم 12.

من خلال أن تكون أكثر حرية في ما يتعلق بجمع المقاييس، يمكنك الحصول على صورة أوسع في نظامك. هل لاحظت أي مشكلة؟ إضافة مقياس لتتبعه! متحمس بشأن بعض التغيير الكمي في الإصدار الأخير؟ إضافة مقياس لتتبعه!

القاعدة 3: اختيار التعلم الآلي بدلاً من استدلال معقد.

يمكن لإرشاد بسيط أن يؤدي إلى إخراج منتجك من السوق. من الموجه المعقد غير قابل للصيانة. بمجرد حصولك على بيانات وفكرة أساسية عما تحاول إنجازه، انتقل إلى التعلم الآلي. كما هو الحال في معظم هندسة البرمجيات فستحتاج إلى تحديث نهجك باستمرار، سواء كانت أو نموذج تعلمه أو نموذج تعلمه، وسوف تجد أن تعلُّم الآلة وتحديثه وصيانته بسهولة أكبر (راجع القاعدة رقم 16).

المرحلة الأولى من تعلُّم الآلة: المسار الأول

ركز على البنية الأساسية لنظامك لمسار التعلّم الأول. ألعاب ممتعة التفكير في جميع أشكال التعلم الآلي الخيالي التي ستقوم بها، معرفة ما يحدث إذا لم تكن تثق فيه أولاً المشروع.

القاعدة 4: اجعل النموذج الأول بسيطًا واحصل على البنية الأساسية المناسبة.

يوفر النموذج الأول أكبر دفعة لمنتجك، لذلك لا يحتاج أن تكون فاخرة. ولكنك ستواجه مشكلات في البنية الأساسية أكثر مما تواجه يتوقعونه. وقبل أن يتمكن أي شخص من استخدام نظامك الجديد من التعلم الآلي، يجب عليك لتحديد:

  • كيفية الحصول على أمثلة لخوارزمية التعلم الخاصة بك.
  • وأول نبذة عني حول "الجيد" و"سيئة" أو أذيني نظامك.
  • كيفية دمج نموذجك في تطبيقك. يمكنك تطبيق أحد الإجراءين التاليين: النموذج المباشر، أو لحساب النموذج مسبقًا على أمثلة بلا اتصال وتخزين النتائج في جدول. على سبيل المثال، قد تحتاج إلى تصنيف صفحات الويب مسبقًا وتخزين النتائج في جدول، ولكن قد ترغب في تصنيف رسائل المحادثة المباشرة.

يسهّل اختيار الميزات البسيطة ضمان ما يلي:

  • تصل الميزات إلى خوارزمية التعلم الخاصة بك بشكل صحيح.
  • يكتسب النموذج أوزانًا معقولة.
  • تصل الميزات إلى نموذجك في الخادم بشكل صحيح.

بمجرد أن يصبح لديك نظام يقوم بهذه الأشياء الثلاثة بشكل موثوق، تكون قد قطعت معظم العمل. يزودك النموذج البسيط بمقاييس مرجعية الذي يمكنك استخدامه لاختبار نماذج أكثر تعقيدًا. تهدف بعض الفرق للحصول على تقييم "محايد" أول إطلاق: وهو أول عملية إطلاق لا تعطي الأولوية بشكل صريح مكاسب التعلم الآلي، لتجنب التشتت.

القاعدة الخامسة: اختبار البنية الأساسية بشكلٍ مستقل عن نظام تعلُّم الآلة.

تأكد من أن البنية التحتية قابلة للاختبار، وأن أجزاء التعلم الخاصة يتم تغليف النظام بحيث يمكنك اختبار كل شيء من حوله. وهذه القيود تحديدًا هي كالآتي:

  1. اختبار إدخال البيانات في الخوارزمية. تحقق من أن الأعمدة المميزة . حيثما تسمح به الخصوصية، يدويًا وفحص المدخلات لخوارزمية التدريب. إذا أمكن، تحقق في مسارك المهني مقارنةً بإحصاءات البيانات نفسها ومعالجتها في مكان آخر.
  2. اختبار الحصول على نماذج من خوارزمية التطبيق. تأكد من أن في بيئة التدريب نفس الدرجة التي يمنحها النموذج في بيئة العرض لديك (انظر القاعدة رقم 37).

يشتمل التعلم الآلي على عنصر عدم القدرة على التنبؤ، لذا تأكد من إجراء اختبارات للتعليمات البرمجية لإنشاء أمثلة في التدريب والعرض، يمكنك تحميل واستخدام نموذج ثابت أثناء العرض. أيضًا، من المهم لفهم بياناتك: انظر نصائح عملية لتحليل مجموعات البيانات الكبيرة والمعقدة.

القاعدة 6: توخ الحذر بشأن إسقاط البيانات عند نسخ المسارات.

وغالبًا ما ننشئ مسارًا عن طريق نسخ أحد المسارات الحالية (أي برمجة شعائر الشحنات )، وسيعمل مسار العملية القديم على إسقاط البيانات التي نحتاجها لمسار العملية الجديد. على سبيل المثال، سيتم إنشاء مسار نشر المشاركات الساخنة من Google Plus المشاركات القديمة (لأنه يحاول ترتيب المشاركات الحديثة). تم إنشاء هذا المسار نسخ البيانات لاستخدامها في ساحة مشاركات Google Plus، حيث تظهر المشاركات القديمة لا تزال ذات مغزى، إلا أن العملية كانت لا تزال تسقط المنشورات القديمة. ومن هو تسجيل البيانات التي شاهدها المستخدم فقط. وبالتالي، تكون هذه البيانات عديم الفائدة إذا أردنا وضع نموذج لسبب عدم مشاهدة المستخدم لمنشور معين، لأنه تم حذف جميع الأمثلة السلبية. حدثت مشكلة مماثلة في اللعب. أثناء العمل على صفحة تطبيقات Play الرئيسية، تم إنشاء مسار جديد تحتوي على أمثلة من الصفحة المقصودة لألعاب Play لا تتضمن أي ميزة لتوضيح مصدر كل مثال.

القاعدة 7: تحويل الإرشادات إلى ميزات أو التعامل معها خارجيًا

عادةً لا تكون المشكلات التي يحاول التعلم الآلي حلها جديد تمامًا. ويوجد حاليًا نظام للترتيب أو التصنيف أو لأي مشكلة تحاول حلها. هذا يعني أن هناك مجموعة من من القواعد والاستدلالات. يمكن أن تحسّن هذه المؤشرات نفسها عندما يتم تعديلها من خلال تعلُّم الآلة يجب التنقيب عن إشاراتك لأي شخص المعلومات التي يمتلكها، لسببين. أولاً، الانتقال إلى جهاز الذي تعلمته سيكون أكثر سلاسة. ثانيًا، عادةً ما تحتوي هذه القواعد على الكثير من الحدس بشأن النظام الذي لا تريد التخلص منه. هناك أربعة الطرق التي يمكنك من خلالها استخدام إرشادات حالية وهي:

  • المعالجة المسبقة باستخدام الإرشادات. إذا كانت الميزة رائعة بشكل لا يصدق، فهذا خيار. على سبيل المثال، إذا كان المُرسِل، في أحد فلاتر الرسائل غير المرغوب فيها، أضفته بالفعل إلى القائمة السوداء، فلا تحاول إعادة معرفة ما "ما تم وضعه في القائمة السوداء" ما يعنيه ذلك. حظر الرسالة هذا الأسلوب هو الأكثر منطقية في النظام الثنائي ومهام التصنيف.
  • إنشاء ميزة. يُعدّ إنشاء ميزة مباشرةً استنادًا إلى الدليل الإرشادي أمرًا رائعًا. على سبيل المثال، إذا كنت تستخدم إرشادًا لحساب درجة مدى الصلة بطلب بحث يمكنك تضمين الدرجة كقيمة العنصر. لاحقًا فقد ترغب في استخدام تقنيات التعلم الآلي لتدليك القيمة (على سبيل المثال، تحويل القيمة إلى مجموعة محدودة من القيم المنفصلة أو دمجها مع ميزات أخرى) ولكن ابدأ باستخدام البيانات الأولية القيمة التي ينتجها الموجّه.
  • تعدين المدخلات الأولية للدليل. إذا كان هناك إرشادات بشأن التطبيقات تضم عدد عمليات التثبيت وعدد الأحرف في والنص، واليوم من الأسبوع، ثم فكر في فصل هذه الأجزاء، وإدخال هذه المُدخلات في العملية التعليمية بشكل منفصل. بعض الأساليب التي تنطبق على المجموعات تنطبق هنا (راجع القاعدة رقم 40).
  • تعديل التصنيف. يعد هذا خيارًا عندما تشعر أن التوجيه إلى التقاط المعلومات غير المضمنة حاليًا في التصنيف. على سبيل المثال: إذا كنت تحاول زيادة عدد التنزيلات، ولكنك تريد أيضًا عالي الجودة، فربما يكون الحل هو ضرب التسمية في متوسط عدد النجوم التي حصل عليها التطبيق. هناك الكثير من الفواصل الإعلانية هنا. راجع "هدفك الأول".

مراعاة التعقيدات الإضافية عند استخدام الأساليب الإرشادية في تعلُّم الآلة . يمكن أن يؤدي استخدام الأساليب الإرشادية القديمة في خوارزمية تعلُّم الآلة الجديدة المساعدة في إنشاء انتقال سلس، ولكن فكر فيما إذا كانت هناك طريقة أبسط لتحقيق نفس التأثير.

المراقبة

بشكل عام، مارس الإعداد الجيد للتنبيه، مثل جعل التنبيهات قابلة للتنفيذ والحصول على صفحة لوحة معلومات.

القاعدة 8: تعرف على متطلبات تحديث النظام.

ما مدى انخفاض الأداء إذا كان لديك نموذج تم إنشاؤه منذ يوم واحد؟ أسبوع قديم؟ هل لديك ربع سنة؟ يمكن أن تساعدك هذه المعلومات في فهم الأولويات. المراقبة إذا فقدت منتجًا كبيرًا الجودة إذا لم يتم تحديث النموذج ليوم واحد، من المنطقي أن يكون هناك مهندس يشاهدها باستمرار. معظم الإعلانات تحتوي أنظمة العرض على إعلانات جديدة للتعامل معها يوميًا، وبالتالي يجب تحديثها يوميًا. على سبيل المثال، إذا كان نموذج تعلُّم الآلة لم يتم تحديث بحث Google Play، فقد يحتوي على تأثير سلبي في أقل من شهر. بعض نماذج المشاركات الساخنة في لا يتضمن Google Plus معرّف مشاركة في نموذجه، لذا يمكنه تصدير هذه النماذج بشكل غير متكرر. في ما يلي النماذج الأخرى التي تتضمّن معرّفات المشاركات: يتم تحديثها بشكل متكرر أكثر. لاحظ أيضًا أن الحداثة يمكن أن تتغير بمرور الوقت، خاصةً عند إضافة أعمدة مواضع أو إزالتها من النموذج.

القاعدة 9: اكتشاف المسائل قبل تصدير النماذج

تتضمّن العديد من أنظمة التعلّم الآلي مرحلة تصدير النموذج إلى بين الأطراف. إذا كانت هناك مشكلة في نموذج تم تصديره، سيكون الأمر موجّهًا للمستخدمين. المشكلة.

يجب إجراء عمليات تحقّق من الجودة قبل تصدير النموذج مباشرةً. على وجه التحديد، تأكد من أن أن أداء النموذج معقول في ما يتعلق بالبيانات المحجوبة. أو، إذا كان لديك المخاوف العالقة بالبيانات، فلا تصدّر نموذجًا. فِرق متعدّدة ويتحقق نشر النماذج باستمرار من المنطقة الواقعة تحت منحنى RoC (أو AUC) قبل التصدير. تتطلّب المشاكل المتعلّقة بالنماذج التي لم يتم تصديرها لتنبيه البريد الإلكتروني، ولكن في حال حدوث مشاكل في النموذج الموجّه للمستخدمين، قد تتطلّب إضافة صفحة. أفضل بكثير أن ينتظر وتتأكد قبل التأثير على المستخدمين.

القاعدة رقم 10: انتبه إلى الأخطاء الصامتة.

تحدث هذه المشكلة في أنظمة التعلم الآلي أكثر من غيرها أنواع الأنظمة. لنفترض أن جدولاً معينًا يتم ضمه هو جدول من الآن فصاعدًا. سيقوم نظام التعلم الآلي بتعديل سلوك أداء جيد إلى حد معقول، في تراجع تدريجي. في بعض الأحيان تجد الجداول التي تكون عدة أشهر قديمة، وإعادة التحميل البسيطة يحسن الأداء أكثر من أي عملية إطلاق أخرى في هذا الربع من العام! تشمل تغطية قد تتغيّر الميزة بسبب تغييرات في التنفيذ: على سبيل المثال، عمود ميزة يمكن أن يتم ملؤها في 90% من الأمثلة، ثم تنخفض فجأة إلى 60% من الأمثلة. كان في ألعاب Play لعبة مليئة بالتحديات ومرّت 6 أشهر بدون أي أخطاء وقد أدى الجدول وحده إلى زيادة معدّل التثبيت بنسبة% 2. إذا قمت بتتبع إحصائيات البيانات، بالإضافة إلى فحص البيانات يدويًا في بعض الأحيان، يمكنك تقليل هذه الأنواع من الإخفاقات.

القاعدة 11: امنح أعمدة الميزات والمستندات المطلوبة.

وإذا كان النظام كبيرًا، وهناك العديد من أعمدة الميزات، فتعرف على من أنشأ أو الحفاظ على كل عمود لميزة. إذا وجدتَ أن الشخص الذي المستخدم لدى عمود ميزة على الانتهاء، فتأكد من أن شخصًا ما لديه المعلومات. وعلى الرغم من أن العديد من أعمدة الميزات لها أسماء وصفية، إلا أنه من الأفضل للحصول على وصف أكثر تفصيلاً حول الميزة، ومكان ورودها منه، وكيف يُتوقع أن يساعد.

هدفك الأول

إذا كان لديك العديد من المقاييس أو القياسات حول النظام الذي يهمّك ولكن غالبًا ما تتطلب خوارزمية تعلُّم الآلة هدفًا واحدًا، الرقم الذي "تحاوله" الخوارزمية لتحسين الأداء أميّزها هنا بين الأهداف والمقاييس: المقياس هو أي رقم يستخدمه نظامك التقارير، والتي قد تكون أو لا تكون مهمة. يمكن أيضًا مراجعة القاعدة رقم 2.

القاعدة رقم 12: عدم المبالغة في التفكير في الهدف الذي تختار تحسينه بشكل مباشر

أنت تهدف إلى تحقيق الأرباح، وإسعاد المستخدمين، وتحسين العالم. الْمَكَانْ. هناك الكثير من المقاييس التي تهتم بها، لذا ننصحك بقياسها كلّها (اطّلِع على القاعدة رقم 2). ومع ذلك، في وقت مبكر من عملية التعلم الآلي، ستلاحظ أنها جميعًا تصاعد، حتى الإعلانات التي لا تحسّنها بشكل مباشر على سبيل المثال، لنفترض أنك تهتم عدد النقرات والوقت المستغرَق في الموقع إذا قمت بالتحسين لزيادة عدد من النقرات، يمكنك في الغالب زيادة الوقت الذي تقضيه.

لذلك، اجعل الأمر بسيطًا ولا تفكر مليًا في تحقيق التوازن بين المقاييس المختلفة عندما لا يزال بإمكانك زيادة جميع المقاييس بسهولة. لا تتّبع هذه القاعدة أيضًا حتى الآن: لا تخلط بين هدفك والصحة المثالية (يُرجى الاطّلاع على القاعدة رقم 39). وإذا وجدتَ نفسك تتزايد بشكل مباشر مقياسًا محسَّنًا، ولكن قد يتم اتخاذ قرار بعدم البدء، فقد تكون بعض المراجعات الموضوعية مطلوبة.

القاعدة رقم 13: اختر مقياسًا بسيطًا يمكن ملاحظته ويمكن نسبه إلى هدفك الأول.

في كثير من الأحيان لا تعرف الهدف الحقيقي. تعتقد أنك تفعل ذلك ولكن بعد ذلك تحدق في البيانات والتحليلات جنبًا إلى جنب لنظامك القديم وتعلُّم الآلة الجديد تدرك أنك تريد تعديل الهدف. علاوة على ذلك، هناك فريق مختلف لا يستطيع الأعضاء في كثير من الأحيان الاتفاق على الهدف الحقيقي. يجب أن يكون هدف تعلُّم الآلة وهو شيء يسهل قياسه ويعد وكيلاً لكلمة "true" العمل. في الواقع، لا يوجد غالبًا "صواب" الهدف (انظر القاعدة رقم 39). إذًا، التدرّب على هدف تعلُّم الآلة البسيط، مع تجربة وضع "طبقة سياسة" في الأعلى تسمح لك بإضافة منطق إضافي (نأمل أن يكون منطقًا بسيطًا للغاية) لتنفيذ الترتيب النهائي.

أسهل شيء ينبغي وضع نموذج له هو سلوك المستخدم الذي يتم ملاحظته وإسناده بشكل مباشر إلى إجراء النظام:

  • هل تم النقر على هذا الرابط المُرتَّب؟
  • هل تم تنزيل هذا الكائن الذي تم ترتيبه؟
  • هل تمت إعادة توجيه هذا الكائن الذي تم ترتيبه أو الرد عليه أو إرسال رسالة إلكترونية إليه؟
  • هل تم تقييم هذا الكائن المرتَّب؟
  • هل تم وضع علامة على هذا الكائن المعروض كمحتوى غير مرغوب فيه/محتوى إباحي/مسيء؟

تجنَّب في البداية نمذجة التأثيرات غير المباشرة:

  • هل زار المستخدم في اليوم التالي؟
  • كم من الوقت زار المستخدم الموقع؟
  • ماذا كان المستخدمون النشطون يوميًا؟

تشكل التأثيرات غير المباشرة مقاييس رائعة، ويمكن استخدامها أثناء اختبار A/B وأثناء الإطلاق القرارات.

وأخيرًا، لا تحاول إجبار التعلم الآلي على معرفة ما يلي:

  • هل المستخدم سعيد باستخدام المنتج؟
  • هل المستخدم راضيًا عن التجربة؟
  • هل يحسن المنتج رفاهية المستخدم بشكل عام؟
  • كيف سيؤثر هذا على الحالة العامة للشركة؟

هذه كلها مهمة، ولكن قياسها صعبًا للغاية. بدلاً من ذلك، استخدم الوكيل: إذا كان المستخدم سعيدًا، سيبقى على الموقع لفترة أطول. إذا كان المستخدم عن رضا العملاء، فسيزورون موقعك مرة أخرى غدًا. بقدر ما معنية بصحة الشركة، والحكم البشري مطلوب لربط أي هدف تعلُم الآلة إلى طبيعة المنتج الذي تبيعه خطة عملك.

القاعدة رقم 14: يؤدي البدء بنموذج قابل للتفسير إلى تسهيل تصحيح الأخطاء.

ترتبط انحدار الخطي والانحدار اللوجستي وانحدار بواسون ارتباطًا مباشرًا وكان مدفوعًا بالنموذج الاحتمالي. ويمكن تفسير كل تنبؤ على أنه احتمالية أو قيمة متوقعة. وهذا يجعلها أسهل في تصحيح الأخطاء من النماذج التي تستخدم الأهداف (الخسارة بصفر، والخسائر المفصلية المختلفة، وما إلى ذلك) التي تحاول لتحسين دقة التصنيف أو أداء الترتيب بشكل مباشر بالنسبة على سبيل المثال، إذا انحرفت الاحتمالات في التدريب عن الاحتمالات المتوقعة في جنبًا إلى جنب أو من خلال فحص نظام الإنتاج، فإن هذا الانحراف الكشف عن مشكلة.

فعلى سبيل المثال، في الانحدار الخطي أو اللوجستي أو بواسون، هناك مجموعات فرعية من البيانات التي يكون فيها متوسط التوقعات المتوقعة يساوي متوسط التصنيف (1- أو معايرتها فقط). هذا صحيح على افتراض أنه ليس لديك التسوية وتقارب الخوارزمية، وهو حوالي صحيح بشكل عام. إذا كان لديك خاصية تكون إما 1 أو 0 لكل مثال، ثم مجموعة من 3 أمثلة تتم فيها معايرة هذه الميزة بالقيمة 1. أيضًا، إذا على خاصية تساوي 1 لكل مثال، فإن مجموعة جميع الأمثلة معايرته.

باستخدام النماذج البسيطة، يكون من الأسهل التعامل مع حلقات الملاحظات (انظر القاعدة رقم 36). غالبًا ما نستخدم هذه التنبؤات الاحتمالية لاتخاذ قرار: على سبيل المثال: التصنيف بانخفاض القيمة المتوقعة (أي احتمالية النقر أو التنزيل أو غير ذلك). لكن عندما يحين وقت اختيار النموذج الذي تريد استخدامه، القرار أكثر أهمية من احتمالية وجود البيانات وفقًا للنموذج (راجع القاعدة رقم 27).

القاعدة رقم 15: تصفية الرسائل غير المرغوب فيها وترتيب الجودة بشكل منفصل في طبقة سياسة.

يعد ترتيب الجودة فنًا جميلاً، إلا أن تصفية الرسائل غير المرغوب فيها تمثل تحديًا كبيرًا. إن الإشارات التي التي تستخدمها لتحديد المشاركات عالية الجودة التي ستظهر لمستخدمي نظامك، وسيعدّلان مشاركاتهم لتتضمن هذه الخصائص. وبالتالي، فينبغي أن يركز ترتيب الجودة على ترتيب المحتوى الذي يتم نشره بشكل جيد إيمان لا يجب أن تستبعد المتعلم ترتيب الجودة فيما يتعلق بترتيب المحتوى غير المرغوب فيه للغاية. وبالمثل، "محتوى للبالغين" يجب معالجة المحتوى بشكل منفصل عن الجودة الترتيب: تصفية الرسائل غير المرغوب فيها خبر مختلف. عليك أن تتوقع أن ستتغير باستمرار الميزات التي تحتاج إلى إنشاءها. في كثير من الأحيان، قواعد واضحة تضعها في النظام (إذا كان للمنشور أكثر من ثلاثة أصوات غير مرغوب فيها، فلا تستردها، وهكذا). أي نموذج تم تعلمه سيكون له يتم تحديثه يوميًا، إن لم يكن أسرع. تُعد سمعة منشئ المحتوى دورًا كبيرًا.

سيتعين دمج ناتج هذين النظامين على مستوى ما. عدم الحذف أن تصفية المحتوى غير المرغوب فيه في نتائج البحث يجب أن تكون أكثر حسمًا من تصفية الرسائل غير المرغوب فيها في الرسائل الإلكترونية. أيضًا، من الممارسات العادية إزالة غير المرغوب فيه من بيانات تدريب مصنِّف الجودة.

مرحلة تعلُّم الآلة الثانية: هندسة الخصائص

في المرحلة الأولى من دورة حياة نظام التعلم الآلي، نقل البيانات التدريبية إلى نظام التعلم تعتمد على مقاييس الاهتمام، وإنشاء بنية أساسية للعرض. بعد لديك نظام عمل من البداية إلى النهاية مع إجراء اختبارات على الوحدات والنظام، تبدأ المرحلة الثانية.

في المرحلة الثانية، يوجد الكثير من الثمار سهلة التعليق. هناك مجموعة متنوعة من الميزات الواضحة التي يمكن إدراجها في النظام. وبالتالي، فإن العنصر الثاني من التعلم الآلي تتضمن سحب أكبر عدد ممكن من الميزات ودمجها بطرق بديهية. خلال هذه المرحلة، ينبغي لجميع المقاييس لا يزال في طورًا سيكون هناك الكثير من عمليات الإطلاق، وهو وقت رائع سحب الكثير من المهندسين الذين يمكنهم ضم جميع البيانات التي تحتاجها لإنشاء نظام تعليمي رائع حقًا.

القاعدة رقم 16: خطّط لإطلاقها وتكرارها

لا تتوقع أن يكون النموذج الذي تعمل عليه الآن هو آخر نموذج التي ستطلقها، أو حتى أنك ستتوقف عن إطلاق النماذج. خميس فكِّر في ما إذا كان مستوى التعقيد الذي يضيفه هذا الإطلاق سيبطئ وعمليات الإطلاق المستقبلية. أطلقت العديد من الفرق نموذجًا كل ربع سنة أو أكثر سنوات. هناك ثلاثة أسباب أساسية لإطلاق نماذج جديدة:

  • أنت على وشك اكتشاف ميزات جديدة.
  • أنت بصدد ضبط التسوية والجمع بين الميزات القديمة بطرق جديدة.
  • أنت تقوم بضبط الهدف.

بصرف النظر عن ذلك، قد يكون من الجيد إعطاء أي نموذج بعضًا من الحب، وذلك من خلال النظر إلى البيانات. التي تغذّيها في المثال يمكن أن تساعد في العثور على إشارات جديدة بالإضافة إلى العناصر القديمة المعطلة أخرى. لذا، عند إنشاء النموذج، فكر في مدى سهولة إضافة أو إزالة أو إعادة دمجها. فكر في مدى سهولة إنشاء نسخة حديثة من المسار والتحقق من صحته. فكر فيما إذا كان من الممكن تحتوي على نسختين أو ثلاث نسخ بالتوازي. أخيرًا، لا تقلق بشأن ما إذا كانت الميزة 16 من 35 يمكنها الوصول إلى هذا الإصدار من المسار أم لا. وسوف في الربع القادم.

القاعدة رقم 17: ابدأ بالميزات التي يتم رصدها والإبلاغ عنها مباشرةً بدلاً من الميزات التي تم تعلمها.

قد تكون هذه نقطة مثيرة للجدل، ولكنها تتجنّب الكثير من الصعاب. أول من لنصف ما هي الميزة المستفادة. الميزة المستفادة هي ميزة يتم إنشاؤها إما بواسطة نظام خارجي (مثل التجميع العنقودي غير الخاضع للإشراف) ) أو من خلال المتعلم نفسه (على سبيل المثال من خلال نموذج العوامل أو التعلم المتعمق). يمكن أن يكون كلاهما مفيدًا، لكنهما قد يتضمنان الكثير من المشكلات، لذا ينبغي في النموذج الأول.

إذا كنت تستخدم نظامًا خارجيًا لإنشاء ميزة، فتذكر أن القيمة الخارجية للنظام هدفه الخاص. قد يكون هدف النظام الخارجي ضعيفًا مرتبطة بهدفك الحالي. إذا حصلت على لقطة للواجهة الخارجية فسيصبح قديمًا. في حال تحديث الميزات من نظام خارجي، في هذه الحالة قد تتغير المعاني. إذا كنت تستخدم نظامًا خارجيًا تقديم ميزة، فاعلم أن هذا النهج يتطلب قدرًا كبيرًا من العناية.

تكمن المشكلة الأساسية في النماذج المستندة إلى العوامل والنماذج العميقة في أنها غير محدب. وبالتالي، ليس هناك ما يضمن إمكانية التصرّف كحل مثالي أو العثور عليها، ويمكن حساب الحد الأدنى المحلي في كل تكرار مختلفة. ويجعل هذا الاختلاف من الصعب الحكم على ما إذا كان تأثير أي تغيير في نظامك له مغزى أو عشوائي. ومن خلال إنشاء نموذج بدون يمكنك الحصول على أداء أساسي ممتاز. بعد ذلك المتوقع، يمكنك تجربة المزيد من الأساليب الخفية.

القاعدة رقم 18: استكشاف باستخدام ميزات محتوى يتم تعميمها على مستوى السياقات المختلفة

غالبًا ما يكون نظام التعلم الآلي جزءًا صغيرًا من صورة أكبر بكثير. بالنسبة على سبيل المثال، إذا تخيلت منشورًا قد يتم استخدامه في المشاركات الساخنة، فإن العديد من الأشخاص سيتم إجراء 1+ لمشاركة أو إعادة مشاركتها أو التعليق عليها قبل عرضها في درجة حرارة السطح مرتفعة. إذا قدمت هذه الإحصاءات إلى المتعلم، فيمكنها الترويج للمشاركات الجديدة أنّه لا يحتوي على بيانات في السياق الذي يحسّنه قد تستخدم صفحة "المشاهدة تاليًا" في YouTube عدد المشاهدات أو المشاهدات (عدد المرات التي تمت فيها مشاهدة فيديو بعد آخر شاهدها) من بحث YouTube. يمكنك أيضًا استخدام محتوى فاضح تقييمات المستخدمين. وأخيرًا، إذا كان لديك إجراء مستخدم تستخدمه كتصنيف، فإن رؤية هذا الإجراء على الوثيقة في سياق مختلف يمكن أن يكون الجديدة. تتيح لكم كل هذه الميزات إضافة محتوى جديد إلى السياق. لاحظ أن هذا لا يتعلق بالتخصيص: اكتشف ما إذا كان الشخص معجبًا في هذا السياق أولاً، ثم نحدد من يحبه أكثر أو أقل.

القاعدة رقم 19: استخدم ميزات محددة جدًا متى أمكنك ذلك.

مع كمية هائلة من البيانات، يكون من السهل تعلم الملايين من الميزات البسيطة بدلاً من بعض الميزات المعقدة. معرّفات المستندات التي يتم استردادها التي لا توفر الكثير من التعميم، ولكنها تتوافق الترتيب من خلال تصنيفاتك على طلبات بحث الرؤوس. وبالتالي، لا تخشى مجموعات من الميزات التي تنطبق فيها كل ميزة على جزء صغير جدًا من بياناتك، ولكن والتغطية الإجمالية أعلى من %90 ويمكنك استخدام التسوية للتخلص من والميزات التي تنطبق على عدد قليل جدًا من الأمثلة.

القاعدة رقم 20: دمج الميزات الحالية وتعديلها لإنشاء ميزات جديدة بطرق مفهومة للمستخدم

هناك طرق متنوعة لدمج العناصر وتعديلها. تعلُّم الآلة تسمح لك أنظمة مثل TensorFlow بمعالجة بياناتك مسبقًا من خلال عمليات التحويل. أكثر الأسلوبين القياسيين هما "التصنيفات" و"التقاطعات".

يتكون الحجز من استخدام ميزة مستمرة وإنشاء العديد من ميزات منفصلة منه. ضع في اعتبارك إحدى الميزات المستمرة مثل العمر. يمكنك إنشاء ميزة يتم تسجيلها 1 عندما يكون عمرها أقل من 18 عامًا، وهي ميزة أخرى 1 عندما يكون سن بين 18 و35، وما إلى ذلك. لا تفرط في التفكير في حدود هذه المدرجات التكرارية: ستمنحك الوحدات الأساسية الجزء الأكبر من التأثير.

تجمع التقاطعات بين عمودين أو أكثر من أعمدة الميزات. وهو عمود ميزة، في مخطط TensorFlow المصطلحات، هو مجموعة من السمات المتجانسة، (على سبيل المثال {male, female} و{US, وكندا والمكسيك} وما إلى ذلك). الرمز المتقاطع هو عمود ميزة جديد يحتوي على ميزات على سبيل المثال، {male, female} × {US,Canada, Mexican}. عمود الميزة الجديد هذا على الميزة (ذكر، كندا). إذا كنت تستخدم TensorFlow اطلب من TensorFlow إنشاء هذا الصليب لك، فسيستخدم هذا الميزة (ذكر، كندا) حاضرًا في أمثلة تمثل الكنديين الذكور. لاحظ أن الأمر يتطلب مبالغ كميات البيانات لتعلُّم نماذج بأشكال تقاطعية لثلاثة أو أربعة أو أكثر والأعمدة.

قد تكون الأشرطة المتقاطعة التي تنتج أعمدة ميزات كبيرة جدًا زائدة عن الحد. على سبيل المثال: تخيل أنك تجري نوعًا من البحث، ولديك عمود للميزات بكلمات في الاستعلام، ولديك عمود ميزة يحتوي على كلمات في جلسة المراجعة. يمكنك الجمع بين هذه الروابط والتقاطعات، لكنك ستحصل في النهاية على الكثير من الميزات (اطّلِع على القاعدة رقم 21).

عند التعامل مع النص، هناك خياران. الأكثر غرابة هي ناتج الضرب النقطي. ويحسب الناتج النقطي في أبسط صوره عدد الكلمات المشتركة بين الاستعلام والمستند. يمكن بعد ذلك استخدام هذه الميزة متعددة. هناك منهج آخر وهو التقاطع: وبالتالي، ستكون لدينا خاصية والتي تكون موجودة فقط إذا كانت كلمة "مهر" في كل من المستند بالإضافة إلى ميزة أخرى موجودة فقط إذا كانت كلمة "the" في لكل من المستند والاستعلام.

القاعدة رقم 21: عدد ترجيحات الخصائص التي يمكنك تعلمها في النموذج الخطي يتناسب تقريبًا مع كمية البيانات التي لديك.

هناك نتائج نظرية التعلم الإحصائي رائعة تتعلق لأي نموذج، ولكن هذه القاعدة تتألف أساسًا من تحتاج إلى معرفتها. لقد أجريت محادثات كان الأشخاص فيها مشكوكًا في أن أي شيء يمكن تعلمه من ألف مثال، أو أنه من الممكن تحتاج إلى أكثر من مليون مثال، لأنها تعلق بطريقة معينة التعلم. المفتاح هو توسيع نطاق تعلمك وفقًا لحجم بياناتك:

  1. إذا كنت تعمل على نظام لترتيب نتائج البحث، وكان هناك الملايين من الكلمات المختلفة في المستندات والاستعلام، ويكون لديك 1000 بأمثلة مصنَّفة، ينبغي عليك استخدام ضرب نقطي بين المستند وميزات طلب البحث، TF-IDF، وبالإضافة إلى عشرات التطبيقات الأخرى المصممة على أعلى مستوى الجديدة. 1000 مثال وعشرات الميزات.
  2. إذا كان لديك مليون مثال، عليك إجراء تقاطع بين المستند والاستعلام الخاصة بالأعمدة، باستخدام التسوية وربما اختيار الخصائص. سيوفر لك ذلك ملايين الميزات، ولكن يمكنك مع التسوية سيكون أقل. عشرة ملايين مثال وربما مائة ألف ميزة.
  3. إذا كان لديك مليارات أو مئات المليارات من الأمثلة، فيمكنك تقاطع أعمدة الميزات مع رموز المستندات والاستعلامات، باستخدام تحديد الخصائص والتسوية. سيكون لديك مليار مثال، و10 ملايين الجديدة. نادرًا ما تضع نظرية التعلم الإحصائي حدودًا صارمة، لكنها تعطي إرشادات رائعة لنقطة بداية.

في النهاية، استخدم القاعدة رقم 28 لتحديد الميزات التي يجب استخدامها.

القاعدة رقم 22: حذف الميزات التي لم تعُد تستخدمها

تؤدّي الميزات غير المستخدَمة إلى ظهور ديون فنية. إذا وجدت أنك لا تستخدم الميزة، وأن دمجها مع ميزات أخرى لا يعمل، ثم ألغِ وتخرج من بنيتك الأساسية. ينبغي عليك الحفاظ على بنيتك الأساسية نظيفة حتى تجربة أكثر الميزات الواعدة في أسرع وقت ممكن. في حال حذف عند الضرورة، يمكن لشخص ما دائمًا إعادة إضافة العنصر.

خذوا في الاعتبار التغطية عند اختيار الميزات التي يجب إضافتها أو الاحتفاظ بها. العدد الأمثلة التي تغطيها الميزة؟ على سبيل المثال، إذا كان لديك بعض ميزات التخصيص، ولكن 8% فقط من المستخدمين لديهم أي خيارات تخصيص. الميزات، فلن تكون فعالة للغاية.

في الوقت نفسه، قد تتجاوز بعض الميزات وزنها. على سبيل المثال، إذا لديك ميزة تغطي 1٪ فقط من البيانات، ولكن 90٪ من الأمثلة التي لها الميزة إيجابية، فسيكون إضافتها أمرًا عظيمًا.

التحليل البشري للنظام

قبل الانتقال إلى المرحلة الثالثة من التعلم الآلي، من المهم التركيز على شيء لم يتم تدريسه في أي فصل من فصول التعلم الآلي، وهو: كيفية على نموذج موجود وتحسينه. هذا فن أكثر من كونه ولكن هناك العديد من الأنماط المضادة التي تساعد في تجنبها.

القاعدة رقم 23: أنت لست مستخدمًا عاديًا.

ربما تكون هذه هي أسهل طريقة يمكن للفريق أن يعلقوا بها. في حين أنه الكثير من الفوائد لصيد الأسماك (باستخدام نموذج أوّلي داخل فريقك) استخدامهم التجريبي (باستخدام نموذج أوّلي داخل شركتك)، يجب أن ينظر الموظفون ما إذا كان الأداء صحيحًا أم لا. في حين أن التغيير الذي من الواضح أنه سيئ لا ينبغي استخدامه، يجب أن يكون أي شيء يبدو قريبًا من الإنتاج بشكل معقول اختباره بشكل أكبر، سواء من خلال الدفع لأشخاص عاديين للإجابة عن أسئلة أو من خلال حشد الموارد أو من خلال تجربة مباشرة على مستخدمين حقيقيين.

هناك سببان لذلك. الأول هو أنك قريب جدًا من الرمز. ربما تكون تبحث عن جانب معين من المنشورات، أو ربما مجرد المشاركة عاطفيًا جدًا (على سبيل المثال، الانحياز التأكيدي). والثاني هو أن فإن وقتك ثمين للغاية. ضع في اعتبارك تكلفة تسعة مهندسين يجلسون في مشروع واحد ساعة اجتماع، وفكر في عدد التسميات البشرية المتعاقدة التي تشتري لحشد الموارد.

إذا كنت تريد حقًا الحصول على ملاحظات المستخدمين، استخدِم تجربة المستخدم. والمنهجيات. قم بإنشاء شخصيات المستخدم (وصف واحد موجود في كتابة بيل بوكستون رسم تجارب المستخدم) في وقت مبكر من العملية وإجراء اختبار قابلية الاستخدام (واحد وصفها في كتابة ستيف كروغ عدم جعلني أفكر) لاحقًا. شخصيات المستخدم إنشاء مستخدم افتراضي. على سبيل المثال، إذا كان فريقك بالكامل من الذكور، قد يكون من المفيد تصميم شخصية مستخدم أنثى تبلغ من العمر 35 عامًا (كاملة مع ، وإلقاء نظرة على النتائج التي تنتجها بدلاً من 10 نتائج الذكور الذين تتراوح أعمارهم بين 25 و40 عامًا. جذب أشخاص حقيقيين لمشاهدة رد فعلهم على موقعك (محليًا أو عن بُعد) في اختبار قابلية الاستخدام، يمكنك أيضًا الحصول على منظورك.

القاعدة رقم 24: قياس الدلتا بين النماذج

أحد القياسات الأسهل والأكثر فائدة في بعض الأحيان التي يمكنك إجراؤها قبل لأي مستخدم قد نظر في نموذجك الجديد هو حساب مدى اختلاف النتائج الجديدة من الإنتاج. فعلى سبيل المثال، إذا كانت لديك مشكلة في الترتيب، تشغيل كلا النموذجين على عينة من الاستعلامات عبر النظام بأكمله، وفحص حجم الفرق المتماثل بين النتائج (مُرجَّح حسب الترتيب موضع الإعلان). وإذا كان الفرق صغيرًا جدًا، يمكنك تحديد ذلك بدون تنفيذ خض التجربة بحيث يكون التغيير طفيفًا. إذا كان الاختلاف كبيرًا كبير، فأنت تريد التأكد من أن التغيير جيد. النظر فوق الاستعلامات التي يكون فيها الفرق المتماثل مرتفعًا على فهم نوعيًا كيف كان التغيير. ومع ذلك، تأكد أن النظام إِسْطَبْل التأكد من احتواء النموذج عند مقارنته بنفسه على قيمة منخفضة (من الأفضل أن صفر) الفرق المتماثل.

القاعدة رقم 25: عند اختيار النماذج، يتغلب الأداء العملي على قوة التوقع.

قد يحاول النموذج توقّع نسبة النقر إلى الظهور. ومع ذلك، في النهاية، المفتاح هو ما تفعله بهذا التنبؤ. إذا كنت تستخدمه لتصنيف فإن جودة الترتيب النهائي مسألة أكثر من التنبؤ نفسه. إذا توقعت احتمال أن يكون المستند عبارة عن محتوى غير مرغوب فيه ثم تحديد ما هو محظور، ومن ثم يتم تحديد دقة ما هو مسموح به من خلال المزيد من الأمور. في معظم الأحيان، ينبغي أن يكون هذان الشيءان الموافقة: عندما لا يوافقون، فمن المرجح أن يحقق مكسب بسيط. وبالتالي، إذا هناك بعض التغييرات التي تحسن من مقياس انخفاض القصور ولكن يؤدي إلى انخفاض أداء النظام، فابحث عن ميزة أخرى. عندما يبدأ هذا في حدوث ذلك في كثير من الأحيان، حان الوقت لإعادة النظر في هدف نموذجك.

القاعدة رقم 26: ابحث عن أنماط الأخطاء التي تمّ قياسها وأنشئ ميزات جديدة.

لنفترض أنك رأيت مثالاً تدريبيًا على أن النموذج "خاطئ". في تصنيف مهم، يمكن أن يكون هذا الخطأ موجبًا خاطئًا أو حالة سالبة خاطئة. في مهمة الترتيب، يمكن أن يتمثل الخطأ في زوج ترتيب إيجابي أقل من سالب. النقطة الأكثر أهمية هي أن هذا مثال على نظام التعلم الآلي تعلم أنه كان خاطئًا ويرغب في إصلاحه إذا ما تم إعطاؤه الأخرى. إذا أعطيت النموذج ميزة تسمح له بإصلاح الخطأ، سيحاول النموذج استخدامه.

من ناحية أخرى، إذا حاولت إنشاء ميزة استنادًا إلى أمثلة، النظام لا يحتوي على أخطاء، فسيتم تجاهل الميزة. على سبيل المثال: لنفترض أنه في البحث في تطبيقات Play، يبحث أحد الأشخاص عن "ألعاب مجانية". فرض إن أحد أهم النتائج هو تطبيق مضللاً أقل صلة. لذلك تقوم بإنشاء ميزة "تطبيقات الرداء". ومع ذلك، في حال زيادة عدد عمليات التثبيت وارتفاع عدد المستخدمين تثبيت تطبيق gag عند بحثهم عن الألعاب المجانية أو "تطبيقات التحدي" ميزة التأثير الذي تريده.

بمجرد الحصول على أمثلة على أن النموذج خاطئ، ابحث عن المؤشرات خارج مجموعة الخصائص الحالية لديك. على سبيل المثال، إذا بدا أن النظام وخفض ترتيب المشاركات الأطول، ثم إضافة طول المشاركة. لا تكن محددًا أكثر من اللازم بشأن الميزات التي تضيفها. إذا كنت ستضيف طول المشاركة، فلا تحاول تخمين ما ما يعنيه، إضافة عشرات الخصائص والسماح للنموذج بتحديد ما يجب فعله معهم (راجع القاعدة رقم 21 ). هذه أسهل طريقة للحصول على ما تريد.

القاعدة رقم 27: حاول قياس السلوك غير المرغوب فيه المرصود.

سيبدأ بعض أعضاء فريقك في الاستياء من خصائص الذي لا يعجبه أي نظام لم يتم التقاطه من خلال دالة الخسارة الحالية. علامة @ يجب عليهم فعل كل ما يلزم لتحويل قبضاتهم إلى صلبة الأرقام. فعلى سبيل المثال، إذا اعتقدوا أن الكثير من "تطبيقات التخفي" يتم عرضها في "بحث Play"، قد تطلب من خبراء تقييم مختصّين التعرّف على التطبيقات التي تنتهك الخصوصية. (يمكنك استخدام بيانات تصنيف بشرية في هذه الحالة نظرًا لأن حجم البيانات نسبة كبيرة من طلبات البحث تمثل جزءًا كبيرًا من الزيارات). إذا كان والمشكلات قابلة للقياس، فيمكنك البدء في استخدامها كميزات أو أهداف أو المقاييس. القاعدة العامة هي "القياس أولاً، التحسين ثانيًا".

القاعدة رقم 28: انتبه إلى أنّ السلوك المتماثل قصير المدى لا يتضمن سلوكًا متطابقًا على المدى الطويل.

تخيل أن لديك نظامًا جديدًا يبحث في كل doc_id وExact_query، ثم تحسب احتمالية النقر لكل مستند لكل طلب بحث. وستجد أن سلوكه مماثل تقريبًا لنظامك الحالي في كليهما جنبًا إلى جنب مع اختبار A/B، لذا يمكنك تشغيله نظرًا لبساطته. ومع ذلك، تلاحظ عدم عرض أي تطبيقات جديدة. لماذا؟ حسنًا، نظرًا لأن مستندًا استنادًا إلى سجله مع هذا الاستعلام، فلا يوجد لمعرفة ضرورة عرض مستند جديد.

الطريقة الوحيدة لفهم كيفية عمل هذا النظام على المدى الطويل هي أن يكون بل يتدرب فقط على البيانات التي تم الحصول عليها عندما كان النموذج مباشرًا. يعد ذلك أمرًا صعبًا.

انحراف تقديم التدريب

يعد انحراف عرض التدريب الفرق بين الأداء أثناء التدريب الأداء أثناء العرض. وقد يكون سبب هذا الانحراف ما يلي:

  • يشير ذلك المصطلح إلى تناقض في طريقة معالجتك للبيانات في مسارات التدريب والعرض.
  • يشير ذلك المصطلح إلى تغيير في البيانات بين وقت التدريب ووقت تقديم الخدمة.
  • يشير ذلك المصطلح إلى حلقة تعقيبات بين النموذج والخوارزمية.

لقد لاحظنا أنظمة تعلُّم الآلة الخاصة بالإنتاج في Google من خلال التدريب انحراف عرض الإعلانات الذي يؤثر سلبًا في الأداء. الحل الأفضل هو بمراقبتها بشكل صريح بحيث لا تؤدي تغييرات النظام والبيانات إلى حدوث انحراف بدون أن يلاحظها أحد.

القاعدة رقم 29: أفضل طريقة للحرص على أن يتم التدريب بالطريقة نفسها التي تتّبعها هي حفظ مجموعة الميزات المستخدمة في وقت العرض، ثم نقل هذه الميزات إلى سجلّ لاستخدامها في وقت التدريب.

حتى إذا لم تتمكّن من إجراء ذلك في كل مثال، يمكنك إجراء ذلك على جزء صغير، مثل أنّه يمكنك التحقّق من الاتساق بين العرض والتدريب (راجع القاعدة رقم 37). الفِرق التي حققت هذا الهدف تفاجأ في بعض الأحيان بالنتائج في Google. صفحة YouTube الرئيسية إلى ميزات التسجيل في وقت العرض بجودة كبيرة وأجرينا تحسينات وانخفاضًا في مدى تعقيد الرمز البرمجي، وبدأت فِرق عديدة في التبديل بنيتها التحتية بينما نتحدث.

القاعدة رقم 30: لا تسقطها بشكل عشوائي!

عندما يكون لديك الكثير من البيانات، هناك إغراء لأخذ الملفات من 1 إلى 12، تجاهل الملفات 13-99. هذا خطأ. رغم أن البيانات التي كانت لا تظهر للمستخدم أبدًا، ويمكن أن يتم إسقاطها، فإن الترجيح الأهمية هو الأفضل أَرْتَاح يعني الترجيح الأهمية أنك إذا قررت أنك للعينة س باحتمالية 30%، ثم أعطيها وزنًا قدره 10/3. مع أهمية الترجيح، وجميع خصائص المعايرة التي تمت مناقشتها في القاعدة رقم 14 لا يزال معلقًا.

القاعدة رقم 31: يجب الانتباه إلى أنّه في حال دمج البيانات من جدول خلال وقت التدريب والعرض، قد تتغيّر البيانات الواردة في الجدول.

لنفترض أنك أضفت معرفات doc باستخدام جدول يحتوي على ميزات لهذه المستندات (مثل عدد التعليقات أو النقرات). بين وقت التدريب ووقت العرض، يمكن أن تساعد الميزات الموجودة في قد يتم تغيير الجدول. قد يكون توقع النموذج لنفس المستند ثم تختلف بين التطبيق والعرض. وهذه أسهل طريقة لتجنُّب هذا الترتيب هو تسجيل الميزات في وقت العرض (انظر القاعدة رقم 32 ). إذا كان الجدول يتغير ببطء فقط، يمكنك أيضًا أخذ لقطة للجدول كل ساعة أو يوميًا للحصول على البيانات المغلقة بشكل معقول. تجدر الإشارة إلى أنّ ذلك لا يؤدي إلى حلّ المشكلة المشكلة.

القاعدة رقم 32: إعادة استخدام الرمز بين مسار التدريب ومسار العرض كلما أمكن ذلك

تختلف معالجة الدفعات عن المعالجة على الإنترنت. في المعالجة عبر الإنترنت، يجب التعامل مع كل طلب عند وصوله (على سبيل المثال، يجب إجراء عملية بحث منفصلة) لكل استعلام)، بينما في المعالجة المجمعة، يمكنك دمج المهام (على سبيل المثال الانضمام). في وقت العرض، فأنت تجري المعالجة عبر الإنترنت، في حين أن التدريب مهمة معالجة دفعةية. ومع ذلك، هناك بعض الأشياء التي يمكنك القيام به لإعادة استخدام التعليمات البرمجية. على سبيل المثال، يمكنك إنشاء كائن خاصة بنظامك حيث يمكن أن تكون نتيجة أي استعلامات أو عبارات join وتخزينها بطريقة سهلة القراءة البشرية، ويمكن اختبار الأخطاء بسهولة. بعد ذلك، يُرجى اتّباع الخطوات التالية: وبمجرد الانتهاء من جمع كافة المعلومات، أثناء الخدمة أو التدريب، تشغيل طريقة شائعة للربط بين الكائن الذي يمكن للإنسان قراءته الخاصة بنظامك، وأيًا كان تنسيق نظام التعلم الآلي المستخدم. وسيؤدي ذلك إلى استبعاد مصدر انحراف عرض التدريب. نتيجة لذلك، أُنشئت مكتبة مات بلوت ليب في أمر طبيعي، حاول عدم استخدام لغتي برمجة مختلفتين بين التدريب وعرضها. سيؤدي هذا القرار إلى استحالة مشاركة الرمز.

القاعدة رقم 33: إذا أنتجت نموذجًا يستند إلى البيانات حتى 5 كانون الثاني (يناير)، فاختبر النموذج على البيانات من 6 كانون الثاني (يناير) وما بعده.

بشكل عام، يتم قياس أداء أي نموذج على البيانات التي تم جمعها بعد جمع البيانات. تدربتَ النموذج عليها، حيث إن ذلك يعكس بشكل أفضل ما سيفعله النظام في والإنتاج. إذا أنتجت نموذجًا يستند إلى البيانات حتى 5 كانون الثاني (يناير)، فاختبر النموذج على البيانات من 6 يناير. تتوقع أن يكون أداء لن يكون جيدًا مع البيانات الجديدة، ولكن لن يكون أسوأ بكثير. بما أنّه قد تكون هناك تأثيرات يومية، قد لا يمكنك توقّع متوسط عدد النقرات. معدل التحويل أو معدل التحويل، لكن المساحة الموجودة أسفل المنحنى، والتي تمثل احتمالية إعطاء المثال الإيجابي درجة أعلى من سالبة على سبيل المثال، ينبغي أن تكون قريبة بشكل معقول.

القاعدة رقم 34: في التصنيف الثنائي للفلترة (مثل الكشف عن الرسائل غير المرغوب فيها أو تحديد الرسائل الإلكترونية المثيرة للاهتمام)، قدِّم تضحيات بسيطة على المدى القصير في مجال الأداء مقابل بيانات نظيفة للغاية.

في مهمة فلترة، لا تظهر الأمثلة التي تم وضع علامة عليها باعتبارها سلبية المستخدم. ولنفرض أن لديك فلترًا يحظر 75% من الأمثلة السلبية على العرض. قد تميل إلى رسم بيانات تدريب إضافية من الحالات المعروضة للمستخدمين. على سبيل المثال، إذا وضع أحد المستخدمين علامة على رسالة إلكترونية كرسالة غير مرغوب فيها و يسمح عامل التصفية بدخولها، فقد ترغب في التعلم من ذلك.

لكن هذا النهج يقدم تحيزًا في أخذ العينات. يمكنك جمع بيانات أنظف إذا بدلاً من ذلك، أثناء عرض الإعلانات، عليك تصنيف 1% من إجمالي الزيارات على أنّها "محجوزة"، وإرسال كل أبرز الأمثلة للمستخدم. يحظر الفلتر الآن 74% على الأقل من الأمثلة السلبية. يمكن أن تصبح هذه الأمثلة البارزة بيانات التدريب الخاصة بك.

تجدر الإشارة إلى أنه إذا كان الفلتر يحظر 95% من الأمثلة السلبية أو أكثر، فإن هذا تصبح أقل قابلية للتطبيق. ومع ذلك، إذا كنت تريد قياس عرض الإعلانات يمكنك عمل عينة أصغر حجمًا (ولنفترض 0.1٪ أو 0.001٪). عشر قنوات ألف مثال كافيًا لتقدير الأداء بدقة.

القاعدة رقم 35: يجب توخي الحذر من الانحراف الكامن في مشاكل الترتيب.

عندما تُبدِّل خوارزمية الترتيب بشكل كبير لدرجة أنّ تغيُّر النتائج المختلفة تظهر، تكون قد غيّرت بشكل فعال البيانات التي ستستخدمها الخوارزمية ستراه في المستقبل. سيظهر هذا النوع من الانحراف، ويجب عليك تصميم نموذج حولها. هناك مناهج مختلفة. هذه المناهج هي جميع الطرق لتفضيل البيانات التي شاهدها النموذج بالفعل.

  1. الحصول على تسوية أعلى للميزات التي تغطي المزيد من طلبات البحث بدلاً من تلك الميزات قيد التشغيل لطلب بحث واحد فقط. بهذه الطريقة، سيفضل النموذج محددة لاستعلام واحد أو عدة استعلامات فوق الميزات التي على جميع الاستعلامات. ويمكن أن يساعد هذا المنهج في منع ظهور أخطاء نتائج من تسريبها إلى طلبات بحث غير ذات صلة. لاحظ أن هذا عكس المزيد من النصائح التقليدية المتمثلة في إجراء المزيد من التنظيم على أعمدة الميزات بمزيد من القيم الفريدة.
  2. السماح فقط للميزات أن تكون لها أوزان موجبة. وبالتالي، ستتم إضافة أي ميزة جيدة أفضل من ميزة "غير معروفة".
  3. لا تتوفّر لك ميزات مخصّصة للمستند فقط. وهذا إصدار ممتاز من رقم 1. بالنسبة حتى إذا نجح تطبيق معين في التنزيل بغض النظر عن أنك لا ترغب في عرضه في كل مكان. ليس لديه مستند فقط والميزات الأخرى بهذه البساطة. السبب الذي يجعلك لا تريد عرض صورة محددة الأكثر شيوعًا في كل مكان بأهمية مما يتيح الوصول إلى جميع التطبيقات المطلوبة. على سبيل المثال، إذا بحث أحد الأشخاص عن "تطبيق مشاهدة الطيور"، فقد ينزلون "الطيور الغاضبة"، ولكن هذا بالتأكيد لم يكن الغرض منه. قد يؤدي عرض مثل هذا التطبيق إلى تحسين معدّل التنزيل، ولكن احتياجات المستخدم في النهاية غير راضية.

القاعدة رقم 36: تجنَّب حلقات الملاحظات باستخدام الميزات الموضعية.

يؤثر موضع المحتوى بشكل كبير في مدى احتمالية تفاعل المستخدم معها. إذا وضعت أحد التطبيقات في الموضع الأول، فسيزداد عدد مرات النقر عليه، وستكون مقتنعًا بأنه سيزيد من احتمال النقر عليه. تتمثل إحدى طرق التعامل مع لإضافة خصائص موضعية، بمعنى أن بعض الخصائص المتعلقة بمكان المحتوى في الصفحة. فأنت تتدرب على نموذجك باستخدام الخصائص الموضعية، تتعلم أهمية الترجيح، على سبيل المثال، ميزة "الموضع الأول" بكثرة. نموذجك وبالتالي يعطي أهمية أقل لعوامل أخرى للأمثلة التي تحتوي على "1stposition=true". ثم في العرض، لا تعطي أي أمثلة ميزة الموضع، أو جميعهم نفس الميزة الافتراضية، لأنك تسجّل المرشحين قبل قد قرروا ترتيب عرضها.

لاحظ أنه من المهم فصل أي ميزات موضعية إلى حد ما عن باقي النموذج بسبب عدم التماثل بين التطبيق والاختبار. إن الحصول على النموذج هو مجموع إحدى الدوال الموضعية لبقية الميزات بشكل مثالي. على سبيل المثال، لا تتجاوز ميزات الموضع مع أي ميزة للوثيقة.

القاعدة رقم 37: قياس انحراف التدريب/العرض.

هناك العديد من الأشياء التي يمكن أن تسبب الانحراف بالمعنى العام. علاوة على ذلك، يمكنك تقسيمه إلى عدة أجزاء:

  • الفرق بين الأداء في بيانات التدريب وعملية التحفظ على المعلومات البيانات. بشكل عام، سيبقى هذا الملف متوفرًا دائمًا، وليس سيئًا في بعض الأحيان.
  • الفرق بين الأداء في البيانات المحجوزة و"اليوم التالي" البيانات. مرة أخرى، هذه الميزة ستكون موجودة دائمًا. يجب عليك ضبط التسوية على لتحقيق أفضل أداء في اليوم التالي. ومع ذلك، يمكن أن يشهد الانخفاض الكبير في الأداء بين بيانات الانتظار وبيانات اليوم التالي إلى أن بعض الميزات يكون حساسًا من حيث الوقت وقد يؤدي إلى تدهور أداء النموذج.
  • الفرق بين الأداء في "اليوم التالي" البيانات المباشرة البيانات. إذا طبقت نموذجًا على مثال في بيانات التدريب ونفس الشيء مثال عند العرض، يُفترَض أن يعطيك النتيجة نفسها بالضبط (انظر القاعدة رقم 5 ). وبالتالي، ربما يشير التناقض هنا إلى خطأ هندسي.

المرحلة الثالثة لتعلُّم الآلة: بطء النمو وتحسين التحسين والنماذج المعقّدة

ستكون هناك مؤشرات معيّنة على أنّ المرحلة الثانية على وشك الانتهاء. أولاً، ستبدأ أرباحك الشهرية في التقليص. ستبدأ في الحصول على المفاضلات بين المقاييس: ستلاحظ بعض الارتفاع والبعض الآخر تنخفض في التجارب. هذا هو المكان الذي يجذب الاهتمام. نظرًا لأن المكاسب أصعب إنجازه، ينبغي أن يصبح التعلم الآلي أكثر تعقيدًا. تنبيه: هذا يحتوي على قواعد للسماء الأزرق أكثر من الأقسام السابقة. لاحظنا أنّ العديد من الفِرق سوف نمر بالأوقات السعيدة في المرحلة الأولى والثانية من التعلم الآلي. مرحلة واحدة تم الوصول إلى الثالث، ويجب على الفرق أن تجد طريقها الخاصة.

القاعدة رقم 38: لا تهدر وقتك في استخدام الميزات الجديدة إذا أصبحت الأهداف غير المتوافقة هي المشكلة.

مع هبوط القياس لديك، سيبدأ فريقك في النظر في المشكلات خارج نطاق أهداف نظام تعلُّم الآلة الحالي. بالنسبة كما ذكرنا سابقًا، إذا لم يتم تناول أهداف المنتج من خلال الخوارزميات الحالية هدفك، تحتاج إلى تغيير هدفك أو أهداف منتجك. بالنسبة مثلاً، يمكنك تحسين النقرات أو إجراءات +1 أو التنزيلات، ولكنك تجعل إطلاق قرارات تستند جزئيًا إلى مصنّفين بشريين.

القاعدة رقم 39: قرارات الإطلاق هي وكيل لأهداف المنتج على المدى الطويل.

لدى نبيلة فكرة عن الحد من الخسائر في الخدمات اللوجستية لتوقع عمليات التثبيت. لقد تضيف إحدى الميزات. تنخفض الخسارة اللوجستية. وعندما تجري تجربة مباشرة، زيادة معدّل التثبيت ومع ذلك، عندما تذهب إلى مراجعة الإطلاق يشير أحدهم إلى أن عدد المستخدمين النشطين يوميًا ينخفض بنسبة 5%. يقرر الفريق عدم إطلاق النموذج. نبيلة محبطة، ولكن الآن أن قرارات الإطلاق تعتمد على معايير متعددة، وبعضها يمكن تحسينها مباشرةً باستخدام تعلُّم الآلة.

والحقيقة هي أن العالم الحقيقي ليس زنزانات وتنانين، بل هناك "ضربة قاضية" نقطة" تحديد صحة منتجك. يتعين على الفريق استخدام هو الإحصاءات التي تجمعها في محاولة للتنبؤ بفاعلية بمدى جودة أداء النظام في المستقبل. يجب أن يهتموا بالتفاعل، المستخدمون النشطون لمدة يوم واحد (DAU)، 30 المستخدمون النشطون يوميًا والأرباح وعائد استثمار المعلِن هذه المقاييس قابلة للقياس في اختبارات A/B في حد ذاتها، ما يمثل إلا وكيلاً لمدة أطول الأهداف التالية: إرضاء المستخدمين، وزيادة عدد المستخدمين، وإرضاء الشركاء، وتحقيق الربح، ويمكنك في هذه الحالة استخدام خوادم وكيلة للحصول على خدمات مفيدة وعالية الجودة منتج وشركة مزدهرة بعد خمس سنوات من الآن.

القرارات الوحيدة السهلة المتعلقة بإطلاق المنتجات هي عندما تتحسن جميع المقاييس (أو على الأقل لا يزداد سوءًا). إذا كان لدى الفريق حرية الاختيار بين استخدام جهاز متطور وخوارزمية التعلم وإرشادي بسيط، إذا نفذ الموجّه البسيط بعمل أفضل على جميع هذه المقاييس، فيجب أن يختار الموجه. علاوة على ذلك، ترتيبًا صريحًا لجميع قيم المقاييس الممكنة. على وجه التحديد، ضع في اعتبارك السيناريوهين التاليين:

تجربة المستخدمون النشطون يوميًا الأرباح/اليوم
A مليون 4 ملايين دولار
B 2 مليون 2 مليون دولار أمريكي

إذا كان النظام الحالي هو A، فمن غير المرجح أن يقوم الفريق بالتبديل إلى النظام B. في حال حذف النظام الحالي هو B، فمن غير المرجح أن يتحول الفريق إلى A. هذا النمط تتعارض مع السلوك العقلاني؛ ومع ذلك، فإن التنبؤات بتغيير أو قد لا تنجح، وبالتالي هناك خطر كبير ينطوي على أي من التغييرين. يغطي كل مقياس بعض المخاطر التي يتعلق بها الفريق.

علاوة على ذلك، لا يوجد مقياس يغطي المشكلة النهائية للفريق، "أين منتجي خمس سنوات من الآن"؟

من ناحية أخرى، يميل الأفراد إلى تفضيل هدف واحد يمكنهم الوصول إليه. التحسين المباشر ومعظم أدوات التعلم الآلي تفضل مثل هذه البيئة. إنّ أي مهندس يطرح ميزات جديدة، يمكن أن يحصل على تدفق مستمر من عمليات الإطلاق في مثل محددة. هناك نوع من التعلم الآلي والتعلم متعدد الأهداف والذي يبدأ في معالجة هذه المشكلة. على سبيل المثال، يمكن للمرء صياغة ومشكلة الرضا المقيَّد التي لها حدود منخفضة على كل مقياس، إلى تحسين تركيبة خطية من المقاييس. ومع ذلك، حتى ذلك الحين، ليس كل من السهل صياغة المقاييس كأهداف التعلم الآلي، أي إذا كان المستند النقر عليه أو تثبيت تطبيق، وذلك لأنه تم عرض المحتوى. لَكِنْ يكون من الصعب جدًا معرفة سبب زيارة المستخدم لموقعك الإلكتروني. كيفية التنبؤ النجاح المستقبلي للموقع الإلكتروني ككل الإكمال المستنِد إلى الذكاء الاصطناعي: بنفس قدر صعوبة استخدام الكمبيوتر الرؤية أو معالجة اللغة الطبيعية.

القاعدة رقم 40: حافِظ على بساطة مجموعات الملابس.

إن النماذج الموحدة التي تأخذ الخصائص الأولية وترتب المحتوى مباشرة هي أسهل النماذج لتصحيحها وفهمها. ومع ذلك، فإن مجموعة من النماذج ( "نموذج" التي تجمع بين درجات النماذج الأخرى) يمكن أن تعمل بشكل أفضل. للحفاظ على بسيطة، فينبغي أن يكون كل نموذج مجموعة موحدة فقط تأخذ مدخلات أو نموذج أساسي يتضمّن العديد من الخصائص، وليس كليهما إذا كان لديك نماذجنا فوق النماذج الأخرى التي يتم تدريبها بشكل منفصل، ثم يتم دمجها إلى سلوك سيئ.

استخدام نموذج بسيط للجمع لا يأخذ سوى ناتج "قاعدتك" النماذج كمدخلات. وتريد أيضًا فرض خصائص على هذه النماذج الجماعية. على سبيل المثال، يجب ألا ينطبق أي زيادة في النتيجة التي ينتجها نموذج أساسي وخفض نتيجة المجموعة. ومن الأفضل أيضًا أن تكون النماذج الواردة ويمكن تفسيرها دلاليًا (على سبيل المثال، معايرتها) بحيث تتغير والنماذج الأساسية لا تربك نموذج المجموعة. أيضًا، فرض أن ف الزيادة في الاحتمالية المتنبأ بها لأي مصنِّف أساسي لا تعني خفض الاحتمالية المتوقعة للمجموعة.

القاعدة رقم 41: عندما ينخفض مستوى الأداء، يجب البحث عن مصادر معلومات جديدة نوعيًا لإضافتها بدلاً من تحسين الإشارات الحالية.

لقد أضفت بعض المعلومات الديموغرافية عن المستخدم. لقد أضفتَ بعض معلومات حول الكلمات الواردة في المستند. لقد تعرفت على القالب الاستكشاف وضبطنا التسوية. لم يسبق لك إطلاق ميزات جديدة من التحسن في المقاييس الرئيسية بنسبة 1% في بضعة فصول. فماذا أفعل الآن؟

حان الوقت لبدء إنشاء البنية الأساسية لمختلف أنواع مثل سجل المستندات التي وصل إليها هذا المستخدم في آخر يوم، أو أسبوع، أو سنة، أو بيانات من موقع مختلف. استخدام موسوعة wikidata كيانات أو شيء داخلي لشركتك (مثل الرسم البياني المعرفي). استخدام العمق التعلم. عدِّل توقعاتك بشأن عائدات التي تتوقع الاستثمار فيها، وتوسيع نطاق جهودك وفقًا لذلك كما هو الحال في أي مشروع هندسي، عليك تقييم فائدة إضافة ميزات جديدة مقابل التكلفة المتزايدة للتعقيد.

القاعدة رقم 42: لا تتوقع أن يرتبط التنوع أو التخصيص أو الصلة بالرواج كما تعتقد.

قد يعني التنوع في مجموعة من المحتوى أشياء كثيرة، نظرًا لتنوع أحد أكثر مصادر المحتوى شيوعًا. يتضمن التخصيص كل المستخدم يحصل على نتائجه الخاصة. تعني الملاءمة أن النتائج الخاصة بفئة معينة أكثر ملاءمة لهذا الاستعلام من أي استعلام آخر. وبالتالي فإن الثلاثة من ويتم تعريف هذه الخصائص على أنها مختلفة عن العادية.

والمشكلة هي أن الأمور المعتادة يصعب التغلب عليها.

تجدر الإشارة إلى أنّه إذا كان النظام يقيس النقرات، والوقت المستغرق، ومشاهدة المحتوى، وإجراءات 1+ إعادة المشاركة، وما إلى ذلك، يعني ذلك أنك تقيس مستوى شعبية المحتوى. الفِرق أحيانًا أن نتعلم نموذجًا شخصيًا يتميز بالتنوع. للتخصيص، يضيف التي تسمح للنظام بالتخصيص (تمثل بعض الميزات اهتمامات المستخدم) أو التنويع (ميزات تشير إلى ما إذا كان هذا المستند يحتوي على أي والميزات المشتركة مع المستندات الأخرى التي يتم عرضها، مثل المؤلف أو المحتوى) واكتشفت أن هذه الميزات لها ترجيح أقل (أو في بعض الأحيان علامة مختلفة) أكثر مما يتوقعون.

ولا يعني ذلك أنّ التنوّع أو التخصيص أو الصلة ليست ذات صلة. كما أشرنا في القاعدة السابقة، يمكنك إجراء المعالجة اللاحقة لزيادة أو التنوع أو الصلة. وإذا لاحظت زيادة الأهداف على المدى البعيد، يمكنك أن التنوع/الملاءمة شيء مهم، بصرف النظر عن الشعبية. يمكنك فإمّا الاستمرار في استخدام ما بعد المعالجة، أو تعديل موضوعية على أساس التنوع أو الصلة.

القاعدة رقم 43: يميل أصدقاؤك إلى التشابه بين المنتجات المختلفة. وغالبًا ما تكون اهتماماتك مختلفة.

حصلت الفرق في Google على الكثير من الزخم نتيجة اتخاذ نموذج للتنبؤ قُرب الاتصال في أحد المنتجات، وجعله يعمل بشكل جيد مع منتج آخر. أصدقائك هم على طبيعتهم. ومن ناحية أخرى، شاهدتُ فِرقًا متعددة مع ميزات التخصيص عبر تقسيمات المنتجات. نعم، يبدو كما ينبغي أن يعمل. في الوقت الحالي، لا يبدو الأمر كذلك. ما يكون في بعض الأحيان استخدام البيانات الأولية من أحد المواقع للتنبؤ بالسلوك على موقع آخر. كذلك، ضع في اعتبارك أنه حتى معرفة أن المستخدم لديه سجل على موقع آخر يمكن المساعدة. على سبيل المثال، قد يكون وجود نشاط المستخدم على منتجين دلاليًا في حد ذاته.

هناك العديد من المستندات حول التعلم الآلي في Google وخارجها.

شكر وتقدير

بفضل "ديفيد ويستبروك" و"بيتر برانت" و"صمويل يونغ" و"تشينيو تشاو" و"لي وي" "ميكاليس بوتامياس" و"إيفان روزن" و"باري روزنبرغ" و"كريستين روبسون" و"جيمس باين" تال شاكيد، توشار شاندرا، مصطفى إسبير، جيريميا هارمسن، كونستانتينوس كاتسيابيس، غلين أندرسون، دان داكوورث، شيشير بيرميوال، غال إليدان، سو لين وو وجايهوي ليو وفرناندو بيريرا وهريشيكيش آرادي للعديد من التصحيحات، واقتراحات وأمثلة مفيدة لهذا المستند. أيضًا، بفضل كريستين "ليفيفر" و"سودها باسو" و"كريس بيرغ" الذين ساعدوا نسخة سابقة أي تقييم الأخطاء أو السهو أو (تلهث!) آراء غير شائعة هي آرائي.

الملحق

هناك مراجع متنوعة لمنتجات Google في هذا المستند. إلى توفير المزيد من السياق، فأقدم وصفًا موجزًا للأمثلة الأكثر شيوعًا أدناه.

نظرة عامة حول YouTube

YouTube هي خدمة لبث الفيديو المباشر. صفحة "اقتراحات أخرى" في YouTube وصفحة YouTube الرئيسية تستخدم فِرق الصفحات نماذج تعلُّم الآلة لترتيب الفيديوهات المقترَحة. اقتراحات "اقتراحات أخرى" الفيديوهات لمشاهدتها بعد الفيديو الذي يتم تشغيله حاليًا، بينما تقترح "الصفحة الرئيسية" مقاطع الفيديو للمستخدمين الذين يتصفحون الصفحة الرئيسية.

نظرة عامة على Google Play

يتضمّن Google Play العديد من النماذج التي تحل مجموعة من المشاكل. البحث في Play وPlay يستخدم كل من تطبيقَي "الاقتراحات المخصّصة" على الصفحة الرئيسية" و"التطبيقات التي ثبَّتها المستخدمون أيضًا" التعلم الآلي.

نظرة عامة على Google Plus

استخدم Google Plus التعلم الآلي في مجموعة من المواقف: ترتيب المشاركات في "ساحة المشاركات" من المشاركات التي يشاهدها المستخدم، مع ترتيب "المشاركات الساخنة" المشاركات (المشاركات التي تحظى بشعبية كبيرة الآن)، وترتيب الأشخاص الذين تعرفهم، وما إلى ذلك. +Google جميع الحسابات الشخصية في عام 2019 وحلّت محلها خدمة Google Currents لحسابات الأعمال في 6 يوليو 2020.