أفضل الممارسات المتعلّقة بهندسة الذكاء الاصطناعي
Martin Zinkevich
يهدف هذا المستند إلى مساعدة الأشخاص الذين لديهم معرفة أساسية بتكنولوجيا تعلُّم الآلة في الاستفادة من أفضل ممارسات Google في هذا المجال. ويقدّم أسلوبًا لتعلُّم الآلة، مشابهًا لدليل أسلوب C++ من Google والمراجع الشائعة الأخرى للبرمجة العملية. إذا كنت قد درست دورة تدريبية في تعلُّم الآلة أو أنشأت نموذج تعلُّم آلة أو عملت عليه، ستكون لديك الخلفية اللازمة لقراءة هذا المستند.
المصطلحات
ستظهر المصطلحات التالية بشكل متكرّر في مناقشتنا المتعلّقة بالفعالية لتعلُّم الآلة:
- العنصر: هو العنصر الذي تريد إجراء توقّعات بشأنه. على سبيل المثال، قد تكون الحالة هي صفحة ويب تريد تصنيفها على أنّها "تتناول موضوع القطط" أو "لا تتناول موضوع القطط".
- التصنيف: إجابة لمهمّة توقّعات، إمّا الإجابة التي يقدّمها نظام تعلُّم الآلة، أو الإجابة الصحيحة المقدّمة في بيانات التدريب. على سبيل المثال، قد يكون تصنيف صفحة الويب هو "لمحة عن القطط".
- السمة: خاصية مثيل مستخدَمة في مهمة توقّع على سبيل المثال، قد تحتوي صفحة ويب على ميزة "تحتوي على الكلمة "قطة"".
- عمود الميزة: مجموعة من الميزات ذات الصلة، مثل مجموعة كل البلدان المحتمل أن يقطنها المستخدِمون. قد يتضمّن المثال سمة واحدة أو أكثر مضمّنة في عمود سمة. "عمود الخصائص" هو مصطلح خاص بـ Google. يُشار إلى عمود العناصر باسم "مساحة الاسم" في نظام VW (في Yahoo/Microsoft)، أو حقل.
- مثال: مثيل (مع ميزاته) وتصنيف
- النموذج: تمثيل إحصائي لمهمة توقّعات. يتم تدريب نموذج على أمثلة، ثم استخدام النموذج لوضع التوقّعات.
- المقياس: رقم يهمّك. قد يتم تحسينها مباشرةً أو لا.
- الهدف: مقياس تحاول الخوارزمية تحسينه.
- المسار: البنية الأساسية المحيطة بخوارزمية تعلُّم الآلة. تشمل هذه العملية جمع البيانات من الواجهة الأمامية ووضعها في ملفات بيانات التدريب، وتدريب نموذج واحد أو أكثر، وتصدير النماذج إلى مرحلة الإنتاج.
- نسبة النقر إلى الظهور: النسبة المئوية للزوّار الذين ينقرون على رابط في إعلان على صفحة ويب.
نظرة عامة
لإنشاء منتجات رائعة:
استخدم تقنيات تعلُّم الآلة بصفتك المهندس العظيم الذي أنت عليه، وليس بصفتك مختصًا عظيمًا في تعلُّم الآلة.
إنّ معظم المشاكل التي ستواجهها هي في الواقع مشاكل هندسية. حتى مع توفُّر جميع موارد خبير تعلُّم آلي بارز، تأتي معظم المكاسب من الميزات الرائعة، وليس من خوارزميات تعلُّم الآلة الرائعة. وبالتالي، فإنّ الخطوات الأساسية التي يجب اتّباعها هي:
- تأكَّد من أنّ مسار الإحالة الناجحة متين من البداية إلى النهاية.
- ابدأ بهدف معقول.
- أضِف ميزات منطقية بطريقة بسيطة.
- تأكَّد من أنّ مسار الإحالة الناجحة يبقى ثابتًا.
وسيؤدي هذا النهج إلى تحقيق نتائج جيدة على المدى الطويل. لا تخرج عن هذا النهج إلا عندما لا تتوفّر لديك حيل بسيطة أخرى لمساعدتك في تحقيق المزيد من النجاح. تؤدي إضافة التعقيد إلى إبطاء الإصدارات المستقبلية.
بعد استنفاد الحيل البسيطة، قد يكون تعلُّم الآلة المتطور هو الخيار المناسب لتحسين أداء موقعك الإلكتروني. اطّلِع على قسم مشاريع تعلُّم الآلة في المرحلة الثالثة.
تم ترتيب هذا المستند على النحو التالي:
- من المفترض أن يساعدك الجزء الأول في معرفة ما إذا كان الوقت مناسبًا لإنشاء نظام تعلُّم آلي.
- يتناول الجزء الثاني نشر مسار الإحالة الناجحة الأول.
- يتناول الجزء الثالث عملية الإطلاق والتكرار مع إضافة ميزات جديدة إلى مسار الإحالة الناجحة، وكيفية تقييم النماذج، وتأثير التزييف في عملية التدريب والتقديم.
- يتناول الجزء الأخير الإجراءات التي يجب اتّخاذها عند الوصول إلى مرحلة مستقرة.
- بعد ذلك، تتوفّر قائمة بالأعمال ذات الصلة وملحق يتضمّن بعضًا من أساسيات الأنظمة المستخدَمة عادةً كأمثلة في هذا المستند.
قبل ظهور تقنية تعلُّم الآلة
القاعدة الأولى: لا تخف من إطلاق منتج بدون تكنولوجيا تعلُّم الآلة.
تعلُّم الآلة رائع، ولكنه يتطلّب بيانات. من الناحية النظرية، يمكنك أخذ بيانات من مشكلة مختلفة ثم تعديل النموذج لمنتج جديد، ولكن من المرجّح أن يحقّق ذلك أداءً أقل من الإجراءات الاستكشافية الأساسية. إذا كنت تعتقد أنّه سيمنحك تعلُّم الآلة تحسينًا بنسبة% 100، سيساعدك منهج الاستدلال في تحقيق تحسين بنسبة %50 من هذا الطريق.
على سبيل المثال، إذا كنت تقيِّم التطبيقات في أحد أسواق التطبيقات، يمكنك استخدام معدل التثبيت أو عدد عمليات التثبيت كإجراءات استقرائية. إذا رصدت محتوًى غير مرغوب فيه، استبعد الناشرين الذين أرسلوا محتوًى غير مرغوب فيه من قبل. لا تخاف من استخدام ميزة تعديل المحتوى من قِبل محرِّر بشري. إذا كنت بحاجة إلى ترتيب جهات الاتصال، اجعل جهات الاتصال المستخدَمة مؤخرًا في أعلى القائمة (أو يمكنك ترتيبها أبجديًا). إذا لم يكن تعلُّم الآلة مطلوبًا تمامًا لمنتجك، لا تستخدِمه إلى أن تتوفّر لديك بيانات.
القاعدة الثانية: أولاً، عليك تصميم المقاييس وتنفيذها.
قبل تحديد الإجراءات التي سينفّذها نظام التعلم الآلي، يمكنك تتبُّع أكبر عدد ممكن من العوامل في نظامك الحالي. يُرجى إجراء ذلك للأسباب التالية:
- من الأسهل الحصول على الإذن من مستخدمي النظام في وقت مبكر.
- إذا كنت تعتقد أنّ هناك مشكلة محتملة في المستقبل، من المفضّل الحصول على البيانات السابقة الآن.
- إذا صمّمت نظامك مع وضع أدوات قياس الأداء في الاعتبار، ستتحسّن الأمور بالنسبة إليك في المستقبل. وعلى وجه التحديد، لا تريد استخدام grep للبحث عن سلاسل في السجلات لإعداد المقاييس.
- ستلاحظ التغييرات التي تم إجراؤها والميزات التي بقيت كما هي. على سبيل المثال، لنفترض أنّك تريد تحسين المستخدِمين النشطين ليوم واحد مباشرةً. ومع ذلك، أثناء عمليات التلاعب الأولى في النظام، قد تلاحظ أنّه لا تؤدي التغييرات الدرامية في تجربة المستخدم إلى تغيير ملحوظ في هذا المقياس.
يقيس فريق Google Plus عدد مرات القراءة، مرّات إعادة المشاركة لكل قراءة، وعدد عمليات إبداء الإعجاب لكل قراءة، والتعليقات لكل قراءة، والتعليقات لكل مستخدم، ومرّات إعادة المشاركة لكل مستخدم، وما إلى ذلك، ويستخدم هذه المقاييس لحساب مدى رواج المشاركة في وقت عرضها. يُرجى العلم أيضًا أنّه من المهمّ استخدام إطار عمل للتجربة يمكنك من خلاله تجميع المستخدِمين في مجموعات وتجميع الإحصاءات حسب التجربة. راجِع القاعدة رقم 12.
من خلال اتّخاذ نهج أكثر مرونة في جمع المقاييس، يمكنك الحصول على صورة أوسع عن نظامك. هل لاحظت مشكلة؟ أضِف مقياسًا لتتبُّعه. هل لديك بعض التغييرات الكميّة في الإصدار الأخير؟ أضِف مقياسًا لتتبُّعه.
القاعدة رقم 3: اختَر تعلُّم الآلة بدلاً من إحدى الطرق الاستقرائية المعقّدة.
يمكن أن تؤدي طريقة استكشافية بسيطة إلى طرح منتجك. إنّ الأسلوب الإرشادي المعقّد هو غير قابل للصيانة. بعد الحصول على البيانات وفكرة أساسية عما تحاول إنجازه، انتقِل إلى تعلُّم الآلة. كما هو الحال في معظم مهام هندسة البرامج، عليك تعديل منهجك باستمرار، سواء كان إرشاديًا أو نموذج تعلُّم آلي، وستلاحظ أنّه من الأسهل تعديل النموذج التعلّمي الآلي والحفاظ عليه (راجِع القاعدة رقم 16).
المرحلة الأولى من تعلُّم الآلة: مسار الإحالة الناجحة الأول
ركِّز على بنية النظام الأساسية لمسار الإحالة الناجحة الأول. على الرغم من أنّه من الممتع التفكير في كل مشاريع تعلُّم الآلة الخيالية التي ستنفذها، سيكون من الصعب معرفة ما يحدث إذا لم تثق أولاً في مسار المعالجة.
القاعدة 4: يجب أن يكون النموذج الأول بسيطًا وأن تكون البنية الأساسية صحيحة.
يقدّم النموذج الأول أكبر دفعة لمنتجك، لذا ليس من الضروري أن يكون مبهرجًا. ولكن ستواجه مشاكل في البنية الأساسية أكثر مما تتوقع. قبل أن يتمكّن أي شخص من استخدام نظام تعلُّم الآلة الجديد والمميّز، عليك تحديد ما يلي:
- كيفية الحصول على أمثلة لخوارزمية التعلّم
- تقييم أولي لما يعنيه "جيد" و "سيئ" بالنسبة إلى نظامك
- كيفية دمج النموذج في تطبيقك يمكنك تطبيق النموذج مباشرةً، أو إجراء العمليات الحسابية للنموذج مسبقًا على الأمثلة بلا إنترنت وتخزين النتائج في جدول. على سبيل المثال، قد تحتاج إلى تصنيف صفحات الويب مسبقًا وتخزين النتائج في جدول، ولكن قد تحتاج إلى تصنيف رسائل المحادثة مباشرةً.
من خلال اختيار ميزات بسيطة، يمكنك التأكّد من ما يلي بسهولة أكبر:
- تصل الميزات إلى خوارزمية التعلّم بشكل صحيح.
- يتعلّم النموذج أوزانًا معقولة.
- تصل الميزات إلى النموذج في الخادم بشكل صحيح.
بعد أن يكون لديك نظام ينفّذ هذه الإجراءات الثلاث بشكل موثوق، تكون قد أكملت معظم العمل. يوفّر لك النموذج البسيط مقاييس أساسية و سلوكًا أساسيًا يمكنك استخدامه لاختبار نماذج أكثر تعقيدًا. تهدف بعض الفِرق إلى إجراء عملية إطلاق "محايدة" الأولى: وهي عملية إطلاق تُقلّل بشكل صريح من أولوية مكاسب التعلم الآلي لتجنّب تشتيت الانتباه.
القاعدة رقم 5: اختبار البنية الأساسية بشكل مستقل عن التعلم الآلي
تأكَّد من أنّ البنية الأساسية قابلة للاختبار، ومن أنّ أجزاء التعلم في النظام محفوظة في وحدات حتى تتمكّن من اختبار كل ما يحيط بها. وهذه القيود تحديدًا هي كالآتي:
- اختبِر إدخال البيانات إلى الخوارزمية. تأكَّد من تعبئة أعمدة العناصر التي ينبغي تعبئتها. تفتيش الإدخال في خوارزمية التدريب يدويًا، حيثما تسمح الخصوصية بذلك إذا أمكن، تحقّق من الإحصاءات في مسار الإحالة الناجحة مقارنةً بالإحصاءات للبيانات نفسها التي تمت معالجتها في مكان آخر.
- اختبِر الحصول على نماذج من خوارزمية التدريب. تأكَّد من أنّ ال نموذج في بيئة التدريب يحقّق النتيجة نفسها التي يحقّقها ال نموذج في بيئة العرض (راجِع القاعدة رقم 37).
يتضمن تعلُّم الآلة عنصرًا من عدم القابلية للتنبؤ، لذا تأكَّد من أنّه لديك اختبارات للرمز البرمجي لإنشاء أمثلة في التدريب والعرض، و أنّه يمكنك تحميل نموذج ثابت واستخدامه أثناء العرض. من المهم أيضًا معرفة كيفية قراءة بياناتك: اطّلِع على نصائح عملية لتحليل مجموعات البيانات الكبيرة والمعقدة.
القاعدة رقم 6: يجب الانتباه إلى البيانات التي يتم إسقاطها عند نسخ مسارات الإحالة الناجحة.
غالبًا ما ننشئ مسارًا من خلال نسخ مسار حالي (أي البرمجة من أجل النجاة )، ويحذف المسار القديم البيانات التي نحتاجها للمسار الجديد. على سبيل المثال، تزيل ميزة "المحتوى الرائج" في Google Plus المشاركات القديمة (لأنّها تحاول ترتيب المشاركات الجديدة). تم скопّي مسار الإرسال هذا ليكون مخصّصًا لخدمة Google Plus Stream، حيث تظلّ المشاركات القديمة مفيدة، ولكنّ مسار الإرسال كان لا يزال يحذف المشاركات القديمة. هناك أسلوب شائع آخر هو تسجيل البيانات التي شاهدها المستخدم فقط. وبالتالي، تكون هذه البيانات غير مفيدة إذا أردنا وضع نموذج لسبب عدم رؤية المستخدم لمشاركة معيّنة، لأنّه تم حذف جميع الأمثلة السلبية. حدثت مشكلة مشابهة في Play. أثناء العمل على "صفحة تطبيقات Play الرئيسية"، تم إنشاء مسار جديد يحتوي أيضًا على مثالين من الصفحة المقصودة لتطبيق "ألعاب Play" بدون أي ميزة لإزالة التباس مصدر كل مثال.
القاعدة رقم 7: تحويل الأساليب الاستقرائية إلى ميزات أو التعامل معها خارجيًا
عادةً ما تكون المشاكل التي يحاول تعلُّم الآلة حلّها ليست جديدة تمامًا. هناك نظام حالي للترتيب أو التصنيف أو أي مشكلة تحاول حلّها. وهذا يعني أنّ هناك مجموعة من القواعد والإرشادات. يمكن أن تحقّق لك هذه الأساليب الاستقرائية نفسها تحسينًا عند تعديلها باستخدام تعلُّم الآلة. يجب استخراج أي معلومات متوفّرة في الأساليب الاستقرائية لسببَين. أولاً، سيكون الانتقال إلى نظام تعلُّم الآلة أكثر سلاسة. ثانيًا، تحتوي هذه القواعد عادةً على الكثير من الحدس حول النظام الذي لا تريد التخلص منه. هناك أربع methods طرق يمكنك من خلالها استخدام إرشادات ارشادية حالية:
- معالجة مسبقة باستخدام المنهج الإرشادي إذا كانت الميزة رائعة بشكل لا يصدق، يمكنك استخدام هذا الخيار. على سبيل المثال، إذا سبق أن تم إدراج المُرسِل في القائمة السوداء في أحد فلاتر المحتوى غير المرغوب فيه، لا تحاول إعادة تعلُّم معنى "القائمة السوداء". حظر الرسالة وتُعدّ هذه الطريقة الأكثر منطقية في مهام التحديد المبرمَج المبني على أساس dichotomies.
- أنشئ ميزة. من الرائع إنشاء ميزة مباشرةً من الأسلوب الاستقرائي. على سبيل المثال، إذا كنت تستخدِم طريقة استقرائية لاحتساب نتيجة ملاءمة لنتيجة طلب بحث، يمكنك تضمين النتيجة كقيمة لسمة. في وقت لاحق، قد تحتاج إلى استخدام تقنيات تعلُّم الآلة لتعديل القيمة (على سبيل المثال، تحويل القيمة إلى إحدى القيم المحدودة المفصَّلة أو دمجها مع ميزات أخرى)، ولكن ابدأ باستخدام القيمة الأساسية التي ينتج عنها الأسلوب التجريبي.
- استخراج المعلومات الأولية للإشارات الإرشادية إذا كان هناك أسلوب تجريبي للتطبيقات يجمع بين عدد عمليات التثبيت وعدد الأحرف في النص ويوم الأسبوع، ننصحك بتقسيم هذه الأجزاء، وإدخال هذه المدخلات في عملية التعلّم بشكل منفصل. تنطبق هنا بعض الأساليب التي تنطبق على المجموعات (راجِع القاعدة رقم 40).
- عدِّل التصنيف. يمكنك استخدام هذا الخيار عندما تعتقد أنّ الأسلوب الاستقرائي يرصد معلومات غير مضمّنة حاليًا في التصنيف. على سبيل المثال، إذا كنت تحاول زيادة عدد عمليات التنزيل إلى أقصى حد، ولكنك تريد أيضًا محتوى عالي الجودة، قد يكون الحل هو ضرب التصنيف في متوسط عدد النجوم التي حصل عليها التطبيق. هناك الكثير من المساحة للتحسين هنا. اطّلِع على "هدفك الأول".
يجب الانتباه إلى التعقيد الإضافي عند استخدام الأساليب الاستقرائية في أحد أنظمة التعلم الآلي. يمكن أن يساعد استخدام الأساليب الاستقرائية القديمة في خوارزمية تعلُّم الآلة الجديدة في تحقيق انتقال سلس، ولكن عليك التفكير في ما إذا كانت هناك طريقة أبسط لتحقيق التأثير نفسه.
المراقبة
بشكل عام، اتّبِع ممارسات جيدة بشأن التنبيهات، مثل جعل التنبيهات قابلة للتنفيذ وتوفير صفحة لوحة بيانات.
القاعدة رقم 8: معرفة متطلبات حداثة بيانات نظامك
ما هو مقدار الانخفاض في الأداء إذا كان لديك نموذج مرّ عليه يوم واحد؟ هل تم نشره قبل أسبوع؟ هل عمره ربع سنة؟ يمكن أن تساعدك هذه المعلومات في فهم أولوياتك للمراقبة. إذا لاحظت انخفاضًا كبيرًا في جودة المنتج في حال عدم تعديل النموذج ليوم واحد، من المنطقي أن يراقبه مهندس باستمرار. تتعامل معظم أنظمة عرض الإعلانات مع إعلانات جديدة يوميًا، ويجب تعديلها يوميًا. على سبيل المثال، إذا لم يتم تعديل نموذج الذكاء الاصطناعي لميزة بحث Google Play، يمكن أن يكون له أثر سلبي في أقل من شهر. لا تتضمّن بعض نماذج ميزة "المحتوى الرائج" في Google Plus معرّفًا للمشاركة في النموذج، لذلك لا يمكنهم تصدير هذه النماذج بشكل متكرّر. ويتم تعديل النماذج الأخرى التي تحتوي على معرّفات المشاركات بمعدل أكبر بكثير. يُرجى العلم أيضًا أنّ حداثة البيانات يمكن أن تتغيّر بمرور الوقت، خاصةً عند إضافة أعمدة ميزات أو إزالتها من النموذج.
القاعدة رقم 9: رصد المشاكل قبل تصدير النماذج
تتضمّن العديد من أنظمة تعلُّم الآلة مرحلة يتم فيها تصدير النموذج لبدء عرضه. إذا كانت هناك مشكلة في نموذج تم تصديره، تكون هذه مشكلة تتعلّق بالمستخدمين.
عليك إجراء عمليات التحقّق من الصحة قبل تصدير النموذج مباشرةً. وعلى وجه التحديد، تأكَّد من أنّ أداء النموذج معقول على البيانات المحجوزة. أو إذا كانت لديك مخاوف متبقّية بشأن البيانات، لا تصدِّر نموذجًا. تتحقّق العديد من الفِرق التي تُنشئ النماذج باستمرار من المساحة تحت منحنى ROC (أو AUC) قبل التصدير. تتطلّب المشاكل المتعلّقة بالنماذج التي لم يتم تصديرها إرسال تنبيه عبر البريد الإلكتروني، ولكن قد تتطلّب المشاكل في النموذج الموجّه للمستخدمين إنشاء صفحة. لذا، من الأفضل الانتظار والتأكّد من ذلك قبل التأثير في المستخدمين.
القاعدة رقم 10: الانتباه إلى حالات الفشل الصامت
تحدث هذه المشكلة في أنظمة تعلُّم الآلة أكثر من أنواع الأنظمة الأخرى. لنفترض أنّه تم إيقاف تعديل جدول معيّن يتمّ ضمّه. سيتكيف نظام التعلم الآلي، وسيظل الأداء جيدًا بشكل معقول، وسينخفض تدريجيًا. في بعض الأحيان، قد تعثر على جدول بيانات قديمة منذ شهور، وتعمل عملية إعادة تحميل بسيطة على تحسين الأداء أكثر من أي عملية إطلاق أخرى في ذلك الربع. قد تتغيّر تغطية الميزة بسبب تغييرات في التنفيذ: على سبيل المثال، يمكن تعبئة عمود الميزة في% 90 من الأمثلة، ثمّ انخفاضه فجأة إلى% 60 من المثال. كان تطبيق Play يعرض جدولاً قديمًا لمدة 6 أشهر، وحقّق تعديل جدول البيانات وحده زيادة بنسبة% 2 في معدّل التثبيت. إذا كنت تتتبّع إحصاءات البيانات، بالإضافة إلى فحص البيانات يدويًا في بعض الأحيان، يمكنك تقليل هذه الأنواع من حالات عدم اكتمال عمليات النقل.
القاعدة 11: منح مالكين أعمدة العناصر ووثائقها
إذا كان النظام كبيرًا وكان هناك العديد من أعمدة العناصر، عليك معرفة مَن أنشأ أو يحافظ على كل عمود عنصر. إذا لاحظت أنّ الشخص الذي يعرف عمود السمة بصفته جيدًا سيغادر، تأكَّد من أنّ هناك شخصًا لديه تلك المعلومات. على الرغم من أنّ العديد من أعمدة العناصر لها أسماء وصفية، من الجيد أن يكون لديك وصف أكثر تفصيلاً للعنصر ومكانه ومصدره وكيفية توقع الاستفادة منه.
هدفك الأول
لديك العديد من المقاييس أو القياسات حول النظام الذي يهمّك، ولكنّ خوارزمية تعلُّم الآلة ستتطلّب غالبًا هدفًا واحدًا، وهو رقم "تحاول" الخوارزمية تحسينه. أريد هنا التمييز بين الأهداف والمقاييس: المقياس هو أي رقم يُبلغ عنه نظامك، وقد يكون مهمًا أو غير مهم. يُرجى الاطّلاع أيضًا على القاعدة رقم 2.
القاعدة 12: لا تبالغ في التفكير في الهدف الذي تختاره لتحسينه مباشرةً.
أنت تريد تحقيق الربح وإسعاد المستخدمين وجعل العالم مكانًا أفضل. هناك الكثير من المقاييس التي تهمّك، ويجب قياس كلّها (راجِع القاعدة رقم 2). ومع ذلك، في وقت مبكر من عملية تعلُّم الآلة، ستلاحظ ارتفاعًا في جميع هذه العوامل، حتى تلك التي لا تُجري تحسينًا لها مباشرةً. على سبيل المثال، لنفترض أنّك مهتم بمعرفة عدد النقرات والوقت الذي يقضيه المستخدِمون على الموقع الإلكتروني. إذا أجريت تحسينًا لزيادة عدد النقرات، من المرجّح أن تلاحظ زيادةً في الوقت المستغرَق.
لذا، عليك الحفاظ على البساطة وعدم التفكير كثيرًا في موازنة المقاييس المختلفة عندما يكون بإمكانك زيادة جميع المقاييس بسهولة. ومع ذلك، لا تأخذ هذه القاعدة بعيدًا جدًا: لا تخلط بين هدفك وحالة النظام النهائية (اطّلِع على القاعدة رقم 39). إذا لاحظت أنّك تزيد المقياس الذي تم تحسينه مباشرةً، ولكنّك قرّرت عدم إطلاقه، قد يكون مطلوبًا إجراء بعض المراجعات الموضوعية.
القاعدة رقم 13: اختَر مقياسًا بسيطًا وقابلاً للتتبّع وقابلًا للإسناد لهدفك الأول.
في أغلب الأحيان، لا تعرف الهدف الحقيقي. قد تعتقد أنّك تعرفه، ولكن بعد أن تنظر إلى البيانات وتُجري تحليلًا مقارنًا لنظامك القديم ونظام الذكاء الاصطناعي الجديد، تدرك أنّك بحاجة إلى تعديل الهدف. بالإضافة إلى ذلك، لا يمكن لأعضاء الفريق المختلفين في كثير من الأحيان الاتفاق على الهدف الحقيقي. يجب أن يكون هدف تعلُّم الآلة شيئًا سهل القياس ويكون بديلاً للهدف "الحقيقي". في الواقع، لا يكون هناك غالبًا هدف "حقيقي" (راجِع القاعدة رقم 39). لذا، تدرَّب على هدف الذكاء الاصطناعي البسيط، وفكِّر في إضافة "طبقة سياسة" فوقه تسمح لك بإضافة منطق إضافي (نأمل أن يكون منطقًا بسيطًا جدًا) لإجراء الترتيب النهائي.
إنّ أسهل ما يمكن وضع نموذج له هو سلوك المستخدِم الذي يتم رصده مباشرةً ويمكن تحديد مصدره على أنّه أحد إجراءات النظام:
- هل تم النقر على هذا الرابط المدرَج؟
- هل تم تنزيل هذا العنصر المصنّف؟
- هل تم إعادة توجيه هذا العنصر المصنّف أو الرد عليه أو إرساله بالبريد الإلكتروني؟
- هل تم تقييم هذا العنصر المصنّف؟
- هل تم وضع علامة على هذا العنصر المعروض كمحتوى غير مرغوب فيه/محتوى إباحي/محتوى مسيء؟
تجنَّب وضع نماذج للتأثيرات غير المباشرة في البداية:
- هل عاد المستخدم في اليوم التالي؟
- كم من الوقت استغرق المستخدم في زيارة الموقع الإلكتروني؟
- ما هو عدد المستخدمين النشطين يوميًا؟
تُعدّ التأثيرات غير المباشرة مقاييس رائعة، ويمكن استخدامها أثناء اختبار أ/ب واتخاذ قرارات الإطلاق.
أخيرًا، لا تحاول استخدام تكنولوجيا تعلُّم الآلة لمعرفة ما يلي:
- هل المستخدم سعيد باستخدام المنتج؟
- هل المستخدم راضٍ عن التجربة؟
- هل يساهم المنتج في تحسين رفاهية المستخدم بشكل عام؟
- كيف سيؤثّر ذلك في الحالة العامة للشركة؟
هذه العوامل كلها مهمة، ولكن من الصعب جدًا قياسها. بدلاً من ذلك، استخدِم الخوادم الوكيلة: إذا كان المستخدم راضيًا، سيبقى على الموقع الإلكتروني لفترة أطول. وإذا كان العميل راضيًا، سيعود غدًا. في ما يتعلّق بالرفاهية و صحة الشركة، يجب أن يستند الحكم البشري إلى أي هدف يتم تعلُّمه آليًا إلى طبيعة المنتج الذي تبيعه و خطة نشاطك التجاري.
القاعدة 14: البدء بنموذج يمكن تفسيره يسهّل تصحيح الأخطاء.
إنّ الانحدار الخطي والانحدار اللوجستي وانحدار بوسيّن ينبع مباشرةً من نموذج احتمالي. يمكن تفسير كل توقّع على أنّه احتمالية أو قيمة متوقّعة. وهذا يسهّل تصحيح الأخطاء فيها مقارنةً بالنماذج التي تستخدم أهدافًا (خسارة الصفر أو واحد، وخسارات الفاصل المختلفة، وما إلى ذلك) التي تحاول تحسين دقة التصنيف أو أداء الترتيب مباشرةً. على سبيل المثال، إذا كانت الاحتمالات في مرحلة التدريب تختلف عن الاحتمالات المتوقّعة في المقارنة بين النموذجَين أو من خلال فحص نظام الإنتاج، قد يشير هذا الاختلاف إلى وجود مشكلة.
على سبيل المثال، في الانحدار الخطي أو اللوجستي أو انحدار بوسي، تتوفر مجموعات فرعية من البيانات حيث يساوي متوسّط التوقّع المتوقّع متوسّط التصنيف (يتم تحسين 1- اللحظة أو تحسينها فقط). وهذا صحيح بافتراض عدم استخدامك للتسويف وأنّ خوارزميتك قد تقاربت، وهو صحيح بشكلٍ aproximado بشكل عام. إذا كانت لديك سمة إما 1 أو 0 لكل مثال، يتم ضبط مجموعة الأمثلة الثلاثة التي تكون فيها هذه السمة 1. بالإضافة إلى ذلك، إذا كان لديك سمة تساوي 1 لكل مثال، تتم معالجة مجموعة جميع الأمثلة.
باستخدام النماذج البسيطة، يكون من الأسهل التعامل مع حلقات الملاحظات والآراء (راجِع القاعدة رقم 36). غالبًا ما نستخدم هذه التوقّعات القائمة على الاحتمالية لاتّخاذ قرار: على سبيل المثال، ترتيب المحتوى بالاستناد إلى القيمة المتوقّعة المتزايدة (أي احتمالية النقر/التنزيل/غير ذلك). ومع ذلك، عند اختيار النموذج الذي تريد استخدامه، تذكَّر أنّه يُرجى التركيز على القرار أكثر من احتمالية البيانات وفقًا للنموذج (راجِع القاعدة رقم 27).
القاعدة رقم 15: فصل فلترة المحتوى غير المرغوب فيه عن ترتيب الجودة في طبقة السياسة
إنّ ترتيب الجودة هو فنّ رفيع، ولكن فلترة المحتوى غير المرغوب فيه هي حرب. ستصبح الإشارات التي تستخدمها لتحديد المشاركات العالية الجودة واضحة للمستخدمين الذين يستخدمون نظامك، وسيعدّلون مشاركاتهم للحصول على هذه الخصائص. وبالتالي، يجب أن يركز ترتيب الجودة على ترتيب المحتوى الذي يتم نشره بنيّة حسنة. يجب عدم استبعاد نموذج تعلُّم ترتيب الجودة من أجل ترتيب المحتوى غير المرغوب فيه بترتيب عالٍ. وبالمثل، يجب التعامل مع المحتوى "الجريء" بشكل منفصل عن "ترتيب الجودة". تختلف فلترة الرسائل غير المرغوب فيها عن ذلك. عليك توقّع أنّه سيتم تغيير الميزات التي تحتاج إلى إنشائها باستمرار. في أغلب الأحيان، ستكون هناك قواعد واضحة تضعها في النظام (إذا حصلت المشاركة على أكثر من ثلاثة أصوات تفيد بأنّها غير مرغوب فيها، لا تستردّها، وما إلى ذلك). يجب تعديل أي نموذج تم تعلُّمه يوميًا، إن لم يكن بشكل أسرع. وستلعب سمعة صانع المحتوى دورًا كبيرًا.
ويجب دمج نتائج هذين النظامَين على مستوى معيّن. يُرجى مراعاة أنّه من المحتمل أن تكون فلترة المحتوى غير المرغوب فيه في نتائج البحث أكثر صرامةً مقارنةً بفلترة المحتوى غير المرغوب فيه في رسائل البريد الإلكتروني. ومن الممارسات الشائعة أيضًا إزالة المحتوى غير المرغوب فيه من بيانات التدريب الخاصة بفئة الجودة.
المرحلة الثانية من تعلُّم الآلة: هندسة الخصائص
في المرحلة الأولى من دورة حياة نظام تعلُّم الآلة، تتمثل المسألتان المهتَمتان في نقل بيانات التدريب إلى نظام التعلّم وإعداد أيّ مقاييس ذات صلة وإنشاء بنية أساسية لعرض البيانات. بعد أن يصبح لديك نظام يعمل بشكل كامل مع أدوات اختبار الوحدات والنظام، ستبدأ مرحلة II.
في المرحلة الثانية، هناك الكثير من الفرص السهلة. هناك مجموعة متنوعة من الميزات الواضحة التي يمكن إضافتها إلى النظام. وبالتالي، تتضمن الخطوة الثانية من تعلُّم الآلة استخدام أكبر عدد ممكن من الميزات ودمجها بطرق سهلة. خلال هذه المرحلة، يجب أن تظلّ جميع المقاييس في تصاعد. سيكون هناك الكثير من عمليات الإطلاق، وهذا هو الوقت المناسب لتجنيد الكثير من المهندسين الذين يمكنهم دمج كل البيانات التي تحتاجها لإنشاء نظام تعلُّم رائع.
القاعدة رقم 16: التخطيط للإطلاق والتكرار
لا تتوقّع أن يكون النموذج الذي تعمل عليه الآن هو النموذج الأخير الذي ستطلقه، أو أنّك ستتوقف عن إطلاق النماذج. وبالتالي، عليك التفكير في ما إذا كانت التعقيدات التي تضيفها في عملية الإطلاق هذه ستبطئ عمليات الإطلاق المستقبلية. أطلقت العديد من الفِرق نموذجًا كل ربع سنة أو أكثر لعدة سنوات. هناك ثلاثة أسباب أساسية لإطلاق طُرز جديدة:
- أنت بصدد طرح ميزات جديدة.
- يتم ضبط عملية التنظيم ودمج الميزات القديمة بطرق جديدة.
- أنت بصدد ضبط الهدف.
بغض النظر عن ذلك، قد يكون من المفيد الاهتمام بالنموذج: يمكن أن يساعد مراجعة البيانات التي يتمّ إدخالها في المثال في العثور على إشارات جديدة بالإضافة إلى إشارات قديمة ومتعطّلة. لذلك، أثناء إنشاء النموذج، فكِّر في مدى سهولة إضافة الميزات أو إزالتها أو إعادة دمجها. فكِّر في مدى سهولة إنشاء نسخة جديدة من مسار الإحالة الناجحة والتأكّد من صحتها. فكِّر في ما إذا كان من الممكن تشغيل نسختَين أو ثلاث نُسخ بشكل موازٍ. أخيرًا، لا داعي للقلق بشأن ما إذا كانت الميزة 16 من 35 ستظهر في هذا الإصدار من مسار الإصدار. ستتلقّى المبلغ في الربع القادم.
القاعدة رقم 17: ابدأ بالميزات التي تم رصدها وتسجيلها مباشرةً بدلاً من الميزات المستندة إلى التعلّم.
قد تكون هذه نقطة مثيرة للجدل، ولكنها تتجنّب الكثير من المزالق. أولاً، لنوضّح ما هي الميزة المستندة إلى التعلّم. الميزة المستندة إلى التعلّم هي ميزة يتم إنشاؤها إما من خلال نظام خارجي (مثل نظام التجميع بدون إشراف) أو من خلال التعلّم الآلي نفسه (مثلاً من خلال نموذج مستند إلى العوامل أو التعلّم العميق). يمكن أن يكون كلاهما مفيدًا، ولكن يمكن أن يتضمّنا الكثير من المشاكل، لذا يجب عدم تضمينهما في النموذج الأول.
إذا كنت تستخدِم نظامًا خارجيًا لإنشاء ميزة، تذكَّر أنّ النظام الخارجي له هدفه الخاص. قد يكون هدف النظام الخارجي مرتبطًا بهدفك الحالي بدرجة ضعيفة فقط. إذا أخذت لقطة خارجية للنظام، قد تصبح قديمة. إذا عدّلت الميزات من النظام الخارجي، قد تتغيّر المعاني. إذا كنت تستخدم نظامًا خارجيًا لتوفير ميزة، عليك الانتباه إلى أنّ هذا النهج يتطلّب قدرًا كبيرًا من الحذر.
إنّ المشكلة الأساسية في النماذج المقسّمة والنماذج العميقة هي أنّها غير محدّدة. وبالتالي، لا يمكن ضمان أنّه يمكن تقريب الحل الأمثل أو العثور عليه، ويمكن أن تكون قيم الحد الأدنى المحلي التي يتم العثور عليها في كل تكرار مختلفة. ويجعل هذا الاختلاف من الصعب الحكم على ما إذا كان تأثير التغيير في نظامك ذا مغزى أو عشوائيًا. من خلال إنشاء نموذج بدون ميزات متقدّمة، يمكنك الحصول على أداء أساسي ممتاز. بعد تحقيق هذا المقياس الأساسي، يمكنك تجربة طرق أكثر غموضًا.
القاعدة رقم 18: استكشِف ميزات المحتوى التي تُطبَّق بشكل عام على جميع السياقات.
غالبًا ما يكون نظام تعلُّم الآلة جزءًا صغيرًا من صورة أكبر بكثير. على سبيل المثال، إذا كنت تتخيل مشاركة قد يتم استخدامها في ميزة "المحتوى الرائج"، سيضيف العديد من المستخدمين علامة "أعجبني" أو يعيد مشاركتها أو يعلق عليها قبل عرضها في ميزة "المحتوى الرائج". إذا قدّمت هذه الإحصاءات إلى التعلّم الآلي، يمكنه الترويج للمشاركات الجديدة التي لا تتوفّر لها بيانات في السياق الذي يتم تحسينه. يمكن أن تستخدِم ميزة "اقتراحات أخرى" في YouTube عدد المشاهدات أو مشاهدات المتابعة (عدد مرّات مشاهدة فيديو بعد مشاهدة فيديو آخر) من نتائج البحث في YouTube. يمكنك أيضًا استخدام تقييمات صريحة من المستخدمين. أخيرًا، إذا كان لديك إجراء مستخدِم تستخدمه كعنوان، يمكن أن يكون ظهور هذا الإجراء في المستند ضمن سياق مختلف ميزة رائعة. تتيح لك كل هذه الميزات إضافة محتوى جديد إلى السياق. يُرجى العِلم أنّ هذا الأمر لا يتعلق بالتخصيص: عليك أولاً معرفة ما إذا كان أحد الأشخاص يحب المحتوى في هذا السياق، ثم معرفة من يحبّه أكثر أو أقل.
القاعدة 19: استخدِم ميزات محدّدة جدًا متى أمكن.
من خلال الاطّلاع على الكثير من البيانات، من الأسهل تعلُّم ملايين الميزات البسيطة بدلاً من بضع ميزات معقدة. لا توفّر معرّفات المستندات التي يتم استرجاعها و طلبات البحث التي تمّت تحسينها بشكل عام، ولكنّها تُحسِّن ترتيبك مع تصنيفاتك في طلبات البحث الرئيسية. وبالتالي، لا تخف من مجموعات السمات التي تنطبق فيها كل سمة على جزء صغير جدًا من بياناتك، ولكن تتجاوز التغطية الإجمالية %90. يمكنك استخدام ميزة التسويف لإزالة السمات التي تنطبق على عدد قليل جدًا من الأمثلة.
القاعدة 20: دمج الميزات الحالية وتعديلها لإنشاء ميزات جديدة بطرق يسهل على المستخدمين فهمها
تتوفّر مجموعة متنوّعة من الطرق لدمج الميزات وتعديلها. تتيح لك أنظمة تعلُّم الآلة، مثل TensorFlow، معالجة بياناتك مسبقًا من خلال عمليات التحويل. وهما الأسلوبان الأكثر شيوعًا هما "التقسيم إلى فئات" و "التقاطعات".
تتكون عملية التحليل إلى مجموعات من أخذ سمة مستمرة وإنشاء العديد من السمات المنفصلة منها. ضع في الاعتبار سمة مستمرة مثل العمر. يمكنك إنشاء سمة تكون 1 عندما يكون العمر أقل من 18 عامًا، وسمة أخرى تكون 1 عندما يكون العمر بين 18 و35 عامًا، وما إلى ذلك. لا تبالغ في التفكير في حدود هذه المخطّطات البيانية: ستمنحك الشرائح الأساسية معظم التأثير.
تجمع عمليات التقاطع بين عمودَي عناصر أو أكثر. عمود الميزة، في مصطلحات TensorFlow، هو مجموعة من الميزات المتجانسة (مثل {male, female}، {US, Canada, Mexico}، وما إلى ذلك). التقاطع هو عمود ميزة جديد يتضمّن ميزات، على سبيل المثال، {male, female} × {US,Canada, Mexico}. سيحتوي عمود الميزات الجديد على الميزة (ذكر، كندا). إذا كنت تستخدم TensorFlow وتطلب منه إنشاء هذا التقاطع نيابةً عنك، ستظهر هذه الميزة (ذكر، كندا) في الأمثلة التي تمثّل الكنديين الذكور. يُرجى العِلم أنّه يتطلّب الأمر كميات هائلة من البيانات لتدريب النماذج التي تتضمّن تقاطعات بين ثلاثة أو أربعة أو أكثر من أعمدة السمات الأساسية.
قد تؤدي عمليات التقاطع التي تؤدي إلى إنشاء أعمدة ميزات كبيرة جدًا إلى التكيّف المفرط. على سبيل المثال، تخيّل أنّك تُجري نوعًا من عمليات البحث، وأنّ لديك عمودًا للعناصر يتضمّن كلمات في طلب البحث، وأنّ لديك عمودًا للعناصر يتضمّن كلمات في المستند. يمكنك دمج هذه العناصر مع علامة +، ولكن سينتهي بك الأمر بالعديد من الميزات (راجِع القاعدة رقم 21).
عند العمل مع النص، هناك خياران بديلان. إنّ أبسط العمليات الحسابية هو منتج نقطة. إنّ ناتج الضرب النقطي في أبسط أشكاله يحسب ببساطة عدد الكلمات المشتركة بين الطلب والوثيقة. ويمكن بعد ذلك تقسيم هذه الميزة. هناك نهج آخر وهو التقاطع: وبالتالي، سيكون لدينا سمة متوفّرة إذا كانت الكلمة "حصان صغير" متوفّرة في كلّ من المستند والعبارة البحثية، وسمة أخرى متوفّرة إذا كانت الكلمة "ال" متوفّرة في كلّ من المستند والعبارة البحثية.
القاعدة رقم 21: يتناسب عدد أوزان السمات التي يمكنك تعلّمها في نموذج خطي تقريبًا مع كمية البيانات التي تمتلكها.
هناك نتائج رائعة لنظرية التعلّم الإحصائي بشأن المستوى المناسب من التعقيد للنموذج، ولكن هذه القاعدة هي أساسًا كل ما تحتاج إلى معرفته. لقد أجريتُ محادثات مع أشخاص شكّكوا في أنّه يمكن تعلُّم أيّ شيء من ألف مثال، أو أنّك ستحتاج في أي وقت إلى أكثر من مليون مثال، لأنّهم يلتزمون بطريقة معيّنة للتعلّم. يكمن المفتاح في توسيع نطاق التعلّم بما يتناسب مع حجم بياناتك:
- إذا كنت تعمل على نظام ترتيب نتائج البحث، وكان هناك ملايين الكلمات المختلفة في المستندات وطلبات البحث وكان لديك 1000 مثال مصنّف، عليك استخدام منتج نقطي بين ميزات المستندات وطلبات البحث وTF-IDF ونصف دزينة من الميزات الأخرى التي تم إنشاؤها بشكل كبير من قِبل البشر. 1, 000 مثال، و12 ميزة
- إذا كان لديك مليون مثال، يمكنك تقاطع أعمدة المستند والطلب الميزات، باستخدام تقنيات التنظيم وربما اختيار الميزات. سيمنحك ذلك ملايين الميزات، ولكن باستخدام ميزة "التسوية"، سيكون لديك عدد أقل. عشرة ملايين مثال، أو ربما مائة ألف سمة
- إذا كان لديك مليارات أو مئات مليارات الأمثلة، يمكنك تقاطع أعمدة السمات مع الرموز المميّزة للمستندات والطلبات، باستخدام ميزة تحديد السمات والتسويف. سيكون لديك مليار مثال و10 مليون ميزة. نادرًا ما تقدّم نظرية التعلّم الإحصائي حدودًا صارمة، ولكنها تقدّم إرشادات رائعة لنقطة البداية.
في النهاية، يمكنك استخدام القاعدة رقم 28 لتحديد الميزات التي تريد استخدامها.
القاعدة رقم 22: إزالة الميزات التي لم تعُد تستخدمها
تؤدي الميزات غير المستخدَمة إلى تراكم الديون الفنية. إذا تبيّن لك أنّك لا تستخدم إحدى الميزة، وأنّ دمجها مع ميزات أخرى لا يحقّق النتيجة المرجوة، يمكنك إزالة الميزة من البنية الأساسية. تريد إبقاء البنية الأساسية نظيفة لكي تتمكّن من اختبار الميزات الأكثر فاعلية في أسرع وقت ممكن. ويمكن لأي مستخدم إعادة إضافة الميزة في أي وقت عند الحاجة.
يجب مراعاة التغطية عند اختيار الميزات التي تريد إضافتها أو الاحتفاظ بها. كم عدد الأمثلة التي تشملها الميزة؟ على سبيل المثال، إذا كانت لديك بعض ميزات التخصيص، ولكن 8% فقط من المستخدمين لديهم أي ميزات تخصيص، لن تكون هذه الميزات فعّالة جدًا.
وفي الوقت نفسه، قد تُحقّق بعض الميزات أداءً أفضل من المتوقع. على سبيل المثال، إذا كانت لديك سمة تغطي% 1 فقط من البيانات، ولكن% 90 من الأمثلة التي تتضمّن السمة إيجابية، ستكون هذه سمة رائعة لإضافتها.
تحليل النظام من قِبل البشر
قبل الانتقال إلى المرحلة الثالثة من تعلُّم الآلة، من المهم التركيز على شيء لا يتم تدريسه في أي صف من صفوف تعلُّم الآلة: كيفية الاطّلاع على نموذج حالي وتحسينه. يعتمد هذا الأسلوب على الفن أكثر من علم التسويق، ومع ذلك، هناك العديد من الأنماط المضادة التي يساعد في تجنّبها.
القاعدة رقم 23: أنت لست مستخدمًا نهائيًا عاديًا.
هذه هي أسهل طريقة يمكن أن يتأثّر بها الفريق. على الرغم من أنّ هناك العديد من المزايا لاستخدام نموذج أولي داخل فريقك (يُعرف ذلك باسم "النموذج الأولي للاستخدام الداخلي") واستخدام نموذج أولي داخل شركتك (يُعرف ذلك باسم "النموذج الأولي للاستخدام الداخلي")، يجب أن ينظر الموظفون إلى ما إذا كان الأداء صحيحًا. على الرغم من أنّه يجب عدم استخدام أي تغيير يُظهر بوضوح أنّه سيء، يجب اختبار أي تغيير يبدو قريبًا من مرحلة الإنتاج بشكل معقول بشكلٍ إضافي، إما من خلال دفع مبالغ مالية لأشخاص عاديين للإجابة عن أسئلة على منصة استقطاب الموارد من الجمهور، أو من خلال تجربة مباشرة على مستخدمين حقيقيين.
هناك سببان لذلك. السبب الأول هو أنّك قريب جدًا من الرمز البرمجي. قد تبحث عن جانب معيّن من المشاركات، أو قد تكون مرتبطًا عاطفيًا بشكل كبير (مثل التحيز التأكيدي). السبب الثاني هو أنّ وقتك مهم جدًا. فكِّر في تكلفة تسعة مهندسين يشاركون في اجتماع مدّته ساعة واحدة، وفي عدد تصنيفات المستخدمين المتعاقدين التي يتم شراؤها على منصّة الاستعانة بالجمهور.
إذا كنت تريد الحصول على ملاحظات المستخدمين، استخدِم منهجيات تجربتهم. أنشئ شخصيات المستخدمين (يتوفر وصف واحد في كتاب بيل بوكستون Sketching User Experiences) في مرحلة مبكرة من العملية، ثم أجرِ اختبار قابلية الاستخدام (يتوفر وصف واحد في كتاب ستيفن كروغ Don't Make Me Think) لاحقًا. تشمل شخصيات المستخدِمين إنشاء مستخدِم افتراضي. على سبيل المثال، إذا كان فريقك يتألف من رجال فقط، قد يكون من المفيد تصميم شخصية مستخدِمة أنثى تبلغ من العمر 35 عامًا (مكتملة مع ميزات المستخدِم)، والاطّلاع على النتائج التي تنشئها بدلاً من 10 نتائج لصنّاع المحتوى الذكور الذين تتراوح أعمارهم بين 25 و40 عامًا. يمكن أن يمنحك أيضًا الاطّلاع على ردود فعل مستخدمين حقيقيين بشأن موقعك الإلكتروني (على الجهاز أو عن بُعد) في اختبار قابلية الاستخدام وجهة نظر جديدة.
القاعدة رقم 24: قياس الفرق بين النماذج
من أسهل القياسات وأكثرها فائدة في بعض الأحيان التي يمكنك إجراؤها قبل أن ينظر أي مستخدم إلى النموذج الجديد هو احتساب مدى اختلاف النتيجة الجديدة عن النتيجة في قناة الإصدار العلني. على سبيل المثال، إذا كانت لديك مشكلة في الترتيب، شغِّل كلا النموذجَين على عيّنة من طلبات البحث في النظام بأكمله، وراقِب حجم الفرق المتماثل للنتائج (المحسوب حسب ترتيبه ). إذا كان الفرق صغيرًا جدًا، يمكنك معرفة ذلك بدون إجراء تجربة، لأنّه لن يحدث تغيير كبير. إذا كان الفرق كبيرًا جدًا، عليك التأكّد من أنّ التغيير جيد. يمكن أن يساعدك الاطّلاع على طلبات البحث التي يكون فيها الفرق التام مرتفعًا في فهم نوع التغيير بشكلٍ نوعي. تأكَّد من أنّ النظام ثابت. تأكَّد من أنّ النموذج يُظهر فرقًا متماثلًا منخفضًا (صفرًا في العادة) عند مقارنته بنفسه.
القاعدة رقم 25: عند اختيار النماذج، يُفضّل الأداء الوظيفي على القدرات التنبؤية.
قد يحاول النموذج توقّع نسبة النقر إلى الظهور. في النهاية، يبقى السؤال العميق هو ما الذي ستفعله بالتوقعات التي تحصل عليها. إذا كنت تستخدمه لترتيب المستندات، تكون جودة الترتيب النهائي أكثر أهمية من التوقّع نفسه. إذا كنت تتوقّع احتمال أن يكون المستند غير مرغوب فيه، ثم حددت الحدّ الأدنى لما يتم حظره، ستكون دقة ما يُسمح بتمرير البيانات من خلاله أكثر أهمية. في معظم الأحيان، يجب أن يكون هذان الأمران متطابقَين: وعندما لا يكونان متطابقَين، من المرجّح أن يكون ذلك بسبب تحقيق مكاسب صغيرة. وبالتالي، إذا كان هناك تغيير يؤدي إلى تحسين خسارة السجلّ ولكنّه يُضعف أداء النظام، ابحث عن ميزة أخرى. عندما يبدأ هذا الإجراء بالحدوث بشكل متكرّر، حان وقت إعادة النظر في هدف النموذج.
القاعدة رقم 26: البحث عن أنماط في الأخطاء المقاسة وإنشاء ميزات جديدة
لنفترض أنّك رأيت مثالاً تدريبيًا اعتبره النموذج "خطأ". في مهمة التصنيف، يمكن أن يكون هذا الخطأ موجبًا خاطئًا أو سلبيًا خاطئًا. في مهمة الترتيب، يمكن أن يكون الخطأ عبارة عن زوج تم فيه ترتيب العنصر الموجب على أنّه أقل مرتبة من العنصر السالب. النقطة الأكثر أهمية هي أنّ هذا مثال على أنّ نظام التعلم الآلي يدرك أنّه أخطأ ويريد إصلاحه إذا أتيحت له الفرصة. إذا منحت النموذج ميزة تتيح له تصحيح الخطأ، سيحاول النموذج استخدامها.
من ناحية أخرى، إذا حاولت إنشاء ميزة استنادًا إلى أمثلة لا يراها النظام على أنّها أخطاء، سيتم تجاهل الميزة. على سبيل المثال، لنفترض أنّ أحد الأشخاص يبحث عن "ألعاب مجانية" في "بحث تطبيقات Play". لنفترض أنّ إحدى أهم النتائج هي تطبيق مزحة أقل صلة. لذا، يمكنك إنشاء ميزة لأجل "التطبيقات المزحة". ومع ذلك، إذا كنت تسعى إلى زيادة عدد عمليات التثبيت إلى أقصى حد، ومثّبت المستخدمون تطبيقًا مزعجًا عند البحث عن ألعاب مجانية، لن تحقّق ميزة "التطبيقات المزيفة" التأثير المطلوب.
بعد الحصول على أمثلة أخطأ فيها النموذج، ابحث عن المؤشرات التي تتعلّق بموضوعات خارج مجموعة الميزات الحالية. على سبيل المثال، إذا بدا أنّ النظام يصنّف المشاركات الأطول كثقل، أضِف طول المشاركة. لا تكن أدقّ من اللازم بشأن الميزات التي تضيفها. إذا كنت تريد إضافة طول المشاركة، لا تحاول تخمين ما يمثّله الطول، ما عليك سوى إضافة 12 ميزة والسماح للنموذج بتحديد ما يجب فعله بها (راجِع القاعدة رقم 21). وهذه هي الطريقة الأسهل للحصول على ما تريده.
القاعدة رقم 27: حاوِل قياس السلوك غير المرغوب فيه الذي تم رصده.
سيبدأ بعض أعضاء فريقك في الشعور بالضيق بسبب خصائص النظام التي لا تعجبهم والتي لا تُسجّلها وظيفة الخسارة الحالية. في هذه المرحلة، يجب أن يبذلوا قصارى جهدهم لتحويل شكواهم إلى أرقام قوية. على سبيل المثال، إذا اعتقدوا أنّه يتم عرض عدد كبير جدًا من "التطبيقات المزيّفة" في "بحث Play"، يمكنهم الاستعانة بمقيّمين بشريين لتحديد هذه التطبيقات. (يمكنك استخدام البيانات التي يصنّفها الأشخاص في هذه الحالة لأنّ جزءًا صغيرًا نسبيًا من طلبات البحث يمثّل جزءًا كبيرًا من عدد الزيارات). إذا كانت مشاكلك قابلة للقياس، يمكنك البدء في استخدامها كسمات أو أهداف أو مقاييس. القاعدة العامة هي "القياس أولاً، والتحسين ثانيًا".
القاعدة رقم 28: يُرجى العِلم أنّ السلوك نفسه على المدى القصير لا يعني السلوك نفسه على المدى الطويل.
لنفترض أنّ لديك نظامًا جديدًا يفحص كلّ doc_id وexact_query، ثمّ يحسب احتمالية النقر لكلّ مستند لكلّ طلب بحث. وتلاحظ أنّ سلوكه مطابق تقريبًا لسلوك نظامك الحالي في كلّ من الإعلانات المعروضة جنبًا إلى جنب واختبارات أ/ب، لذا تبدأ استخدامه نظرًا لبساطته. ومع ذلك، لاحظت عدم عرض أي تطبيقات جديدة. لماذا؟ بما أنّه لا يعرض نظامك مستندًا إلا استنادًا إلى سجلّه الخاص بهذا الطلب، ليس هناك طريقة لمعرفة أنّه يجب عرض مستند جديد.
إنّ الطريقة الوحيدة لفهم آلية عمل هذا النظام على المدى الطويل هي من خلال تدريبه على البيانات التي تم الحصول عليها عندما كان النموذج نشطًا فقط. هذا الأمر صعب للغاية.
انحراف في عرض البيانات التدريبية
إنّ الانحراف في التدريب والعرض هو الفرق بين الأداء أثناء التدريب والأداء أثناء العرض. يمكن أن يرجع سبب هذا الانحراف إلى ما يلي:
- هناك تناقض بين كيفية معالجة البيانات في مسارات التدريب والعرض.
- تغيير في البيانات بين وقت التدريب ووقت العرض
- حلقة ملاحظات بين النموذج والخوارزمية
لقد لاحظنا في أنظمة تعلُّم الآلة في Google التي يتم استخدامها في مرحلة الإنتاج تحيزًا في مرحلة التدريب مقارنةً بمرحلة العرض يؤثّر سلبًا في الأداء. إنّ أفضل حلّ هو مراقبته بشكل صريح كي لا تؤدي تغييرات النظام والبيانات إلى حدوث انحراف غير ملحوظ.
القاعدة رقم 29: إنّ أفضل طريقة للتأكّد من أنّك تُجري عملية التدريب بالطريقة نفسها التي تُجري بها عملية العرض هي حفظ مجموعة الميزات المستخدَمة في وقت العرض، ثم توجيه هذه الميزات إلى سجلّ لاستخدامها في وقت التدريب.
حتى إذا لم تتمكّن من إجراء ذلك لكل مثال، يمكنك إجراء ذلك لعدد صغير من النماذج، بحيث تتمكّن من التحقّق من الاتساق بين العرض والتدريب (راجِع القاعدة رقم 37). وقد فوجئت الفِرق التي أجرت هذا القياس في Google أحيانًا بالنتائج. تم تحويل صفحة YouTube الرئيسية إلى استخدام ميزات التسجيل في وقت العرض مع تحسينات مهمة في الجودة وتخفيض في تعقيد الرموز البرمجية، وتعمل العديد من الفِرق حاليًا على تحويل البنية الأساسية.
القاعدة رقم 30: لا تتخلّص من البيانات التي تمّت تحليل عيّنتها حسب الأهمية بشكل عشوائي.
عندما يكون لديك الكثير من البيانات، قد تميل إلى استخدام الملفات من 1 إلى 12 وتجاهل الملفات من 13 إلى 99. هذا خطأ. على الرغم من أنّه يمكن حذف البيانات التي لم يتم عرضها أبدًا للمستخدم، إلا أنّ التقييم حسب الأهمية هو الأفضل بالنسبة إلى البيانات الأخرى. تعني "أهمية الترجيح" أنّه إذا قرّرت استخدام المثال "س" مع احتمالية% 30، يمكنك منحه وزنًا قدره 10/3. مع ترجيح الأهمية، تظلّ جميع سمات المعايرة التي تمت مناقشتها في القاعدة رقم 14 سارية.
القاعدة رقم 31: احرِص على عدم دمج البيانات من جدول في وقت التدريب ووقت العرض، لأنّ ذلك قد يؤدي إلى تغيير البيانات في الجدول.
لنفترض أنّك تُدمج أرقام تعريف المستندات مع جدول يحتوي على ميزات لهذه المستندات (مثل عدد التعليقات أو النقرات). بين وقت التدريب ووقت العرض، قد يتم تغيير الميزات في الجدول. وبالتالي، قد يختلف تنبؤ النموذج للمستند نفسه بين مرحلة التدريب ومرحلة العرض. إنّ أسهل طريقة لتجنّب هذا النوع من المشاكل هي تسجيل الميزات في وقت العرض (راجِع القاعدة رقم 32 ). إذا كان الجدول يتغيّر ببطء فقط، يمكنك أيضًا أخذ لقطة شاشة للجدول كل ساعة أو يوميًا للحصول على بيانات قريبة من الواقع بشكل معقول. يُرجى العِلم أنّ هذا الإجراء لا يؤدي إلى حلّ المشكلة بالكامل.
القاعدة رقم 32: إعادة استخدام الرمز البرمجي بين مسار التدريب ومسار العرض كلما أمكن
تختلف المعالجة على دفعات عن المعالجة على الإنترنت. في المعالجة على الإنترنت، يجب معالجة كل طلب عند وصوله (على سبيل المثال، يجب إجراء عملية بحث منفصلة لكل طلب بحث)، في حين أنّه في المعالجة المجمّعة، يمكنك دمج المهام (على سبيل المثال، إجراء عملية دمج). في وقت العرض، يتم إجراء المعالجة على الإنترنت، في حين أنّ التدريب هو مهمة معالجة على دفعات. ومع ذلك، هناك بعض الإجراءات التي يمكنك اتّخاذها لإعادة استخدام الرمز. على سبيل المثال، يمكنك إنشاء عنصر خاص بنظامك حيث يمكن تخزين نتيجة أي طلبات بحث أو عمليات دمج بطريقة يسهل على المستخدم قراءتها، ويمكن اختبار الأخطاء بسهولة. بعد ذلك، بعد جمع كل المعلومات، أثناء العرض أو التدريب، يمكنك تنفيذ طريقة شائعة للربط بين العنصر القابل للقراءة بالعين والذي يكون خاصًا بنظامك، وأي تنسيق يتوقعه نظام تعلُّم الآلة. ويؤدي ذلك إلى إزالة مصدر الانحراف في عملية التدريب. ونتيجةً لذلك، تجنَّب استخدام لغتَي برمجة مختلفتَين بين مرحلتَي التدريب وعرض الإعلانات. سيؤدي هذا القرار إلى جعل مشاركة الرمز البرمجي شبه مستحيلة.
القاعدة رقم 33: إذا أنشأت نموذجًا استنادًا إلى البيانات حتى 5 كانون الثاني (يناير)، اختبِر النموذج على البيانات من 6 كانون الثاني (يناير) فصاعدًا.
بشكل عام، يمكنك قياس أداء النموذج استنادًا إلى البيانات التي تم جمعها بعد البيانات التي تم تدريب النموذج عليها، لأنّ ذلك يعكس بشكل أفضل ما سيفعله نظامك في مرحلة الإنتاج. إذا أنشأت نموذجًا استنادًا إلى البيانات حتى 5 كانون الثاني (يناير)، اختبِر النموذج على البيانات من 6 كانون الثاني (يناير). من المتوقّع أنّه لن يكون الأداء جيدًا بالقدر نفسه في البيانات الجديدة، ولكن من المفترض ألا يكون أسوأ بكثير. بما أنّه قد تكون هناك تأثيرات يومية، قد لا تتمكّن من توقّع متوسّط نسبة النقر إلى الظهور أو معدل الإحالات الناجحة، ولكن يجب أن يكون المساحة تحت المنحنى، التي تمثّل احتمال منح المثال الإيجابي نتيجة أعلى من المثال السالب، قريبة بشكل معقول.
القاعدة رقم 34: في التصنيف الثنائي للتصفية (مثل رصد الرسائل غير المرغوب فيها أو تحديد الرسائل الإلكترونية المثيرة للاهتمام)، عليك تقديم تضحيات صغيرة على المدى القصير في الأداء للحصول على بيانات نظيفة جدًا.
في مهمة الفلترة، لا يتم عرض الأمثلة التي تم وضع علامة عليها على أنّها سلبية للمستخدم. لنفترض أنّ لديك فلترًا يحظر% 75 من الأمثلة السلبية أثناء العرض. قد تميل إلى استخراج بيانات تدريب إضافية من الحالات التي تظهر للمستخدمين. على سبيل المثال، إذا وضع مستخدم علامة على رسالة إلكترونية على أنّها غير مرغوب فيها وسمح الفلتر بمرورها، قد تحتاج إلى الاستفادة من ذلك.
ولكنّ هذا النهج يؤدي إلى تحيز في أخذ العينات. يمكنك جمع بيانات أنظف إذا بدلاً من ذلك، أثناء عرض الإعلانات، صنّفت% 1 من جميع الزيارات على أنّها "مُستبعدة"، وأرسلت جميع الأمثلة المُستبعدة إلى المستخدِم. يحظر الفلتر الآن 74% على الأقل من المثال السلبية. يمكن أن تصبح هذه الأمثلة المحجوزة بيانات التدريب.
يُرجى العِلم أنّه إذا كان الفلتر يحظر% 95 من الأمثلة السلبية أو أكثر، يصبح هذا الأسلوب أقل فعالية. ومع ذلك، إذا كنت تريد قياس أداء عرض الإعلانات، يمكنك إنشاء عيّنة أصغر حجمًا (مثلاً 0.1% أو 0.001%). عشرة آلاف مثال كافية لتقدير الأداء بدقة كبيرة.
القاعدة رقم 35: احرِص على تجنُّب المشاكل المتأثّرة بالانحرافات المتأصلة في الترتيب.
عند تبديل خوارزمية الترتيب بشكل جذري بما يكفي لظهور نتائج مختلفة، تكون قد غيّرت بشكل فعّال البيانات التي ستظهر للخوارزمية في المستقبل. سيظهر هذا النوع من الانحراف، وعليك تصميم نموذجك استنادًا إليه. هناك عدة طرق مختلفة. هذه الأساليب هي كل الطرق التي تفضّل البيانات التي سبق أن شاهدها النموذج.
- أن يكون لديك انتظام أعلى في الميزات التي تغطي المزيد من طلبات البحث مقارنةً بالميزات التي تكون مفعّلة لطلب بحث واحد فقط بهذه الطريقة، سيفضّل النموذج الميزات الخاصة بطلب بحث واحد أو بضع طلبات بحث على الميزات التي تُعمّم على جميع طلبات البحث. يمكن أن يساعد هذا النهج في منع تسرّب نتائج شائعة جدًا إلى طلبات بحث غير ذات صلة. يُرجى العِلم أنّ هذا الإجراء عكس الاقتراحات التقليدية التي تقضي بزيادة التحكّم في أعمدة الميزات التي تحتوي على قيم فريدة أكثر.
- لا تسمح إلا للسمات بقيم أوزان موجبة. وبالتالي، ستكون أيّ ميزة جيدة أفضل من ميزة "غير معروفة".
- لا تتضمّن ميزات مستندات فقط. هذه نسخة مكثّفة من الطريقة الأولى. على سبيل المثال، حتى إذا كان تطبيق معيّن رائجًا للتنزيل بغض النظر عن محتوى الطلب، لا تريد عرضه في كل مكان. وبما أنّه لا تتوفّر ميزات متعلّقة بالوثائق فقط، يبقى الأمر بسيطًا. إنّ سبب عدم عرض تطبيق محدد ولكنه رائج في كل مكان يرتبط بأهمية إتاحة الوصول إلى كل التطبيقات المطلوبة. على سبيل المثال، إذا بحث أحد المستخدمين عن "تطبيق لمراقبة الطيور"، قد ينزّل "طيور غاضب"، ولكنّه بالتأكيد لم يكن هذا هو قصده. قد يؤدي عرض تطبيق كهذا إلى تحسين معدّل التنزيل، ولكنه لن يلبّي احتياجات المستخدم في النهاية.
القاعدة رقم 36: تجنَّب حلقات الملاحظات والآراء في الميزات الموضعية.
يؤثر موضع المحتوى بشكل كبير في احتمالية تفاعل المستخدمين معه. إذا وضعت تطبيقًا في الموضع الأول، سيتم النقر عليه بشكلٍ متكرّر، وستجد أنّه من المرجّح أن يتم النقر عليه. إحدى طرق التعامل مع هذا الأمر هي إضافة ميزات مستندة إلى الموضع، أي ميزات عن موضع المحتوى في الصفحة. يمكنك تدريب نموذجك باستخدام السمات المتعلّقة بالموقع، ويقوم النموذج بدوره بتعلم كيفية منح وزن كبير للسمة "الموقع الأول" مثلاً. وبالتالي، يمنح نموذجك أهمية أقل للعوامل الأخرى في الأمثلة التي تحتوي على "1stposition=true". بعد ذلك، لا تمنح أيّ نُسخ من النموذج السمة المتعلّقة بالموضع، أو تمنحها جميعًا السمة التلقائية نفسها، لأنّك تُقيّم النماذج المرشّحة قبل تحديد الترتيب الذي سيتم عرضهم به.
يُرجى العلم أنّه من المهم إبقاء أيّ سمات موضعية منفصلة إلى حدّ ما عن باقي أجزاء النموذج بسبب هذا الاختلاف بين التدريب والاختبار. من الأفضل أن يكون النموذج مجموعًا لدالة للعناصر الموضعية ودالة لباقي العناصر. على سبيل المثال، لا تُدمج العناصر الموضعية مع أي عنصر مستند.
القاعدة رقم 37: قياس الانحراف في التدريب/العرض
هناك عدة عوامل يمكن أن تؤدي إلى حدوث انحراف بالمعنى العام. بالإضافة إلى ذلك، يمكنك تقسيمها إلى عدة أجزاء:
- الفرق بين الأداء في بيانات التدريب وبيانات اختبار الأداء بشكل عام، سيظلّ هذا الاختلاف قائمًا دائمًا، وقد لا يكون سلبيًا في كل الأوقات.
- الفرق بين الأداء في بيانات المجموعة الاختبارية وبيانات "اليوم التالي" مرة أخرى، سيظل هذا الخيار متاحًا دائمًا. يجب ضبط عملية التنظيم لتحسين الأداء في اليوم التالي إلى أقصى حد. ومع ذلك، قد تشير الانخفاضات الكبيرة في الأداء بين بيانات مجموعة التحكّم وبيانات اليوم التالي إلى أنّ بعض الميزات حساسة للوقت وقد تؤدي إلى خفض أداء النموذج.
- الفرق بين الأداء في بيانات "اليوم التالي" والبيانات الحية إذا طبّقت نموذجًا على مثال في بيانات التدريب والمثال نفسه عند العرض، من المفترض أن يمنحك النتيجة نفسها تمامًا (راجِع القاعدة رقم 5). وبالتالي، يشير التناقض هنا على الأرجح إلى خطأ هندسي.
المرحلة الثالثة من تعلُّم الآلة: التطوّر البطيء وتحسين الأداء والتصاميم المعقدة
ستظهر مؤشرات معيّنة تدل على اقتراب انتهاء المرحلة الثانية. أولاً، ستبدأ أرباحك الشهرية في الانخفاض. ستبدأ في ملاحظة اختلافات بين المقاييس: ستلاحظ ارتفاع بعض المقاييس وانخفاض أخرى في بعض التجارب. إليك التفاصيل المثيرة. وبما أنّه من الصعب تحقيق المكاسب، يجب أن تصبح تقنية تعلُّم الآلة أكثر تعقيدًا. ملاحظة: يتضمّن هذا القسم المزيد من القواعد غير المسبوقة مقارنةً بالأقسام السابقة. لقد شهدنا العديد من الفِرق تحقّق منافع كبيرة من المرحلة الأولى والمرحلة الثانية من تعلُّم الآلة. بعد الوصول إلى المرحلة III، على الفِرق تحديد مسارها الخاص.
القاعدة رقم 38: لا تضيع وقتك في الميزات الجديدة إذا أصبحت الأهداف غير المتوافقة هي المشكلة.
مع استقرار قياساتك، سيبدأ فريقك في النظر في المشاكل التي تقع خارج نطاق أهداف نظام تعلُّم الآلة الحالي. كما ذكرنا سابقًا، إذا لم تكن أهداف المنتج مشمولة في الهدف القائم على الخوارزميات، عليك تغيير هدفك أو أهداف منتجاتك. على سبيل المثال، يمكنك تحسين النقرات أو عمليات الإضافة أو عمليات التنزيل، ولكن عليك اتّخاذ قرارات الإطلاق استنادًا جزئيًا إلى التقييمات التي يقدّمها المستخدمون.
القاعدة رقم 39: قرارات الإطلاق هي بديل لأهداف المنتجات على المدى الطويل.
لدى "أليسا" فكرة عن الحدّ من الخسارة اللوجستية لتوقع عمليات التثبيت. أضافت هبة ميزة. ينخفض مقياس الخسارة اللوجستية. وعندما تُجري تجربة مباشرة، تلاحظ زيادة في معدّل التثبيت. ومع ذلك، عندما تذهب إلى اجتماع مراجعة الإطلاق، يشير أحد الأشخاص إلى انخفاض عدد المستخدمين النشطين يوميًا بنسبة %5. يقرر الفريق عدم إطلاق النموذج. شعرت "أليسا" بخيبة أمل، ولكنّها الآن تدرك أنّ قرارات الإطلاق تعتمد على معايير متعدّدة، ويمكن تحسين بعض منها فقط مباشرةً باستخدام الذكاء الاصطناعي.
في الواقع، لا يشبه العالم الحقيقي لعبة "مغامرات التنين": لا تتوفّر أي "نقاط قياس قياسية" لتحديد حالة منتجك. على الفريق استخدام الإحصاءات التي يجمعها لمحاولة توقّع مدى جودة النظام بفعالية في المستقبل. عليهم الاهتمام بالتفاعل، والمستخدمين النشطين ليوم واحد (DAU)، والمستخدمين النشطين خلال 30 يومًا، والأرباح، وعائد الاستثمار للمعلِن. إنّ هذه المقاييس التي يمكن قياسها في اختبارات أ/ب هي في حدّ ذاتها بديلاً عن أهداف أكثر طموحاً على المدى الطويل: إرضاء المستخدمين وزيادة عددهم وإرضاء الشركاء والأرباح، ويمكنك اعتبارها أيضًا بدائل للحصول على منتج مفيد وعالي الجودة وشركة مزدهرة بعد خمس سنوات من الآن.
إنّ قرارات الإطلاق السهلة الوحيدة هي عندما تتحسن جميع المقاييس (أو على الأقل لا تسوء). إذا كان لدى الفريق خيار بين خوارزمية تكنولوجيا تعلُّم فائقة التطور وطريقة استكشافية بسيطة، يجب اختيار الطريقة الاستكشافية إذا كانت تؤدي بشكلٍ أفضل في جميع هذه المقاييس. بالإضافة إلى ذلك، ليس هناك ترتيب واضح لجميع قيم المقاييس المحتملة. على وجه التحديد، فكِّر في السيناريوهَين التاليَين:
تجربة | المستخدمون النشطون يوميًا | الأرباح/اليوم |
---|---|---|
A | مليون | 4 مليون دولار أمريكي |
B | 2 مليون | مليونَا دولار أمريكي |
إذا كان النظام الحالي هو "أ"، من غير المرجّح أن ينتقل الفريق إلى "ب". إذا كان النظام الحالي هو "ب"، من غير المرجّح أن ينتقل الفريق إلى "أ". يبدو أنّ هذا يتعارض مع السلوك العقلاني، ومع ذلك، قد تتحقق أو لا تتحقق توقّعات تغيُّر المقاييس، وبالتالي هناك مخاطر كبيرة مرتبطة بأي تغيير. يغطّي كل مقياس بعض المخاطر التي يهتمّ بها الفريق.
بالإضافة إلى ذلك، لا يتضمّن أي مقياس قلق الفريق الأكبر، وهو "أين سيكون منتجي بعد خمس سنوات؟"
من ناحية أخرى، يميل الأفراد إلى تفضيل هدف واحد يمكنهم تحسينه مباشرةً. وتفضّل معظم أدوات تعلُّم الآلة هذه البيئة. يمكن لفني تطوير تطبيقات يُطلق ميزات جديدة الحصول على سلسلة متواصلة من عمليات الإطلاق في مثل هذه المنظومة. هناك نوع من التعلم الآلي، وهو التعلّم المتعدّد الأهداف، الذي يبدأ بمعالجة هذه المشكلة. على سبيل المثال، يمكن صياغة مشكلة استيفاء قيود لها حدود سفلية لكل مقياس، ومحاولة تحسين بعض التركيبات الخطية للمقاييس. ومع ذلك، حتى في هذه الحالة، لا يمكن بسهولة صياغة كل القياسات على أنّها أهداف تعلُّم آلي: إذا تم النقر على مستند أو تثبيت تطبيق، يكون ذلك بسبب عرض المحتوى. ولكن من الصعب جدًا معرفة سبب زيارة المستخدِم لموقعك الإلكتروني. إنّ كيفية توقّع النجاح المستقبلي لموقع إلكتروني ككل هو عملية كاملة للذكاء الاصطناعي: فهي صعبة مثل الرؤية الحاسوبية أو معالجة اللغات الطبيعية.
القاعدة رقم 40: يجب أن تكون المجموعات بسيطة.
إنّ النماذج المدمجة التي تأخذ الميزات الأولية وتصنّف المحتوى مباشرةً هي أسهل النماذج لإزالة الأخطاء وفهمها. ومع ذلك، يمكن أن تعمل مجموعة من النماذج (أحد "النماذج" التي تجمع نتائج النماذج الأخرى) بشكل أفضل. للحفاظ على البساطة، يجب أن يكون كل نموذج إما مجموعة تستخدِم فقط إدخال النماذج الأخرى، أو نموذجًا أساسيًا يستخدِم العديد من الميزات، ولكن ليس كليهما. إذا كان لديك نماذج بالإضافة إلى نماذج أخرى تم تدريبها بشكل منفصل، قد يؤدي دمجها إلى حدوث سلوك سيئ.
استخدِم نموذجًا بسيطًا لدمج النماذج لا يأخذ سوى ناتج نماذج "الأساس" كمدخلات. تريد أيضًا فرض السمات على نماذج المجموعات هذه. على سبيل المثال، يجب ألا يؤدي الارتفاع في النتيجة التي يقدّمها النموذج الأساسي إلى انخفاض نتيجة المجموعة. من الأفضل أيضًا أن تكون النماذج الواردة قابلة للتأويل من الناحية الدلالية (مثلاً، أن تكون مُعَدَّلة) كي لا تؤدي تغييرات نماذج القاعدة إلى إرباك نموذج المجموعة. بالإضافة إلى ذلك، يجب فرض أنّ أي زيادة في الاحتمالية المتوقّعة لمُصنِّف أساسي لا يؤدي إلى انخفاض الاحتمالية المتوقّعة للمجموعة.
القاعدة رقم 41: عندما يستقرّ الأداء، ابحث عن مصادر معلومات جديدة نوعيًا لإضافتها بدلاً من تحسين الإشارات الحالية.
أضفت بعض المعلومات الديمغرافية عن المستخدم. لقد أضفت بعض المعلومات عن الكلمات في المستند. لقد اطّلعت على ميزة استكشاف النماذج، وضبطت الإجراء المنتظم. لم تُحقّق أي عملية إطلاق تحسُّنًا بنسبة تزيد عن% 1 في المقاييس الرئيسية خلال بضعة أرباع سنوية. فماذا أفعل الآن؟
لقد حان الوقت لبدء إنشاء البنية الأساسية لسمّات مختلفة تمامًا، مثل سجلّ المستندات التي وصل إليها هذا المستخدِم في اليوم أو الأسبوع أو السنة الماضية، أو البيانات من موقع إلكتروني مختلف. استخدِم كيانات wikidata أو أيّ عنصر داخلي في شركتك (مثل الرسم البياني المعرفي من Google). استخدام التعلم العميق ابدأ بتعديل توقّعاتك بشأن مقدار عائد الاستثمار الذي تتوقعه، ووسِّع جهودك وفقًا لذلك. كما هو الحال في أي مشروع هندسي، عليك موازنة فائدة إضافة ميزات جديدة مقارنةً بتكلفة التعقيد المتزايد.
القاعدة رقم 42: لا تتوقّع أن يكون التنوع أو التخصيص أو مدى الصلة بموضوع البحث مرتبطًا بمدى الرواج على النحو الذي تتوقّعه.
يمكن أن يشير التنوع في مجموعة من المحتوى إلى أشياء كثيرة، ويعدّ تنوع مصدر المحتوى أحد أكثرها شيوعًا. يشير التخصيص إلى أنّ كل مستخدم يحصل على نتائجه الخاصة. تشير مدى الصلة إلى أنّ نتائج طلب بحث معيّن تكون أكثر ملاءمةً لهذا الطلب من أي طلب آخر. وبالتالي، يتم تعريف كلّ من هذه السمات الثلاث على أنّها مختلفة عن السمات العادية.
تكمن المشكلة في أنّه من الصعب التغلب على المحتوى العادي.
يُرجى العِلم أنّه إذا كان نظامك يقيس النقرات والوقت المستغرَق والمشاهدات وعمليات إضافة +1 وعمليات إعادة المشاركة وما إلى ذلك، يعني ذلك أنّك تقيس مدى رواج المحتوى. تحاول الفِرق في بعض الأحيان تعلُّم نموذج شخصي يتسم بالتنوع. لتخصيص النتائج، تُضيف هذه الخدمات ميزات تسمح للنظام بتخصيص النتائج (بعض الميزات التي تمثّل اهتمامات المستخدم) أو تنويعها (ميزات تشير إلى ما إذا كان هذا المستند يتضمّن أي ميزات مشتركة مع المستندات الأخرى التي يتم عرضها، مثل المؤلف أو المحتوى)، وتجد أنّ هذه الميزات تحظى بأهمية أقل (أو علامة مختلفة في بعض الأحيان) مقارنةً بما تتوقّعه.
وهذا لا يعني أنّ التنوع أو التخصيص أو مدى الصلة بالموضوع ليسوا قيّمين. كما هو موضّح في القاعدة السابقة، يمكنك إجراء معالجة لاحقة لزيادة التنوع أو مدى الصلة بالموضوع. إذا لاحظت زيادة في الأهداف على المدى الطويل، يمكنك التصريح بأنّ التنوع/الملاءمة مهمّان، بالإضافة إلى مدى الشيوع. يمكنك بعد ذلك مواصلة استخدام المعالجة اللاحقة أو تعديل الهدف مباشرةً استنادًا إلى التنوع أو مدى الصلة.
القاعدة رقم 43: يميل أصدقاؤك إلى أن يكونوا متشابهين في المنتجات المختلفة. بينما لا تكون اهتماماتك عادةً كذلك.
حققت الفِرق في Google الكثير من النجاح من خلال استخدام نموذج يتنبّأ بالصلة بين منتجَين في منتج معيّن، وجعله يعمل بشكل جيد في منتج آخر. أصدقاؤك هم من هم. من ناحية أخرى، شاهدتُ عدة فِرق تتعذّر عليها استخدام ميزات التخصيص على مستوى المنتجات المختلفة. نعم، يبدو أنّه ينبغي أن يعمل. في الوقت الحالي، لا يبدو أنّه كذلك. وقد أثبت استخدام البيانات الأولية من موقع معيّن للتنبؤ بالسلوك على موقع آخر فعاليته في بعض الأحيان. يُرجى أيضًا العلم بأنّ معرفة أنّ المستخدِم لديه سجلّ على موقع إلكتروني آخر يمكن أن تساعدك. على سبيل المثال، قد يكون وجود نشاط المستخدِم على منتجَين مؤشرًا بحد ذاته.
العمل ذي الصلة
تتوفّر العديد من المستندات حول تعلُّم الآلة في Google وخارجها.
- دورة مكثّفة عن تعلُّم الآلة: مقدمة عن تعلُّم الآلة التطبيقي
- Machine Learning: A Probabilistic Approach لمؤلفه Kevin Murphy للتعرّف على مجال تعلُّم الآلة
- تحليل البيانات الجيد: نهج علم البيانات للتفكير في مجموعات البيانات
- التعلم العميق من تأليف إيان جودفيلو وغيره من المؤلفين لتعلم النماذج غير الخطية
- مقالة من Google حول الديون الفنية، والتي تتضمّن العديد من النصائح العامة
- مستندات Tensorflow
الشكر والتقدير
نشكر "ديفيد ويستبروك" و"بيتر براند" و"صموئيل إيونغ" و"تشين يو زهاو" و"لي وي" و"ميخائيل بوتامياس" و"إيفان روزن" و"باري روزنبرغ" و"كريستين روبسون" و"جيمس بين" و"تال شاكيد" و"توسار شاندرا" و"مصطفى إسبير" و"جيريمايا هارمسن" و"كونستانتينوس كاتسيابيس" و"غلين أندرسون" و"دان دوكوورث" و"شيشير بيرموال" و"غال إليدان" و"سو لين وو" و"جايوي ليو" و"فيرناندو بيريرا" و"هريشكيش أرادهي" على العديد من التصحيحات والاقتراحات والأمثلة المفيدة لهذا المستند. نشكر أيضًا "كريستين ليفير" و"سودها باسو" و"كريس بيرغر" على مساعدتهم في إصدار سابق. إنّ أي أخطاء أو حذف أو آراء غير رائجة (يا إلهي!) هي آرائي الشخصية.
الملحق
تتضمّن هذه المقالة مجموعة متنوّعة من الإشارات إلى منتجات Google. لتوفير مزيد من السياق، سأقدّم وصفًا موجزًا للأمثلة الأكثر شيوعًا أدناه.
نظرة عامة حول YouTube
YouTube هي خدمة بث فيديو. يستخدم كلٌّ من فريق "اقتراحات أخرى" وفريق "الصفحة الرئيسية" في YouTube نماذج الذكاء الاصطناعي لترتيب الفيديوهات المقترَحة. تقترح ميزة "اقتراحات أخرى" فيديوهات لمشاهدتها بعد الفيديو الذي يتم تشغيله حاليًا، بينما تقترح "الصفحة الرئيسية" فيديوهات للمستخدمين الذين يتصفّحون الصفحة الرئيسية.
نظرة عامة على Google Play
يتضمّن Google Play العديد من النماذج التي تحلّ مجموعة متنوعة من المشاكل. تستخدِم ميزة "بحث Play" و"الاقتراحات المخصّصة للصفحة الرئيسية" في Play وتطبيقات "المستخدمون الذين ثبَّتوا أيضًا" تكنولوجيا التعلم الآلي.
نظرة عامة على Google Plus
استخدم تطبيق Google Plus تكنولوجيا تعلُّم الآلة في مجموعة متنوعة من الحالات: ترتيب المشاركات في "البث" من المشاركات التي يراها المستخدم، وترتيب المشاركات في "المحتوى الرائج" (المشاركات التي تحظى بشعبية كبيرة الآن)، وترتيب المستخدمين الذين تعرفهم، وما إلى ذلك. تم إغلاق منصة Google Plus لجميع الحسابات الشخصية في عام 2019، وتم استبدالها بمنصة Google Currents لحسابات الأنشطة التجارية في 6 تموز (يوليو) 2020.