يحدّد هذا المسرد مصطلحات الذكاء الاصطناعي.
A
الاستئصال
تقنية لتقييم أهمية ميزة أو مكوّن من خلال إزالته مؤقتًا من نموذج بعد ذلك، يمكنك إعادة تدريب النموذج بدون تلك الميزة أو المكوّن، وإذا كان أداء النموذج الذي تمت إعادة تدريبه أسوأ بكثير، فمن المحتمل أنّ الميزة أو المكوّن الذي تمت إزالته كان مهمًا.
على سبيل المثال، لنفترض أنّك درّبت نموذج تصنيف على 10 ميزات وحقّقت مقياس صحة النموذج بنسبة% 88 على مجموعة الاختبار. للتحقّق من أهمية الميزة الأولى، يمكنك إعادة تدريب النموذج باستخدام الميزات التسع الأخرى فقط. إذا كان أداء النموذج الذي تمّت إعادة تدريبه أسوأ بكثير (على سبيل المثال، دقة 55%)، من المحتمل أنّ الميزة التي تمت إزالتها كانت مهمة. في المقابل، إذا كان النموذج الذي تمّت إعادة تدريبه يؤدي بشكل جيد بنفس القدر، فمن المحتمل أنّ هذه الميزة لم تكن مهمة.
يمكن أن تساعد عملية الاستئصال أيضًا في تحديد أهمية ما يلي:
- المكوّنات الأكبر، مثل نظام فرعي كامل من نظام تعلُّم آلي أكبر
- العمليات أو الأساليب، مثل خطوة المعالجة المسبقة للبيانات
في كلتا الحالتين، ستلاحظ كيف يتغيّر أداء النظام (أو لا يتغيّر) بعد إزالة المكوّن.
اختبار A/B
طريقة إحصائية لمقارنة أسلوبَين (أو أكثر)، وهما أ وب. عادةً، تكون أ تقنية حالية، وب تقنية جديدة. لا يحدّد اختبار A/B الأسلوب الأفضل أداءً فحسب، بل يحدّد أيضًا ما إذا كان الفرق ذا دلالة إحصائية.
عادةً ما تقارن اختبارات A/B مقياسًا واحدًا بين أسلوبَين، مثل مقارنة دقة النموذج بين أسلوبَين. ومع ذلك، يمكن أن تقارن اختبارات A/B أيضًا أي عدد محدود من المقاييس.
شريحة تسريع
فئة من مكوّنات الأجهزة المتخصّصة المصمَّمة لإجراء العمليات الحسابية الأساسية اللازمة لخوارزميات التعلّم الآلي العميق
يمكن أن تؤدي شرائح المعالجة السريعة (أو المعالجات السريعة باختصار) إلى زيادة سرعة وكفاءة مهام التدريب والاستدلال بشكل كبير مقارنةً بوحدة المعالجة المركزية للأغراض العامة. وهي مثالية لتدريب الشبكات العصبية والمهام المشابهة التي تتطلّب قدرة حاسوبية عالية.
تشمل أمثلة شرائح المعالجة السريعة ما يلي:
- وحدات معالجة الموتّرات (TPU) من Google مع أجهزة مخصّصة للتعليم المعمّق
- تم تصميم وحدات معالجة الرسومات من NVIDIA، التي كانت مصمّمة في البداية لمعالجة الرسومات، بهدف إتاحة المعالجة المتوازية، ما يمكن أن يزيد سرعة المعالجة بشكل كبير.
الدقة
عدد التوقّعات الصحيحة للتصنيف مقسومًا على إجمالي عدد التوقّعات والمقصود:
على سبيل المثال، إذا قدّم نموذج 40 توقّعًا صحيحًا و10 توقّعات غير صحيحة، ستكون دقة النموذج كما يلي:
يقدّم التصنيف الثنائي أسماء محدّدة لمختلف فئات التوقعات الصحيحة والتوقعات غير الصحيحة. لذا، تكون صيغة الدقة للتصنيف الثنائي كما يلي:
where:
- TP هو عدد الحالات الموجبة الصحيحة (التوقّعات الصحيحة).
- TN هو عدد الحالات السالبة الصحيحة (التوقعات الصحيحة).
- FP هو عدد الحالات الموجبة الخاطئة (التوقعات غير الصحيحة).
- FN هو عدد الحالات السالبة الخاطئة (التوقعات غير الصحيحة).
مقارنة الدقة بـ مقياس صحة النموذج ومقياس المراجعة.
يمكنك الاطّلاع على التصنيف: الدقة ومقياس المراجعة ومقياس صحة النموذج والمقاييس ذات الصلة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
التصرف
مرحلة في الحلقة التفاعلية ينفّذ فيها الوكيل الإجراء الذي تم اختياره خلال مرحلة السبب. على سبيل المثال، يمكن لمرحلة الإجراء إرسال طلب بيانات من واجهة برمجة التطبيقات.
إجراء
في التعلّم التعزيزي، تُعدّ السياسة الآلية التي ينتقل من خلالها الوكيل بين الحالات الخاصة بالبيئة. يختار الوكيل الإجراء باستخدام سياسة.
مساحة الإجراء
مجموعة الموارد التي يمكن للوكيل استخدامها لتنفيذ مهمة. قد تتضمّن مساحة الإجراءات الأدوات وواجهات برمجة التطبيقات التي يمكن للوكيل استدعاؤها والأذونات التي يملكها. بشكل عام، يجب أن تكون مساحة الإجراء كبيرة بما يكفي ليتمكّن الوكيل من تنفيذ المهمة. إذا كانت مساحة الإجراءات صغيرة جدًا، قد لا يتوفّر لدى الوكيل موارد كافية لتنفيذ المهمة. إذا كانت مساحة الإجراءات كبيرة جدًا، يصبح العامل أكثر عرضة للخطأ.
دالّة التفعيل
هي دالة تتيح للشبكات العصبونية التعرّف على العلاقات غير الخطية (المعقّدة) بين الميزات والتصنيف.
تشمل دوال التنشيط الشائعة ما يلي:
لا تكون رسومات دوال التنشيط البيانية أبدًا خطوطًا مستقيمة مفردة. على سبيل المثال، يتألف الرسم البياني لدالة التنشيط ReLU من خطين مستقيمين:
يبدو الرسم البياني لدالة التنشيط السينية على النحو التالي:
لمزيد من المعلومات، يُرجى الاطّلاع على الشبكات العصبية: دوال التنشيط في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
التعلّم النشط
التدريب هو أسلوب يتيح للخوارزمية اختيار بعض البيانات التي تتعلّم منها. تكون ميزة "التعلّم النشط" مفيدة بشكل خاص عندما تكون الأمثلة المصنّفة نادرة أو مكلفة. بدلاً من البحث بشكل عشوائي عن مجموعة متنوعة من الأمثلة المصنّفة، تبحث خوارزمية التعلّم النشط بشكل انتقائي عن مجموعة الأمثلة المحدّدة التي تحتاجها للتعلّم.
AdaGrad
خوارزمية متطورة لنزول التدرّج تعيد قياس تدرّجات كل معلَمة، ما يمنح كل معلَمة معدّل التعلّم مستقلاً. للحصول على شرح كامل، يُرجى الاطّلاع على Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.
التكيّف
مرادف لعملية الضبط أو الضبط الدقيق
وكيل
برنامج يمكنه التفكير في مدخلات المستخدم من أجل التخطيط للإجراءات وتنفيذها نيابةً عنه.
في التعلّم التعزيزي، الوكيل هو الكيان الذي يستخدم سياسة لتحقيق الحد الأقصى من العائد المتوقّع من الانتقال بين الحالات الخاصة بالبيئة.
يستند إلى الذكاء الاصطناعي الوكيل
تمثّل هذه السمة صيغة الصفة من وكيل. تشير كلمة "وكيل" إلى الصفات التي يتمتّع بها الوكلاء (مثل الاستقلالية).
حلقة الذكاء الاصطناعي الوكيل
دورة يكرّرها الوكيل إلى أن يتم استيفاء شرط الإنهاء. تتألف الدورة عادةً من المراحل الأربع التالية:
سير العمل القائم على وكلاء الذكاء الاصطناعي
هي عملية ديناميكية يخطّط فيها الوكيل وينفّذ الإجراءات بشكل مستقل لتحقيق هدف. قد تتضمّن العملية الاستدلال، واستخدام أدوات خارجية، وتصحيح الخطة ذاتيًا.
تنظيم الوكلاء
الإدارة المركزية وتوجيه المهام إلى العديد من الوكلاء الفرعيين أو طلبات النماذج اللغوية الكبيرة تعمل ميزة "تنسيق الوكلاء" على تقسيم المهام المعقّدة إلى مهام فرعية أصغر وتعيينها إلى الوكلاء الفرعيين الأكثر كفاءة.
التجميع من الأسفل إلى الأعلى
اطّلِع على التجميع الهرمي.
محتوى ذكاء اصطناعي منخفض الجودة
ناتج من نظام ذكاء اصطناعي توليدي يفضّل الكمية على الجودة. على سبيل المثال، تكون صفحة الويب التي تتضمّن محتوى ذكاء اصطناعي منخفض الجودة مليئة بمحتوى منخفض الجودة من إنشاء الذكاء الاصطناعي تم إنتاجه بتكلفة منخفضة.
رصد القيم الشاذة
عملية تحديد القيم الشاذة على سبيل المثال، إذا كان المتوسط لـ ميزة معيّنة هو 100 مع انحراف معياري يبلغ 10، يجب أن ترصد ميزة "رصد القيم الشاذة" القيمة 200 كقيمة مشبوهة.
الواقع المعزّز
اختصار الواقع المعزّز
المساحة تحت منحنى الدقة والاستدعاء
اطّلِع على المساحة تحت منحنى الدقة والاستدعاء (PR AUC).
المساحة تحت منحنى ROC
اطّلِع على المساحة تحت منحنى ROC.
الذكاء الاصطناعي العام
آلية غير بشرية تعرض مجموعة واسعة من القدرات على حل المشاكل والإبداع والتكيّف. على سبيل المثال، يمكن لبرنامج يوضّح الذكاء الاصطناعي العام ترجمة النصوص وتأليف السيمفونيات والتفوق في الألعاب التي لم يتم اختراعها بعد.
الذكاء الاصطناعي
برنامج أو نموذج غير بشري يمكنه حلّ المهام المعقّدة على سبيل المثال، يندرج ضمن الذكاء الاصطناعي برنامج أو نموذج يترجم النصوص، أو برنامج أو نموذج يحدّد الأمراض من صور الأشعة.
تعلُّم الآلة هو حقل فرعي من الذكاء الاصطناعي. مع ذلك، بدأت بعض المؤسسات في السنوات الأخيرة تستخدم مصطلحَي الذكاء الاصطناعي وتعلُّم الآلة بالتبادل.
تنبيه
آلية مستخدَمة في شبكة عصبية تشير إلى أهمية كلمة معيّنة أو جزء من كلمة. تؤدي آلية الانتباه إلى تقليل كمية المعلومات التي يحتاج إليها النموذج لتوقّع الرمز المميز/الكلمة التالية. قد تتألف آلية الانتباه النموذجية من مجموع مرجّح على مجموعة من المدخلات، حيث يتم حساب الوزن لكل مدخل من خلال جزء آخر من الشبكة العصبية.
يُرجى الرجوع أيضًا إلى الانتباه الذاتي والانتباه الذاتي المتعدد الرؤوس، وهما اللبنات الأساسية في المحوّلات.
يمكنك الاطّلاع على النماذج اللغوية الكبيرة: ما هو النموذج اللغوي الكبير؟ في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات حول الانتباه الذاتي.
السمة
مرادف ميزة
في سياق عدالة تعلُّم الآلة، تشير السمات غالبًا إلى الخصائص المتعلقة بالأفراد.
أخذ عيّنات من السمات
أسلوب لتدريب غابة القرارات، حيث لا تأخذ كل شجرة قرارات في الاعتبار سوى مجموعة فرعية عشوائية من الميزات المحتملة عند تعلُّم الشرط. بشكل عام، يتم أخذ عيّنة من مجموعة فرعية مختلفة من الميزات لكل عقدة. في المقابل، عند تدريب شجرة قرارات بدون أخذ عيّنات من السمات، يتم أخذ جميع الميزات المحتملة في الاعتبار لكل عقدة.
المساحة تحت منحنى ROC
رقم يتراوح بين 0.0 و1.0 يمثّل قدرة نموذج التصنيف الثنائي على فصل الفئات الإيجابية عن الفئات السلبية. كلما اقتربت قيمة AUC من 1.0، تحسّنت قدرة النموذج على فصل الفئات عن بعضها.
على سبيل المثال، توضّح الصورة التالية نموذج تصنيف يفصل تمامًا بين الفئات الإيجابية (الدوائر الخضراء) والفئات السلبية (المستطيلات الأرجوانية). يحقّق هذا النموذج المثالي غير الواقعي قيمة AUC تبلغ 1.0:
في المقابل، يوضّح الرسم التوضيحي التالي نتائج نموذج تصنيف أنشأ نتائج عشوائية. يحتوي هذا النموذج على قيمة AUC تبلغ 0.5:
نعم، النموذج السابق لديه قيمة AUC تبلغ 0.5، وليس 0.0.
وتقع معظم النماذج في مكان ما بين هذين الحدّين الأقصيين. على سبيل المثال، يفصل النموذج التالي بين القيم الموجبة والسالبة إلى حد ما، وبالتالي يكون لديه قيمة AUC تتراوح بين 0.5 و1.0:
تتجاهل مقياس AUC أي قيمة تحدّدها لحدّ التصنيف. بدلاً من ذلك، تأخذ المساحة تحت منحنى ROC في الاعتبار جميع عتبات التصنيف الممكنة.
يمكنك الاطّلاع على التصنيف: منحنى ROC ومقياس AUC في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
الواقع المعزّز
هي تكنولوجيا تفرض صورة من إنشاء الكمبيوتر على رؤية المستخدم للعالم الحقيقي، ما يوفّر بالتالي عرضًا مركّبًا.
autoencoder
نظام يتعلّم استخراج المعلومات الأكثر أهمية من البيانات المُدخلة. تتألف برامج الترميز التلقائي من برنامج ترميز وبرنامج فك ترميز. تعتمد برامج الترميز التلقائي على العملية التالية المكوّنة من خطوتَين:
- يحوّل برنامج الترميز الإدخال إلى تنسيق (وسيط) مضغوط (عادةً) ذي أبعاد أقل.
- ينشئ برنامج فك الترميز نسخة مع معلومات مفقودة من الإدخال الأصلي من خلال ربط التنسيق المنخفض الأبعاد بتنسيق الإدخال الأصلي العالي الأبعاد.
يتم تدريب برامج الترميز التلقائي بشكل شامل من خلال جعل برنامج فك الترميز يحاول إعادة إنشاء الإدخال الأصلي من التنسيق الوسيط لبرنامج الترميز بأقرب شكل ممكن. بما أنّ التنسيق الوسيط أصغر (أقل أبعادًا) من التنسيق الأصلي، يتم إجبار الترميز التلقائي على التعرّف على المعلومات الأساسية في الإدخال، ولن يكون الإخراج مطابقًا تمامًا للإدخال.
على سبيل المثال:
- إذا كانت بيانات الإدخال عبارة عن رسم، سيكون النسخ غير المطابق مشابهاً للرسم الأصلي، ولكن مع بعض التعديلات. ربما تزيل النسخة غير المطابقة التشويش من الرسم الأصلي أو تملأ بعض وحدات البكسل الناقصة.
- إذا كانت بيانات الإدخال نصية، سينشئ الترميز التلقائي نصًا جديدًا يحاكي النص الأصلي (ولكنه ليس مطابقًا له).
يمكنك الاطّلاع أيضًا على المشفّرات التلقائية المتغيرة.
التقييم التلقائي
استخدام برامج للحكم على جودة نتائج النموذج
عندما تكون مخرجات النموذج بسيطة نسبيًا، يمكن لنص برمجي أو برنامج مقارنة مخرجات النموذج بالردّ المثالي. يُطلق على هذا النوع من التقييم التلقائي أحيانًا اسم التقييم الآلي. غالبًا ما تكون مقاييس مثل ROUGE أو BLEU مفيدة للتقييم الآلي.
عندما تكون مخرجات النموذج معقّدة أو لا تتضمّن إجابة صحيحة واحدة، يتم أحيانًا إجراء التقييم التلقائي من خلال برنامج منفصل لتعلُّم الآلة يُعرف باسم المقيّم التلقائي.
يختلف ذلك عن التقييم البشري.
الانحياز للاقتراحات الآلية
عندما يفضّل صانع القرار البشري الاقتراحات التي يقدّمها نظام آلي لاتخاذ القرارات على المعلومات التي يتم الحصول عليها بدون أتمتة، حتى عندما يرتكب نظام اتخاذ القرارات الآلي أخطاءً
لمزيد من المعلومات، يُرجى الاطّلاع على الإنصاف: أنواع التحيز في "دورة مكثّفة عن تعلّم الآلة".
AutoML
أي عملية مبرمَجة لإنشاء نماذج تعلُّم الآلة يمكن لـ AutoML تنفيذ مهام مثل ما يلي تلقائيًا:
- ابحث عن النموذج الأنسب.
- اضبط المعلَمات الفائقة.
- إعداد البيانات (بما في ذلك إجراء هندسة الخصائص)
- فعِّل النموذج الناتج.
تُعدّ AutoML مفيدة لعلماء البيانات لأنّها يمكن أن توفّر لهم الوقت والجهد في تطوير مسارات تعلُّم الآلة وتحسين دقة التوقّعات. وهي مفيدة أيضًا لغير الخبراء، إذ تتيح لهم تنفيذ مهام معقّدة في مجال تعلُّم الآلة.
لمزيد من المعلومات، يمكنك الاطّلاع على تعلُّم الآلة المبرمَج (AutoML) في "دورة مكثّفة عن تعلُّم الآلة".
وكيل مستقل
هو وكيل يعمل على تحقيق هدف معقّد من خلال التخطيط والتنفيذ والتكيّف بدون تدخّل بشري مستمر.
تقييم أداة التقييم التلقائي
آلية مختلطة لتقييم جودة نتائج نموذج الذكاء الاصطناعي التوليدي تجمع بين التقييم البشري والتقييم الآلي أداة التقييم التلقائي هي نموذج تعلُّم آلة تم تدريبه على بيانات تم إنشاؤها من خلال التقييم البشري. من الناحية المثالية، يتعلّم نظام التقييم الآلي محاكاة المقيّم البشري.تتوفّر أدوات تقييم تلقائي جاهزة، ولكن أفضلها هي تلك التي تم تحسينها وتخصيصها للمهمة التي تريد تقييمها.
نموذج الانحدار التلقائي
نموذج يستنتج توقّعًا استنادًا إلى توقّعاته السابقة. على سبيل المثال، تتوقّع نماذج اللغة ذات الانحدار الذاتي الرمز المميز التالي استنادًا إلى الرموز المميزة التي تم توقّعها سابقًا. جميع النماذج اللغوية الكبيرة المستندة إلى بنية Transformer هي نماذج ذات انحدار تلقائي.
في المقابل، لا تكون نماذج الصور المستندة إلى الشبكات العدائية التوليدية (GAN) عادةً ذات انحدار تلقائي، لأنّها تنشئ صورة في تمريرة واحدة للأمام وليس بشكل متكرّر على خطوات. ومع ذلك، فإنّ بعض نماذج إنشاء الصور تكون ذات انحدار تلقائي لأنّها تنشئ الصور على عدة خطوات.
الخسارة الإضافية
دالة الخسارة: تُستخدَم مع دالة الخسارة الرئيسية لنموذج الشبكة العصبونية، وتساعد في تسريع عملية التدريب خلال التكرارات الأولى عندما يتم ضبط الأوزان عشوائيًا.
تدفع دوال الفقدان المساعدة التدرجات الفعالة إلى الطبقات السابقة. يسهّل ذلك عملية التقارب أثناء التدريب من خلال معالجة مشكلة التدرّج المتلاشي.
متوسط الدقة عند k
مقياس لتلخيص أداء نموذج بشأن طلب واحد يؤدي إلى إنشاء نتائج مرتبة، مثل قائمة مرقّمة باقتراحات كتب متوسط الدقة عند k هو، حسنًا، متوسط قيم الدقة عند k لكل نتيجة ذات صلة. وبالتالي، فإنّ صيغة متوسط مقياس صحة النموذج عند k هي:
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
where:
- تمثّل السمة\(n\) عدد العناصر ذات الصلة في القائمة.
يختلف هذا المقياس عن مقياس الاسترجاع عند k.
شرط محاذاة المحور
في شجرة القرارات، شرط
يتضمّن ميزة واحدة فقط. على سبيل المثال، إذا كانت area
إحدى السمات، يكون ما يلي شرطًا محاذيًا للمحور:
area > 200
تتعارض مع الشرط المائل.
B
الانتشار العكسي
الخوارزمية التي تنفّذ نزول تدرّجي في شبكات عصبونية.
يتضمّن تدريب الشبكة العصبونية العديد من التكرارات للدورة التالية المكوّنة من مرحلتَين:
- أثناء التمرير الأمامي، يعالج النظام دفعة من الأمثلة لإنتاج التوقعات. يقارن النظام كل توقّع بقيمة كل تصنيف. الفرق بين القيمة المتوقّعة وقيمة التصنيف هو الخطأ في هذا المثال. يجمع النظام الخسائر لجميع الأمثلة من أجل احتساب إجمالي الخسارة للدُفعة الحالية.
- أثناء التمرير الخلفي (الانتشار الخلفي)، يقلّل النظام من الفقد من خلال تعديل أوزان جميع الخلايا العصبية في جميع الطبقات المخفية.
غالبًا ما تحتوي الشبكات العصبية على العديد من الخلايا العصبية في العديد من الطبقات المخفية. يساهم كل عصبون من هذه العصبونات في الخسارة الإجمالية بطرق مختلفة. تحدّد عملية الانتشار العكسي ما إذا كان يجب زيادة الأوزان المطبَّقة على الخلايا العصبية المحدّدة أو خفضها.
معدّل التعلّم هو عامل ضرب يتحكّم في درجة زيادة أو خفض كل وزن في كل تمرير للخلف. سيؤدي معدّل التعلّم الكبير إلى زيادة أو تقليل كل وزن بشكل أكبر من معدّل التعلّم الصغير.
من الناحية الحسابية، تنفّذ عملية الانتشار العكسي قاعدة السلسلة من الحساب التفاضلي. أي أنّ عملية الانتشار العكسي تحسب المشتق الجزئي للخطأ بالنسبة إلى كل مَعلمة.
قبل سنوات، كان على مطوّري تعلُّم الآلة كتابة تعليمات برمجية لتنفيذ الانتشار الخلفي. تنفّذ واجهات برمجة التطبيقات الحديثة لتعلُّم الآلة، مثل Keras، عملية الانتشار العكسي نيابةً عنك. أخيرًا!
يمكنك الاطّلاع على الشبكات العصبونية في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات.
التجميع
يشير ذلك المصطلح إلى طريقة تدريب مجموعة موحّدة يتم فيها تدريب كل نموذج مكوِّن على مجموعة فرعية عشوائية من أمثلة التدريب يتم جمعها مع الاستبدال. على سبيل المثال، الغابة العشوائية هي مجموعة من أشجار القرارات التي يتم تدريبها باستخدام أسلوب التجميع.
مصطلح Bagging هو اختصار لعبارة Bootstrap Aggregating.
يمكنك الاطّلاع على الغابات العشوائية في دورة "أشجار القرارات" للحصول على مزيد من المعلومات.
حقيبة الكلمات
تمثيل للكلمات في عبارة أو فقرة، بغض النظر عن الترتيب على سبيل المثال، تمثّل طريقة "مجموعة الكلمات" العبارات الثلاث التالية بشكل مطابق:
- الكلب يقفز
- يقفز الكلب
- كلب يقفز فوق
يتم ربط كل كلمة بفهرس في متّجه متفرّق، حيث يتضمّن المتّجه فهرسًا لكل كلمة في المفردات. على سبيل المثال، يتم ربط العبارة الكلب يقفز بمتجه سمات يتضمّن قيمًا غير صفرية في الفهارس الثلاثة التي تتوافق مع الكلمات الكلب ويقفز والـ. يمكن أن تكون القيمة غير الصفرية أيًّا ممّا يلي:
- 1 للإشارة إلى وجود كلمة
- عدد المرّات التي تظهر فيها كلمة في المجموعة على سبيل المثال، إذا كانت العبارة الكلب الأحمر الداكن هو كلب ذو فرو أحمر داكن، سيتم تمثيل كل من أحمر داكن وكلب بالرقم 2، بينما سيتم تمثيل الكلمات الأخرى بالرقم 1.
- قيمة أخرى، مثل اللوغاريتم الخاص بعدد مرات ظهور كلمة في الحزمة
الخط الأساسي
نموذج يُستخدَم كنقطة مرجعية لمقارنة مستوى أداء نموذج آخر (عادةً ما يكون أكثر تعقيدًا). على سبيل المثال، يمكن أن يكون نموذج الانحدار اللوجستي أساسًا جيدًا للنموذج العميق.
بالنسبة إلى مشكلة معيّنة، يساعد خط الأساس مطوّري النماذج في تحديد الحد الأدنى المتوقّع للأداء الذي يجب أن يحقّقه النموذج الجديد ليكون مفيدًا.
النموذج الأساسي
نموذج مدرَّب مسبقًا يمكن استخدامه كنقطة بداية للتحسين بهدف معالجة مهام أو تطبيقات محدّدة.
اطّلِع أيضًا على النموذج المدرَّب مسبقًا والنموذج الأساسي.
دفعة
مجموعة الأمثلة المستخدَمة في إحدى التكرارات التدريبية. يحدّد حجم الدفعة عدد الأمثلة في الدفعة.
راجِع الفترة للحصول على شرح حول كيفية ارتباط الدفعة بفترة.
يمكنك الاطّلاع على الانحدار الخطي: المَعلمات الفائقة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
الاستنتاج المجمّع
عملية استنتاج التوقعات بشأن عدة أمثلة غير مصنّفة مقسّمة إلى مجموعات فرعية أصغر ("دفعات").
يمكن أن تستفيد الاستنتاجات المجمّعة من ميزات التوازي في شرائح الأجهزة المسرّعة. وهذا يعني أنّ العديد من أدوات التسريع يمكنها في الوقت نفسه استنتاج التوقعات بشأن مجموعات مختلفة من الأمثلة غير المصنّفة، ما يؤدي إلى زيادة عدد الاستنتاجات في الثانية بشكل كبير.
يمكنك الاطّلاع على أنظمة تعلُّم الآلة الخاصة بالإنتاج: الاستنتاج الثابت مقابل الاستنتاج الديناميكي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
التسوية على دفعات
تسوية الإدخال أو الإخراج لدوال التنشيط في طبقة مخفية يمكن أن يوفّر التوحيد على مستوى الدُفعات المزايا التالية:
- زيادة استقرار الشبكات العصبونية من خلال الحماية من الأوزان الشاذة
- تفعيل معدّلات تعلّم أعلى، ما قد يؤدي إلى تسريع التدريب
- تقليل المطابقة بشكل مفرط
حجم الدفعة
عدد الأمثلة في دفعة على سبيل المثال، إذا كان حجم الدفعة 100، سيعالج النموذج 100 مثال لكل تكرار.
في ما يلي استراتيجيات شائعة لحجم الدفعة:
- النزول المتدرّج العشوائي (SGD)، حيث يكون حجم الدفعة 1
- المجموعة الكاملة، حيث يكون حجم المجموعة هو عدد الأمثلة في مجموعة التدريب بأكملها. على سبيل المثال، إذا كانت مجموعة التدريب تحتوي على مليون مثال، سيكون حجم الدفعة مليون مثال. عادةً ما تكون الدفعة الكاملة استراتيجية غير فعّالة.
- دفعة صغيرة التي يتراوح حجم الدفعة فيها عادةً بين 10 و1000. عادةً ما تكون استراتيجية الدُفعات الصغيرة هي الأكثر كفاءة.
يُرجى الاطّلاع على ما يلي لمزيد من المعلومات:
- أنظمة تعلُّم الآلة في مرحلة الإنتاج: الاستنتاج الثابت مقابل الاستنتاج الديناميكي في "دورة مكثّفة عن تعلُّم الآلة"
- Deep Learning Tuning Playbook
شبكة عصبية بايزية
شبكة عصبية احتمالية تأخذ في الاعتبار عدم اليقين في الأوزان والنتائج. عادةً ما يتوقّع نموذج الانحدار القياسي للشبكة العصبية قيمة عددية، على سبيل المثال، يتوقّع النموذج القياسي سعر منزل يبلغ 853,000 ريال سعودي. في المقابل، تتوقّع الشبكة العصبية البايزية توزيعًا للقيم، فعلى سبيل المثال، يتوقّع نموذج بايزي سعر منزل يبلغ 853,000 دولار أمريكي بانحراف معياري يبلغ 67,200 دولار أمريكي.
تعتمد الشبكة العصبية البايزية على نظرية بايز لحساب حالات عدم اليقين في الأوزان والتوقعات. يمكن أن تكون الشبكة العصبية البايزية مفيدة عندما يكون من المهم تحديد مقدار عدم اليقين، كما هو الحال في النماذج المتعلقة بالأدوية. يمكن أن تساعد الشبكات العصبونية البايزية أيضًا في منع المطابقة بشكل مفرط.
التحسين البايزي
أسلوب نموذج الانحدار الاحتمالي لتحسين دوال الهدف التي تتطلّب تكلفة حسابية عالية، وذلك من خلال تحسين بديل يحدّد عدم اليقين باستخدام أسلوب التعلّم "بايزي". بما أنّ عملية التحسين المستندة إلى الإحصاء البايزي مكلفة جدًا، يتم استخدامها عادةً لتحسين المهام التي يصعب تقييمها والتي تتضمّن عددًا صغيرًا من المَعلمات، مثل اختيار المَعلمات الفائقة.
معادلة بيلمان
في التعلّم المعزّز، يتم استيفاء الهوية التالية من خلال دالة Q المثالية:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
تطبّق خوارزميات التعلّم المعزّز هذه الهوية لإنشاء تعلّم Q باستخدام قاعدة التعديل التالية:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
بالإضافة إلى التعلّم المعزّز، يمكن تطبيق معادلة بيلمان على البرمجة الديناميكية. يمكنك الاطّلاع على مدخل Wikipedia حول معادلة بيلمان.
BERT (تمثيلات الترميز الثنائية الاتجاه من المحولات)
بنية نموذج لتمثيل النص يمكن أن يعمل نموذج BERT مدرَّب كجزء من نموذج أكبر لتصنيف النصوص أو مهام تعلُّم آلي أخرى.
تتضمّن BERT الخصائص التالية:
- يستخدم بنية Transformer، وبالتالي يعتمد على الانتباه الذاتي.
- يستخدم جزء برنامج الترميز في Transformer. مهمة أداة الترميز هي إنتاج تمثيلات نصية جيدة، وليس تنفيذ مهمة محددة مثل التصنيف.
- ثنائي الاتجاه
- تستخدم الإخفاء في التدريب غير الخاضع للإشراف.
تشمل صيغ BERT ما يلي:
يمكنك الاطّلاع على مشاركة BERT كمصدر مفتوح: تدريب مسبق متطوّر لمعالجة اللغات الطبيعية للحصول على نظرة عامة حول BERT.
التحيّز (الأخلاقيات/العدالة)
1. الصور النمطية أو التحيز أو المحاباة تجاه بعض الأشياء أو الأشخاص أو المجموعات دون غيرها يمكن أن تؤثّر هذه الانحيازات في جمع البيانات وتفسيرها، وفي تصميم النظام، وفي طريقة تفاعل المستخدمين مع النظام. تشمل أشكال هذا النوع من التحيز ما يلي:
- الانحياز للاقتراحات الآلية
- الانحياز التأكيدي
- تحيّز المجرب
- الانحياز لتشابه المجموعة
- التحيّز الضمني
- الانحياز لأفراد المجموعة
- الانحياز للتشابه خارج المجموعة
2. خطأ منهجي ناتج عن إجراءات أخذ العيّنات أو إعداد التقارير تشمل أشكال هذا النوع من التحيز ما يلي:
- انحياز في التغطية
- الانحياز لعدم الإجابة
- تحيّز المشاركة
- الانحياز لتكرار التقارير
- انحياز في جمع العيّنات
- الانحياز في الاختيار
يجب عدم الخلط بينه وبين مصطلح الانحياز في نماذج تعلُّم الآلة أو انحياز التوقّعات.
يمكنك الاطّلاع على الإنصاف: أنواع التحيز في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
الانحياز (الرياضيات) أو مصطلح الانحياز
نقطة تقاطع أو إزاحة من نقطة الأصل التحيّز هو مَعلمة في نماذج تعلُّم الآلة، ويتم تمثيله بأحد الرمزين التاليين:
- b
- w0
على سبيل المثال، التحيز هو b في الصيغة التالية:
في خط بسيط ثنائي الأبعاد، يشير التحيز إلى "نقطة التقاطع مع المحور الصادي". على سبيل المثال، يكون ميل الخط في الرسم التوضيحي التالي هو 2.
يحدث التحيز لأنّ بعض النماذج لا تبدأ من نقطة الأصل (0,0). على سبيل المثال، لنفترض أنّ تكلفة دخول مدينة ملاهٍ هي 2 يورو، وأنّ هناك رسومًا إضافية تبلغ 0.5 يورو عن كل ساعة يقضيها العميل في المدينة. لذلك، فإنّ نموذجًا يربط التكلفة الإجمالية بانحياز قدره 2 لأنّ أدنى تكلفة هي 2 يورو.
يجب عدم الخلط بين الانحياز والتحيز في الأخلاق والعدالة أو انحياز التوقّعات.
يمكنك الاطّلاع على الانحدار الخطي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
ثنائي الاتجاه
مصطلح يُستخدم لوصف نظام يقيّم النص الذي يسبق والنص الذي يلي قسمًا مستهدفًا من النص. في المقابل، لا يقيّم النظام أحادي الاتجاه سوى النص الذي يسبق قسمًا مستهدفًا من النص.
على سبيل المثال، فكِّر في نموذج لغة مخفي يجب أن يحدّد احتمالات الكلمة أو الكلمات التي تمثّل الخط السفلي في السؤال التالي:
ما هي _____ معك؟
يجب أن يستند نموذج اللغة أحادي الاتجاه إلى الاحتمالات التي يوفّرها السياق فقط، أي الكلمات "ما" و"هو" و "ال". في المقابل، يمكن لنموذج لغة ثنائي الاتجاه أن يستمد السياق أيضًا من الكلمتين "مع" و "أنت"، ما قد يساعد النموذج في إنشاء توقّعات أفضل.
نموذج لغوي ثنائي الاتجاه
نموذج لغوي يحدّد احتمال ظهور رمز مميز معيّن في موضع معيّن ضمن مقتطف نصي استنادًا إلى النص السابق والنص التالي.
bigram
ثنائي حيث N=2
التصنيف الثنائي
نوع من مهام التصنيف التي تتوقّع إحدى الفئتين الحصريتين المتبادلتين:
على سبيل المثال، يؤدي نموذجا تعلُّم الآلة التاليان التصنيف الثنائي:
- نموذج يحدّد ما إذا كانت الرسائل الإلكترونية غير مرغوب فيها (الفئة الإيجابية) أو مرغوب فيها (الفئة السلبية).
- نموذج يقيّم الأعراض الطبية لتحديد ما إذا كان الشخص مصابًا بمرض معيّن (الفئة الإيجابية) أو غير مصاب به (الفئة السلبية).
يختلف عن التصنيف المتعدّد الفئات.
راجِع أيضًا الانحدار اللوجستي وعتبة التصنيف.
يمكنك الاطّلاع على التصنيف في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
حالة ثنائية
في شجرة القرار، الشرط الذي يتضمّن نتيجتَين محتمَلتَين فقط، عادةً نعم أو لا. على سبيل المثال، الشرط الثنائي التالي:
temperature >= 100
يختلف عن الحالة غير الثنائية.
اطّلِع على أنواع الشروط في دورة "أشجار القرار" للحصول على مزيد من المعلومات.
تحويل القيم
مرادف لتحويل القيم
نموذج الصندوق الأسود
نموذج يصعب أو يستحيل على البشر فهم "استدلاله". أي أنّه على الرغم من أنّ البشر يمكنهم معرفة كيف تؤثر الطلبات في الردود، لا يمكنهم تحديد الطريقة التي يحدّد بها نموذج الصندوق الأسود الرد. بعبارة أخرى، يفتقر نموذج الصندوق الأسود إلى القابلية للتفسير.
معظم النماذج العميقة والنماذج اللغوية الكبيرة هي صناديق سوداء.
BLEU (التقييم الثنائي للغة)
مقياس بين 0.0 و1.0 لتقييم الترجمات الآلية، مثلاً من الإسبانية إلى اليابانية
لحساب النتيجة، تقارن مقياس BLEU عادةً ترجمة نموذج تعلُّم الآلة (النص الذي تم إنشاؤه) بترجمة خبير بشري (النص المرجعي). تُحدّد درجة تطابق N-grams في النص الذي تم إنشاؤه مع النص المرجعي درجة BLEU.
يمكنك الاطّلاع على الورقة البحثية الأصلية حول هذا المقياس BLEU: a Method for Automatic Evaluation of Machine Translation.
يمكنك الاطّلاع أيضًا على BLEURT.
BLEURT (Bilingual Evaluation Understudy from Transformers)
مقياس لتقييم الترجمات الآلية من لغة إلى أخرى، لا سيما من الإنجليزية وإليها.
بالنسبة إلى الترجمات من الإنجليزية وإليها، تتوافق مقاييس BLEURT بشكل أكبر مع تقييمات البشر مقارنةً بمقاييس BLEU. على عكس BLEU، تركّز BLEURT على التشابهات الدلالية (المعنى) ويمكنها استيعاب إعادة الصياغة.
يعتمد مقياس BLEURT على نموذج لغوي كبير مدرَّب مسبقًا (BERT تحديدًا) يتم بعد ذلك تحسينه باستخدام نصوص من مترجمين بشريين.
المستند الأصلي حول هذا المقياس هو BLEURT: Learning Robust Metrics for Text Generation.
أسئلة منطقية (BoolQ)
مجموعة بيانات لتقييم كفاءة نموذج لغوي كبير في الإجابة عن الأسئلة بنعم أو لا يتضمّن كل تحدٍّ في مجموعة البيانات ثلاثة عناصر:
- طلب بحث
- تمثّل هذه السمة فقرة تشير إلى الإجابة عن طلب البحث.
- الإجابة الصحيحة، وهي إما نعم أو لا
على سبيل المثال:
- طلب البحث: هل هناك أي محطات طاقة نووية في ميشيغان؟
- المقطع: ...توفّر ثلاث محطات للطاقة النووية في ميشيغان حوالي% 30 من الكهرباء.
- الإجابة الصحيحة: نعم
جمع الباحثون الأسئلة من طلبات بحث مجمّعة ومجهولة المصدر على بحث Google، ثم استخدموا صفحات Wikipedia لتحديد المعلومات الأساسية.
لمزيد من المعلومات، يُرجى الاطّلاع على BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions.
BoolQ هي أحد مكوّنات مجموعة SuperGLUE.
BoolQ
اختصار الأسئلة المنطقية
التعزيز
إحدى تقنيات تعلُّم الآلة التي تجمع بشكل متكرّر مجموعة من نماذج التصنيف البسيطة وغير الدقيقة جدًا (المعروفة باسم "المصنّفات الضعيفة") في نموذج تصنيف عالي الدقة (يُعرف باسم "المصنّف القوي") من خلال زيادة وزن الأمثلة التي يصنّفها النموذج حاليًا بشكل خاطئ.
يمكنك الاطّلاع على أشجار القرارات المعزّزة بالتدرّج في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
مربّع الحدود
في الصورة، تمثّل الإحداثيتان (x، y) مستطيلاً يحيط بمنطقة مهمة، مثل الكلب في الصورة أدناه.
البث
توسيع شكل معامل في عملية حسابية على المصفوفات إلى أبعاد متوافقة مع هذه العملية على سبيل المثال، يتطلّب الجبر الخطي أن يكون للمعاملَين في عملية إضافة المصفوفة الأبعاد نفسها. وبالتالي، لا يمكنك إضافة مصفوفة ذات شكل (m, n) إلى متجه بطول n. تتيح عملية البث هذه العملية من خلال توسيع المتّجه الذي يبلغ طوله n إلى مصفوفة ذات شكل (m, n) عن طريق تكرار القيم نفسها في كل عمود.
اطّلِع على الوصف التالي للبث في NumPy للحصول على مزيد من التفاصيل.
تصنيف البيانات
تحويل سمة واحدة إلى سمات ثنائية متعددة تُعرف باسم حِزم أو فئات، عادةً ما يكون ذلك استنادًا إلى نطاق قيمة. عادةً ما تكون السمة المقطّعة خاصية مستمرة.
على سبيل المثال، بدلاً من تمثيل درجة الحرارة كميزة واحدة مستمرة ذات نقطة عائمة، يمكنك تقسيم نطاقات درجات الحرارة إلى فئات منفصلة، مثل:
- ستكون درجة الحرارة التي تقل عن أو تساوي 10 درجات مئوية هي فئة "البارد".
- ستكون درجات الحرارة بين 11 و24 درجة مئوية ضمن الفئة "معتدلة".
- >= 25 درجة مئوية ستكون الفئة "دافئ".
سيتعامل النموذج مع كل قيمة في المجموعة نفسها بشكل مماثل. على سبيل المثال، تندرج القيمتان 13 و22 ضمن الفئة المعتدلة، لذا يتعامل النموذج مع القيمتين بشكل مماثل.
لمزيد من المعلومات، راجِع البيانات الرقمية: التصنيف إلى فئات في "دورة مكثّفة عن تعلّم الآلة".
C
طبقة المعايرة
تعديل ما بعد التوقّع، ويتم إجراؤه عادةً للتعويض عن تحيّز التوقّع. يجب أن تتطابق التوقعات والاحتمالات المعدَّلة مع توزيع مجموعة من التصنيفات التي تمت ملاحظتها.
إنشاء العناصر المحفّزة لعرض الإعلانات
المجموعة الأولية من الاقتراحات التي يختارها نظام الاقتراحات على سبيل المثال، تخيّل مكتبة تبيع 100,000 عنوان. تنشئ مرحلة إنشاء المرشّحين قائمة أصغر بكثير من الكتب المناسبة لمستخدم معيّن، ولنفترض أنّها تضم 500 كتاب. ولكن حتى 500 كتاب هو عدد كبير جدًا لاقتراحه على المستخدم. تؤدي المراحل اللاحقة والأكثر تكلفة في نظام التوصية (مثل تسجيل النتائج وإعادة الترتيب) إلى تقليل عدد النتائج الـ 500 إلى مجموعة أصغر بكثير وأكثر فائدة من الاقتراحات.
يمكنك الاطّلاع على نظرة عامة حول إنشاء المرشّحين في دورة "أنظمة الاقتراحات" التدريبية للحصول على مزيد من المعلومات.
تحليل العينات المُحتملة
تحسين وقت التدريب الذي يحسب احتمالية لجميع التصنيفات الإيجابية، باستخدام، على سبيل المثال، softmax، ولكن فقط لعينة عشوائية من التصنيفات السلبية. على سبيل المثال، إذا كان لدينا مثال مصنّف على أنّه كلب بيغل وكلب، فإنّ تحليل العينات المُحتملة يحسب الاحتمالات المتوقّعة وحدود الخسارة المقابلة لما يلي:
- بيغل
- dog
- مجموعة فرعية عشوائية من الفئات السلبية المتبقية (على سبيل المثال، قطة ومصاصة وسياج).
الفكرة هي أنّ الفئات السلبية يمكن أن تستفيد من التعزيز السلبي الأقل تكرارًا طالما أنّ الفئات الإيجابية تتلقّى دائمًا تعزيزًا إيجابيًا مناسبًا، وقد تم رصد ذلك تجريبيًا بالفعل.
يُعدّ تحليل العينات المُحتملة أكثر فعالية من حيث الحوسبة مقارنةً بخوارزميات التدريب التي تحتسب التوقّعات لكل الفئات السالبة، لا سيما عندما يكون عدد الفئات السالبة كبيرًا جدًا.
البيانات الفئوية
السمات التي تتضمّن مجموعة محدّدة من القيم المحتملة على سبيل المثال، لنفترض أنّ هناك ميزة فئوية باسم traffic-light-state، والتي يمكن أن تتضمّن إحدى القيم الثلاث التالية فقط:
redyellowgreen
من خلال تمثيل traffic-light-state كميزة فئوية، يمكن للنموذج التعرّف على التأثيرات المختلفة لكل من red وgreen وyellow في سلوك السائق.
يُطلق على الميزات الفئوية أحيانًا اسم الميزات المنفصلة.
يختلف عن البيانات الرقمية.
لمزيد من المعلومات، راجِع التعامل مع البيانات الفئوية في "دورة مكثّفة عن تعلّم الآلة".
نموذج لغوي سببي
مرادف نموذج اللغة أحادي الاتجاه
يمكنك الاطّلاع على نموذج اللغة الثنائي الاتجاه للمقارنة بين الأساليب المختلفة للاتجاهات في نماذج اللغة.
CB
اختصار CommitmentBank
مركز
مركز المجموعة كما تحدده خوارزمية متوسطات تصنيفية أو وسيط تصنيفي. على سبيل المثال، إذا كانت قيمة k هي 3، ستعثر خوارزمية متوسطات تصنيفية أو خوارزمية وسيط تصنيفي على 3 مراكز.
لمزيد من المعلومات، يمكنك الاطّلاع على خوارزميات التجميع في دورة التجميع.
التجميع العنقودي المستند إلى النقاط المركزية
فئة من خوارزميات التجميع التي تنظّم البيانات في مجموعات غير هرمية، وتُعد خوارزمية متوسطات تصنيفية الأكثر استخدامًا بين خوارزميات التجميع المستندة إلى مركز.
يختلف ذلك عن خوارزميات التجميع الهرمي.
لمزيد من المعلومات، يمكنك الاطّلاع على خوارزميات التجميع في دورة التجميع.
توجيه سلسلة الأفكار
تقنية هندسة الطلبات التي تشجّع النموذج اللغوي الكبير (LLM) على شرح طريقة تفكيره خطوة بخطوة. على سبيل المثال، اطّلِع على الطلب التالي، مع التركيز بشكل خاص على الجملة الثانية:
كم عدد قوى الجاذبية التي سيشعر بها السائق في سيارة تنتقل من 0 إلى 60 ميلاً في الساعة خلال 7 ثوانٍ؟ في الإجابة، أدرِج جميع العمليات الحسابية ذات الصلة.
من المرجّح أن يتضمّن ردّ النموذج اللغوي الكبير ما يلي:
- عرض سلسلة من صيغ الفيزياء، مع إدخال القيم 0 و60 و7 في الأماكن المناسبة
- اشرح سبب اختيار هذه الصيغ وما تعنيه المتغيّرات المختلفة.
يفرض الطلب المستند إلى سلسلة الأفكار على النموذج اللغوي الكبير إجراء جميع العمليات الحسابية، ما قد يؤدي إلى تقديم إجابة أكثر صحة. بالإضافة إلى ذلك، يتيح أسلوب "سلسلة الأفكار" للمستخدم فحص خطوات النموذج اللغوي الكبير لتحديد ما إذا كانت الإجابة منطقية أم لا.
مقياس دقة الاختبار (F-score) لعدد N من الأحرف المتجاورة (ChrF)
مقياس لتقييم نماذج الترجمة الآلية تحدّد نتيجة F الخاصة بـ N-gram للأحرف درجة تطابق N-gram في النص المرجعي مع N-gram في النص الذي تم إنشاؤه بواسطة نموذج تعلّم آلي.
يشبه مقياس F-score الخاص بـ N-gram للأحرف المقاييس في عائلتَي ROUGE وBLEU، باستثناء ما يلي:
- تعمل نتيجة F-score لـ N-gram الأحرف على N-gram الأحرف.
- تعمل مقياسا ROUGE وBLEU على كلمات N-grams أو رموز.
محادثة
محتوى حوار ذهابًا وإيابًا مع نظام تعلُّم آلي، ويكون عادةً نموذجًا لغويًا كبيرًا تصبح المحادثة السابقة في الدردشة (ما كتبته وكيف ردّ النموذج اللغوي الكبير) هي سياق الأجزاء اللاحقة من الدردشة.
روبوت الدردشة هو تطبيق لنموذج لغوي كبير.
نقطة تفتيش
البيانات التي تسجّل حالة المَعلمات الخاصة بالنموذج، سواء أثناء التدريب أو بعد اكتماله على سبيل المثال، أثناء التدريب، يمكنك إجراء ما يلي:
- إيقاف التدريب، ربما عن قصد أو نتيجة حدوث أخطاء معيّنة
- احفظ النقطة المرجعية.
- بعد ذلك، أعِد تحميل نقطة التحقّق، ربما على جهاز مختلف.
- إعادة بدء التدريب
اختيار البدائل المعقولة (COPA)
مجموعة بيانات لتقييم مدى قدرة نموذج لغوي كبير على تحديد أفضل إجابتَين بديلتَين لفرضية معيّنة. يتألف كل تحدٍ في مجموعة البيانات من ثلاثة عناصر:
- مقدمة، وهي عادةً عبارة متبوعة بسؤال
- إجابتان محتملتان عن السؤال المطروح في الفرضية، إحداهما صحيحة والأخرى غير صحيحة
- الإجابة الصحيحة
على سبيل المثال:
- الفرضية: كسر الرجل إصبع قدمه. ما هو سبب حدوث ذلك؟
- الإجابات المحتملة:
- ظهر ثقب في جوربه.
- سقط مطرقة على قدمه.
- الإجابة الصحيحة: 2
COPA هي أحد مكوّنات مجموعة SuperGLUE.
دقة الاقتباس
مقياس يجيب عن السؤال التالي:
ما هي النسبة المئوية للاقتباسات في ردّ النموذج اللغوي الكبير التي كانت صحيحة وداعمة؟
أي نسبة الاقتباسات التي تتضمّن الحقائق الدقيقة أو المعلومات ذات الصلة المطلوبة للتحقّق من الادّعاء الوارد في ردّ النموذج اللغوي الكبير.
على سبيل المثال، إذا استندت إجابة من نموذج لغوي كبير (LLM) إلى 10 مستندات، ولكن كان 7 من الاقتباسات فقط صحيحة ومناسبة، ستكون دقة الاقتباس 0.7.
تذكُّر الاقتباس
مقياس يجيب عن السؤال التالي:
ما هي النسبة المئوية للمستندات المصدر التي استخدمها النموذج اللغوي الكبير لإنشاء الردّ والتي تم الاستشهاد بها في الردّ؟
على سبيل المثال، إذا اعتمد نموذج لغوي كبير على 20 مستندًا لتكوين رده، ولكن لم يشر الرد إلا إلى 11 مستندًا منها، ستكون نسبة استرجاع الاقتباسات 0.55.
صنف
فئة يمكن أن ينتمي إليها تصنيف. على سبيل المثال:
- في نموذج التصنيف الثنائي الذي يرصد الرسائل غير المرغوب فيها، قد تكون الفئتان رسائل غير مرغوب فيها وليست رسائل غير مرغوب فيها.
- في نموذج التصنيف المتعدّد الفئات الذي يحدّد سلالات الكلاب، قد تكون الفئات بودل وبيغل وبَغ وما إلى ذلك.
يتنبأ نموذج التصنيف بفئة. في المقابل، يتنبأ نموذج الانحدار برقم بدلاً من فئة.
يمكنك الاطّلاع على التصنيف في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
مجموعة بيانات متوازنة الفئات
مجموعة بيانات تحتوي على تصنيفات فئوية يكون فيها عدد مثيلات كل فئة متساويًا تقريبًا. على سبيل المثال، لنفترض مجموعة بيانات نباتية يمكن أن يكون تصنيفها الثنائي إما نبات أصلي أو نبات غير أصلي:
- مجموعة البيانات التي تتضمّن 515 نباتًا أصليًا و485 نباتًا غير أصلي هي مجموعة بيانات متوازنة الفئات.
- مجموعة البيانات التي تتضمّن 875 نباتًا أصليًا و125 نباتًا غير أصلي هي مجموعة بيانات غير متوازنة الفئات.
لا يوجد خط فاصل رسمي بين مجموعات البيانات المتوازنة الفئات ومجموعات البيانات غير المتوازنة الفئات. لا يصبح التمييز مهمًا إلا عندما يتعذّر على نموذج تم تدريبه على مجموعة بيانات غير متوازنة الفئات أن يتقارب. راجِع مجموعات البيانات: مجموعات البيانات غير المتوازنة في "دورة مكثّفة عن تعلّم الآلة" للحصول على التفاصيل.
نموذج التصنيف
نموذج يكون توقّعه فئة. على سبيل المثال، كلّ ما يلي هي نماذج تصنيف:
- نموذج يتوقّع لغة الجملة المُدخَلة (هل هي فرنسية؟ الإسبانية؟ الإيطالية؟
- نموذج يتوقّع أنواع الأشجار (هل هي قيقب؟ سنديان؟ Baobab?).
- نموذج يتنبأ بالفئة الإيجابية أو السلبية لحالة طبية معيّنة.
في المقابل، تتنبّأ نماذج الانحدار بالأرقام بدلاً من الفئات.
في ما يلي نوعان شائعان من نماذج التصنيف:
عتبة التصنيف
في التصنيف الثنائي، يكون الناتج رقمًا بين 0 و1 يحوّل الناتج الأولي لنموذج الانحدار اللوجستي إلى توقع إما الفئة الإيجابية أو الفئة السلبية. ملاحظة: عتبة التصنيف هي قيمة يختارها الإنسان، وليست قيمة يختارها تدريب النموذج.
يُخرج نموذج الانحدار اللوجستي قيمة أولية بين 0 و1. بعد ذلك:
- إذا كانت هذه القيمة الأولية أكبر من عتبة التصنيف، سيتم توقّع الفئة الموجبة.
- إذا كانت هذه القيمة الأولية أقل من عتبة التصنيف، يتم التنبؤ بالفئة السالبة.
على سبيل المثال، لنفترض أنّ عتبة التصنيف هي 0.8. إذا كانت القيمة الأولية 0.9، يتوقّع النموذج الفئة الموجبة. إذا كانت القيمة الأولية 0.7، يتوقّع النموذج الفئة السلبية.
يؤثر اختيار عتبة التصنيف بشكل كبير في عدد الموجب الخاطئ و السالب الخاطئ.
يمكنك الاطّلاع على الحدود ومصفوفة الالتباس في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
مصنِّف
مصطلح غير رسمي يشير إلى نموذج التصنيف
مجموعة بيانات غير متوازنة الفئات
مجموعة بيانات خاصة بالتصنيف يختلف فيها إجمالي عدد التصنيفات لكل فئة بشكل كبير. على سبيل المثال، لنفترض أنّ لديك مجموعة بيانات تصنيف ثنائي مقسّمة إلى فئتَين على النحو التالي:
- مليون تصنيف سلبي
- 10 تصنيفات إيجابية
نسبة التصنيفات السلبية إلى الإيجابية هي 100,000 إلى 1، لذا هذه مجموعة بيانات غير متوازنة الفئات.
في المقابل، مجموعة البيانات التالية متوازنة الفئات لأنّ نسبة التصنيفات السلبية إلى التصنيفات الإيجابية قريبة نسبيًا من 1:
- 517 تصنيفًا سلبيًا
- 483 تصنيفًا موجبًا
يمكن أن تكون مجموعات البيانات المتعددة الفئات غير متوازنة الفئات أيضًا. على سبيل المثال، مجموعة البيانات التالية الخاصة بالتصنيف المتعدد الفئات هي أيضًا غير متوازنة الفئات لأنّ إحدى التصنيفات تتضمّن أمثلة أكثر بكثير من التصنيفين الآخرين:
- 1,000,000 تصنيف من الفئة "أخضر"
- 200 تصنيف بالصف "purple"
- 350 تصنيفًا بالصف "orange"
يمكن أن يواجه تدريب مجموعات البيانات غير المتوازنة الفئات تحديات خاصة. راجِع مجموعات البيانات غير المتوازنة في "دورة مكثّفة عن تعلّم الآلة" للحصول على التفاصيل.
راجِع أيضًا الإنتروبيا وفئة الأغلبية وفئة الأقلية.
القص
أسلوب للتعامل مع القيم الشاذة من خلال تنفيذ أحد الإجراءَين التاليَين أو كليهما:
- تخفيض قيم السمة التي تتجاوز الحد الأقصى إلى هذا الحد الأقصى
- زيادة قيم الميزات التي تقل عن الحد الأدنى إلى هذا الحد الأدنى
على سبيل المثال، لنفترض أنّ <0.5% من قيم ميزة معيّنة تقع خارج النطاق 40-60. في هذه الحالة، يمكنك إجراء ما يلي:
- يجب اقتطاع جميع القيم التي تزيد عن 60 (الحدّ الأقصى) لتصبح 60 بالضبط.
- يجب أن تكون جميع القيم الأقل من 40 (الحد الأدنى) هي 40 بالضبط.
يمكن أن تؤدي القيم الشاذة إلى إتلاف النماذج، ما يؤدي أحيانًا إلى تجاوز الأوزان للحد الأقصى أثناء التدريب. يمكن أن تؤدي بعض القيم الشاذة أيضًا إلى إفساد مقاييس مثل الدقة بشكل كبير. القص هو أسلوب شائع للحدّ من الضرر.
تفرض عملية اقتطاع التدرّج أن تكون قيم التدرّج ضمن نطاق محدّد أثناء التدريب.
يمكنك الاطّلاع على البيانات الرقمية: التسوية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
Cloud TPU
أداة تسريع أجهزة متخصّصة مصمّمة لتسريع مهام تعلُّم الآلة على Google Cloud
التجميع
تجميع الأمثلة ذات الصلة، خاصةً أثناء التعلّم غير الموجَّه بعد تجميع كل الأمثلة، يمكن للمستخدم أن يقدّم بشكل اختياري معنى لكل مجموعة.
تتوفّر العديد من خوارزميات التجميع العنقودي. على سبيل المثال، تجمع خوارزمية متوسطات تصنيفية الأمثلة استنادًا إلى مدى قربها من مركز، كما هو موضّح في المخطّط البياني التالي:
يمكن بعد ذلك أن يراجع باحث بشري المجموعات ويصنّف المجموعة 1 على أنّها "أشجار قزمة" والمجموعة 2 على أنّها "أشجار كاملة الحجم".
كمثال آخر، لنفترض خوارزمية تجميع عنقودي تستند إلى مسافة المثال من نقطة مركزية، كما هو موضّح أدناه:
يمكنك الاطّلاع على دورة التجميع لمزيد من المعلومات.
التكيّف المشترك
سلوك غير مرغوب فيه يحدث عندما تتوقّع الخلايا العصبية أنماطًا في بيانات التدريب من خلال الاعتماد بشكل حصري تقريبًا على نواتج خلايا عصبية أخرى معيّنة بدلاً من الاعتماد على سلوك الشبكة ككل. عندما لا تتوفّر الأنماط التي تؤدي إلى التكيّف المشترك في بيانات التحقّق، يؤدي التكيّف المشترك إلى المطابقة بشكل مفرط. تؤدي تسوية الإسقاط إلى الحد من التكيّف المشترك، لأنّ التسرب يضمن عدم اعتماد العصبونات على عصبونات أخرى معيّنة فقط.
الفلترة حسب الاهتمامات الجماعية
تقديم توقّعات بشأن اهتمامات مستخدم معيّن استنادًا إلى اهتمامات العديد من المستخدمين الآخرين يتم استخدام الفلترة حسب الاهتمامات الجماعية غالبًا في أنظمة التوصية.
يمكنك الاطّلاع على الترشيح التعاوني في دورة "أنظمة الاقتراحات" التدريبية للحصول على مزيد من المعلومات.
CommitmentBank (CB)
مجموعة بيانات لتقييم مدى إتقان نموذج لغوي كبير في تحديد ما إذا كان مؤلف مقطع نصي يعتقد بصحة عبارة مستهدَفة ضمن هذا المقطع. يحتوي كل إدخال في مجموعة البيانات على ما يلي:
- فقرة
- عبارة مستهدَفة ضمن هذه الفقرة
- قيمة منطقية تشير إلى ما إذا كان مؤلف المقطع يعتقد أنّ الجملة المستهدَفة
على سبيل المثال:
- الفقرة: كم كان من الممتع سماع ضحكة أرتميس. إنّها طفلة جدّية للغاية. لم أكن أعرف أنّ لديها حس فكاهي.
- الجملة المستهدَفة: كانت تتمتّع بروح الدعابة
- قيمة منطقية: True، ما يعني أنّ المؤلف يعتقد أنّ الجملة المستهدَفة
CommitmentBank هو أحد مكوّنات مجموعة SuperGLUE.
نموذج مضغوط
أي نموذج صغير مصمّم للتشغيل على أجهزة صغيرة ذات موارد حسابية محدودة على سبيل المثال، يمكن تشغيل النماذج المضغوطة على الهواتف الجوّالة أو الأجهزة اللوحية أو الأنظمة المضمّنة.
الحوسبة
(اسم) الموارد الحسابية التي يستخدمها نموذج أو نظام، مثل قوة المعالجة والذاكرة ومساحة التخزين
اطّلِع على شرائح تسريع الأداء.
تغيُّر المفهوم
تغيير في العلاقة بين الميزات والتسمية وبمرور الوقت، يؤدي تغيُّر المفهوم إلى تقليل جودة النموذج.
أثناء التدريب، يتعرّف النموذج على العلاقة بين الميزات والتصنيفات في مجموعة التدريب. إذا كانت التصنيفات في مجموعة التدريب تمثّل العالم الحقيقي بشكل جيد، من المفترض أن يقدّم النموذج توقّعات جيدة في العالم الحقيقي. ومع ذلك، بسبب تغيُّر المفهوم، تميل توقّعات النموذج إلى التدهور بمرور الوقت.
على سبيل المثال، لنفترض أنّ هناك نموذج تصنيف ثنائي يتنبّأ بما إذا كان طراز سيارة معيّن "موفرًا للوقود" أم لا. أي أنّ الميزات يمكن أن تكون:
- وزن السيارة
- ضغط المحرّك
- نوع الانتقال
بينما يكون التصنيف إما:
- موفر للوقود
- غير فعّالة في استهلاك الوقود
ومع ذلك، يتغيّر مفهوم "السيارة الموفّرة للوقود" باستمرار. فطراز السيارة الذي تم تصنيفه على أنّه موفر للوقود في عام 1994 سيتم تصنيفه على الأرجح على أنّه غير موفر للوقود في عام 2024. النموذج الذي يعاني من تغيُّر المفهوم يميل إلى تقديم توقّعات أقل فائدة بمرور الوقت.
قارِن بينها وبين عدم الثبات.
الشرط
في شجرة القرارات، يشير ذلك المصطلح إلى أي عقدة تجري اختبارًا. على سبيل المثال، تحتوي شجرة القرارات التالية على شرطَين:
يُطلق على الشرط أيضًا اسم تقسيم أو اختبار.
حالة التباين مع ورقة الشجر
انظر أيضًا:
اطّلِع على أنواع الشروط في دورة "أشجار القرار" للحصول على مزيد من المعلومات.
التلفيق
مرادف لكلمة هلوسة
من المحتمل أنّ مصطلح "التلفيق" هو المصطلح الأكثر دقة من الناحية الفنية مقارنةً بمصطلح "الهلوسة". ومع ذلك، أصبحت الهلوسة شائعة أولاً.
الإعدادات
عملية تحديد قيم السمات الأولية المستخدَمة لتدريب نموذج، بما في ذلك:
- طبقات النموذج
- موقع البيانات
- المعلَمات الفائقة، مثل:
في مشاريع تعلُّم الآلة، يمكن إجراء عملية الإعداد من خلال ملف إعداد خاص أو باستخدام مكتبات الإعداد، مثل ما يلي:
الانحياز التأكيدي
الميل إلى البحث عن المعلومات وتفسيرها وتفضيلها وتذكُّرها بطريقة تؤكد صحة المعتقدات أو الفرضيات الموجودة مسبقًا قد يجمع مطوّرو تعلُّم الآلة البيانات أو يصنّفونها عن غير قصد بطرق تؤثّر في نتيجة تدعم معتقداتهم الحالية. الانحياز التأكيدي هو شكل من أشكال التحيز الضمني.
تحيّز المجرب هو شكل من أشكال التحيز التأكيدي، حيث يواصل المجرب تدريب النماذج إلى أن يتم تأكيد فرضية موجودة مسبقًا.
مصفوفة نجاح التوقعات
جدول NxN يلخّص عدد التوقّعات الصحيحة والخاطئة التي قدّمها نموذج التصنيف. على سبيل المثال، إليك مصفوفة نجاح التوقعات التالية الخاصة بنموذج تصنيف ثنائي:
| ورم (متوقّع) | غير ورم (متوقّع) | |
|---|---|---|
| ورم (معلومات فعلية) | 18 (TP) | 1 (FN) |
| غير ورمي (معلومات فعلية) | 6 (FP) | 452 (TN) |
تعرض مصفوفة نجاح التوقعات السابقة ما يلي:
- من بين 19 توقّعًا كانت فيها الحقيقة الأساسية هي "ورم"، صنّف النموذج 18 منها بشكل صحيح وصنّف 1 منها بشكل غير صحيح.
- من بين 458 توقّعًا كانت الحقيقة الأساسية فيها هي "غير ورمي"، صنّف النموذج 452 منها بشكل صحيح و6 منها بشكل غير صحيح.
يمكن أن تساعدك مصفوفة نجاح التوقعات الخاصة بمسألة التصنيف المتعدد الفئات في تحديد أنماط الأخطاء. على سبيل المثال، لنفترض مصفوفة نجاح التوقعات التالية لنموذج تصنيف متعدّد الفئات يتضمّن 3 فئات ويصنّف ثلاثة أنواع مختلفة من زهور السوسن (فيرجينيكا وفيرسيكولور وسيتوسا). عندما كانت الحقيقة الأساسية هي Virginica، يوضّح مصفوفة نجاح التوقعات أنّ النموذج كان أكثر عرضة للتنبؤ بشكل خاطئ بأنّها Versicolor بدلاً من Setosa:
| Setosa (متوقّع) | Versicolor (متوقّعة) | Virginica (القيمة المتوقّعة) | |
|---|---|---|---|
| Setosa (المعلومات الفعلية) | 88 | 12 | 0 |
| Versicolor (المعلومات الفعلية) | 6 | 141 | 7 |
| Virginica (المعلومات الفعلية) | 2 | 27 | 109 |
كمثال آخر، يمكن أن تكشف مصفوفة نجاح التوقعات أنّ نموذجًا تم تدريبه على التعرّف على الأرقام المكتوبة بخط اليد يميل إلى توقّع الرقم 9 بدلاً من 4، أو توقّع الرقم 1 بدلاً من 7.
تحتوي مصفوفات نجاح التوقعات على معلومات كافية لحساب مجموعة متنوعة من مقاييس الأداء، بما في ذلك مقياس صحة النموذج ومقياس المراجعة.
تحليل الدوائر الانتخابية
تقسيم الجملة إلى بنى نحوية أصغر ("مكونات") يمكن لجزء لاحق من نظام تعلُّم الآلة، مثل نموذج فهم اللغات الطبيعية، تحليل المكوّنات بسهولة أكبر من الجملة الأصلية. على سبيل المثال، فكِّر في الجملة التالية:
تبنّى صديقي قطتين.
يمكن لمحلّل البنية تقسيم هذه الجملة إلى المكوّنين التاليين:
- صديقي هي عبارة اسمية.
- تبنّيتُ قطتَين هي عبارة فعلية.
ويمكن تقسيم هذه المكوّنات إلى مكوّنات أصغر. على سبيل المثال، عبارة الفعل
تبنّيتُ قطتَين
يمكن تقسيمها إلى:
- adopted هي فعل.
- قطتان هي عبارة اسمية أخرى.
تضمين اللغة حسب السياق
تضمين يقترب من "فهم" الكلمات والعبارات بالطرق التي يفهمها المتحدثون بطلاقة. يمكن لعمليات التضمين المستندة إلى السياق فهم التركيب النحوي والدلالات والسياق المعقّد.
على سبيل المثال، ضع في اعتبارك تضمينات الكلمة الإنجليزية cow. يمكن أن تمثّل التضمينات القديمة، مثل word2vec، الكلمات الإنجليزية بطريقة تجعل المسافة في مساحة التضمين بين بقرة وثور مشابهة للمسافة بين نعجة (أنثى الخروف) وكبش (ذكر الخروف) أو بين أنثى وذكر. يمكن أن تتجاوز تضمينات اللغة المستندة إلى السياق ذلك من خلال إدراك أنّ المتحدثين باللغة الإنجليزية يستخدمون أحيانًا كلمة بقرة بشكل غير رسمي للإشارة إلى البقرة أو الثور.
قدرة الاستيعاب
عدد الرموز المميزة التي يمكن للنموذج معالجتها في طلب معيّن كلما كانت قدرة الاستيعاب أكبر، زادت المعلومات التي يمكن للنموذج استخدامها لتقديم ردود متسقة وذات صلة بالطلب.
خاصية مستمرة
ميزة ذات فاصلة عشرية عائمة مع نطاق لا نهائي من القيم المحتملة، مثل درجة الحرارة أو الوزن
يجب التمييز بينها وبين الخاصية المحدّدة القيم.
عينة عشوائية
استخدام مجموعة بيانات لم يتم جمعها بشكل علمي لإجراء تجارب سريعة في وقت لاحق، من الضروري التبديل إلى مجموعة بيانات تم جمعها بشكل علمي.
التقارب
هي حالة يتم الوصول إليها عندما تتغير قيم الخسارة بشكل طفيف جدًا أو لا تتغير على الإطلاق مع كل تكرار. على سبيل المثال، يشير منحنى الخسارة التالي إلى التقارب عند حوالي 700 تكرار:
يتقارب النموذج عندما لا يؤدي التدريب الإضافي إلى تحسينه.
في التعلم العميق، تظل قيم الخسارة ثابتة أحيانًا أو قريبة من ذلك لعدة تكرارات قبل أن تنخفض أخيرًا. خلال فترة طويلة من ثبات قيم الخسارة، قد تشعر مؤقتًا بأنّ هناك تقاربًا خاطئًا.
اطّلِع أيضًا على الإيقاف المبكر.
لمزيد من المعلومات، يُرجى الاطّلاع على تقارب النماذج ومنحنيات الخسارة في "دورة مكثّفة عن تعلّم الآلة".
البرمجة الحوارية
محادثة متكرّرة بينك وبين نموذج ذكاء اصطناعي توليدي بغرض إنشاء برامج تُصدر طلبًا يصف بعض البرامج. بعد ذلك، يستخدم النموذج هذا الوصف لإنشاء الرمز. بعد ذلك، تقدّم طلبًا جديدًا لمعالجة العيوب في الطلب السابق أو في الرمز البرمجي الذي تم إنشاؤه، وينشئ النموذج رمزًا برمجيًا معدَّلاً. ويستمرّ تبادل الرسائل بينكما إلى أن يصبح البرنامج الذي تم إنشاؤه جيدًا بما يكفي.
إنّ ترميز المحادثات هو في الأساس المعنى الأصلي للبرمجة الوصفية.
يختلف عن الترميز التحديدي.
دالّة محدّبة
الدالة التي تكون فيها المنطقة الواقعة فوق الرسم البياني للدالة مجموعة محدّبة. تتخذ الدالة المحدبة النموذجية شكلًا يشبه الحرف U. على سبيل المثال، الدوال التالية كلها دوال محدّبة:
في المقابل، الدالة التالية ليست محدّبة. لاحظ كيف أنّ المنطقة أعلاه الرسم البياني ليست مجموعة محدّبة:
الدالة المحدّبة تمامًا لها نقطة حد أدنى محلية واحدة فقط، وهي أيضًا نقطة الحد الأدنى العام. الدوال الكلاسيكية على شكل حرف U هي دوال محدّبة تمامًا. ومع ذلك، بعض الدوال المحدّبة (مثل الخطوط المستقيمة) ليست على شكل حرف U.
يمكنك الاطّلاع على التقارب والدوال المحدّبة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
تحسين الدالّة المحدّبة
عملية استخدام تقنيات رياضية، مثل النزول التدريجي، للعثور على الحد الأدنى لدالة محدّبة تركّز الكثير من الأبحاث في مجال تعلّم الآلة على صياغة مشاكل مختلفة على أنّها مشاكل تحسين الدالّة المحدّبة وعلى حلّ هذه المشاكل بشكل أكثر فعالية.
للاطّلاع على التفاصيل الكاملة، يُرجى الرجوع إلى كتاب Boyd and Vandenberghe، Convex Optimization.
مجموعة محدّبة
مجموعة فرعية من الفضاء الإقليدي بحيث يبقى الخط المرسوم بين أي نقطتين في المجموعة الفرعية ضمن المجموعة الفرعية تمامًا على سبيل المثال، الشكلان التاليان هما مجموعتان محدّبتان:
في المقابل، الشكلان التاليان ليسا مجموعتين محدّبتين:
الالتفاف
في الرياضيات، وبشكل عام، هي مزيج من دالتين. في تعلُّم الآلة، يجمع الالتفاف بين فلتر الالتفاف ومصفوفة الإدخال من أجل تدريب الأوزان.
في سياق تعلُّم الآلة، يشير مصطلح "الالتفاف" غالبًا إلى طريقة مختصرة للإشارة إلى عملية الالتفاف أو طبقة الالتفاف.
بدون الالتفافات، يجب أن تتعلّم خوارزمية تعلُّم الآلة وزنًا منفصلاً لكل خلية في موتر كبير. على سبيل المثال، إذا تم تدريب خوارزمية تعلُّم آلي على صور بدقة 2000 × 2000، سيتم إجبارها على العثور على 4 ملايين وزن منفصل. بفضل الالتفافات، لا يحتاج خوارزمية تعلُّم الآلة إلا إلى العثور على أوزان لكل خلية في فلتر الالتفاف، ما يقلّل بشكل كبير من الذاكرة اللازمة لتدريب النموذج. عند تطبيق فلتر الالتفاف، يتم ببساطة تكراره على مستوى الخلايا بحيث يتم ضرب كل خلية في الفلتر.
فلتر التفافي
أحد العنصرَين في عملية التفاف (العنصر الآخر هو جزء من مصفوفة إدخال). الفلتر الالتفافي هو مصفوفة لها الترتيب نفسه مثل مصفوفة الإدخال، ولكن بشكل أصغر. على سبيل المثال، إذا كانت مصفوفة الإدخال 28x28، يمكن أن يكون الفلتر أي مصفوفة ثنائية الأبعاد أصغر من 28x28.
في معالجة الصور، يتم عادةً ضبط جميع الخلايا في فلتر التفاف على نمط ثابت من الآحاد والأصفار. في تعلُّم الآلة، يتم عادةً إدخال أرقام عشوائية إلى فلاتر الالتفاف، ثم تدريب الشبكة على القيم المثالية.
الطبقة الالتفافية
إحدى طبقات الشبكة العصبية العميقة التي يمرر فيها فلتر التفاف مصفوفة إدخال. على سبيل المثال، إليك فلتر التفاف بحجم 3x3:
تعرض الصورة المتحركة التالية طبقة التفافية تتألف من 9 عمليات التفافية تتضمّن مصفوفة الإدخال 5x5. لاحظ أنّ كل عملية التفافية تعمل على شريحة مختلفة من مصفوفة الإدخال بحجم 3×3. تتألف مصفوفة 3x3 الناتجة (على اليسار) من نتائج عمليات الالتفاف التسع:
شبكة عصبونية التفافية
شبكة عصبونية يكون فيها طبقة واحدة على الأقل عبارة عن طبقة التفافية تتألف الشبكة العصبية الالتفافية النموذجية من مجموعة من الطبقات التالية:
حققت الشبكات العصبونية الالتفافية نجاحًا كبيرًا في أنواع معيّنة من المشاكل، مثل التعرّف على الصور.
عملية الالتفاف
العملية الرياضية التالية المكوَّنة من خطوتَين:
- الضرب حسب العناصر بين فلتر الالتفاف وشريحة من مصفوفة الإدخال (يحتوي جزء مصفوفة الإدخال على الترتيب والحجم نفسيهما كفلتر الالتفاف).
- مجموع كل القيم في مصفوفة المنتجات الناتجة
على سبيل المثال، ضع في اعتبارك مصفوفة الإدخال التالية بحجم 5x5:
لنفترض الآن فلتر التفافي 2x2 التالي:
تتضمّن كل عملية التفاف شريحة واحدة بحجم 2×2 من مصفوفة الإدخال. على سبيل المثال، لنفترض أنّنا نستخدم شريحة 2x2 في أعلى يسار مصفوفة الإدخال. وبالتالي، تبدو عملية الالتفاف على هذه الشريحة كما يلي:
تتألف الطبقة الالتفافية من سلسلة من العمليات الالتفافية، كل منها يعمل على شريحة مختلفة من مصفوفة الإدخال.
COPA
الاختصار الخاص بـ اختيار البدائل المعقولة
التكلفة
مرادف لكلمة خسارة
التدريب المشترك
اتّباع أسلوب التعلّم شبه الموجّه مفيد بشكل خاص عندما تكون جميع الشروط التالية صحيحة:
- نسبة الأمثلة غير المصنَّفة إلى الأمثلة المصنَّفة في مجموعة البيانات مرتفعة.
- هذه مشكلة تصنيف (ثنائي أو متعدد الفئات).
- تحتوي مجموعة البيانات على مجموعتَين مختلفتَين من الميزات التنبؤية المستقلة عن بعضها البعض والمتكاملة.
تعمل عملية التدريب المشترك بشكل أساسي على تضخيم الإشارات المستقلة وتحويلها إلى إشارة أقوى. على سبيل المثال، لنفترض أنّ هناك نموذج تصنيف يصنّف السيارات المستعملة الفردية إلى جيدة أو سيئة. قد تركّز إحدى مجموعات الميزات التنبؤية على الخصائص المجمّعة، مثل سنة تصنيع السيارة وعلامتها التجارية وطرازها، وقد تركّز مجموعة أخرى من الميزات التنبؤية على سجلّ القيادة الخاص بالمالك السابق وسجلّ صيانة السيارة.
إنّ الورقة البحثية الأساسية حول التدريب المشترك هي الجمع بين البيانات المصنَّفة وغير المصنَّفة باستخدام التدريب المشترك من تأليف "بلوم" و"ميتشل".
العدالة في الحالات الافتراضية
مقياس الإنصاف الذي يتحقّق مما إذا كان نموذج التصنيف يعرض النتيجة نفسها لشخص ما كما يعرضها لشخص آخر مطابق للأول، باستثناء ما يتعلق بواحدة أو أكثر من السمات الحسّاسة. يُعدّ تقييم نموذج التصنيف من حيث الإنصاف المضاد للواقع إحدى الطرق للكشف عن المصادر المحتملة للانحياز في النموذج.
يمكنك الاطّلاع على أيّ مما يلي للحصول على مزيد من المعلومات:
- الإنصاف: الإنصاف الافتراضي في دورة مكثّفة عن تعلّم الآلة.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
انحياز في التغطية
اطّلِع على الانحياز في الاختيار.
crash blossom
جملة أو عبارة ذات معنى غامض تشكّل أخطاء "الازدهار المفاجئ" مشكلة كبيرة في فهم اللغة الطبيعية. على سبيل المثال، العنوان الروتين يعطّل بناء ناطحة سحاب هو مثال على جملة مبهمة لأنّ نموذج فهم اللغات الطبيعية قد يفسّر العنوان حرفيًا أو مجازيًا.
ناقد
مرادف شبكة Q العميقة
الإنتروبيا المتقاطعة
هي تعميم الخسارة اللوغاريتمية على مشاكل التصنيف المتعدد الفئات. يقيس الانتروبيا المتقاطعة الفرق بين توزيعَين للاحتمالات. يمكنك الاطّلاع أيضًا على مقياس الارتباك.
التحقّق المتقاطع
آلية لتقدير مدى قدرة النموذج على التعميم على البيانات الجديدة من خلال اختبار النموذج على مجموعة فرعية واحدة أو أكثر من البيانات غير المتداخلة المحجوبة من مجموعة التدريب
دالة التوزيع التراكمي (CDF)
دالة تحدّد عدد المرّات التي تكون فيها العيّنات أقل من أو تساوي قيمة مستهدَفة. على سبيل المثال، لنفترض أنّ هناك توزيعًا طبيعيًا للقيم المستمرة. يخبرك التوزيع التراكمي بأنّ% 50 تقريبًا من العيّنات يجب أن تكون أقل من أو تساوي المتوسط، وأنّ% 84 تقريبًا من العيّنات يجب أن تكون أقل من أو تساوي الانحراف المعياري الواحد فوق المتوسط.
D
تحليل البيانات
فهم البيانات من خلال النظر في العيّنات والقياس والعرض المرئي يمكن أن يكون تحليل البيانات مفيدًا بشكل خاص عند تلقّي مجموعة بيانات لأول مرة، قبل إنشاء النموذج الأول. وهي ضرورية أيضًا لفهم التجارب وتصحيح الأخطاء في النظام.
توسيع نطاق البيانات
زيادة نطاق وعدد أمثلة التدريب بشكل مصطنع من خلال تحويل الأمثلة الحالية لإنشاء أمثلة إضافية على سبيل المثال، لنفترض أنّ الصور هي إحدى الميزات، ولكن مجموعة البيانات لا تحتوي على أمثلة كافية من الصور ليتعلّم النموذج الارتباطات المفيدة. من المفترض أن تضيف عددًا كافيًا من الصور المصنَّفة إلى مجموعة البيانات كي يتم تدريب النموذج بشكل صحيح. إذا لم يكن ذلك ممكنًا، يمكن أن تؤدي زيادة البيانات إلى تدوير كل صورة وتمديدها وعكسها لإنتاج العديد من الخيارات للصورة الأصلية، ما قد يؤدي إلى توفير بيانات مصنّفة كافية لإجراء تدريب ممتاز.
DataFrame
نوع بيانات pandas شائع لتمثيل مجموعات البيانات في الذاكرة
يشبه DataFrame الجدول أو جدول البيانات. يحتوي كل عمود في DataFrame على اسم (عنوان)، ويتم تحديد كل صف برقم فريد.
يتم تنظيم كل عمود في إطار البيانات على شكل مصفوفة ثنائية الأبعاد، إلا أنّه يمكن تعيين نوع بيانات خاص لكل عمود.
يمكنك أيضًا الاطّلاع على صفحة مرجع pandas.DataFrame الرسمية.
التوازي على مستوى البيانات
طريقة لتوسيع نطاق التدريب أو الاستنتاج عن طريق تكرار نموذج كامل على أجهزة متعددة، ثم تمرير مجموعة فرعية من البيانات المدخلة إلى كل جهاز. يمكن أن تتيح ميزة "التوازي على مستوى البيانات" التدريب والاستدلال على أحجام دفعات كبيرة جدًا، ولكنها تتطلّب أن يكون النموذج صغيرًا بما يكفي ليتناسب مع جميع الأجهزة.
تؤدي موازاة البيانات عادةً إلى تسريع التدريب والاستنتاج.
يمكنك أيضًا الاطّلاع على التوازي بين النماذج.
Dataset API (tf.data)
واجهة برمجة تطبيقات TensorFlow عالية المستوى لقراءة البيانات وتحويلها إلى نموذج تتطلّبه خوارزمية تعلُّم الآلة
يمثّل كائن tf.data.Dataset تسلسلاً من العناصر، يحتوي كل عنصر فيه على Tensor واحد أو أكثر. يتيح عنصر tf.data.Iterator الوصول إلى عناصر Dataset.
مجموعة البيانات
مجموعة من البيانات الأولية، يتم تنظيمها عادةً (وليس حصريًا) بأحد التنسيقات التالية:
- جدول بيانات
- ملف بتنسيق CSV (قيم مفصولة بفواصل)
فاصل بين الفئات
الفاصل بين الفئات التي تعلّمها النموذج في مشاكل التصنيف الثنائي أو مشاكل التصنيف المتعدّد الفئات على سبيل المثال، في الصورة التالية التي تمثّل مشكلة تصنيف ثنائي، الحد الفاصل هو الحد بين الفئة البرتقالية والفئة الزرقاء:
غابة القرارات
نموذج تم إنشاؤه من عدة أشجار قرارات تُجري "غابة القرارات" عملية توقّع من خلال تجميع التوقّعات التي تقدّمها أشجار القرارات. تشمل الأنواع الشائعة من غابات القرارات الغابات العشوائية وأشجار التدرّج المعزّز.
يمكنك الاطّلاع على قسم غابات القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
حدّ القرار
مرادف عتبة التصنيف
شجرة القرارات
نموذج تعلّم موجَّه يتألف من مجموعة من الشروط والعُقد الطرفية المنظَّمة بشكل هرمي. على سبيل المثال، ما يلي هو شجرة قرارات:
برنامج فك الترميز
بشكل عام، أي نظام تعلُّم آلي يحوّل من تمثيل معالَج أو كثيف أو داخلي إلى تمثيل أكثر أولية أو تفرّقًا أو خارجية.
غالبًا ما تكون أدوات فك الترميز جزءًا من نموذج أكبر، حيث يتم دمجها بشكل متكرر مع أداة ترميز.
في مهام التسلسل إلى التسلسل، يبدأ برنامج الترميز بإدخال الحالة الداخلية التي أنشأها برنامج الترميز السابق لتوقُّع التسلسل التالي.
راجِع المحوّل للتعرّف على تعريف برنامج فك الترميز ضمن بنية المحوّل.
يمكنك الاطّلاع على النماذج اللغوية الكبيرة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
نموذج عميق
شبكة عصبية تحتوي على أكثر من طبقة مخفية
يُطلق على النموذج العميق أيضًا اسم شبكة عصبية عميقة.
يختلف عن النموذج الواسع.
شبكة عصبية عميقة
مرادف النموذج العميق
شبكة Q العميقة (DQN)
في تعلُّم Q، يتم استخدام شبكة عصبية عميقة لتوقُّع دالات Q.
Critic هو مرادف لـ Deep Q-Network.
التكافؤ بين الجنسين
مقياس العدالة الذي يتم استيفاؤه إذا كانت نتائج تصنيف النموذج لا تعتمد على سمة حساسة معيّنة.
على سبيل المثال، إذا كان كل من سكان ليليبوت وبروبدينغناغ يتقدّمون بطلبات إلى جامعة غلوبدوبدريب، يتم تحقيق التكافؤ الديموغرافي إذا كانت النسبة المئوية للطلاب المقبولين من ليليبوت هي نفسها النسبة المئوية للطلاب المقبولين من بروبدينغناغ، بغض النظر عمّا إذا كانت إحدى المجموعتين أكثر تأهيلاً من الأخرى في المتوسط.
يختلف هذا المقياس عن تساوي الاحتمالات وتساوي الفرص، اللذين يسمحان بأن تعتمد نتائج التصنيف بشكل إجمالي على السمات الحسّاسة، ولكنّهما لا يسمحان بأن تعتمد نتائج التصنيف لبعض التصنيفات المحدّدة للحقيقة الأساسية على السمات الحسّاسة. يمكنك الاطّلاع على "مكافحة التمييز من خلال تعلُّم الآلة الأذكى" للحصول على عرض مرئي يستكشف المفاضلة عند تحسين التكافؤ الديمغرافي.
يمكنك الاطّلاع على الإنصاف: التكافؤ الديمغرافي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
إزالة التشويش
أحد الأساليب الشائعة في التعلّم الذاتي الذي يتضمّن:
تتيح إزالة التشويش التعلّم من أمثلة غير مصنَّفة. تعمل مجموعة البيانات الأصلية كهدف أو تصنيف، وتعمل البيانات المشوّشة كمدخل.
تستخدم بعض نماذج اللغة المقنّعة أسلوب إزالة التشويش على النحو التالي:
- تتم إضافة ضوضاء بشكل اصطناعي إلى جملة غير مصنّفة من خلال إخفاء بعض الرموز المميزة.
- يحاول النموذج توقّع الرموز المميزة الأصلية.
خاصية كثيفة
ميزة تكون معظم قيمها أو كلها غير صفرية، وعادةً ما تكون Tensor من قيم الفاصلة العائمة. على سبيل المثال، يكون Tensor التالي المكوّن من 10 عناصر كثيفًا لأنّ 9 من قيمه غير صفرية:
| 8 | 3 | 7 | 5 | 2 | 4 | 0 | 4 | 9 | 6 |
يختلف عن الميزة النادرة.
طبقة كثيفة
مرادف الطبقة المكتملة الاتصال
العمق
مجموع ما يلي في شبكة عصبونية:
- عدد الطبقات المخفية
- عدد الطبقات النهائية، وهو عادةً 1
- عدد أي طبقات تضمين
على سبيل المثال، تبلغ عمق الشبكة العصبية التي تتضمّن خمس طبقات مخفية وطبقة نهائية واحدة 6 طبقات.
يُرجى العِلم أنّ طبقة الإدخال لا تؤثر في العمق.
شبكة عصبونية التفافية قابلة للفصل حسب العمق (sepCNN)
بنية شبكة عصبية التفافية تستند إلى Inception، ولكن يتم فيها استبدال وحدات Inception بعمليات التفاف منفصلة حسب العمق. يُعرف أيضًا باسم Xception.
الالتفاف المنفصل حسب العمق (يُختصر أيضًا إلى الالتفاف المنفصل) هو عملية تفكيك عملية الالتفاف الثلاثية الأبعاد العادية إلى عمليتَي التفاف منفصلتَين أكثر فعالية من الناحية الحسابية: أولاً، عملية التفاف حسب العمق بعمق 1 (n ✕ n ✕ 1)، ثم عملية التفاف نقطية بطول وعرض 1 (1 ✕ 1 ✕ n).
لمزيد من المعلومات، يُرجى الاطّلاع على Xception: Deep Learning with Depthwise Separable Convolutions.
تصنيف مشتق
مرادف للتصنيف التقريبي
حتمية
نظام يعرض دائمًا الناتج نفسه عند إدخال البيانات نفسها. على سبيل المثال، دالة ReLU هي دالة قطعية لأنّ:
- عندما يكون المدخل سالبًا، يكون الناتج دائمًا 0.
- عندما يكون الإدخال غير سالب، يكون الناتج دائمًا مساويًا للإدخال.
في المقابل، تكون الدالة التي تعرض رقمًا عشوائيًا في كل مرة يتم استدعاؤها فيها غير قطعية.
وبشكل عام، يسهل اختبار الأنظمة المحدّدة أكثر من الأنظمة غير المحدّدة.
عادةً ما تكون النماذج اللغوية الكبيرة غير قطعية، أي أنّ استجابة النموذج اللغوي الكبير لطلب نفسه تختلف غالبًا.
جهاز
مصطلح مثقل بالمعاني يتضمّن التعريفَين المحتملَين التاليَين:
- فئة من الأجهزة التي يمكنها تشغيل جلسة TensorFlow، بما في ذلك وحدات المعالجة المركزية ووحدات معالجة الرسومات ووحدات معالجة الموتّرات
- عند تدريب نموذج تعلُّم آلي على شرائح تسريع (وحدات معالجة الرسومات أو وحدات معالجة الموتّرات)، يكون هذا الجزء من النظام هو المسؤول عن معالجة الموتّرات وعمليات التضمين. يعمل الجهاز باستخدام شرائح تسريع. في المقابل، يعمل المضيف عادةً على وحدة معالجة مركزية.
الخصوصية التفاضلية
في تعلُّم الآلة، هو نهج لإخفاء الهوية يهدف إلى حماية أي بيانات حساسة (مثل المعلومات الشخصية لأحد الأفراد) مضمّنة في مجموعة التدريب الخاصة بأحد النماذج من التعرّض. يضمن هذا النهج ألا يتعلّم النموذج أو يتذكّر الكثير من المعلومات حول فرد معيّن. ويتم ذلك من خلال أخذ عيّنات وإضافة تشويش أثناء تدريب النموذج لإخفاء نقاط البيانات الفردية، ما يقلّل من خطر الكشف عن بيانات التدريب الحسّاسة.
يتم استخدام الخصوصية التفاضلية أيضًا خارج نطاق تعلُّم الآلة. على سبيل المثال، يستخدم علماء البيانات أحيانًا الخصوصية التفاضلية لحماية خصوصية الأفراد عند احتساب إحصاءات استخدام المنتجات لمختلف الفئات السكانية.
تخفيض عدد السمات
تقليل عدد السمات المستخدَمة لتمثيل ميزة معيّنة في متّجه الميزات، عادةً من خلال التحويل إلى متّجه تضمين
الأبعاد
مصطلح محمل بأكثر من معنى وله أي من التعريفات التالية:
عدد مستويات الإحداثيات في Tensor على سبيل المثال:
- يتضمّن العدد القياسي صفرًا من الأبعاد، مثل
["Hello"]. - يتضمّن المتّجه بُعدًا واحدًا، مثل
[3, 5, 7, 11]. - تحتوي المصفوفة على سمتَين، مثل
[[2, 4, 18], [5, 7, 14]]. يمكنك تحديد خلية معيّنة بشكل فريد في متّجه أحادي البُعد باستخدام إحداثي واحد، ولكنك تحتاج إلى إحداثيَين لتحديد خلية معيّنة بشكل فريد في مصفوفة ثنائية الأبعاد.
- يتضمّن العدد القياسي صفرًا من الأبعاد، مثل
عدد الإدخالات في متّجه الميزات
عدد العناصر في طبقة التضمين
توجيه الطلبات بشكل مباشر
مرادف للتلقين بلا أمثلة
خاصية محدّدة القيم
الميزة التي تتضمّن مجموعة محدودة من القيم المحتملة على سبيل المثال، السمة التي لا يمكن أن تتضمّن قيمًا سوى حيوان أو نبات أو معدن هي سمة منفصلة (أو فئوية).
يختلف عن الخاصية المستمرة.
النموذج التمييزي
نموذج يتوقّع تصنيفات من مجموعة تتضمّن ميزة واحدة أو أكثر من الميزات بشكل أكثر رسمية، تحدّد النماذج التمييزية الاحتمالية الشرطية للناتج بالنظر إلى الميزات والأوزان، أي:
p(output | features, weights)
على سبيل المثال، النموذج الذي يتنبأ بما إذا كانت الرسالة الإلكترونية غير مرغوب فيها من الميزات والأوزان هو نموذج تمييزي.
إنّ الغالبية العظمى من نماذج التعلُّم الموجَّه، بما في ذلك نماذج التصنيف والانحدار، هي نماذج تمييزية.
يختلف عن النموذج التوليدي.
المُميِّز
نظام يحدّد ما إذا كانت الأمثلة حقيقية أو مزيفة.
أو، هو النظام الفرعي ضمن شبكة الخصومة التوليدية الذي يحدّد ما إذا كانت الأمثلة التي أنشأها المولّد حقيقية أو مزيفة.
يمكنك الاطّلاع على المميّز في دورة GAN التدريبية للحصول على مزيد من المعلومات.
التأثير غير المتكافئ
اتّخاذ قرارات بشأن أشخاص تؤثّر بشكل غير متناسب في مجموعات فرعية مختلفة من السكان يشير ذلك عادةً إلى الحالات التي تؤدي فيها عملية اتخاذ القرارات المستندة إلى الخوارزميات إلى إلحاق الضرر ببعض المجموعات الفرعية أو تحقيق فائدة لها أكثر من غيرها.
على سبيل المثال، لنفترض أنّ خوارزمية تحدّد أهلية شخص من ليليبوت للحصول على قرض لشراء منزل صغير، ومن المرجّح أن تصنّفه على أنّه "غير مؤهّل" إذا كان عنوانه البريدي يتضمّن رمزًا بريديًا معيّنًا. إذا كان من المرجّح أن يكون لدى سكان ليليبوت الذين يستخدمون تنسيق Big-Endian عناوين بريدية تتضمّن هذا الرمز البريدي أكثر من سكان ليليبوت الذين يستخدمون تنسيق Little-Endian، قد تؤدي هذه الخوارزمية إلى تأثير متفاوت.
يختلف ذلك عن المعاملة غير المتكافئة، التي تركّز على التفاوتات الناتجة عندما تكون خصائص المجموعة الفرعية مدخلات صريحة في عملية اتخاذ القرار المستندة إلى الخوارزميات.
المعاملة غير المتكافئة
إدخال السمات الحسّاسة الخاصة بالأشخاص في عملية اتخاذ القرار المستندة إلى الخوارزميات، ما يؤدي إلى معاملة المجموعات الفرعية المختلفة من الأشخاص بشكل مختلف
على سبيل المثال، لنفترض أنّ هناك خوارزمية تحدّد أهلية الأشخاص للحصول على قرض لشراء منزل صغير استنادًا إلى البيانات التي يقدّمونها في طلب القرض. إذا كانت الخوارزمية تستخدم انتماء أحد الأشخاص إلى Lilliputian كإدخال Big-Endian أو Little-Endian، فإنّها تمارس معاملة مختلفة على هذا الأساس.
يختلف ذلك عن التأثير غير المتكافئ الذي يركّز على التفاوتات في التأثيرات المجتمعية لقرارات الخوارزميات على المجموعات الفرعية، بغض النظر عمّا إذا كانت هذه المجموعات الفرعية مدخلات للنموذج.
التقطير
عملية تقليل حجم نموذج واحد (يُعرف باسم النموذج الأساسي) إلى نموذج أصغر (يُعرف باسم النموذج الثانوي) يحاكي توقّعات النموذج الأصلي بأكبر قدر ممكن من الدقة التقطير مفيد لأنّ النموذج الأصغر حجمًا يتمتّع بميزتَين رئيسيتَين مقارنةً بالنموذج الأكبر حجمًا (المعلّم):
- وقت استنتاج أسرع
- تقليل استخدام الذاكرة والطاقة
ومع ذلك، لا تكون توقعات الطالب جيدة عادةً مثل توقعات المعلّم.
تدرّب عملية التقطير نموذج الطالب على تقليل دالة الخسارة استنادًا إلى الفرق بين نتائج التوقعات التي يقدّمها نموذج الطالب ونموذج المعلّم.
قارِن بين التقطير والمصطلحات التالية:
لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة: الضبط الدقيق والتقطير وهندسة الطلبات في "دورة مكثّفة عن تعلّم الآلة".
distribution
تمثّل هذه السمة عدد المرات التي تظهر فيها القيم المختلفة للميزة أو التصنيف ونطاقها. يعرض التوزيع مدى احتمالية ظهور قيمة معيّنة.
تعرض الصورة التالية المدرّجات التكرارية لتوزيعَين مختلفَين:
- على اليمين، يظهر توزيع قانون القوة للثروة مقابل عدد الأشخاص الذين يملكون هذه الثروة.
- على اليسار، يظهر التوزيع الطبيعي للطول مقابل عدد الأشخاص الذين يبلغ طولهم هذا المقدار.
يمكن أن يساعدك فهم توزيع كل ميزة وتصنيف في تحديد كيفية تسوية القيم ورصد القيم الشاذة.
تشير عبارة خارج التوزيع إلى قيمة لا تظهر في مجموعة البيانات أو تظهر بشكل نادر جدًا. على سبيل المثال، ستُعتبر صورة لكوكب زحل خارج نطاق التوزيع لمجموعة بيانات تتألف من صور قطط.
التجميع من الأعلى إلى الأسفل
اطّلِع على التجميع الهرمي.
تصغير نطاق العيّنات
مصطلح عام يمكن أن يشير إلى أحد المعنيَين التاليَين:
- تقليل كمية المعلومات في ميزة بهدف تدريب نموذج بشكل أكثر فعالية على سبيل المثال، قبل تدريب نموذج للتعرّف على الصور، يتم تقليل دقة الصور العالية الدقة إلى تنسيق أقل دقة.
- التدريب على نسبة منخفضة بشكل غير متناسب من أمثلة الفئة الممثَّلة بشكل مفرط، وذلك بهدف تحسين تدريب النموذج على الفئات الممثَّلة بشكل ناقص على سبيل المثال، في مجموعة بيانات غير متوازنة الفئات، تميل النماذج إلى التعرّف على الكثير من المعلومات حول الفئة الأكبر، ولكن ليس بالقدر الكافي حول الفئة الأصغر. يساعد تقليل معدّل أخذ العيّنات في تحقيق التوازن بين مقدار التدريب على الفئات الأكبر والأصغر.
لمزيد من المعلومات، راجِع مجموعات البيانات: مجموعات البيانات غير المتوازنة في "دورة مكثّفة عن تعلّم الآلة".
DQN
اختصار شبكة Q العميقة
تسوية الإسقاط
أحد أشكال التسوية المفيدة في تدريب الشبكات العصبونية. تزيل تسوية الإسقاط مجموعة عشوائية من عدد ثابت من الوحدات في إحدى طبقات الشبكة خلال خطوة واحدة من التدرّج. وكلما زاد عدد الوحدات التي تم تجاهلها، زادت قوة التسوية. وهذا يشبه تدريب الشبكة على محاكاة مجموعة موحدة كبيرة بشكل كبير من الشبكات الأصغر. للاطّلاع على التفاصيل الكاملة، يُرجى الرجوع إلى Dropout: A Simple Way to Prevent Neural Networks from Overfitting.
ديناميكي
شيء يتم بشكل متكرّر أو مستمر المصطلحان ديناميكي وعلى الإنترنت مترادفان في تعلُّم الآلة. في ما يلي الاستخدامات الشائعة للديناميكية والإنترنت في تعلّم الآلة:
- النموذج المتغيّر (أو النموذج المباشر) هو نموذج تتم إعادة تدريبه بشكل متكرر أو مستمر.
- التدريب الديناميكي (أو التدريب على الإنترنت) هو عملية تدريب متكررة أو مستمرة.
- الاستدلال الديناميكي (أو الاستنتاج الحي) هو عملية إنشاء توقعات عند الطلب.
نموذج متغيّر
نموذج يتم إعادة تدريبه بشكل متكرر (ربما بشكل مستمر). النموذج المتغيّر هو "متعلّم مدى الحياة" يتكيّف باستمرار مع البيانات المتطورة. يُعرف النموذج المتغيّر أيضًا باسم النموذج المباشر.
يختلف عن النموذج الثابت.
E
التنفيذ الفوري
بيئة برمجة TensorFlow يتم فيها تنفيذ العمليات على الفور. في المقابل، لا يتم تنفيذ العمليات التي يتم استدعاؤها في تنفيذ الرسم البياني إلا بعد تقييمها بشكل صريح. التنفيذ الفوري هو واجهة أمرية، تشبه إلى حد كبير الرموز البرمجية في معظم لغات البرمجة. وبشكل عام، يكون تصحيح أخطاء برامج التنفيذ الفوري أسهل بكثير من تصحيح أخطاء برامج التنفيذ البياني.
الإيقاف المبكر
طريقة التسوية التي تتضمّن إنهاء التدريب قبل أن يتوقف معدّل انخفاض خسارة التدريب. في عملية الإيقاف المبكر، يتم إيقاف تدريب النموذج عمدًا عندما يبدأ معدل الخطأ في مجموعة بيانات التحقّق من الصحة في الارتفاع، أي عندما يتدهور أداء التعميم.
يختلف ذلك عن الخروج المبكر.
مسافة نقل التراب (EMD)
مقياس للتشابه النسبي بين توزيعَين كلّما كانت مسافة نقل التراب أقل، تشابهت التوزيعات أكثر.
مسافة التعديل
مقياس لمدى تشابه سلسلتَي نص مع بعضهما البعض. في التعلّم الآلي، تكون مسافة التعديل مفيدة للأسباب التالية:
- يسهل احتساب مسافة التعديل.
- يمكن أن تقارن مسافة التعديل بين سلسلتَين معروفتَين بأنّهما متشابهتَين.
- يمكن أن تحدّد مسافة التعديل درجة تشابه السلاسل المختلفة مع سلسلة معيّنة.
تتوفّر عدة تعريفات لمسافة التعديل، ويستخدم كل منها عمليات مختلفة على السلاسل. يمكنك الاطّلاع على مسافة ليفنشتاين للحصول على مثال.
ترميز Einsum
تمثّل هذه السلسلة طريقة فعّالة لوصف كيفية دمج موترَين. يتم دمج الموترات عن طريق ضرب عناصر أحد الموترات في عناصر الموتر الآخر ثم جمع المنتجات. تستخدم طريقة كتابة Einsum رموزًا لتحديد محاور كل موتر، ويتم إعادة ترتيب هذه الرموز نفسها لتحديد شكل الموتر الناتج الجديد.
توفّر حزمة NumPy عملية تنفيذ شائعة للدالة Einsum.
طبقة التضمين
طبقة مخفية خاصة يتم تدريبها على سمة فئوية ذات أبعاد عالية من أجل التعلّم تدريجيًا لمتجه تضمين ذي أبعاد أقل. تتيح طبقة التضمين للشبكة العصبونية التدريب بكفاءة أكبر بكثير من التدريب على الميزة الفئوية العالية الأبعاد فقط.
على سبيل المثال، يتيح Earth حاليًا حوالي 73,000 نوع من الأشجار. لنفترض أنّ نوع الشجرة هو سمة في نموذجك، وبالتالي تتضمّن طبقة الإدخال في نموذجك متجهًا ذا ترميز ساخن بطول 73,000 عنصر.
على سبيل المثال، قد يتم تمثيل baobab على النحو التالي:
إنّ مصفوفة تضم 73,000 عنصر طويلة جدًا. إذا لم تُضِف طبقة تضمين إلى النموذج، سيستغرق التدريب وقتًا طويلاً جدًا بسبب ضرب 72,999 صفرًا. لنفترض أنّك اخترت أن تتألف طبقة التضمين من 12 سمة. وبالتالي، ستتعلّم طبقة التضمين تدريجيًا متجه تضمين جديدًا لكل نوع من أنواع الأشجار.
في حالات معيّنة، يكون التجزئة بديلاً معقولاً لطبقة التضمين.
يمكنك الاطّلاع على التضمينات في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
مساحة التضمين
مساحة المتجهات ذات الأبعاد d التي يتم ربط الميزات من مساحة المتجهات ذات الأبعاد الأعلى بها يتم تدريب مساحة التضمين لالتقاط البنية التي تكون ذات مغزى للتطبيق المقصود.
الضرب النقطي بين تضمينَين هو مقياس لتشابههما.
متّجه التضمين
بشكل عام، هي مجموعة من الأرقام العشرية العائمة مأخوذة من أي طبقة مخفية تصف المدخلات إلى تلك الطبقة المخفية. في كثير من الأحيان، يكون متّجه التضمين عبارة عن مجموعة من الأرقام النقطية العائمة التي تم تدريبها في طبقة تضمين. على سبيل المثال، لنفترض أنّ طبقة تضمين يجب أن تتعرّف على متجه تضمين لكل نوع من أنواع الأشجار البالغ عددها 73,000 نوع على الأرض. ربما تكون المصفوفة التالية هي متّجه التضمين لشجرة باوباب:
متجه التضمين ليس مجموعة من الأرقام العشوائية. تحدّد طبقة التضمين هذه القيم من خلال التدريب، بطريقة مشابهة للطريقة التي تتعلّم بها الشبكة العصبية الأوزان الأخرى أثناء التدريب. كل عنصر من عناصر المصفوفة هو تقييم لبعض خصائص أنواع الأشجار. أي عنصر يمثّل سمة أي نوع من الأشجار؟ ويصعب جدًا على البشر تحديد ذلك.
الجزء المميّز رياضيًا في متّجه التضمين هو أنّ العناصر المتشابهة تتضمّن مجموعات متشابهة من الأرقام النقطية العائمة. على سبيل المثال، تتضمّن أنواع الأشجار المتشابهة مجموعة أكثر تشابهًا من الأرقام العشرية مقارنةً بأنواع الأشجار غير المتشابهة. أشجار الخشب الأحمر وأشجار السكويا هي أنواع أشجار مرتبطة ببعضها، لذا سيكون لديها مجموعة أكثر تشابهًا من الأرقام ذات الفاصلة العائمة مقارنةً بأشجار الخشب الأحمر وأشجار جوز الهند. ستتغيّر الأرقام في متجه التضمين في كل مرة تعيد فيها تدريب النموذج، حتى إذا أعدت تدريبه باستخدام إدخال مطابق.
السلوك الناشئ
تشير إلى قدرة النموذج اللغوي الكبير على إنشاء ردود على الطلبات التي لم يتم تدريبه عليها بشكل صريح.
دالة التوزيع التراكمي التجريبية (eCDF أو EDF)
دالة التوزيع التراكمي استنادًا إلى القياسات التجريبية من مجموعة بيانات حقيقية قيمة الدالة عند أي نقطة على طول المحور x هي جزء الملاحظات في مجموعة البيانات التي تكون أقل من القيمة المحددة أو تساويها.
تقليص المخاطر التجريبية (ERM)
اختيار الدالة التي تقلّل الخسارة إلى الحدّ الأدنى في مجموعة التدريب يختلف ذلك عن تقليص المخاطر البنيوية.
برنامج تشفير
بشكل عام، أي نظام تعلّم آلي يحوّل البيانات من تمثيل أولي أو متفرّق أو خارجي إلى تمثيل أكثر معالجة أو كثافة أو داخلية.
غالبًا ما تكون برامج الترميز جزءًا من نموذج أكبر، حيث يتم إقرانها بشكل متكرّر مع جهاز فك ترميز. تجمع بعض أدوات التحويل بين برامج الترميز وبرامج فك الترميز، بينما تستخدم أدوات التحويل الأخرى برنامج الترميز فقط أو برنامج فك الترميز فقط.
تستخدم بعض الأنظمة ناتج أداة الترميز كمدخل إلى شبكة تصنيف أو انحدار.
في مهام التسلسل إلى التسلسل، يأخذ برنامج الترميز تسلسلاً من الإدخالات ويعرض حالة داخلية (متجه). بعد ذلك، يستخدم برنامج الترميز هذه الحالة الداخلية للتنبؤ بالتسلسل التالي.
راجِع المحوّل للتعرّف على تعريف برنامج الترميز في بنية المحوّل.
لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة: ما هو النموذج اللغوي الكبير؟ في "دورة مكثّفة عن تعلُّم الآلة".
نقاط النهاية
موقع جغرافي يمكن الوصول إليه عبر الشبكة (عادةً ما يكون عنوان URL) حيث يمكن الوصول إلى الخدمة.
مجموعة موحّدة
مجموعة من النماذج المدرَّبة بشكل مستقل، ويتم حساب متوسط أو تجميع التوقعات التي تقدّمها. في كثير من الحالات، ينتج عن المجموعة الموحدة توقعات أفضل من النموذج الفردي. على سبيل المثال، الغابة العشوائية هي مجموعة موحدة تم إنشاؤها من عدة أشجار قرارات. يُرجى العِلم أنّ بعض غابات القرارات ليست مجموعات.
لمزيد من المعلومات، يمكنك الاطّلاع على Random Forest في "دورة مكثّفة عن تعلّم الآلة".
الإنتروبيا
في نظرية المعلومات، القصور هو وصف لمدى عدم القدرة على التنبؤ بتوزيع الاحتمالات. ويمكن تعريف القصور أيضًا بأنه مقدار المعلومات التي يحتوي عليها كل مثال. يكون التوزيع بأعلى إنتروبيا ممكنة عندما تكون جميع قيم المتغيّر العشوائي متساوية الاحتمالية.
إنّ إنتروبيا مجموعة تتضمّن قيمتَين محتملتَين هما "0" و "1" (على سبيل المثال، التصنيفات في مسألة تصنيف ثنائي) تخضع للصيغة التالية:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
where:
- H هو القصور.
- p هي نسبة الأمثلة التي تكون فيها القيمة "1".
- q هو نسبة الأمثلة التي تكون فيها القيمة "0". يُرجى العِلم أنّ q = (1 - p)
- log هو بشكل عام log2. في هذه الحالة، وحدة الإنتروبيا هي بت.
على سبيل المثال، لنفترض ما يلي:
- تحتوي 100 عينة على القيمة "1"
- تحتوي 300 عينة على القيمة "0"
وبالتالي، تكون قيمة القصور كما يلي:
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 بت لكل مثال
المجموعة المتوازنة تمامًا (على سبيل المثال، 200 من القيمة "0" و200 من القيمة "1") ستكون قيمة الإنتروبيا فيها 1.0 بت لكل مثال. كلما أصبحت المجموعة أكثر عدم توازن، اقترب القصور فيها من 0.0.
في أشجار القرارات، يساعد الانتروبيا في صياغة مكسب المعلومات لمساعدة المقسّم في اختيار الشروط أثناء نمو شجرة قرارات التصنيف.
مقارنة الإنتروبيا مع:
- مقياس جيني للتفاوت
- دالة الخسارة الإنتروبيا المتقاطعة
يُطلق على القصور غالبًا اسم قصور شانون.
لمزيد من المعلومات، راجِع Exact splitter for binary classification with numerical features في دورة "أشجار القرار العشوائية".
بيئة
في التعلّم المعزّز، يشير مصطلح "البيئة" إلى العالم الذي يتضمّن الوكيل ويسمح له بمراقبة حالته. على سبيل المثال، يمكن أن يكون العالم الممثَّل لعبة مثل الشطرنج أو عالمًا ماديًا مثل متاهة. عندما يتّخذ العميل إجراءً في البيئة، تنتقل البيئة بين الحالات.
تحديد المصدر في البيئة
البيانات الأولية التي يتم إرسالها إلى الوكيل خلال مرحلة الملاحظات في الحلقة المستندة إلى الوكيل على سبيل المثال، قد يشمل تحديد المصدر البيئي لأحد الوكلاء سجلّات الأخطاء أو رمز HTML لصفحة ويب تم إنشاؤها حديثًا.
حلقة
في التعلّم التعزيزي، كل محاولة متكررة يقوم بها الوكيل لتعلّم بيئة.
الذاكرة العرضية
في النماذج اللغوية الكبيرة، يتم اكتساب المعلومات بعد التدريب. في المقابل، تشير الذاكرة الدلالية إلى المعلومات التي يتم تعلّمها أثناء التدريب. يمكن أن تكون الذاكرة العرضية مؤقتة (على سبيل المثال، تستمر فقط خلال جلسة المحادثة الحالية مع برنامج الدردشة الآلي) أو أكثر ديمومة (على سبيل المثال، تستمر في كل جلسة يستدعيها المستخدم).
اطّلِع أيضًا على الذاكرة الإجرائية.
حقبة
هي عملية تدريب كاملة على مجموعة التدريب بحيث تتم معالجة كل مثال مرة واحدة.
تمثّل الحقبة N/حجم الدفعة
تكرارات التدريب، حيث N هو
إجمالي عدد الأمثلة.
على سبيل المثال، لنفترض ما يلي:
- تتألف مجموعة البيانات من 1,000 مثال.
- يبلغ حجم الدفعة 50 مثالاً.
لذلك، تتطلّب الحقبة الواحدة 20 تكرارًا:
1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations
يمكنك الاطّلاع على الانحدار الخطي: المَعلمات الفائقة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
سياسة إبسيلون الجشعة
في التعلّم المعزّز، السياسة هي سياسة تتبع إما سياسة عشوائية باحتمالية إبسيلون أو سياسة جشعة في الحالات الأخرى. على سبيل المثال، إذا كانت قيمة إبسيلون 0.9، ستتّبع السياسة سياسة عشوائية بنسبة% 90 من الوقت وسياسة جشعة بنسبة% 10 من الوقت.
على مدار حلقات متتالية، تقلّل الخوارزمية قيمة إبسيلون من أجل الانتقال من اتّباع سياسة عشوائية إلى اتّباع سياسة جشعة. من خلال تغيير السياسة، يستكشف الوكيل البيئة أولاً بشكل عشوائي ثم يستغل نتائج الاستكشاف العشوائي بشكل نهم.
تكافؤ الفرص
مقياس الإنصاف لتقييم ما إذا كان النموذج يتوقّع النتيجة المرغوبة بشكل جيد وبالمقدار نفسه لجميع قيم السمة الحسّاسة بعبارة أخرى، إذا كانت النتيجة المرغوبة لنموذج هي الفئة الإيجابية، سيكون الهدف هو أن يكون معدّل الإيجابية الحقيقية هو نفسه لجميع المجموعات.
يرتبط تكافؤ الفرص بتكافؤ الاحتمالات، الذي يتطلّب أن يكون كلّ من معدلات الموجب الصائب ومعدلات الموجب الخاطئ متطابقًا لجميع المجموعات.
لنفترض أنّ جامعة Glubbdubdrib تقبل طلابًا من Lilliput وBrobdingnag في برنامج رياضيات صارم. تقدّم المدارس الثانوية في ليليبت منهجًا دراسيًا قويًا في الرياضيات، ومعظم الطلاب مؤهّلون للالتحاق بالبرنامج الجامعي. لا تقدّم المدارس الثانوية في بروبدينغناغ أي دروس في الرياضيات، ونتيجةً لذلك، يكون عدد الطلاب المؤهّلين أقل بكثير. يتم استيفاء شرط تكافؤ الفرص للتصنيف المفضّل "مقبول" فيما يتعلق بالجنسية (ليليبوتية أو بروبدينغناغية) إذا كان من المرجّح أن يتم قبول الطلاب المؤهّلين بالتساوي بغض النظر عما إذا كانوا ليليبوتايين أو بروبدينغناغيين.
على سبيل المثال، لنفترض أنّ 100 شخص من ليليبوت و100 شخص من بروبدينغناغ يقدّمون طلبات التحاق بجامعة غلوبدوبدريب، ويتم اتخاذ قرارات القبول على النحو التالي:
الجدول 1. مقدّمو الطلبات من ليليبيوت (90% منهم مؤهّلون)
| مؤهَّل | غير معرَّف | |
|---|---|---|
| تم قبول الطلب | 45 | 3 |
| تم الرفض | 45 | 7 |
| المجموع | 90 | 10 |
|
نسبة الطلاب المؤهّلين المقبولين: 45/90 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 7/10 =%70 النسبة الإجمالية للطلاب المقبولين من Lilliputian: (45+3)/100 = %48 |
||
الجدول 2. مقدّمو الطلبات من Brobdingnagian (10% مؤهَّلون):
| مؤهَّل | غير معرَّف | |
|---|---|---|
| تم قبول الطلب | 5 | 9 |
| تم الرفض | 5 | 81 |
| المجموع | 10 | 90 |
|
نسبة الطلاب المؤهّلين المقبولين: 5/10 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 81/90 =%90 النسبة الإجمالية للطلاب المقبولين من Brobdingnagian: (5+9)/100 = %14 |
||
تستوفي الأمثلة السابقة شرط تكافؤ الفرص لقبول الطلاب المؤهّلين لأنّ كلّاً من سكان ليليبوت وبروبدينغناغ المؤهّلين لديهم فرصة بنسبة% 50 للقبول.
على الرغم من استيفاء شرط تكافؤ الفرص، لم يتم استيفاء مقياسَي العدالة التاليَين:
- التكافؤ الديمغرافي: يتم قبول سكان ليليبوت وبروبدينغناغ في الجامعة بمعدلات مختلفة، إذ يتم قبول% 48 من الطلاب من ليليبوت، ولكن يتم قبول% 14 فقط من الطلاب من بروبدينغناغ.
- تكافؤ الفرص: على الرغم من أنّ الطلاب المؤهَّلين من ليليبوت وبروبدينغناغ لديهم فرصة متساوية للقبول، لا يتم استيفاء الشرط الإضافي الذي ينص على أنّ الطلاب غير المؤهَّلين من ليليبوت وبروبدينغناغ لديهم فرصة متساوية للرفض. يبلغ معدّل الرفض لدى Lilliputians غير المؤهّلين% 70، بينما يبلغ معدّل الرفض لدى Brobdingnagians غير المؤهّلين% 90.
يمكنك الاطّلاع على الإنصاف: تكافؤ الفرص في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
المعدّلات المتساوية
مقياس عدالة لتقييم ما إذا كان النموذج يتنبأ بالنتائج بشكل جيد وبدرجة متساوية لجميع قيم السمة الحسّاسة، وذلك فيما يتعلق بكل من الفئة الموجبة والفئة السالبة، وليس فئة واحدة فقط. بعبارة أخرى، يجب أن يكون كل من معدّل الموجب الصائب ومعدّل السالب الخاطئ متساويَين بالنسبة إلى جميع المجموعات.
ترتبط تكافؤ الفرص بتكافؤ الفرص، الذي يركّز فقط على معدّلات الخطأ لفئة واحدة (موجبة أو سالبة).
على سبيل المثال، لنفترض أنّ جامعة Glubbdubdrib تقبل الطلاب من Lilliput وBrobdingnag في برنامج رياضيات صارم. تقدّم المدارس الثانوية في ليليبوث مناهج دراسية قوية في الرياضيات، ومعظم الطلاب مؤهّلون للالتحاق بالبرنامج الجامعي. لا تقدّم المدارس الثانوية في بروبدينغناغ دروسًا في الرياضيات على الإطلاق، ونتيجةً لذلك، يكون عدد الطلاب المؤهّلين أقل بكثير. يتم استيفاء شرط تكافؤ الفرص إذا كان احتمال قبول المتقدّمين المؤهّلين في البرنامج متساويًا بغض النظر عن حجمهم، وإذا كان احتمال رفض المتقدّمين غير المؤهّلين متساويًا بغض النظر عن حجمهم.
لنفترض أنّ 100 شخص من ليليبوت و100 شخص من بروبدينغناغ يقدّمون طلبات إلى جامعة غلوبدوبدريب، ويتم اتخاذ قرارات القبول على النحو التالي:
الجدول 3. مقدّمو الطلبات من ليليبيوت (90% منهم مؤهّلون)
| مؤهَّل | غير معرَّف | |
|---|---|---|
| تم قبول الطلب | 45 | 2 |
| تم الرفض | 45 | 8 |
| المجموع | 90 | 10 |
|
نسبة الطلاب المؤهّلين المقبولين: 45/90 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 8/10 =%80 النسبة الإجمالية للطلاب المقبولين من Lilliputian: (45+2)/100 = %47 |
||
الجدول 4. مقدّمو الطلبات من Brobdingnagian (10% مؤهَّلون):
| مؤهَّل | غير معرَّف | |
|---|---|---|
| تم قبول الطلب | 5 | 18 |
| تم الرفض | 5 | 72 |
| المجموع | 10 | 90 |
|
نسبة الطلاب المؤهّلين المقبولين: 5/10 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 72/90 =%80 النسبة الإجمالية للطلاب المقبولين من Brobdingnagian: (5+18)/100 = %23 |
||
يتم استيفاء شرط تكافؤ الفرص لأنّ الطلاب المؤهّلين من ليليبوت وبروبدينغناغ لديهم فرصة قبول بنسبة% 50، بينما تبلغ نسبة رفض الطلاب غير المؤهّلين من ليليبوت وبروبدينغناغ% 80.
يتم قبول الطلاب من ليليبوت وبروبدينغناغ في جامعة غلوبدوبدريب بنسب مختلفة، حيث يتم قبول% 47 من الطلاب من ليليبوت و% 23 من الطلاب من بروبدينغناغ.يتم تعريف تكافؤ الفرص رسميًا في "تكافؤ الفرص في التعلّم الخاضع للإشراف" على النحو التالي: "يتوافق المتنبئ Ŷ مع تكافؤ الفرص فيما يتعلق بالسمة المحمية A والنتيجة Y إذا كان Ŷ وA مستقلين، بشرط Y".
Estimator
واجهة برمجة تطبيقات TensorFlow متوقّفة نهائيًا استخدِم tf.keras بدلاً من Estimators.
التقييمات
تُستخدَم في المقام الأول كاختصار لتقييمات النماذج اللغوية الكبيرة. بشكل عام، التقييمات هي اختصار لأي شكل من أشكال التقييم.
التقييم
تشير هذه العملية إلى قياس جودة نموذج أو مقارنة نماذج مختلفة ببعضها.
لتقييم نموذج تعلُّم الآلة المُوجّه، يتم عادةً مقارنته بمجموعة التحقّق ومجموعة الاختبار. يتضمّن تقييم النماذج اللغوية الكبيرة عادةً تقييمات أوسع للجودة والأمان.
وكيل التقييم
هو وكيل يقيّم نتائج وكيل آخر قبل أن تصبح نهائية. يمكنك تخيّل وكيل يصنّع منتجًا ووكيل آخر منفصل، وهو وكيل التقييم، يختبر هذا المنتج قبل طرحه.
الناقد هو مرادف لوكيل التقييم.
مطابقة تامة
مقياس شامل لا يسمح إلا بنتيجتَين: إمّا أن تتطابق نتيجة النموذج مع الحقيقة الأساسية أو النص المرجعي تمامًا، أو لا تتطابق. على سبيل المثال، إذا كانت البيانات الصحيحة هي برتقالي، فإنّ مخرجات النموذج الوحيدة التي تحقّق المطابقة التامة هي برتقالي.
يمكن أن تقيّم المطابقة التامة أيضًا النماذج التي يكون ناتجها تسلسلاً (قائمة مرتبة من العناصر). بشكل عام، تتطلّب المطابقة التامة أن تتطابق القائمة المرتبة التي تم إنشاؤها مع البيانات الأساسية، أي يجب أن يكون ترتيب كل عنصر في القائمتين هو نفسه. ومع ذلك، إذا كانت البيانات الأساسية تتضمّن تسلسلات صحيحة متعدّدة، تتطلّب المطابقة التامة أن يطابق الناتج الذي يقدّمه النموذج أحد التسلسلات الصحيحة.
على سبيل المثال
قيم أحد صفوف الميزات وربما تصنيف تنقسم الأمثلة في التعلُّم الموجَّه إلى فئتَين عامتَين:
- يتألف المثال المصنّف من ميزة واحدة أو أكثر وتصنيف. يتم استخدام الأمثلة المصنَّفة أثناء التدريب.
- يتألف المثال غير المصنّف من ميزة واحدة أو أكثر بدون تصنيف. يتم استخدام الأمثلة غير المصنّفة أثناء الاستدلال.
على سبيل المثال، لنفترض أنّك تدرب نموذجًا لتحديد تأثير الظروف الجوية على درجات اختبارات الطلاب. في ما يلي ثلاثة أمثلة مصنّفة:
| الميزات | التصنيف | ||
|---|---|---|---|
| درجة الحرارة | الرطوبة | الضغط | نتيجة الاختبار |
| 15 | 47 | 998 | جيدة |
| 19 | 34 | 1020 | ممتاز |
| 18 | 92 | 1012 | سيئة |
في ما يلي ثلاثة أمثلة غير مصنّفة:
| درجة الحرارة | الرطوبة | الضغط | |
|---|---|---|---|
| 12 | 62 | 1014 | |
| 21 | 47 | 1017 | |
| 19 | 41 | 1021 |
عادةً ما يكون صف مجموعة البيانات هو المصدر الأولي للمثال. أي أنّ المثال يتألف عادةً من مجموعة فرعية من الأعمدة في مجموعة البيانات. بالإضافة إلى ذلك، يمكن أن تتضمّن الميزات في أحد الأمثلة أيضًا ميزات اصطناعية، مثل تقاطع الميزات.
يمكنك الاطّلاع على التعلم الخاضع للإشراف في دورة "مقدمة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
إعادة تجربة
في التعلّم المعزّز، DQN هي تقنية تُستخدَم لتقليل الارتباطات الزمنية في بيانات التدريب. يخزّن الوكيل عمليات نقل الحالة في مخزن مؤقت لإعادة التشغيل، ثم يأخذ عيّنات من عمليات النقل من المخزن المؤقت لإعادة التشغيل لإنشاء بيانات التدريب.
انحياز المُختبِر
اطّلِع على التحيز التأكيدي.
مشكلة التدرّج المتفجّر
هي ميل التدرجات في الشبكات العصبية العميقة (خاصةً الشبكات العصبية المتكررة) إلى أن تصبح شديدة الانحدار (عالية) بشكل مفاجئ. غالبًا ما تؤدي التدرّجات الحادة إلى تعديلات كبيرة جدًا على الأوزان الخاصة بكل عقدة في شبكة عصبونية عميقة.
تصبح النماذج التي تعاني من مشكلة التدرّج المتفجّر صعبة التدريب أو مستحيلة التدريب. يمكن أن يساعد اقتطاع التدرج في الحدّ من هذه المشكلة.
قارِن ذلك بمشكلة تدرّج التلاشي.
Extreme Summarization (xsum)
مجموعة بيانات لتقييم قدرة نموذج لغوي كبير على تلخيص مستند واحد. يتألف كل إدخال في مجموعة البيانات مما يلي:
- مستند من تأليف هيئة الإذاعة البريطانية (BBC)
- ملخّص للمستند في جملة واحدة
لمزيد من التفاصيل، يُرجى الاطّلاع على لا أريد التفاصيل، أريد الملخّص فقط! شبكات عصبونية التفافية تراعي الموضوعات لتلخيص النصوص بشكل مكثّف
F
F1
مقياس تصنيف ثنائي "مجمّع" يعتمد على كل من مقياس صحة النموذج ومقياس المراجعة. في ما يلي الصيغة:
الواقعية
في عالم تعلُّم الآلة، تشير هذه السمة إلى نموذج يستند في نتائجه إلى بيانات واقعية. الحقيقة هي مفهوم وليست مقياسًا. على سبيل المثال، لنفترض أنّك أرسلت الطلب التالي إلى نموذج لغوي كبير:
ما هي الصيغة الكيميائية لملح الطعام؟
سيجيب النموذج الذي يحسّن صحة المعلومات على النحو التالي:
NaCl
قد يكون من المغري افتراض أنّ جميع النماذج يجب أن تستند إلى الوقائع. ومع ذلك، يجب أن تؤدي بعض الطلبات، مثل ما يلي، إلى تحسين الإبداع بدلاً من الدقة في نموذج الذكاء الاصطناعي التوليدي.
أريد سماع قصيدة مضحكة عن رائد فضاء ويسروع.
من غير المرجّح أن تكون الأبيات الناتجة مستندة إلى الواقع.
التباين مع الاستناد إلى الحقائق
قيد الإنصاف
تطبيق قيد على خوارزمية لضمان استيفاء تعريف واحد أو أكثر من تعريفات العدالة تشمل أمثلة قيود العدالة ما يلي:- المعالجة اللاحقة لناتج النموذج
- تعديل دالة الخسارة لتضمين عقوبة على انتهاك مقياس العدالة
- إضافة قيد رياضي مباشرةً إلى مسألة تحسين
مقياس العدالة
تعريف رياضي "للإنصاف" يمكن قياسه تشمل بعض مقاييس العدالة الشائعة الاستخدام ما يلي:
- تكافؤ الفرص
- تعادل الأداء المستند إلى التوقّعات
- العدالة القائمة على التفكير في الاحتمالات
- التكافؤ الديمغرافي
تتداخل العديد من مقاييس العدالة مع بعضها البعض، راجِع عدم توافق مقاييس العدالة.
سالب خاطئ
مثال يخطئ فيه النموذج في التنبؤ بالفئة السلبية. على سبيل المثال، يتوقّع النموذج أنّ رسالة إلكترونية معيّنة ليست رسالة غير مرغوب فيها (الفئة السلبية)، ولكنّ هذه الرسالة الإلكترونية هي في الواقع رسالة غير مرغوب فيها.
معدّل السالب الخاطئ
يشير ذلك المصطلح إلى نسبة الأمثلة الإيجابية الفعلية التي توقّع النموذج بشكل خاطئ أنّها تنتمي إلى الفئة السلبية. تحتسب الصيغة التالية معدّل النتائج السلبية الخاطئة:
يمكنك الاطّلاع على الحدود ومصفوفة الالتباس في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
موجب خاطئ
مثال يخطئ فيه النموذج في التنبؤ بالفئة الإيجابية. على سبيل المثال، يتوقّع النموذج أنّ رسالة إلكترونية معيّنة هي رسالة غير مرغوب فيها (الفئة الإيجابية)، ولكن في الواقع، هذه الرسالة ليست رسالة غير مرغوب فيها.
يمكنك الاطّلاع على الحدود ومصفوفة الالتباس في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
معدّل الموجب الخاطئ
يشير ذلك المصطلح إلى نسبة الأمثلة السلبية الفعلية التي توقّع النموذج بشكل خاطئ أنّها تنتمي إلى الفئة الإيجابية. تحتسب الصيغة التالية معدّل الإيجابية الخاطئة:
معدل الموجب الخاطئ هو المحور السيني في منحنى خاصية تشغيل جهاز الاستقبال.
يمكنك الاطّلاع على التصنيف: منحنى ROC ومساحة AUC في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.
التدهور السريع
التدريب هو أسلوب لتحسين أداء نماذج اللغات الكبيرة. يتضمّن التدهور السريع خفض معدّل التعلّم بسرعة أثناء التدريب. تساعد هذه الاستراتيجية في منع النموذج من المطابقة بشكل مفرط مع بيانات التدريب، كما تحسّن التعميم.
ميزة
متغيّر إدخال في نموذج تعلُّم الآلة يتألف المثال من ميزة واحدة أو أكثر. على سبيل المثال، لنفترض أنّك تدرب نموذجًا لتحديد تأثير الظروف الجوية على درجات الطلاب في الاختبارات. يعرض الجدول التالي ثلاثة أمثلة، يحتوي كل منها على ثلاث سمات وتصنيف واحد:
| الميزات | التصنيف | ||
|---|---|---|---|
| درجة الحرارة | الرطوبة | الضغط | نتيجة الاختبار |
| 15 | 47 | 998 | 92 |
| 19 | 34 | 1020 | 84 |
| 18 | 92 | 1012 | 87 |
التباين مع التصنيف
يمكنك الاطّلاع على التعلّم بإشراف في دورة "مقدمة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
مضروب مجموعات الخصائص
الخاصية الاصطناعية هي خاصية تم إنشاؤها من خلال "دمج" الخصائص الفئوية أو المقسَّمة إلى مجموعات.
على سبيل المثال، لنفترض أنّ لديك نموذجًا "لتوقّع الحالة المزاجية" يمثّل درجة الحرارة في إحدى الفئات الأربع التالية:
freezingchillytemperatewarm
وتمثّل سرعة الرياح في إحدى الفئات الثلاث التالية:
stilllightwindy
بدون عمليات دمج الميزات، يتم تدريب النموذج الخطي بشكل مستقل على كل من المجموعات السبع المختلفة السابقة. لذا، يتم تدريب النموذج على، على سبيل المثال،
freezing بشكل مستقل عن التدريب على، على سبيل المثال،
windy.
يمكنك بدلاً من ذلك إنشاء مضروب مجموعات الخصائص لدرجة الحرارة وسرعة الرياح. ستتضمّن هذه الميزة الاصطناعية 12 قيمة محتملة على النحو التالي:
freezing-stillfreezing-lightfreezing-windychilly-stillchilly-lightchilly-windytemperate-stilltemperate-lighttemperate-windywarm-stillwarm-lightwarm-windy
بفضل عمليات الربط بين الميزات، يمكن للنموذج التعرّف على الاختلافات في الحالة المزاجية بين يوم freezing-windy ويوم freezing-still.
إذا أنشأت خاصية مصطنعة من خاصيتَين تحتوي كل منهما على الكثير من التصنيفات المختلفة، سيحتوي مضروب مجموعات الخصائص الناتج على عدد كبير من المجموعات المحتملة. على سبيل المثال، إذا كانت إحدى الميزات تتضمّن 1,000 مجموعة والأخرى تتضمّن 2,000 مجموعة، ستحتوي مضروب مجموعات الخصائص الناتجة على 2,000,000 مجموعة.
رياضيًا، يكون التقاطع ناتجًا ديكارتيًا.
يتم استخدام عمليات ضرب الميزات بشكل أساسي مع النماذج الخطية، ونادرًا ما يتم استخدامها مع الشبكات العصبية.
لمزيد من المعلومات، راجِع البيانات الفئوية: التقاطعات بين الميزات في "دورة مكثّفة عن تعلّم الآلة".
هندسة الخصائص
عملية تتضمّن الخطوات التالية:
- تحديد الميزات التي قد تكون مفيدة في تدريب نموذج
- تحويل البيانات الأولية من مجموعة البيانات إلى إصدارات فعّالة من هذه الميزات
على سبيل المثال، قد ترى أنّ temperature قد تكون ميزة مفيدة. بعد ذلك، يمكنك تجربة التجميع في فئات
لتحسين ما يمكن أن يتعلّمه النموذج من نطاقات temperature المختلفة.
يُطلق على عملية تصميم الميزات أحيانًا اسم استخراج الميزات أو تحويل البيانات إلى ميزات.
راجِع البيانات الرقمية: كيف يستوعب النموذج البيانات باستخدام متجهات الميزات في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
استخراج الميزات
مصطلح محمل بشكل زائد له أحد التعريفين التاليين:
- استرداد تمثيلات الميزات الوسيطة التي تم حسابها بواسطة نموذج غير خاضع للإشراف أو نموذج مُدرَّب مسبقًا (على سبيل المثال، قيم الطبقة المخفية في شبكة عصبية) لاستخدامها كإدخال في نموذج آخر
- مرادف هندسة الخصائص
أهمية الميزات
مرادف أهمية المتغيرات
مجموعة الخصائص
مجموعة الميزات التي يتم تدريب نموذج تعلُّم الآلة عليها على سبيل المثال، قد تتألف مجموعة بسيطة من الخصائص لنموذج يتنبأ بأسعار المساكن من الرمز البريدي ومساحة العقار وحالته.
مواصفات الخصائص
توضّح هذه السمة المعلومات المطلوبة لاستخراج بيانات السمات من tf.Example. بما أنّ tf.Example protocol buffer هي مجرد حاوية للبيانات، عليك تحديد ما يلي:
- البيانات المُراد استخراجها (أي مفاتيح الميزات)
- نوع البيانات (على سبيل المثال، عدد عشري أو عدد صحيح)
- الطول (ثابت أو متغير)
متّجه الميزات
مصفوفة قيم الميزة التي تتضمّن مثالاً. يتم إدخال متجه الميزات أثناء التدريب وأثناء الاستدلال. على سبيل المثال، قد يكون متجه الميزات لنموذج يتضمّن ميزتَين منفصلتَين كما يلي:
[0.92, 0.56]
يقدّم كل مثال قيمًا مختلفة لمتّجه الميزات، لذا يمكن أن يكون متّجه الميزات للمثال التالي على النحو التالي:
[0.73, 0.49]
تحدّد هندسة الخصائص كيفية تمثيل الميزات في متجه الميزات. على سبيل المثال، يمكن تمثيل ميزة فئوية ثنائية ذات خمس قيم محتملة باستخدام الترميز الأحادي. في هذه الحالة، سيتألف جزء متجه الميزات الخاص بمثال معيّن من أربعة أصفار و1.0 واحد في الموضع الثالث، كما يلي:
[0.0, 0.0, 1.0, 0.0, 0.0]
كمثال آخر، لنفترض أنّ نموذجك يتكوّن من ثلاث ميزات:
- سمة فئوية ثنائية ذات خمس قيم محتملة يتم تمثيلها باستخدام الترميز الساخن، على سبيل المثال:
[0.0, 1.0, 0.0, 0.0, 0.0] - ميزة فئوية ثنائية أخرى تتضمّن ثلاث قيم محتملة ممثّلة باستخدام الترميز الأحادي، مثل:
[0.0, 0.0, 1.0] - سمة نقطة عائمة، على سبيل المثال:
8.3
في هذه الحالة، سيتم تمثيل متجه الميزات لكل مثال بتسع قيم. بالنظر إلى القيم النموذجية في القائمة السابقة، سيكون متجه الميزات على النحو التالي:
0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 8.3
راجِع البيانات الرقمية: كيف يستوعب النموذج البيانات باستخدام متجهات الميزات في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
featurization
عملية استخراج الميزات من مصدر إدخال، مثل مستند أو فيديو، وربط هذه الميزات بمتجه الميزات
يستخدم بعض خبراء تعلُّم الآلة مصطلح "تحديد الميزات" كمرادف لمصطلحَي هندسة الخصائص أو استخراج الميزات.
التعلّم الموحّد
أسلوب موزّع لتعلُّم الآلة يدرّب نماذج تعلُّم الآلة باستخدام أمثلة لا مركزية مخزّنة على أجهزة مثل الهواتف الذكية. في التعلّم الموحّد، تنزّل مجموعة فرعية من الأجهزة النموذج الحالي من خادم تنسيق مركزي. تستخدم الأجهزة الأمثلة المخزّنة عليها لإجراء تحسينات على النموذج. بعد ذلك، تحمّل الأجهزة التحسينات التي تم إدخالها على النموذج (ولكن ليس أمثلة التدريب) إلى الخادم المنسّق، حيث يتم تجميعها مع التعديلات الأخرى لإنشاء نموذج عالمي محسّن. بعد التجميع، لن تعود هناك حاجة إلى تحديثات النموذج التي تم احتسابها بواسطة الأجهزة، ويمكن تجاهلها.
وبما أنّه لا يتم تحميل أمثلة التدريب أبدًا، يتبع التعلّم الموحّد مبادئ الخصوصية المتعلّقة بجمع البيانات المركّز وتضييق نطاق جمع البيانات.
يمكنك الاطّلاع على القصة المصوّرة حول التعلّم الموحّد (نعم، قصة مصوّرة) للحصول على مزيد من التفاصيل.
الملاحظات
مرحلة في حلقة الوكيل يقيّم فيها الوكيل الإجراء الذي تم اتخاذه خلال مرحلة التنفيذ. على سبيل المثال، إذا أرسل الوكيل طلب بيانات من واجهة برمجة التطبيقات خلال مرحلة التنفيذ، قد تحدّد مرحلة الملاحظات ما إذا كانت الاستجابة من واجهة برمجة التطبيقات ناجحة.
حلقة الملاحظات
في تعلُّم الآلة، هي حالة تؤثّر فيها توقّعات النموذج في بيانات التدريب الخاصة بالنموذج نفسه أو بنموذج آخر. على سبيل المثال، سيؤثر نموذج يقترح أفلامًا في الأفلام التي يشاهدها المستخدمون، ما سيؤثر بدوره في نماذج اقتراح الأفلام اللاحقة.
لمزيد من المعلومات، يمكنك الاطّلاع على أنظمة تعلُّم الآلة في مرحلة الإنتاج: أسئلة يجب طرحها في "دورة مكثّفة عن تعلّم الآلة".
شبكة عصبونية ذات تغذية أمامية (FFN)
شبكة عصبية بدون اتصالات دورية أو متكررة على سبيل المثال، تُعد الشبكات العصبية العميقة التقليدية شبكات عصبية ذات تغذية أمامية. يختلف هذا النوع عن الشبكات العصبية المتكررة التي تكون دورية.
التعلّم ببضع فُرَص
أسلوب تعلُّم آلة يُستخدم غالبًا لتصنيف العناصر، وهو مصمّم لتدريب نماذج تصنيف فعّالة من عدد صغير فقط من أمثلة التدريب.
يمكنك أيضًا الاطّلاع على التعلُّم بفرصة واحدة والتعلُّم بدون أمثلة.
التلقين ببضعة أمثلة
طلب يحتوي على أكثر من مثال واحد (بضعة أمثلة) يوضّح كيفية استجابة النموذج اللغوي الكبير. على سبيل المثال، يتضمّن الطلب الطويل التالي مثالَين يوضّحان للنموذج اللغوي الكبير كيفية الإجابة عن طلب بحث.
| أجزاء من طلب واحد | ملاحظات |
|---|---|
| ما هي العملة الرسمية للبلد المحدّد؟ | السؤال الذي تريد أن تجيب عنه النماذج اللغوية الكبيرة |
| فرنسا: يورو | إليك مثالاً. |
| المملكة المتحدة: الجنيه الإسترليني | مثال آخر. |
| الهند: | طلب البحث الفعلي |
يؤدي التلقين ببضعة أمثلة بشكل عام إلى نتائج أفضل من التلقين بلا أمثلة و التلقين بمثال واحد. ومع ذلك، يتطلّب التلقين ببضعة أمثلة تلقينًا أطول.
التلقين ببضعة أمثلة هو شكل من أشكال التعلّم ببضع فُرَص يتم تطبيقه على التعلّم المستند إلى الطلبات.
يمكنك الاطّلاع على هندسة المطالبات في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
كمنجة
مكتبة إعدادات تستند إلى لغة Python وتضبط قيم الدوال والفئات بدون رموز برمجية أو بنية أساسية متداخلة. في حالة Pax وغيرها من قواعد بيانات تعلُّم الآلة، تمثّل هذه الدوال والفئات النماذج والتدريب والمَعلمات الفائقة.
يفترض Fiddle أنّ قواعد بيانات تعلُّم الآلة عادةً ما تكون مقسّمة إلى:
- رمز المكتبة الذي يحدّد الطبقات وأدوات التحسين
- رمز "الربط" لمجموعة البيانات، والذي يستدعي المكتبات ويربط كل شيء ببعضه
تسجّل أداة Fiddle بنية استدعاء رمز الربط في شكل غير مقيَّم وقابل للتعديل.
الضبط الدقيق
عملية تدريب ثانية خاصة بمهمة معيّنة يتم إجراؤها على نموذج مدرَّب مسبقًا لتحسين مَعلماته بما يتناسب مع حالة استخدام محدّدة. على سبيل المثال، يكون تسلسل التدريب الكامل لبعض النماذج اللغوية الكبيرة على النحو التالي:
- التدريب المُسبَق: يتم تدريب نموذج لغوي كبير على مجموعة بيانات عامة واسعة النطاق، مثل جميع صفحات ويكيبيديا باللغة الإنجليزية.
- الضبط الدقيق: تدريب النموذج المُدرَّب مسبقًا على تنفيذ مَهمّة محدّدة، مثل الردّ على الاستفسارات الطبية يتضمّن الضبط الدقيق عادةً مئات أو آلاف الأمثلة التي تركّز على المهمة المحدّدة.
كمثال آخر، يكون تسلسل التدريب الكامل لنموذج صور كبير على النحو التالي:
- التدريب المُسبَق: درِّب نموذجًا كبيرًا للصور على مجموعة بيانات عامة ضخمة من الصور، مثل جميع الصور في Wikimedia Commons.
- الضبط الدقيق: تدريب النموذج المدرَّب مسبقًا لتنفيذ مهمة محدّدة، مثل إنشاء صور لحيتان الأوركا
يمكن أن يتضمّن الضبط الدقيق أي مجموعة من الاستراتيجيات التالية:
- تعديل جميع المعلَمات الحالية للنموذج المدرَّب مسبقًا يُطلق على هذه العملية أحيانًا اسم الضبط الدقيق الكامل.
- تعديل بعض المَعلمات الحالية للنموذج المدرَّب مسبقًا (عادةً، الطبقات الأقرب إلى الطبقة النهائية)، مع إبقاء المَعلمات الحالية الأخرى بدون تغيير (عادةً، الطبقات الأقرب إلى الطبقة الأولى) اطّلِع على الضبط الفعّال من حيث المَعلمات.
- إضافة المزيد من الطبقات، عادةً ما تكون فوق الطبقات الحالية الأقرب إلى طبقة الإخراج
الضبط الدقيق هو أحد أشكال التعلّم القائم على نقل المهام. وبالتالي، قد تستخدم عملية الضبط الدقيق دالة خسارة أو نوع نموذج مختلفَين عن تلك المستخدَمة في تدريب النموذج المدرَّب مسبقًا. على سبيل المثال، يمكنك ضبط نموذج كبير للصور مدرَّب مسبقًا بدقة لإنتاج نموذج انحدار يعرض عدد الطيور في صورة إدخال.
قارِن بين الضبط الدقيق والمصطلحات التالية:
يمكنك الاطّلاع على الضبط الدقيق في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
نموذج الفلاش
مجموعة من نماذج Gemini الصغيرة نسبيًا والمحسَّنة للعمل بسرعة مع وقت الاستجابة منخفض. تم تصميم نماذج Flash لمجموعة كبيرة من التطبيقات التي تتطلّب ردودًا سريعة ومعدّل أعلى لنقل البيانات.
كتّان
مكتبة مفتوحة المصدر وعالية الأداء للتعلّم العميق، تم إنشاؤها استنادًا إلى JAX توفّر Flax دوال للتدريب للشبكات العصبية، بالإضافة إلى طرق لتقييم أدائها.
Flaxformer
Transformer هي مكتبة مفتوحة المصدر تستند إلى Flax، وهي مصمَّمة في الأساس لمعالجة اللغة الطبيعية والأبحاث المتعدّدة الوسائط.
نسيان البوابة
جزء من خلية الذاكرة الطويلة الأمد القصيرة الأمد ينظّم تدفّق المعلومات عبر الخلية. تحافظ بوابات النسيان على السياق من خلال تحديد المعلومات التي سيتم تجاهلها من حالة الخلية.
النموذج الأساسي
نموذج مدرَّب مسبقًا كبير جدًا تم تدريبه على مجموعة تدريب هائلة ومتنوّعة. يمكن للنموذج الأساسي تنفيذ ما يلي:
- الاستجابة بشكل جيد لمجموعة كبيرة من الطلبات
- يمكن استخدامه كنموذج أساسي لإجراء المزيد من عمليات الضبط الدقيق أو التخصيص الأخرى.
بعبارة أخرى، يكون النموذج الأساسي فعّالاً جدًا بشكل عام، ولكن يمكن تخصيصه بشكل أكبر ليصبح أكثر فائدةً في مهمة معيّنة.
نسبة النجاحات
مقياس لتقييم النص الذي تم إنشاؤه بواسطة نموذج تعلُّم آلي نسبة النجاح هي عدد مخرجات النصوص التي تم إنشاؤها "بنجاح" مقسومًا على إجمالي عدد مخرجات النصوص التي تم إنشاؤها. على سبيل المثال، إذا أنشأ نموذج لغوي كبير 10 مقاطع برمجية، ونجح خمسة منها، سيكون معدّل النجاح 50%.
على الرغم من أنّ مقياس "نسبة النجاح" مفيد بشكل عام في الإحصاء، إلا أنّه في تعلُّم الآلة، يكون هذا المقياس مفيدًا بشكل أساسي لقياس المهام التي يمكن التحقّق منها، مثل إنشاء الرموز البرمجية أو حلّ المسائل الرياضية.
دالّة softmax الكاملة
مرادف softmax
يختلف عن تحليل العينات المُحتملة.
لمزيد من المعلومات، يمكنك الاطّلاع على الشبكات العصبية: التصنيف المتعدد الفئات في "دورة مكثّفة عن تعلّم الآلة".
طبقة مكتملة الاتصال
طبقة مخفية يكون فيها كل عقدة مرتبطة بكل عقدة في الطبقة المخفية اللاحقة
تُعرف الطبقة المكتملة الاتصال أيضًا باسم الطبقة الكثيفة.
تحويل الدالة
دالة تأخذ دالة كمدخل وتعرض دالة معدَّلة كمخرج. تستخدم JAX عمليات تحويل الدوال.
G
GAN
اختصار شبكة الخصومة التوليدية
Gemini
منظومة متكاملة تضم أحدث تقنيات الذكاء الاصطناعي من Google تشمل عناصر هذا النظام البيئي ما يلي:
- نماذج Gemini مختلفة
- هي واجهة محادثة تفاعلية مع أحد نماذج Gemini. يكتب المستخدمون طلبات، ويردّ Gemini على هذه الطلبات.
- واجهات Gemini API المختلفة
- منتجات مختلفة للأنشطة التجارية تستند إلى نماذج Gemini، مثل Gemini في Google Cloud
نماذج Gemini
نماذج متعددة الوسائط المتطورة من Google المستندة إلى Transformer تم تصميم نماذج Gemini خصيصًا للاندماج مع الوكلاء.
يمكن للمستخدمين التفاعل مع نماذج Gemini بطرق متنوعة، بما في ذلك من خلال واجهة حوار تفاعلية ومن خلال حِزم تطوير البرامج (SDK).
Gemma
مجموعة من النماذج المفتوحة والخفيفة تم إنشاؤها بالاستناد إلى الأبحاث والتكنولوجيا نفسها التي استُخدمَت لإنشاء نماذج Gemini تتوفّر عدة نماذج مختلفة من Gemma، يقدّم كل منها ميزات مختلفة، مثل الرؤية والتعليمات البرمجية واتّباع التعليمات. لمزيد من التفاصيل، يُرجى الاطّلاع على Gemma.
الذكاء الاصطناعي التوليدي أو genAI
اختصار الذكاء الاصطناعي التوليدي
التعميم
تشير إلى قدرة النموذج على تقديم توقّعات صحيحة بشأن بيانات جديدة لم يسبق له رؤيتها. النموذج الذي يمكنه التعميم هو عكس النموذج الذي يفرط في التوافق.
يمكنك الاطّلاع على التعميم في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
منحنى التعميم
رسم بياني لكل من فقدان التدريب وفقدان التحقّق كدالة لعدد التكرارات
يمكن أن يساعدك منحنى التعميم في رصد حالات التطابق الزائد المحتملة. على سبيل المثال، يشير منحنى التعميم التالي إلى زيادة الملاءمة لأنّ خسارة التحقّق تصبح في النهاية أعلى بكثير من خسارة التدريب.
يمكنك الاطّلاع على التعميم في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
نموذج خطّي معمَّم
تعميم نماذج الانحدار بالمربعات الصغرى، التي تستند إلى الضوضاء الغاوسية، إلى أنواع أخرى من النماذج التي تستند إلى أنواع أخرى من الضوضاء، مثل ضوضاء بواسون أو الضوضاء الفئوية تشمل أمثلة النماذج الخطية المعمَّمة ما يلي:
- الانحدار اللوجستي
- الانحدار المتعدد الفئات
- انحدار التربيعات الأقل
يمكن العثور على مَعلمات النموذج الخطي المعمَّم من خلال التحسين المحدّب.
تتضمّن النماذج الخطية المعمَّمة الخصائص التالية:
- إنّ متوسط التوقّع لنموذج انحدار التربيعات الأقل الأمثل يساوي متوسط الوسم في بيانات التدريب.
- إنّ متوسط الاحتمالية التي يتوقّعها نموذج الانحدار اللوجستي الأمثل يساوي متوسط التصنيف في بيانات التدريب.
تكون قدرة النموذج الخطي المعمَّم محدودة بميزاته. على عكس النموذج العميق، لا يمكن للنموذج الخطي المعمَّم "تعلُّم ميزات جديدة".
النص الذي يتم إنشاؤه
بشكل عام، يشير إلى النص الذي ينتجه نموذج تعلُّم الآلة. عند تقييم النماذج اللغوية الكبيرة، تقارن بعض المقاييس النص الذي تم إنشاؤه بالنص المرجعي. على سبيل المثال، لنفترض أنّك تحاول تحديد مدى فعالية نموذج تعلّم آلي في الترجمة من الفرنسية إلى الهولندية. في هذه الحالة:
- النص الذي تم إنشاؤه هو الترجمة الهولندية التي يعرضها نموذج تعلُّم الآلة.
- النص المرجعي هو الترجمة الهولندية التي يقدّمها مترجم بشري (أو برنامج).
يُرجى العِلم أنّ بعض استراتيجيات التقييم لا تتضمّن نصًا مرجعيًا.
شبكة تنافسية توليدية (GAN)
نظام لإنشاء بيانات جديدة، حيث ينشئ مولّد البيانات، بينما يحدّد المميّز ما إذا كانت البيانات التي تم إنشاؤها صالحة أم غير صالحة.
يمكنك الاطّلاع على دورة شبكات الخصومة التوليدية للحصول على مزيد من المعلومات.
الوكلاء التوليديّون (المحاكاة)
برامج آلية مزوّدة بشخصيات وذكريات وروتينات فريدة تحاكي السلوك البشري الواقعي.
يمكنك الاطّلاع على Generative Agents: Interactive Simulacra of Human Behavior للحصول على التفاصيل.
الذكاء الاصطناعي التوليدي
مجال تحويلي ناشئ بدون تعريف رسمي مع ذلك، يتّفق معظم الخبراء على أنّ نماذج الذكاء الاصطناعي التوليدي يمكنها إنشاء محتوى يتضمّن كل ما يلي:
- معقّد
- متماسك
- الصورة الأصلية
تشمل أمثلة الذكاء الاصطناعي التوليدي ما يلي:
- النماذج اللغوية الكبيرة، التي يمكنها إنشاء نصوص أصلية معقّدة والإجابة عن الأسئلة
- نموذج إنشاء الصور الذي يمكنه إنتاج صور فريدة
- نماذج إنشاء المحتوى الصوتي والموسيقي، والتي يمكنها تأليف موسيقى أصلية أو إنشاء محتوى صوتي واقعي
- نماذج إنشاء الفيديوهات التي يمكنها إنشاء فيديوهات أصلية
يمكن لبعض التقنيات السابقة، بما في ذلك شبكات الذاكرة الطويلة المدى (LSTM) والشبكات العصبية المتكررة (RNN)، إنشاء محتوى أصلي ومتماسك أيضًا. يرى بعض الخبراء أنّ هذه التكنولوجيات السابقة هي ذكاء اصطناعي توليدي، بينما يرى آخرون أنّ الذكاء الاصطناعي التوليدي الحقيقي يتطلّب نواتج أكثر تعقيدًا من تلك التي يمكن أن تنتجها التكنولوجيات السابقة.
يختلف ذلك عن تعلُّم الآلة التوقّعي.
نموذج توليدي
من الناحية العملية، النموذج الذي ينفّذ أيًا مما يلي:
- إنشاء أمثلة جديدة من مجموعة بيانات التدريب على سبيل المثال، يمكن لنموذج توليدي إنشاء قصائد بعد تدريبه على مجموعة بيانات من القصائد. يندرج الجزء المنشئ من الشبكة التنافسية التوليدية ضمن هذه الفئة.
- تحدّد هذه السمة احتمال أن يكون المثال الجديد واردًا من مجموعة التدريب أو تم إنشاؤه من الآلية نفسها التي تم إنشاء مجموعة التدريب منها. على سبيل المثال، بعد التدريب على مجموعة بيانات تتألف من جمل باللغة الإنجليزية، يمكن لنموذج توليدي تحديد احتمال أن يكون الإدخال الجديد جملة صالحة باللغة الإنجليزية.
يمكن للنموذج التوليدي نظريًا التمييز بين توزيع الأمثلة أو الميزات المعينة في مجموعة البيانات. والمقصود:
p(examples)
نماذج التعلّم غير الموجَّه هي نماذج توليدية.
يختلف عن النماذج التمييزية.
منشئ
النظام الفرعي ضمن شبكة معادية توليدية الذي ينشئ أمثلة جديدة.
يختلف عن النموذج التمييزي.
gini impurity
مقياس مشابه لإنتروبيا تستخدم أدوات التقسيم قيمًا مشتقة من عدم المساواة في جيني أو الإنتروبيا لإنشاء شروط لتصنيف أشجار القرارات. يتم استنتاج تحصيل المعلومات من قصور المعلومات. لا يوجد مصطلح مكافئ مقبول عالميًا للمقياس المستمد من عدم نقاء جيني، ولكن هذا المقياس غير المسمى لا يقل أهمية عن اكتساب المعلومات.
يُطلق على عدم نقاء جيني أيضًا اسم مؤشر جيني أو ببساطة جيني.
مجموعة البيانات الذهبية
مجموعة من البيانات التي تمّت إدارتها يدويًا وتتضمّن الحقيقة الأساسية يمكن للفرق استخدام مجموعة بيانات ذهبية واحدة أو أكثر لتقييم جودة النموذج.
تتضمّن بعض مجموعات البيانات الذهبية نطاقات فرعية مختلفة من البيانات الأساسية. على سبيل المثال، قد تتضمّن مجموعة البيانات الذهبية لتصنيف الصور معلومات عن ظروف الإضاءة ودقة الصورة.
الردّ الذهبي
ردّ معروف بأنّه جيد. على سبيل المثال، إذا كان لديك الطلب التالي:
2 + 2
من المفترض أن تكون الإجابة المثالية هي:
4
Google AI Studio
أداة من Google توفّر واجهة سهلة الاستخدام لتجربة التطبيقات وإنشائها باستخدام النماذج اللغوية الكبيرة من Google. يمكنك الاطّلاع على الصفحة الرئيسية في Google AI Studio لمعرفة التفاصيل.
GPT (Generative Pre-trained Transformer)
هي مجموعة من النماذج اللغوية الكبيرة المستندة إلى Transformer والتي طوّرتها شركة OpenAI.
يمكن تطبيق أشكال GPT على وسائط متعددة، بما في ذلك:
- إنشاء الصور (مثل ImageGPT)
- تحويل النصوص إلى صور (على سبيل المثال، DALL-E)
متدرج
متّجه المشتقات الجزئية بالنسبة إلى جميع المتغيرات المستقلة في تعلُّم الآلة، التدرّج هو متّجه المشتقات الجزئية لدالة النموذج. يشير التدرّج إلى اتجاه الانحدار الأكثر حدة.
تجميع التدرّج
الانتشار العكسي هو أسلوب يعدّل المَعلمات مرة واحدة فقط لكل حقبة بدلاً من مرة واحدة لكل تكرار. بعد معالجة كل دفعة مصغّرة، يؤدي تجميع التدرّجات إلى تعديل إجمالي التدرّجات الجاري فقط. بعد ذلك، وبعد معالجة آخر دفعة صغيرة في الحقبة، يحدّث النظام أخيرًا المَعلمات استنادًا إلى مجموع كل تغييرات التدرّج.
تكون عملية تجميع التدرّجات مفيدة عندما يكون حجم الدفعة كبيرًا جدًا مقارنةً بكمية الذاكرة المتاحة للتدريب. عندما تكون الذاكرة مشكلة، يكون الميل الطبيعي هو تقليل حجم الدفعة. ومع ذلك، فإنّ تقليل حجم الدفعة في الانتشار الرجعي العادي يزيد عدد تعديلات المَعلمات. تتيح ميزة "تجميع التدرّجات" للنموذج تجنُّب مشاكل الذاكرة مع الحفاظ على كفاءة التدريب.
أشجار القرارات المعزّزة بالتدرّج (GBT)
هو نوع من غابة القرارات حيث:
- تعتمد التدريب على التعزيز الاشتقاقي.
- النموذج الضعيف هو شجرة قرارات.
يمكنك الاطّلاع على أشجار القرارات المعزّزة بالتدرّج في دورة "غابات القرارات" التدريبية للحصول على مزيد من المعلومات.
التعزيز المتدرج
خوارزمية تدريب يتم فيها تدريب نماذج ضعيفة لتحسين جودة نموذج قوي بشكل متكرر (تقليل الخسارة). على سبيل المثال، قد يكون النموذج الضعيف نموذجًا خطيًا أو نموذج شجرة قرار صغيرًا. يصبح النموذج القوي مجموع كل النماذج الضعيفة التي تم تدريبها سابقًا.
في أبسط أشكال تعزيز التدرّج، يتم في كل تكرار تدريب نموذج ضعيف لتوقُّع تدرّج الفقدان للنموذج القوي. بعد ذلك، يتم تعديل ناتج النموذج القوي عن طريق طرح التدرّج المتوقّع، على غرار نزول تدرّجي.
where:
- $F_{0}$ هو نموذج البداية القوية.
- $F_{i+1}$ هو النموذج القوي التالي.
- $F_{i}$ هو النموذج القوي الحالي.
- $\xi$ هي قيمة بين 0.0 و1.0 تُسمى الانكماش، وهي مشابهة لمعدل التعلّم في خوارزمية انحدار التدرّج.
- $f_{i}$ هو النموذج الضعيف الذي تم تدريبه لتوقّع تدرّج الخسارة في $F_{i}$.
تتضمّن الأشكال الحديثة من تعزيز التدرّج أيضًا المشتقة الثانية (مصفوفة هيسيان) للدالة الخسارة في حساباتها.
تُستخدَم أشجار القرارات عادةً كنماذج ضعيفة في تعزيز التدرّج. اطّلِع على أشجار القرارات المعزّزة بالتدرّج.
اقتصاص التدرّج
آلية شائعة الاستخدام للحدّ من مشكلة تزايد التدرّج بشكل كبير من خلال الحدّ بشكل مصطنع (القص) من القيمة القصوى للتدرّجات عند استخدام النزول بالتدرّج من أجل تدريب نموذج.
النزول المتدرّج
أسلوب رياضي لتقليل الخسارة. تعدّل عملية "نزول تدرّجي" الأوزان والانحيازات بشكل متكرّر، وتعثر تدريجيًا على أفضل تركيبة لتقليل الخسارة.
تسبق طريقة "النزول التدرّجي" تقنية تعلُّم الآلة بفترة طويلة جدًا.
يمكنك الاطّلاع على الانحدار الخطي: نزول التدرّج في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات.
رسم بياني
في TensorFlow، هي مواصفات عملية حسابية. تمثّل العُقد في الرسم البياني العمليات. الحواف موجّهة وتمثّل تمرير نتيجة عملية (Tensor) كمعامل إلى عملية أخرى. استخدِم TensorBoard لتصوُّر رسم بياني.
تنفيذ الرسم البياني
بيئة برمجة TensorFlow ينشئ فيها البرنامج رسمًا بيانيًا أولاً، ثم ينفّذ كل هذا الرسم البياني أو جزءًا منه. تنفيذ الرسم البياني هو وضع التنفيذ التلقائي في TensorFlow 1.x.
يختلف ذلك عن التنفيذ الفوري.
سياسة طمّاعة
في التعلّم المعزّز، السياسة هي التي تختار دائمًا الإجراء الذي يحقّق أعلى عائد متوقّع.
الاستناد إلى الحقائق
هي خاصية في نموذج يستند ناتجها إلى مواد مصدرية معيّنة. على سبيل المثال، لنفترض أنّك قدّمت كتابًا كاملاً في الفيزياء كمدخل ("السياق") إلى نموذج لغوي كبير. بعد ذلك، تطرح سؤالاً في الفيزياء على هذا النموذج اللغوي الكبير. إذا كان ردّ النموذج يعكس معلومات واردة في ذلك الكتاب المدرسي، يكون النموذج مستندًا إلى ذلك الكتاب المدرسي.
يُرجى العِلم أنّ النموذج المستند إلى بيانات واقعية ليس دائمًا نموذجًا واقعيًا. على سبيل المثال، قد يتضمّن كتاب الفيزياء المدرسي الذي تم إدخاله أخطاءً.
تحديد المصدر
عملية استناد كل أو جزء من ردّ نموذج لغوي كبير إلى معلومات تم استرجاعها من مصدر واحد أو أكثر من المصادر الموثوقة على سبيل المثال، لنفترض أنّ مستخدمًا يطلب من نموذج لغوي كبير تقديم توقعات الطقس اليوم في برلين. قد يستند النموذج اللغوي الكبير في رده إلى معلومات يجمعها من "المركز الأوروبي للتنبؤات الجوية المتوسطة المدى".
التوليد المعزّز بالاسترجاع (RAG) هو أسلوب شائع لتحديد المصدر.
معلومات فعلية
الواقع
الشيء الذي حدث بالفعل
على سبيل المثال، لنفترض أنّ هناك نموذج تصنيف ثنائي يتوقّع ما إذا كان الطالب في سنته الأولى بالجامعة سيتخرّج في غضون ست سنوات. تتمثل الحقيقة الأساسية لهذا النموذج في ما إذا كان الطالب قد تخرّج بالفعل في غضون ست سنوات أم لا.
الانحياز لتشابه المجموعة
افتراض أنّ ما ينطبق على فرد ينطبق أيضًا على جميع الأفراد في تلك المجموعة يمكن أن تتفاقم آثار الانحياز لتشابه المجموعة إذا تم استخدام عينة عشوائية لجمع البيانات. في عينة غير تمثيلية، قد يتم تقديم إحالات لا تعكس الواقع.
اطّلِع أيضًا على الانحياز للتشابه خارج المجموعة والانحياز لأفراد المجموعة. يمكنك أيضًا الاطّلاع على الإنصاف: أنواع الانحياز في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
حواجز الحماية
أي برنامج أو عملية تمنع إلحاق الضرر بالبشر أو الأنظمة يمكن أن يتخذ الضرر أشكالاً عديدة، بما في ذلك منع تسرُّب البيانات أو الوصول غير المصرّح به، أو ضمان ألا تتضمّن ردود نموذج اللغة الكبير مواد مسيئة.
H
النتائج غير الصحيحة
إنّها إنتاج نموذج ذكاء اصطناعي توليدي لنتائج تبدو معقولة ولكنّها غير صحيحة من الناحية الواقعية، ويدّعي النموذج أنّه يقدّم تأكيدًا بشأن العالم الحقيقي. على سبيل المثال، إذا ادّعى نموذج ذكاء اصطناعي توليدي أنّ باراك أوباما توفي في عام 1865، يكون هذا النموذج يهلوس.
تجزئة
في تعلُّم الآلة، هي آلية لتجميع البيانات الفئوية، خاصةً عندما يكون عدد الفئات كبيرًا، ولكن عدد الفئات التي تظهر فعليًا في مجموعة البيانات صغير نسبيًا.
على سبيل المثال، تضم الأرض حوالي 73,000 نوع من الأشجار. يمكنك تمثيل كل نوع من أنواع الأشجار البالغ عددها 73,000 في 73,000 مجموعة منفصلة من المجموعات الفئوية. بدلاً من ذلك، إذا ظهر 200 نوع فقط من أنواع الأشجار هذه في مجموعة بيانات، يمكنك استخدام التجزئة لتقسيم أنواع الأشجار إلى 500 مجموعة مثلاً.
يمكن أن يحتوي حوض واحد على أنواع أشجار متعددة. على سبيل المثال، يمكن أن يؤدي التجزئة إلى وضع شجرة الباوباب وشجرة القيقب الأحمر، وهما نوعان مختلفان وراثيًا، في المجموعة نفسها. ومع ذلك، يظل التجزئة طريقة جيدة لربط مجموعات الفئات الكبيرة بعدد الحاويات المحدّد. يحوّل التجزئة ميزة فئوية تتضمّن عددًا كبيرًا من القيم المحتملة إلى عدد أصغر بكثير من القيم من خلال تجميع القيم بطريقة حتمية.
لمزيد من المعلومات، يُرجى الاطّلاع على البيانات الفئوية: المفردات والترميز أحادي في "دورة مكثّفة عن تعلّم الآلة".
إرشادي
حل بسيط وسريع التنفيذ لمشكلة ما على سبيل المثال، "باستخدام طريقة إرشادية، حقّقنا دقة بنسبة% 86. وعندما انتقلنا إلى استخدام شبكة عصبية عميقة، ارتفعت الدقة إلى %98".
الطبقة المخفية
هي طبقة في شبكة عصبية بين طبقة الإدخال (الميزات) والطبقة النهائية (التوقّع). تتكوّن كل طبقة مخفية من خلية عصبية واحدة أو أكثر. على سبيل المثال، تحتوي الشبكة العصبية التالية على طبقتَين مخفيتَين، الأولى تحتوي على ثلاث خلايا عصبية والثانية على خليتَين عصبيتَين:
تحتوي الشبكة العصبية العميقة على أكثر من طبقة مخفية واحدة. على سبيل المثال، الرسم التوضيحي السابق هو شبكة عصبية عميقة لأنّ النموذج يحتوي على طبقتَين مخفيتَين.
يمكنك الاطّلاع على الشبكات العصبية: العُقد والطبقات المخفية في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات.
التجميع الهرمي
فئة من خوارزميات التجميع العنقودي التي تنشئ شجرة من المجموعات العنقودية. يُعدّ التجميع الهرمي مناسبًا للبيانات الهرمية، مثل التصنيفات النباتية. هناك نوعان من خوارزميات التجميع العنقودي الهرمي:
- تُعيّن عملية التجميع التراكمي كل مثال أولاً إلى مجموعته الخاصة، ثم تدمج بشكل متكرر أقرب المجموعات لإنشاء شجرة هرمية.
- تُجمّع عملية التجميع التقسيمي جميع الأمثلة أولاً في مجموعة واحدة، ثم تقسم المجموعة بشكل متكرر إلى شجرة هرمية.
يختلف عن التجميع العنقودي المستند إلى النقاط المركزية.
يمكنك الاطّلاع على خوارزميات التجميع في دورة التجميع التدريبية للحصول على مزيد من المعلومات.
صعود التلال
خوارزمية لتحسين نموذج تعلُّم الآلة بشكل متكرّر ("الصعود إلى أعلى التل") إلى أن يتوقف النموذج عن التحسّن ("الوصول إلى قمة التل"). في ما يلي الشكل العام للخوارزمية:
- إنشاء نموذج أولي
- يمكنك إنشاء نماذج مرشّحة جديدة من خلال إجراء تعديلات بسيطة على طريقة التدريب أو الضبط الدقيق. وقد يتطلّب ذلك العمل باستخدام مجموعة تدريب مختلفة قليلاً أو معلمات فائقة مختلفة.
- قيِّم نماذج المرشّحين الجديدة واتّخِذ أحد الإجراءات التالية:
- إذا كان أداء النموذج المرشّح أفضل من أداء النموذج الأوّلي، سيصبح النموذج المرشّح هو النموذج الأوّلي الجديد. في هذه الحالة، كرِّر الخطوات 1 و2 و3.
- إذا لم يتفوّق أي نموذج على النموذج الأوّلي، يعني ذلك أنّك بلغت ذروة الأداء وعليك التوقّف عن تكرار العملية.
راجِع دليل ضبط التعلّم العميق للحصول على إرشادات حول ضبط المعلَمة الفائقة. راجِع وحدات البيانات في الدورة التدريبية المكثّفة حول تعلُّم الآلة للحصول على إرشادات حول هندسة الخصائص.
الخسارة المفصلية
مجموعة من دوال الخسارة الخاصة بالتصنيف والمصمّمة للعثور على حدود القرار بأكبر مسافة ممكنة من كل مثال تدريبي، وبالتالي زيادة الهامش بين الأمثلة والحدود إلى أقصى حد. تستخدم آلات متّجهات الدعم الأساسية خسارة مفصلية (أو دالة ذات صلة، مثل تربيع الخسارة المفصلية). بالنسبة إلى التصنيف الثنائي، يتم تعريف دالة الخسارة المفصلية على النحو التالي:
حيث y هي التصنيف الصحيح، إما -1 أو +1، وy' هي الناتج الأولي لنموذج التصنيف:
نتيجةً لذلك، يبدو الرسم البياني لدالة الخسارة المفصلية مقابل (y * y') على النحو التالي:
التحيّز التاريخي
هو نوع من التحيّز الموجود في العالم والذي تم تضمينه في مجموعة بيانات. وتميل هذه التحيزات إلى عكس الصور النمطية الثقافية الحالية، وعدم المساواة الديمغرافية، والتحيزات ضد مجموعات اجتماعية معيّنة.
على سبيل المثال، لنفترض نموذج تصنيف يتنبأ بما إذا كان مقدّم طلب القرض سيتخلّف عن سداد القرض أم لا، وقد تم تدريبه على بيانات سابقة عن التخلّف عن سداد القروض من الثمانينيات من البنوك المحلية في منطقتَين مختلفتَين. إذا كان احتمال تخلّف المتقدّمين من "المجموعة أ" عن سداد قروضهم أكبر بست مرات من احتمال تخلّف المتقدّمين من "المجموعة ب"، قد يتعلّم النموذج تحيّزًا تاريخيًا يؤدي إلى انخفاض احتمال موافقة النموذج على القروض في "المجموعة أ"، حتى إذا لم تعُد الشروط التاريخية التي أدّت إلى ارتفاع معدلات التخلّف عن السداد في هذه المجموعة ذات صلة.
لمزيد من المعلومات، يُرجى الاطّلاع على الإنصاف: أنواع التحيز في "دورة مكثّفة عن تعلّم الآلة".
البيانات المحتجزة
أمثلة لم يتم استخدامها عمدًا ("تم استبعادها") أثناء التدريب مجموعة بيانات التحقّق من الصحة ومجموعة بيانات الاختبار هما مثالان على البيانات المحجوزة. تساعد بيانات محتجزة في تقييم قدرة النموذج على التعميم على البيانات الأخرى غير البيانات التي تم تدريبه عليها. يقدّم معدّل الخطأ في مجموعة البيانات الاحتياطية تقديرًا أفضل لمعدّل الخطأ في مجموعة بيانات غير مرئية مقارنةً بمعدّل الخطأ في مجموعة التدريب.
مضيف
عند تدريب نموذج تعلّم آلي على شرائح تسريع (وحدات معالجة الرسومات أو وحدات معالجة الموتّرات)، يكون الجزء من النظام الذي يتحكّم في كلّ مما يلي:
- التسلسل العام للرمز
- استخراج بيانات مسار الإدخال وتحويلها
يعمل المضيف عادةً على وحدة معالجة مركزية (CPU)، وليس على شريحة تسريع، بينما يعالج الجهاز الموترات على شرائح التسريع.
التقييم البشري
عملية يقيّم فيها الأشخاص جودة نتائج نموذج تعلُّم الآلة، مثل أن يقيّم أشخاص يتحدثون لغتين جودة نموذج ترجمة يستند إلى تعلُّم الآلة. ويكون التقييم البشري مفيدًا بشكل خاص في تقييم النماذج التي لا تتضمّن إجابة صحيحة واحدة.
يختلف ذلك عن التقييم التلقائي والتقييم التلقائي باستخدام أداة Autorater.
المشاركة البشرية (HITL)
عبارة اصطلاحية غير محددة المعنى بدقة يمكن أن تشير إلى أي مما يلي:
- سياسة تقييم نتائج الذكاء الاصطناعي التوليدي بشكل نقدي أو متشكّك
- هي استراتيجية أو نظام لضمان مساهمة الأشخاص في تشكيل سلوك النموذج وتقييمه وتحسينه. يسمح إبقاء الإنسان في عملية الذكاء الاصطناعي للاستفادة من الذكاء الآلي والبشري معًا. على سبيل المثال، النظام الذي ينشئ فيه الذكاء الاصطناعي رموزًا برمجية يراجعها مهندسو البرمجيات هو نظام يتضمّن تدخّل الإنسان.
المعلَمة الفائقة
المتغيرات التي يتم تعديلها أثناء عمليات التشغيل المتتالية لتدريب نموذج من خلالك أو من خلال خدمة ضبط المعلمات الفائقة على سبيل المثال، معدّل التعلّم هو معلَمة فائقة. يمكنك ضبط معدّل التعلّم على 0.01 قبل جلسة تدريب واحدة. إذا تبيّن لك أنّ القيمة 0.01 مرتفعة جدًا، يمكنك ضبط معدّل التعلّم على 0.003 لجلسة التدريب التالية.
في المقابل، المَعلمات هي الأوزان والانحيازات المختلفة التي يتعلّمها النموذج أثناء التدريب.
يمكنك الاطّلاع على الانحدار الخطي: المَعلمات الفائقة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
مستوى فائق
حدّ يفصل مساحة إلى مساحتَين فرعيتَين على سبيل المثال، الخط هو مستوى فائق في بُعدين، والمستوى هو مستوى فائق في ثلاثة أبعاد. في التعلّم الآلي، يكون المستوى الفائق عادةً هو الحد الفاصل بين مساحة متعددة الأبعاد. تستخدم آلات متّجهات الدعم الأساسية فرط المستويات لفصل الفئات الموجبة عن الفئات السالبة، وغالبًا ما يكون ذلك في مساحة عالية الأبعاد.
I
موزّعة بشكل مستقل ومتشابه
اختصار موزّعة بشكل مستقل ومتشابه
التعرّف على الصورة
هي عملية تصنيف الكائنات أو الأنماط أو المفاهيم في صورة. يُعرف التعرّف على الصور أيضًا باسم تصنيف الصور.
مجموعة بيانات غير متوازنة
مرادف مجموعة بيانات غير متوازنة الفئات
انحياز ضمني
تكوين ارتباط أو افتراض تلقائيًا استنادًا إلى نماذج العقل والذكريات يمكن أن يؤثر التحيز الضمني في ما يلي:
- طريقة جمع البيانات وتصنيفها
- طريقة تصميم وتطوير أنظمة تعلُّم الآلة
على سبيل المثال، عند إنشاء نموذج تصنيف للتعرّف على صور حفلات الزفاف، قد يستخدم أحد المهندسين ظهور فستان أبيض في الصورة كإحدى السمات. ومع ذلك، لم تكن الفساتين البيضاء من العادات إلا خلال عصور معيّنة وفي ثقافات معيّنة.
اطّلِع أيضًا على التحيّز التأكيدي.
الاستدلال
شكل مختصر من احتساب القيمة
عدم توافق مقاييس الإنصاف
يشير هذا المصطلح إلى فكرة أنّ بعض مفاهيم العدالة غير متوافقة مع بعضها البعض ولا يمكن تحقيقها في الوقت نفسه. نتيجةً لذلك، لا يوجد مقياس عالمي واحد لتحديد مدى العدل يمكن تطبيقه على جميع مشاكل تعلُّم الآلة.
على الرغم من أنّ ذلك قد يبدو محبطًا، إلا أنّ عدم التوافق بين مقاييس العدالة لا يعني أنّ الجهود المبذولة لتحقيق العدالة غير مثمرة. بدلاً من ذلك، تقترح هذه الإرشادات تعريف العدالة بشكل سياقي لمشكلة معيّنة في تعلُّم الآلة، وذلك بهدف منع الأضرار المرتبطة بحالات الاستخدام المحدّدة.
يمكنك الاطّلاع على "حول إمكانية تحقيق العدالة" للحصول على مناقشة أكثر تفصيلاً حول عدم توافق مقاييس العدالة.
التعلّم داخل السياق
مرادف للتلقين ببضعة أمثلة
موزّعة بشكل مستقل ومتشابه
البيانات المستخلصة من توزيع لا يتغيّر، ولا تعتمد فيه كل قيمة مستخلصة على القيم التي تم استخلاصها سابقًا. إنّ البيانات الموزّعة بشكل مستقل ومتشابه هي الغاز المثالي في مجال تعلُّم الآلة، وهي بنية رياضية مفيدة ولكنّها نادرًا ما توجد بالضبط في العالم الحقيقي. على سبيل المثال، قد يكون توزيع الزوّار على صفحة ويب موزّعة بشكل مستقل ومتشابه خلال فترة زمنية قصيرة، أي أنّ التوزيع لا يتغيّر خلال تلك الفترة القصيرة، وتكون زيارة أحد الأشخاص مستقلة بشكل عام عن زيارة شخص آخر. ومع ذلك، إذا وسّعت نطاق هذا الإطار الزمني، قد تظهر اختلافات موسمية في عدد زوّار صفحة الويب.
يمكنك الاطّلاع أيضًا على عدم الثبات.
العدالة الفردية
مقياس عدالة يتحقّق مما إذا تم تصنيف الأفراد المتشابهين بشكل مماثل. على سبيل المثال، قد ترغب أكاديمية Brobdingnagian في تحقيق العدالة الفردية من خلال ضمان أنّ فرص قبول طالبَين متطابقَين في الدرجات ونتائج الاختبارات الموحّدة متساوية.
يُرجى العِلم أنّ العدالة الفردية تعتمد بشكل كامل على طريقة تحديد "التشابه" (في هذه الحالة، الدرجات ونتائج الاختبارات)، وقد تواجه خطر حدوث مشاكل جديدة في العدالة إذا لم يتضمّن مقياس التشابه معلومات مهمة (مثل مدى صعوبة المناهج الدراسية للطالب).
يمكنك الاطّلاع على "العدالة من خلال الوعي" للحصول على مناقشة أكثر تفصيلاً حول العدالة الفردية.
الاستنتاج
في تعلُّم الآلة التقليدي، عملية إجراء التوقعات من خلال تطبيق نموذج مدرَّب على أمثلة غير مصنَّفة يمكنك الاطّلاع على التعلم الخاضع للإشراف في دورة "مقدمة في تعلُّم الآلة" لمعرفة المزيد.
في النماذج اللغوية الكبيرة، الاستدلال هو عملية استخدام نموذج مُدرَّب لإنشاء ردّ على طلب.
يختلف معنى الاستدلال إلى حدّ ما في الإحصاء. يمكنك الاطّلاع على مقالة الاستدلال الإحصائي على ويكيبيديا للحصول على التفاصيل.
مسار الاستدلال
في شجرة القرار، أثناء الاستدلال، يسلك مثال معيّن مسارًا من الجذر إلى شروط أخرى، وينتهي بورقة. على سبيل المثال، في شجرة القرار التالية، توضّح الأسهم السميكة مسار الاستنتاج لمثال يتضمّن قيم الميزات التالية:
- x = 7
- y = 12
- z = -3
في الرسم التوضيحي التالي، يمر مسار الاستنتاج بثلاث حالات قبل الوصول إلى العقدة الطرفية (Zeta).
تشير الأسهم الثلاثة السميكة إلى مسار الاستنتاج.
يمكنك الاطّلاع على أشجار القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
تحصيل المعلومات
في غابات القرارات، يشير هذا المقياس إلى الفرق بين القصور في أحد الأجزاء ومجموع القصور في الأجزاء الفرعية المرجّح (حسب عدد الأمثلة). القصور في أحد الأجزاء هو القصور في الأمثلة الواردة في هذا الجزء.
على سبيل المثال، إليك قيم الإنتروبيا التالية:
- إنتروبيا العقدة الرئيسية = 0.6
- قصور إحدى العُقد الفرعية التي تتضمّن 16 مثالاً ذا صلة = 0.2
- مقياس القصور في عقدة فرعية أخرى تتضمّن 24 مثالاً ذا صلة = 0.1
لذا، %40 من الأمثلة موجودة في إحدى العُقد الفرعية و% 60 في العقدة الفرعية الأخرى. ولذلك:
- مجموع القصور المرجّح للعُقد الثانوية = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
إذًا، يساوي تحصيل المعلومات:
- تحصيل المعلومات = قصور الجزء الأصلي - مجموع القصور المرجّح للأجزاء الفرعية
- تحصيل المعلومات = 0.6 - 0.14 = 0.46
تسعى معظم أدوات التقسيم إلى إنشاء شروط تزيد من اكتساب المعلومات إلى أقصى حد.
الانحياز لأفراد المجموعة
إظهار التحيز لمجموعة الفرد أو خصائصه إذا كان المختبِرون أو المقيمون من أصدقاء مطوّر تعلُّم الآلة أو أفراد عائلته أو زملائه، قد يؤدي الانحياز لأفراد المجموعة إلى إبطال اختبار المنتج أو مجموعة البيانات.
الانحياز لأفراد المجموعة هو شكل من أشكال الانحياز لتشابه المجموعة. اطّلِع أيضًا على الانحياز للتشابه خارج المجموعة.
يمكنك الاطّلاع على الإنصاف: أنواع التحيز في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
أداة إنشاء البيانات
آلية يتم من خلالها تحميل البيانات في شبكة عصبية
يمكن اعتبار أداة إنشاء الإدخالات مكونًا مسؤولاً عن معالجة البيانات الأولية وتحويلها إلى موترات يتم تكرارها لإنشاء دفعات للتدريب والتقييم والاستدلال.
طبقة الإدخال
الطبقة في الشبكة العصبونية التي تحتوي على متجه الميزات أي أنّ طبقة الإدخال توفّر أمثلة لأغراض التدريب أو الاستدلال. على سبيل المثال، تتألف طبقة الإدخال في الشبكة العصبية التالية من ميزتَين:
الشرط داخل المجموعة
في شجرة القرارات، الشرط الذي يختبر وجود عنصر واحد في مجموعة من العناصر. على سبيل المثال، ما يلي هو شرط ضمن المجموعة:
house-style in [tudor, colonial, cape]
أثناء الاستنتاج، إذا كانت قيمة السمة الخاصة بنمط المنزل هي tudor أو colonial أو cape، سيتم تقييم هذا الشرط على أنّه "نعم". إذا كانت قيمة ميزة أسلوب المنزل شيئًا آخر (على سبيل المثال، ranch)، سيتم تقييم هذا الشرط إلى "لا".
تؤدي الشروط داخل المجموعة عادةً إلى أشجار قرارات أكثر فعالية من الشروط التي تختبر الميزات المشفّرة بترميز واحد.
بيئة افتراضية
مرادف لكلمة مثال
ضبط التعليمات
نوع من الضبط الدقيق يحسّن قدرة نموذج الذكاء الاصطناعي التوليدي على اتّباع التعليمات. تتضمّن عملية ضبط التعليمات تدريب نموذج على سلسلة من طلبات التعليمات، تغطي عادةً مجموعة واسعة من المهام. يميل النموذج الناتج الذي تم ضبطه وفقًا للتعليمات إلى إنشاء ردود مفيدة على الطلبات بلا أمثلة في مجموعة متنوعة من المهام.
المقارنة مع:
القابلية للتفسير
تشير إلى القدرة على شرح أو عرض طريقة تفكير نموذج تعلُّم الآلة بعبارات يسهل على الإنسان فهمها.
معظم نماذج الانحدار الخطي، على سبيل المثال، يمكن تفسيرها بسهولة. (ما عليك سوى الاطّلاع على القيم التقديرية التي تم التدريب عليها لكل ميزة.) تتسم غابات القرارات أيضًا بقابلية تأويل عالية. ومع ذلك، تتطلّب بعض النماذج عرضًا مرئيًا متطوّرًا لتصبح قابلة للتفسير.
يمكنك استخدام أداة Learning Interpretability Tool (LIT) لتفسير نماذج تعلُّم الآلة.
توافق المقيّمين
هو مقياس لمدى توافق المقيمين البشريين عند تنفيذ مهمة ما. إذا لم يتفق المقيّمون، قد يكون من الضروري تحسين تعليمات المهمة. يُعرف هذا المقياس أيضًا باسم اتفاقية بين المعلقين أو موثوقية التقييم بين المقيمين. يُرجى الاطّلاع أيضًا على معامل كابا لكوهين، وهو أحد مقاييس توافق المقيّمين الأكثر شيوعًا.
لمزيد من المعلومات، راجِع البيانات الفئوية: المشاكل الشائعة في "دورة مكثّفة عن تعلّم الآلة".
مقياس التقاطع على الاتحاد (IoU)
تقاطع مجموعتين مقسومًا على اتحادهما في مهام رصد الصور المستندة إلى تعلُّم الآلة، يتم استخدام مقياس IoU لقياس دقة المربع المحيط الذي توقّعه النموذج مقارنةً بالمربع المحيط الخاص بالبيانات الأساسية. في هذه الحالة، تكون نسبة IoU بين المربّعين هي النسبة بين المساحة المتداخلة والمساحة الإجمالية، وتتراوح قيمتها بين 0 (لا يوجد تداخل بين مربّع الحدود المتوقّع ومربّع الحدود الحقيقي) و1 (يتطابق مربّع الحدود المتوقّع ومربّع الحدود الحقيقي تمامًا في الإحداثيات).
على سبيل المثال، في الصورة أدناه:
- يتم تحديد المربّع المحيط المتوقّع (الإحداثيات التي تحدّد المكان الذي يتوقّع النموذج أن يكون فيه المنضدة الليلية في اللوحة) باللون الأرجواني.
- تمت الإشارة إلى المربّع المحيط بالبيانات الأساسية (الإحداثيات التي تحدّد مكان وجود المنضدة الليلية في اللوحة) باللون الأخضر.
في هذه الحالة، يبلغ تقاطع المربّعات المحيطة بالتوقّع والحقيقة الأساسية (أسفل اليمين) 1، ويبلغ اتحاد المربّعات المحيطة بالتوقّع والحقيقة الأساسية (أسفل اليسار) 7، وبالتالي تبلغ قيمة IoU \(\frac{1}{7}\).
IoU
اختصار تقاطع على اتحاد
مصفوفة المنتجات
في أنظمة الاقتراحات، تكون مصفوفة متجهات التضمين ناتجة عن تحليل المصفوفات، وتتضمّن إشارات كامنة حول كل عنصر. يحتوي كل صف في مصفوفة السلع على قيمة ميزة كامنة واحدة لجميع السلع. على سبيل المثال، لنفترض أنّ لديك نظامًا لاقتراح الأفلام. يمثّل كل عمود في مصفوفة السلع فيلمًا واحدًا. قد تمثّل الإشارات الضمنية أنواعًا من المحتوى، أو قد تكون إشارات يصعب تفسيرها وتتضمّن تفاعلات معقّدة بين النوع والنجوم أو عمر الفيلم أو عوامل أخرى.
تحتوي مصفوفة العناصر على عدد الأعمدة نفسه الذي تحتويه مصفوفة الاستهداف التي يتم تحليلها. على سبيل المثال، إذا كان لديك نظام اقتراحات أفلام يقيّم 10,000 عنوان فيلم، ستحتوي مصفوفة العناصر على 10,000 عمود.
items
في نظام الاقتراحات، تشير إلى الكيانات التي يقترحها النظام. على سبيل المثال، الفيديوهات هي العناصر التي يقترحها متجر الفيديو، بينما الكتب هي العناصر التي يقترحها متجر الكتب.
التكرار
تعديل واحد على مَعلمات النموذج، أي الأوزان والانحيازات، أثناء التدريب. يحدّد حجم الدفعة عدد الأمثلة التي يعالجها النموذج في تكرار واحد. على سبيل المثال، إذا كان حجم الدفعة 20، سيعالج النموذج 20 مثالاً قبل تعديل المَعلمات.
عند تدريب شبكة عصبونية، تتضمّن عملية التكرار الواحدة الخطوتَين التاليتَين:
- عملية تمرير للأمام لتقييم الخسارة في دفعة واحدة
- عملية تمرير عكسي (الانتشار العكسي) لضبط معلَمات النموذج استنادًا إلى الخسارة ومعدّل التعلّم
لمزيد من المعلومات، يمكنك الاطّلاع على النزول التدريجي في "دورة مكثّفة عن تعلّم الآلة".
J
JAX
مكتبة للحوسبة على المصفوفات تجمع بين XLA (الجبر الخطي المسرَّع) والتفاضل التلقائي للحوسبة الرقمية العالية الأداء. توفّر JAX واجهة برمجة تطبيقات بسيطة وفعّالة لكتابة رموز رقمية مبرمَجة بسرعة مع عمليات تحويل قابلة للدمج. توفّر JAX ميزات مثل:
grad(التفاضل التلقائي)jit(الترجمة الفورية)vmap(التحويل التلقائي إلى رسومات متجهة أو التجميع)pmap(التنفيذ المتوازي)
JAX هي لغة للتعبير عن عمليات تحويل الرموز الرقمية وتركيبها، وهي تشبه مكتبة NumPy في Python، ولكنها أوسع نطاقًا. (في الواقع، مكتبة .numpy ضمن JAX هي نسخة مكافئة وظيفيًا، ولكنها معاد كتابتها بالكامل من مكتبة NumPy في Python).
تُعدّ JAX مناسبة بشكل خاص لتسريع العديد من مهام تعلُّم الآلة من خلال تحويل النماذج والبيانات إلى شكل مناسب للتوازي على وحدات معالجة الرسومات ورقائق مسرّع وحدات معالجة الموتّرات .
Flax وOptax وPax والعديد من المكتبات الأخرى مستنِدة إلى بنية JAX الأساسية.
K
Keras
واجهة برمجة تطبيقات شائعة للتعلم الآلي بلغة Python تعمل Keras على العديد من أُطر عمل التعليم المعمّق، بما في ذلك TensorFlow، حيث تتوفّر باسم tf.keras.
آلات متّجهات الدعم الأساسية (KSVM)
يشير ذلك المصطلح إلى خوارزمية تصنيف تسعى إلى زيادة الفارق بين الفئات الإيجابية و الفئات السلبية من خلال ربط متجهات بيانات الإدخال بمساحة ذات أبعاد أعلى. على سبيل المثال، لنفترض أنّ لديك مشكلة تصنيف تتضمّن مجموعة بيانات إدخال تحتوي على مئة سمة. لزيادة الهامش بين الفئات الإيجابية والسلبية إلى أقصى حد، يمكن أن تربط آلة المتجهات الداعمة المستندة إلى النواة (KSVM) هذه الميزات داخليًا بمساحة ذات مليون بُعد. تستخدم آلات المتجهات الداعمة المستندة إلى النواة دالة خسارة تُعرف باسم دالة الخسارة المفصلية.
النقاط الرئيسية
إحداثيات ميزات معيّنة في صورة على سبيل المثال، بالنسبة إلى نموذج التعرّف على الصور الذي يميّز أنواع الزهور، قد تكون النقاط الأساسية هي مركز كل بتلة، والساق، والسداة، وما إلى ذلك.
التحقّق المتقاطع k-fold
خوارزمية لتوقُّع قدرة النموذج على التعميم على البيانات الجديدة. يشير k في التقسيم إلى k جزء إلى عدد المجموعات المتساوية التي تقسم إليها أمثلة مجموعة البيانات، أي أنّك تدرب النموذج وتختبره k مرة. في كل جولة من التدريب والاختبار، تكون مجموعة مختلفة هي مجموعة الاختبار، وتصبح جميع المجموعات المتبقية مجموعة التدريب. بعد k جولة من التدريب والاختبار، يمكنك حساب المتوسط والانحراف المعياري لمقاييس الاختبار المحدّدة.
على سبيل المثال، لنفترض أنّ مجموعة البيانات تتألف من 120 مثالاً. لنفترض أيضًا أنّك قرّرت ضبط قيمة k على 4. لذلك، بعد ترتيب الأمثلة بشكل عشوائي، عليك تقسيم مجموعة البيانات إلى أربع مجموعات متساوية تضم 30 مثالاً وإجراء أربع جولات تدريب واختبار:
على سبيل المثال، قد يكون الخطأ التربيعي المتوسّط (MSE) المقياس الأكثر أهمية لنموذج الانحدار الخطي. لذلك، عليك إيجاد المتوسط والانحراف المعياري لمتوسط الخطأ التربيعي على مدار جميع الجولات الأربع.
متوسطات تصنيفية
هي خوارزمية تجميع شائعة تصنّف الأمثلة في التعلّم غير الموجّه. تنفّذ خوارزمية k-means ما يلي:
- تحديد أفضل k نقطة مركزية بشكل متكرر (المعروفة باسم النقاط المركزية)
- يتم تعيين كل مثال إلى أقرب نقطة مركزية. وتنتمي الأمثلة الأقرب إلى النقطة المركزية نفسها إلى المجموعة نفسها.
تختار خوارزمية المتوسطات التصنيفية مواقع المراكز لتقليل مجموع المربعات للمسافات من كل مثال إلى أقرب مركز.
على سبيل المثال، إليك الرسم البياني التالي الذي يوضّح العلاقة بين طول الكلب وعرضه:
إذا كانت k=3، ستحدّد خوارزمية متوسطات تصنيفية ثلاث نقاط مركزية. يتم تعيين كل مثال إلى أقرب نقطة مركزية له، ما يؤدي إلى إنشاء ثلاث مجموعات:
لنفترض أنّ الشركة المصنّعة تريد تحديد المقاسات المثالية للسترات الصغيرة والمتوسطة والكبيرة الخاصة بالكلاب. تحدّد النقاط المركزية الثلاث متوسط الارتفاع ومتوسط العرض لكل كلب في تلك المجموعة. لذلك، من المفترض أن تستند الشركة المصنّعة إلى هذه النقاط المركزية الثلاث في تحديد أحجام السترات. يُرجى العِلم أنّ مركز المجموعة ليس عادةً مثالاً في المجموعة.
توضّح الرسومات التوضيحية السابقة خوارزمية متوسطات تصنيفية للأمثلة التي تتضمّن ميزتَين فقط (الارتفاع والعرض). يُرجى العِلم أنّ متوسطات تصنيفية يمكنها تجميع الأمثلة في العديد من الميزات.
يمكنك الاطّلاع على ما هو التجميع العنقودي بطريقة متوسطات تصنيفية؟ في دورة التجميع العنقودي للحصول على مزيد من المعلومات.
وسيط تصنيفي
خوارزمية تجميع ذات صلة وثيقة بمتوسطات تصنيفية. ويكمن الفرق العملي بينهما في ما يلي:
- في خوارزمية متوسطات تصنيفية، يتم تحديد النقاط المركزية من خلال تقليل مجموع مربعات المسافة بين نقطة مركزية محتملة وكل مثال من أمثلتها.
- في وسيط تصنيفي، يتم تحديد المراكز من خلال تقليل مجموع المسافة بين المركز المرشح وكل مثال من أمثلته.
يُرجى العِلم أنّ تعريفات المسافة تختلف أيضًا:
- تعتمد خوارزمية k-means على المسافة الإقليدية من النقطة المركزية إلى مثال. (في بُعدَين، تعني المسافة الإقليدية استخدام نظرية فيثاغورس لاحتساب الوتر). على سبيل المثال، تكون مسافة متوسطات تصنيفية بين (2,2) و (5,-2) كما يلي:
- يعتمد وسيط تصنيفي على مسافة مانهاتن من المركز إلى مثال. هذه المسافة هي مجموع الفروق المطلقة في كل بُعد. على سبيل المثال، ستكون مسافة الوسيط التصنيفي بين (2,2) و (5,-2) كما يلي:
L
التسوية 0
أحد أنواع التسوية التي تعاقب العدد الإجمالي للأوزان غير الصفرية في أحد النماذج. على سبيل المثال، سيتم فرض عقوبة أكبر على نموذج يتضمّن 11 وزنًا غير صفري مقارنةً بنموذج مشابه يتضمّن 10 أوزان غير صفرية.
يُطلق على تسوية L0 أحيانًا اسم تسوية L0-norm.
خسارة 1
دالة الخسارة التي تحسب القيمة المطلقة للفرق بين قيم التصنيف الفعلية والقيم التي يتوقّعها النموذج. على سبيل المثال، إليك طريقة حساب خسارة L1 لمجموعة من خمسة أمثلة:
| القيمة الفعلية للمثال | القيمة المتوقّعة للنموذج | القيمة المطلقة للتغيير |
|---|---|---|
| 7 | 6 | 1 |
| 5 | 4 | 1 |
| 8 | 11 | 3 |
| 4 | 6 | 2 |
| 9 | 8 | 1 |
| 8 = خسارة L1 | ||
يكون مقياس فقدان 1 أقل حساسية للقيم الشاذة من مقياس فقدان 2.
متوسط الخطأ المطلق هو متوسط خسارة 1 لكل مثال.
يمكنك الاطّلاع على الانحدار الخطي: الخسارة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
تسوية L1
نوع من التسوية يفرض عقوبة على الأوزان بما يتناسب مع مجموع القيمة المطلقة للأوزان. تساعد عملية التسوية L1 في خفض أوزان الميزات غير الملائمة أو التي لا صلة لها بالموضوع إلى 0 تمامًا. تتم إزالة ميزة ذات وزن 0 من النموذج بشكل فعّال.
يجب عدم الخلط بينها وبين التسوية L2.
خسارة 2
يشير ذلك المصطلح إلى دالة خسارة تحسب مربع الفرق بين قيم التصنيف الفعلية والقيم التي يتوقّعها النموذج. على سبيل المثال، إليك طريقة حساب خسارة L2 لمجموعة من خمسة أمثلة:
| القيمة الفعلية للمثال | القيمة المتوقّعة للنموذج | مربع دلتا |
|---|---|---|
| 7 | 6 | 1 |
| 5 | 4 | 1 |
| 8 | 11 | 9 |
| 4 | 6 | 4 |
| 9 | 8 | 1 |
| 16 = L2 خسارة | ||
بسبب التربيع، يؤدي فقدان L2 إلى تضخيم تأثير القيم الشاذة. أي أنّ دالة الخسارة L2 تتأثر بشكل أكبر بالتوقعات السيئة مقارنةً بدالة الخسارة L1. على سبيل المثال، سيكون معدّل فقدان حزمة L1 السابقة 8 بدلاً من 16. لاحظ أنّ قيمة متطرفة واحدة تمثّل 9 من أصل 16.
تستخدم نماذج الانحدار عادةً دالة الخسارة L2 كدالة خسارة.
الخطأ التربيعي المتوسّط هو متوسط خسارة 2 لكل مثال. الخسارة التربيعية هي اسم آخر للخسارة من النوع L2.
يمكنك الاطّلاع على الانحدار اللوجستي: الخسارة والتسوية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
التسوية 2
أحد أنواع التسوية الذي يعاقب الأوزان بما يتناسب مع مجموع مربعات الأوزان. تساعد عملية التسوية L2 في تقريب أوزان القيم الشاذة (التي تتضمّن قيمًا موجبة عالية أو قيمًا سالبة منخفضة) إلى 0، ولكن ليس تمامًا إلى 0. تبقى الميزات التي تتضمّن قيمًا قريبة جدًا من 0 في النموذج، ولكنّها لا تؤثّر كثيرًا في التوقّعات التي يقدّمها النموذج.
يؤدي التسوية من النوع L2 دائمًا إلى تحسين التعميم في النماذج الخطية.
يختلف عن التسوية L1.
لمزيد من المعلومات، يمكنك الاطّلاع على المطابقة بشكل مفرط: التسوية L2 في "دورة مكثّفة عن تعلّم الآلة".
التصنيف
في تعلُّم الآلة الموجَّه، يمثّل هذا المصطلح جزء "الإجابة" أو "النتيجة" في مثال.
يتألف كل مثال مصنّف من ميزات واحدة أو أكثر وتصنيف. على سبيل المثال، في مجموعة بيانات مخصّصة لرصد المحتوى غير المرغوب فيه، من المحتمل أن يكون التصنيف إما "محتوى غير مرغوب فيه" أو "ليس محتوًى غير مرغوب فيه". في مجموعة بيانات خاصة بهطول الأمطار، قد يكون التصنيف هو كمية الأمطار التي هطلت خلال فترة زمنية معيّنة.
يمكنك الاطّلاع على التعلم الخاضع للإشراف في "مقدمة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.
مثال مصنّف
مثال يتضمّن ميزات واحدة أو أكثر وتصنيفًا على سبيل المثال، يعرض الجدول التالي ثلاثة أمثلة مصنّفة من نموذج لتقييم المنازل، ويتضمّن كل مثال ثلاث سمات وتصنيفًا واحدًا:
| عدد غرف النوم | عدد الحمّامات | عمر المنزل | سعر المنزل (التصنيف) |
|---|---|---|---|
| 3 | 2 | 15 | $345,000 |
| 2 | 1 | 72 | 179,000 دولار أمريكي |
| 4 | 2 | 34 | 392,000 دولار أمريكي |
في تعلُّم الآلة الموجَّه، يتم تدريب النماذج على أمثلة مصنَّفة، ويتم إجراء توقعات على أمثلة غير مصنَّفة.
قارِن بين الأمثلة المصنّفة والأمثلة غير المصنّفة.
يمكنك الاطّلاع على التعلم الخاضع للإشراف في "مقدمة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.
تسريب التصنيفات
عيب في تصميم النموذج، حيث تكون السمة بديلاً عن
التصنيف. على سبيل المثال، لنفترض نموذج تصنيف ثنائي يتنبأ بما إذا كان أحد العملاء المحتملين سيشتري منتجًا معيّنًا أم لا.
لنفترض أنّ إحدى سمات النموذج هي قيمة منطقية باسم
SpokeToCustomerAgent. لنفترض أيضًا أنّه لا يتم تعيين وكيل خدمة عملاء إلا بعد أن يشتري العميل المحتمل المنتج فعليًا. أثناء التدريب، سيتعلّم النموذج بسرعة العلاقة بين SpokeToCustomerAgent والتصنيف.
لمزيد من المعلومات، اطّلِع على رصد مسارات التعلّم في "دورة مكثّفة عن تعلّم الآلة".
lambda
مرادف معدل التسوية
Lambda هو مصطلح مستخدَم بشكل مفرط. نركّز هنا على تعريف المصطلح ضمن التسوية.
LaMDA (نموذج لغوي مخصَّص لتطبيقات المحادثة)
LaMDA هو نموذج لغوي كبير يستند إلى Transformer، وقد طوّرته Google ودربته على مجموعة بيانات كبيرة من الحوارات، ما يتيح له إنشاء ردود واقعية.
LaMDA: تقنية المحادثات المبتكرة تقدّم نظرة عامة.
المعالم
مرادف للنقاط الرئيسية
نموذج لغوي
النموذج هو نموذج يقدّر احتمالية ظهور رمز مميّز أو تسلسل من الرموز المميزة في تسلسل أطول من الرموز المميزة.
يمكنك الاطّلاع على ما هو نموذج اللغة؟ في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.
النموذج اللغوي الكبير
كحدّ أدنى، يجب أن يتضمّن النموذج اللغوي عددًا كبيرًا جدًا من المَعلمات. بشكل غير رسمي، أي نموذج لغة مستند إلى Transformer، مثل Gemini أو GPT
لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة (LLM) في "دورة مكثّفة عن تعلُّم الآلة".
وقت الاستجابة
الوقت الذي يستغرقه النموذج لمعالجة الإدخال وإنشاء ردّ يستغرق إنشاء الردود ذات وقت الاستجابة العالي وقتًا أطول من إنشاء الردود ذات وقت الاستجابة المنخفض.
تشمل العوامل التي تؤثر في وقت الاستجابة للنماذج اللغوية الكبيرة ما يلي:
- أطوال الرموز المميزة للإدخال والإخراج
- مدى تعقيد النموذج
- البنية الأساسية التي يعمل عليها النموذج
يُعدّ تحسين وقت الاستجابة أمرًا بالغ الأهمية لإنشاء تطبيقات سريعة الاستجابة وسهلة الاستخدام.
مساحة كامنة
مرادف لمساحة التضمين
طبقة
مجموعة من الخلايا العصبية في شبكة عصبية في ما يلي ثلاثة أنواع شائعة من الطبقات:
- طبقة الإدخال، التي توفّر قيمًا لجميع المعالم
- طبقة مخفية واحدة أو أكثر، والتي تعثر على علاقات غير خطية بين السمات والتصنيف
- الطبقة النهائية، التي تقدّم التوقّع.
على سبيل المثال، يوضّح الرسم التوضيحي التالي شبكة عصبونية تتضمّن الطبقة الأولى وطبقتَين مخفيتَين والطبقة النهائية:
في TensorFlow، تكون الطبقات أيضًا عبارة عن دوال Python تأخذ موترات وخيارات إعداد كمدخلات وتنتج موترات أخرى كمخرجات.
Layers API (tf.layers)
واجهة برمجة تطبيقات TensorFlow لإنشاء شبكة عصبية عميقة كتركيبة من الطبقات تتيح لك واجهة برمجة التطبيقات للطبقات إنشاء أنواع مختلفة من الطبقات، مثل:
tf.layers.Denseلطبقة مكتملة الاتصال-
tf.layers.Conv2Dلطبقة التفافية
تتّبع واجهة برمجة التطبيقات للطبقات اصطلاحات واجهة برمجة التطبيقات الخاصة بطبقات Keras. أي أنّه باستثناء البادئة المختلفة، تتشارك جميع الدوال في واجهة برمجة التطبيقات للطبقات الأسماء والتوقيعات نفسها مع نظيراتها في واجهة برمجة التطبيقات Keras layers API.
ورقة شجر
أي نقطة نهاية في شجرة القرارات على عكس الشرط، لا تنفّذ الورقة اختبارًا. بل إنّ الورقة هي عبارة عن توقّع محتمل. العقدة الطرفية هي أيضًا العقدة الأخيرة في مسار الاستدلال.
على سبيل المثال، تحتوي شجرة القرارات التالية على ثلاث أوراق:
يمكنك الاطّلاع على أشجار القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
أداة Learning Interpretability Tool (LIT)
أداة مرئية وتفاعلية لفهم النماذج وتصوّر البيانات
يمكنك استخدام LIT مفتوحة المصدر من أجل تفسير النماذج أو عرض البيانات النصية والصور والبيانات الجدولية.
معدّل التعلّم
هو عدد ذو فاصلة عائمة يحدد مدى تأثير تعديل الأوزان والانحيازات في كل تكرار على خوارزمية النزول التدريجي. على سبيل المثال، يؤدي معدّل التعلّم البالغ 0.3 إلى تعديل الأوزان والانحيازات بقوة أكبر بثلاث مرات من معدّل التعلّم البالغ 0.1.
معدّل التعلّم هو مَعلمة فائقة أساسية. إذا ضبطت معدّل التعلّم على قيمة منخفضة جدًا، سيستغرق التدريب وقتًا طويلاً جدًا. إذا حدّدت معدّل التعلّم على قيمة مرتفعة جدًا، سيواجه نزول التدرّج غالبًا صعوبة في الوصول إلى التقارب.
يمكنك الاطّلاع على الانحدار الخطي: المَعلمات الفائقة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
انحدار التربيعات الأقل
نموذج انحدار خطي تم تدريبه من خلال خفض خسارة L2.
التلقين من الأقل إلى الأكثر
أحد أشكال تسلسل الطلبات الذي يقسّم المشاكل المعقّدة إلى مجموعة مرتّبة من المشاكل الأبسط. على سبيل المثال، إليك استراتيجية طلبات من الأسهل إلى الأصعب لمشكلة معيّنة:
- قسِّم المشكلة المعقّدة إلى قائمة مرتبة من المشاكل الفرعية الأبسط. في هذا المثال، افترض أنّها ثلاث مشاكل فرعية.
- الطلب 1: اطلب من نموذج اللغة الكبير حلّ المشكلة الفرعية الأولى. يعرض النموذج اللغوي الكبير الرد 1.
- الطلب 2: ادمج كل أو جزء من الرد 1 في الطلب لحل المشكلة الفرعية الثانية. يعرض النموذج اللغوي الكبير الردّ 2.
- الطلب 3: ادمج كل أو جزء من الردّ 2 في الطلب لحل المشكلة الفرعية الثالثة. تمثّل استجابة النموذج اللغوي الكبير (LLM) للطلب 3 الإجابة "النهائية" للمشكلة المعقّدة الأولية.
يُرجى العِلم أنّ كل خطوة تعتمد على حلّ الخطوة السابقة.
يختلف هذا الأسلوب عن أسلوب المطالبة بشجرة الأفكار.
مسافة ليفنشتاين
مقياس مسافة التعديل الذي يحسب أقل عدد من عمليات الحذف والإدراج والاستبدال المطلوبة لتغيير كلمة إلى أخرى على سبيل المثال، تبلغ مسافة Levenshtein بين الكلمتَين "قلب" و "سهام" ثلاث عمليات تعديل لأنّ التعديلات الثلاث التالية هي أقل التغييرات اللازمة لتحويل إحدى الكلمتَين إلى الأخرى:
- heart → deart (استبدال "h" بـ "d")
- deart → dart (حذف الحرف "e")
- dart → darts (إضافة "s")
يُرجى العِلم أنّ التسلسل السابق ليس المسار الوحيد الذي يتضمّن ثلاثة تعديلات.
خطي
يشير ذلك المصطلح إلى علاقة بين متغيّرَين أو أكثر يمكن تمثيلها فقط من خلال الجمع والضرب.
رسم العلاقة الخطية هو خط.
يجب أن يكون التباين غير خطي.
النموذج الخطي
نموذج يحدّد وزنًا واحدًا لكل سمة لإجراء توقّعات. (تتضمّن النماذج الخطية أيضًا انحيازًا). في المقابل، تكون العلاقة بين الميزات والتوقعات في النماذج العميقة غير خطية بشكل عام.
عادةً ما يكون تدريب النماذج الخطية أسهل وأكثر قابلية للتفسير من النماذج العميقة. ومع ذلك، يمكن للنماذج العميقة تعلُّم العلاقات المعقّدة بين الميزات.
الانحدار الخطي والانحدار اللوجستي هما نوعان من النماذج الخطية.
الانحدار الخطي
نوع من نماذج تعلُّم الآلة ينطبق عليه ما يلي:
قارِن بين الانحدار الخطي والانحدار اللوجستي. قارِن أيضًا بين الانحدار والتصنيف.
يمكنك الاطّلاع على الانحدار الخطي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
LIT
اختصار Learning Interpretability Tool (LIT)، التي كانت تُعرف سابقًا باسم Language Interpretability Tool.
LLM
اختصار النموذج اللغوي الكبير
تقييمات النماذج اللغوية الكبيرة
مجموعة من المقاييس ومقاييس الأداء لتقييم أداء النماذج اللغوية الكبيرة (LLM). بشكل عام، تتضمّن عمليات تقييم النماذج اللغوية الكبيرة ما يلي:
- مساعدة الباحثين في تحديد المجالات التي تحتاج فيها النماذج اللغوية الكبيرة إلى تحسين
- وهي مفيدة في مقارنة النماذج اللغوية الكبيرة المختلفة وتحديد أفضل نموذج لغوي كبير لمهمة معيّنة.
- المساعدة في ضمان أنّ استخدام النماذج اللغوية الكبيرة آمن وأخلاقي
لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة (LLM) في "دورة مكثّفة عن تعلُّم الآلة".
الانحدار اللوجستي
أحد أنواع نماذج الانحدار التي تتنبأ باحتمالية. تتضمّن نماذج الانحدار اللوجستي الخصائص التالية:
- التصنيف فئوي. يشير مصطلح الانحدار اللوجستي عادةً إلى الانحدار اللوجستي الثنائي، أي إلى نموذج يحسب احتمالات التصنيفات التي تتضمّن قيمتَين محتملتَين. هناك صيغة أقل شيوعًا، وهي الانحدار اللوجستي المتعدد الحدود، التي تحسب احتمالات التصنيفات التي تتضمّن أكثر من قيمتَين محتملتَين.
- دالة الخسارة أثناء التدريب هي الخسارة اللوغاريتمية. (يمكن وضع وحدات الخسارة اللوغاريتمية متعددة بالتوازي للتصنيفات التي تتضمّن أكثر من قيمتَين محتملتَين).
- يستخدم النموذج بنية خطية، وليس شبكة عصبية عميقة. ومع ذلك، ينطبق الجزء المتبقي من هذا التعريف أيضًا على النماذج العميقة التي تتنبأ بالاحتمالات للتصنيفات الفئوية.
على سبيل المثال، لنفترض نموذج انحدار لوجستي يحسب احتمال أن تكون رسالة إلكترونية واردة غير مرغوب فيها أو غير ذلك. أثناء الاستدلال، لنفترض أنّ النموذج يتوقّع القيمة 0.72. وبالتالي، يقدّر النموذج ما يلي:
- فرصة بنسبة% 72 أن تكون الرسالة الإلكترونية غير مرغوب فيها
- هناك احتمال بنسبة% 28 ألّا تكون الرسالة الإلكترونية غير مرغوب فيها.
يستخدم نموذج الانحدار اللوجستي بنية من خطوتَين:
- ينشئ النموذج قيمة توقّع أولية (y') من خلال تطبيق دالة خطية على ميزات الإدخال.
- يستخدم النموذج هذا التوقّع الأولي كإدخال إلى دالة سينية، ما يؤدي إلى تحويل التوقّع الأولي إلى قيمة بين 0 و1، باستثناء هذين الرقمين.
كما هو الحال مع أي نموذج انحدار، يتنبأ نموذج الانحدار اللوجستي برقم. ومع ذلك، يصبح هذا الرقم عادةً جزءًا من نموذج تصنيف ثنائي على النحو التالي:
- إذا كان الرقم المتوقّع أكبر من عتبة التصنيف، سيتوقّع نموذج التصنيف الثنائي الفئة الموجبة.
- إذا كان الرقم المتوقّع أقل من عتبة التصنيف، يتوقّع نموذج التصنيف الثنائي الفئة السالبة.
لمزيد من المعلومات، يمكنك الاطّلاع على الانحدار اللوجستي في "دورة مكثّفة عن تعلّم الآلة".
لوجيت
متّجه التوقّعات الأولية (غير المعدَّلة) التي ينشئها نموذج التصنيف، والتي يتم عادةً تمريرها إلى دالة تعديل. إذا كان النموذج يحلّ مشكلة تصنيف متعدد الفئات، تصبح القيم اللوغاريتمية عادةً إدخالاً إلى دالة softmax. تنشئ دالة softmax بعد ذلك متجهًا من الاحتمالات (المعدَّلة) يتضمّن قيمة واحدة لكل فئة محتملة.
الخسارة اللوغاريتمية
دالة الخسارة المستخدَمة في الانحدار اللوجستي الثنائي
يمكنك الاطّلاع على الانحدار اللوجستي: الخسارة والتسوية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
لوغاريتم فرص الأفضلية
يشير ذلك المصطلح إلى لوغاريتم يوضِّح معدّل احتمالية وقوع حدث معيّن.
الذاكرة الطويلة المدى والقصيرة المدى (LSTM)
نوع من الخلايا في الشبكة العصبية المتكررة، ويُستخدم لمعالجة تسلسلات البيانات في تطبيقات مثل التعرّف على خط اليد والترجمة الآلية والتعليق على الصور. تعالج شبكات الذاكرة الطويلة والقصيرة المدى مشكلة تضاؤل التدرّج التي تحدث عند تدريب الشبكات العصبية المتكرّرة بسبب تسلسلات البيانات الطويلة من خلال الاحتفاظ بالسجلّ في حالة ذاكرة داخلية استنادًا إلى الإدخال الجديد والسياق من الخلايا السابقة في الشبكة العصبية المتكرّرة.
LoRA
اختصار Low-Rank Adaptability
خسارة
أثناء تدريب نموذج خاضع للإشراف، يتم قياس مدى بُعد التوقّع الذي يقدّمه النموذج عن التصنيف.
تحسب دالة الخسارة الخسارة.
يمكنك الاطّلاع على الانحدار الخطي: الخسارة في دورة مكثّفة عن تعلّم الآلة للحصول على مزيد من المعلومات.
مجمّع الخسائر
نوع من خوارزميات تعلُّم الآلة التي تحسِّن أداء نموذج من خلال الجمع بين توقّعات نماذج متعددة واستخدام هذه التوقّعات لتقديم توقّع واحد. نتيجةً لذلك، يمكن لمجمّع الخسائر أن يقلّل تباين التوقّعات ويحسّن دقة التوقّعات.
منحنى الخسارة
رسم بياني للخسارة كدالة لعدد التكرارات التدريبية يعرض الرسم البياني التالي منحنى خسارة نموذجيًا:
يمكن أن تساعدك منحنيات الخسارة في تحديد ما إذا كان نموذجك يتقارب أو يفرط في التكيّف.
يمكن أن ترسم منحنيات الخسارة جميع أنواع الخسارة التالية:
اطّلِع أيضًا على منحنى التعميم.
يمكنك الاطّلاع على التدريب الزائد: تفسير منحنيات الخسارة في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.
دالة الخسارة
أثناء التدريب أو الاختبار، يتم استخدام دالة رياضية تحسب مقدار الخطأ في دفعة من الأمثلة. تعرض دالة الخسارة قيمة خسارة أقل للنماذج التي تقدّم توقّعات جيدة مقارنةً بالنماذج التي تقدّم توقّعات سيئة.
عادةً ما يكون الهدف من التدريب هو تقليل الخسارة التي تعرضها دالة الخسارة.
تتوفّر العديد من أنواع دوال الخسارة المختلفة. اختَر دالة الخسارة المناسبة لنوع النموذج الذي تنشئه. على سبيل المثال:
- فقدان L2 (أو الخطأ التربيعي المتوسّط) هو دالة الفقدان للانحدار الخطي.
- الخسارة اللوغارتمية هي دالة الخسارة في الانحدار اللوجستي.
سطح الخسارة
رسم بياني للأوزان مقابل الخسارة. تهدف النزول التدريجي إلى العثور على الأوزان التي يكون فيها سطح الخسارة عند الحد الأدنى المحلي.
تأثير الضياع في المنتصف
ميل النماذج اللغوية الكبيرة إلى استخدام المعلومات من بداية ونهاية قدرة الاستيعاب الطويلة بشكل أكثر فعالية من المعلومات الواردة في المنتصف أي، عند توفّر سياق طويل، يؤدي تأثير "الضياع في المنتصف" إلى أن تكون الدقة:
- مرتفع نسبيًا عندما تكون المعلومات ذات الصلة لتكوين رد قريبة من بداية السياق أو نهايته
- منخفضة نسبيًا عندما تكون المعلومات ذات الصلة لتكوين رد في منتصف السياق
هذا المصطلح مستوحى من ورقة بحثية بعنوان Lost in the Middle: How Language Models Use Long Contexts.
Low-Rank Adaptability (LoRA)
هي تقنية فعّالة من حيث عدد المَعلمات تُستخدَم في الضبط الدقيق، وتعمل على "تجميد" الأوزان المُدرَّبة مسبقًا للنموذج (بحيث لا يمكن تعديلها بعد ذلك)، ثم إدراج مجموعة صغيرة من الأوزان القابلة للتدريب في النموذج. تكون مجموعة الأوزان القابلة للتدريب هذه (المعروفة أيضًا باسم "مصفوفات التعديل") أصغر بكثير من النموذج الأساسي، وبالتالي تكون عملية تدريبها أسرع بكثير.
توفّر LoRA المزايا التالية:
- يحسّن جودة توقّعات النموذج للمجال الذي يتم فيه تطبيق الضبط الدقيق.
- يتم الضبط بشكل أسرع من التقنيات التي تتطلّب ضبط جميع مَعلمات النموذج.
- يقلّل هذا الخيار من تكلفة الاستدلال الحسابية من خلال إتاحة عرض متزامن لعدة نماذج متخصصة تشترك في النموذج الأساسي نفسه.
LSTM
اختصار الذاكرة الطويلة والقصيرة المدى
M
تعلُم الآلة
برنامج أو نظام يدرّب نموذجًا من البيانات التي يتم إدخالها. يمكن للنموذج المدرَّب أن يقدّم توقّعات مفيدة من بيانات جديدة (لم يسبق رؤيتها) مأخوذة من التوزيع نفسه المستخدَم لتدريب النموذج.
يشير تعلُّم الآلة أيضًا إلى مجال الدراسة المعني بهذه البرامج أو الأنظمة.
يمكنك الاطّلاع على دورة مقدّمة عن تعلُّم الآلة للحصول على مزيد من المعلومات.
الترجمة الآلية
استخدام برنامج (عادةً، نموذج لتعلُّم الآلة) لتحويل نص من لغة بشرية إلى أخرى، مثلاً من الإنجليزية إلى اليابانية
الفئة الأكبر
التصنيف الأكثر شيوعًا في مجموعة بيانات غير متوازنة الفئات على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 99% من التصنيفات السلبية و1% من التصنيفات الإيجابية، تكون التصنيفات السلبية هي الفئة الأكبر.
التباين مع الفئة الأقلية
يمكنك الاطّلاع على مجموعات البيانات: مجموعات البيانات غير المتوازنة في دورة مكثّفة عن تعلّم الآلة للحصول على مزيد من المعلومات.
حساب المدير
وكيل يتحكّم في وكيل فرعي واحد أو أكثر.
عملية اتخاذ القرار في ماركوف (MDP)
رسم بياني يمثّل نموذج اتّخاذ القرار حيث يتم اتّخاذ القرارات (أو الإجراءات) لتصفّح سلسلة من الحالات بافتراض أنّ خاصية ماركوف صحيحة. في التعلّم التعزيزي، تؤدي عمليات الانتقال بين الحالات إلى عرض مكافأة عددية.
خاصية ماركوف
هي سمة لبعض البيئات، حيث يتم تحديد عمليات الانتقال بين الحالات بشكل كامل من خلال المعلومات الضمنية في الحالة الحالية وإجراء الوكيل.
نموذج لغوي مخفي
نموذج لغوي يتوقّع احتمالية أن تملأ الرموز المميزة المرشّحة الفراغات في تسلسل. على سبيل المثال، يمكن لنموذج لغة مخفي حساب احتمالات الكلمات المرشّحة لتحلّ محلّ الشرطة السفلية في الجملة التالية:
عاد ____ في القبعة.
تستخدم المراجع عادةً السلسلة "MASK" بدلاً من الشرطة السفلية. على سبيل المثال:
عاد "القناع" في القبعة.
معظم نماذج اللغة الحديثة التي تستخدم الإخفاء هي ثنائية الاتجاه.
math-pass@k
مقياس لتحديد دقة النموذج اللغوي الكبير في حلّ مسألة رياضية خلال K محاولة على سبيل المثال، يقيس مقياس math-pass@2 قدرة النموذج اللغوي الكبير على حلّ المسائل الرياضية في محاولتَين. تشير دقة 0.85 في math-pass@2 إلى أنّ نموذجًا لغويًا كبيرًا تمكّن من حلّ المسائل الحسابية بنسبة% 85 من المرات خلال محاولتَين.
مقياس math-pass@k مطابق لمقياس pass@k، إلا أنّ مصطلح math-pass@k يُستخدم تحديدًا لتقييم الرياضيات.
matplotlib
تفكيك المصفوفة
في الرياضيات، هي آلية للعثور على المصفوفات التي يكون ناتج ضربها النقطي قريبًا من مصفوفة مستهدَفة.
في أنظمة التوصية، تحتوي مصفوفة الاستهداف غالبًا على تقييمات المستخدمين للعناصر. على سبيل المثال، قد تبدو مصفوفة الاستهداف لنظام اقتراحات الأفلام على النحو التالي، حيث تمثّل الأعداد الصحيحة الموجبة تقييمات المستخدمين، ويعني الرقم 0 أنّ المستخدم لم يقيّم الفيلم:
| الدار البيضاء | The Philadelphia Story | Black Panther | المرأة المعجزة | Pulp Fiction | |
|---|---|---|---|---|---|
| مستخدم 1 | 5.0 | 3 | 0.0 | 2.0 | 0.0 |
| مستخدم 2 | 4.0 | 0.0 | 0.0 | 1 | 5.0 |
| مستخدم 3 | 3 | 1 | 4.0 | 5.0 | 0.0 |
يهدف نظام اقتراحات الأفلام إلى توقّع تقييمات المستخدمين للأفلام التي لم يتم تقييمها. على سبيل المثال، هل سيعجب المستخدم 1 بفيلم Black Panther؟
أحد الأساليب التي تتّبعها الأنظمة لتقديم محتوى مقترح هو استخدام تحليل المصفوفات لإنشاء المصفوفتَين التاليتَين:
- مصفوفة المستخدمين، وهي عبارة عن عدد المستخدمين مضروبًا في عدد سمات التضمين.
- مصفوفة عناصر، يتم تحديد شكلها على أنّه عدد سمات التضمين X عدد العناصر.
على سبيل المثال، يمكن أن يؤدي استخدام تحليل المصفوفات إلى الحصول على مصفوفة المستخدمين ومصفوفة المنتجات التالية:
User Matrix Item Matrix 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5
يؤدي ضرب مصفوفة المستخدم في مصفوفة السلع إلى إنشاء مصفوفة توصيات لا تحتوي على تقييمات المستخدمين الأصلية فحسب، بل تتضمّن أيضًا توقعات بشأن الأفلام التي لم يشاهدها كل مستخدم. على سبيل المثال، ضع في اعتبارك تقييم المستخدم 1 لفيلم كازابلانكا، والذي كان 5.0. من المفترض أن يكون المنتج النقطي المقابل لتلك الخلية في مصفوفة الاقتراحات حوالي 5.0، وهو كذلك:
(1.1 * 0.9) + (2.3 * 1.7) = 4.9والأهم من ذلك، هل سيعجب المستخدم 1 فيلم Black Panther؟ يؤدي أخذ ناتج الضرب النقطي المقابل للصف الأول والعمود الثالث إلى الحصول على تقييم متوقّع يبلغ 4.3:
(1.1 * 1.4) + (2.3 * 1.2) = 4.3تؤدي عملية تحليل المصفوفة عادةً إلى إنشاء مصفوفة مستخدمين ومصفوفة عناصر، تكونان معًا أكثر إحكامًا بكثير من المصفوفة المستهدَفة.
MBPP
اختصار معظم المشاكل الأساسية في لغة Python
متوسّط الخطأ المطلق (MAE)
متوسط الخسارة لكل مثال عند استخدام L1 loss احسب متوسّط الخطأ المطلق على النحو التالي:
- احسب خسارة L1 لمجموعة.
- قسِّم خسارة L1 على عدد الأمثلة في المجموعة.
على سبيل المثال، لنفترض أنّنا نريد حساب خسارة L1 على مجموعة من خمسة أمثلة كما يلي:
| القيمة الفعلية للمثال | القيمة المتوقّعة للنموذج | الخسارة (الفرق بين القيمة الفعلية والقيمة المتوقّعة) |
|---|---|---|
| 7 | 6 | 1 |
| 5 | 4 | 1 |
| 8 | 11 | 3 |
| 4 | 6 | 2 |
| 9 | 8 | 1 |
| 8 = خسارة L1 | ||
إذًا، قيمة L1 هي 8 وعدد الأمثلة هو 5. وبالتالي، فإنّ متوسّط الخطأ المطلق هو:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
قارِن بين متوسط الخطأ المطلق والخطأ التربيعي المتوسّط وجذر الخطأ التربيعي المتوسّط.
متوسط الدقة عند k (mAP@k)
المتوسط الإحصائي لكل نتائج متوسط الدقة عند k في مجموعة بيانات التحقّق. يُستخدم متوسط الدقة عند k في تقييم جودة المحتوى المقترح الذي يقدّمه نظام التوصية.
على الرغم من أنّ عبارة "المتوسط الحسابي" تبدو مكرّرة، إلا أنّ اسم المقياس مناسب. ففي النهاية، يعثر هذا المقياس على متوسط قيم متوسط الدقة عند k المتعددة.
الخطأ التربيعي المتوسّط (MSE)
متوسط الخسارة لكل مثال عند استخدام خسارة 2 احسب الخطأ التربيعي المتوسّط على النحو التالي:
- احسب خسارة L2 لمجموعة.
- قسِّم خسارة L2 على عدد الأمثلة في المجموعة.
على سبيل المثال، لنفترض أنّك تريد حساب الخسارة في المجموعة التالية المكوّنة من خمسة أمثلة:
| القيمة الفعلية | توقّعات النموذج | فقدان البيانات | الخسارة التربيعية |
|---|---|---|---|
| 7 | 6 | 1 | 1 |
| 5 | 4 | 1 | 1 |
| 8 | 11 | 3 | 9 |
| 4 | 6 | 2 | 4 |
| 9 | 8 | 1 | 1 |
| 16 = L2 خسارة | |||
وبالتالي، يكون الخطأ التربيعي المتوسّط كما يلي:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
الخطأ التربيعي المتوسّط هو مُحسِّن شائع للتدريب، خاصةً في الانحدار الخطي.
قارِن بين "الخطأ التربيعي المتوسّط" و"متوسط الخطأ المطلق" و"جذر الخطأ التربيعي المتوسّط".
تستخدم TensorFlow Playground الخطأ التربيعي المتوسّط لاحتساب قيم الخسارة.
شبكة متداخلة
في البرمجة المتوازية لتعلُّم الآلة، يشير هذا المصطلح إلى عملية ربط البيانات والنموذج بشرائح TPU، وتحديد كيفية تقسيم هذه القيم أو تكرارها.
الشبكة هي مصطلح مُحمّل بشكل زائد يمكن أن يعني أيًا مما يلي:
- تخطيط مادي لشرائح TPU
- بنية منطقية مجرّدة لربط البيانات والنموذج بشرائح TPU.
في كلتا الحالتين، يتم تحديد الشبكة على أنّها شكل.
التعلم الفائق
مجموعة فرعية من تعلُّم الآلة تكتشف خوارزمية تعلُّم أو تحسّنها. يمكن أن يهدف نظام التعلّم الفائق أيضًا إلى تدريب نموذج لتعلُّم مهمة جديدة بسرعة من كمية صغيرة من البيانات أو من الخبرة المكتسبة في المهام السابقة. تحاول خوارزميات التعلّم الفائق بشكل عام تحقيق ما يلي:
- تحسين الميزات المصمَّمة يدويًا أو التعرّف عليها (مثل أداة تهيئة أو أداة تحسين)
- أن تكون أكثر كفاءة في استخدام البيانات والحوسبة
- تحسين التعميم
يرتبط التعلّم الفائق بالتعلّم ببضع فُرَص.
المقياس
إحصاء يهمّك
الهدف هو مقياس يحاول نظام تعلُّم الآلة تحسينه.
Metrics API (tf.metrics)
واجهة برمجة تطبيقات TensorFlow لتقييم النماذج على سبيل المثال، تحدّد tf.metrics.accuracy
عدد المرات التي تتطابق فيها توقّعات النموذج مع التصنيفات.
دفعة صغيرة
مجموعة فرعية صغيرة يتم اختيارها عشوائيًا من دفعة تتم معالجتها في تكرار واحد. يتراوح حجم الدفعة للدفعة المصغّرة عادةً بين 10 و1,000 مثال.
على سبيل المثال، لنفترض أنّ مجموعة التدريب بأكملها (المجموعة الكاملة) تتألف من 1,000 مثال. لنفترض أيضًا أنّك ضبطت حجم الدفعة لكل دفعة صغيرة على 20. لذلك، تحدّد كل تكرار مقدار الخسارة في 20 مثالاً عشوائيًا من بين 1,000 مثال، ثم تعدّل الأوزان والانحيازات وفقًا لذلك.
من الأسهل بكثير حساب الخسارة على مجموعة مصغّرة من البيانات مقارنةً بحساب الخسارة على جميع الأمثلة في المجموعة الكاملة.
يمكنك الاطّلاع على الانحدار الخطي: المَعلمات الفائقة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
نزول متدرّج عشوائي ضمن دفعة صغيرة
خوارزمية النزول المتدرّج التي تستخدم دُفعات صغيرة. بعبارة أخرى، يقدّر النزول المتدرّج العشوائي ضمن دفعة صغيرة الانحدار استنادًا إلى مجموعة فرعية صغيرة من بيانات التدريب. تستخدم طريقة النزول المتدرّج العشوائي العادية دفعة صغيرة بحجم 1.
دالة الخسارة القصوى الدنيا
هي دالة خسارة لشبكات الخصومة التوليدية، تستند إلى الإنتروبيا المتقاطعة بين توزيع البيانات التي تم إنشاؤها والبيانات الحقيقية.
تم استخدام دالة الخسارة Minimax في الورقة البحثية الأولى لوصف الشبكات التوليدية الخصومية.
يمكنك الاطّلاع على دوالّ الخسارة في دورة الشبكات الخصومية التوليدية للحصول على مزيد من المعلومات.
الفئة الأقلية
الوسم الأقل شيوعًا في مجموعة بيانات غير متوازنة الفئات. على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على% 99 من التصنيفات السلبية و% 1 من التصنيفات الإيجابية، تكون التصنيفات الإيجابية هي الفئة الأقلية.
التباين مع الفئة الأكبر
يمكنك الاطّلاع على مجموعات البيانات: مجموعات البيانات غير المتوازنة في دورة مكثّفة عن تعلّم الآلة للحصول على مزيد من المعلومات.
mixture of experts
هي طريقة تهدف إلى زيادة كفاءة الشبكة العصبية من خلال استخدام مجموعة فرعية فقط من مَعلماتها (المعروفة باسم الخبير) لمعالجة رمز إدخال أو مثال معيّن. توجّه شبكة البوابة كل رمز مميز أو مثال إلى الخبراء المناسبين.
للاطّلاع على التفاصيل، يُرجى الرجوع إلى إحدى الورقتَين التاليتَين:
- الشبكات العصبونية الضخمة بشكل غير معقول: طبقة "مزيج الخبراء" ذات البوابات المتفرقة
- Mixture-of-Experts with Expert Choice Routing
تعلُّم الآلة
اختصار تعلُّم الآلة
MMIT
الاختصار الخاص بـ النماذج المتعددة الوسائط التي تم ضبطها وفقًا للتعليمات
MNIST
مجموعة بيانات متاحة للجميع من إعداد "لوكون" و"كورتيس" و"بورغيس" تحتوي على 60,000 صورة، تعرض كل صورة كيف كتب شخص رقمًا معيّنًا يدويًا من 0 إلى 9. يتم تخزين كل صورة كمصفوفة 28x28 من الأعداد الصحيحة، حيث كل عدد صحيح هو قيمة تدرّج الرمادي بين 0 و255، بما في ذلك هذين الرقمين.
MNIST هي مجموعة بيانات أساسية لتعلُّم الآلة، وغالبًا ما تُستخدَم لاختبار أساليب جديدة لتعلُّم الآلة. لمزيد من التفاصيل، يُرجى الاطّلاع على قاعدة بيانات MNIST للأرقام المكتوبة بخط اليد.
النمط
فئة بيانات ذات مستوى عالٍ على سبيل المثال، الأرقام والنصوص والصور والفيديوهات والمقاطع الصوتية هي خمسة أنواع مختلفة من البيانات.
نموذج
بشكل عام، أي صيغة رياضية تعالج البيانات المدخلة وتعرض الناتج. بعبارة أخرى، النموذج هو مجموعة المَعلمات والبنية اللازمة لنظام ما من أجل إجراء التوقعات. في تعلُّم الآلة الموجَّه، يتلقّى النموذج مثالاً كمدخل ويستنتج توقّعًا كمخرج. تختلف النماذج بعض الشيء ضمن تعلُّم الآلة الموجَّه. على سبيل المثال:
- يتألف نموذج الانحدار الخطي من مجموعة من الأوزان والانحياز.
- يتألف نموذج الشبكة العصبونية مما يلي:
- مجموعة من الطبقات المخفية، تحتوي كل منها على عصبون واحد أو أكثر
- الأوزان والانحياز المرتبط بكل عصبون
- يتكوّن نموذج شجرة القرار مما يلي:
- شكل الشجرة، أي النمط الذي يتم فيه ربط الشروط والأوراق.
- الشروط والإجازات
يمكنك حفظ نموذج أو استعادته أو إنشاء نُسخ منه.
تؤدي عملية تعلُّم الآلة غير المراقَب أيضًا إلى إنشاء نماذج، وهي عادةً عبارة عن دالة يمكنها ربط مثال إدخال بالمجموعة الأنسب.
سعة النموذج
مدى تعقيد المشاكل التي يمكن أن يتعلّمها النموذج وكلما زادت درجة تعقيد المشاكل التي يمكن أن يتعلّمها النموذج، زادت قدرته. تزداد سعة النموذج عادةً مع عدد مَعلمات النموذج. للحصول على تعريف رسمي لقدرة نموذج التصنيف، يُرجى الاطّلاع على سمة VC.
التسلسل الهرمي للنماذج
نظام يختار النموذج المثالي لاستعلام استنتاج معيّن.
لنفترض أنّ لدينا مجموعة من النماذج تتراوح بين نماذج كبيرة جدًا (تحتوي على الكثير من المَعلمات) ونماذج أصغر بكثير (تحتوي على عدد أقل بكثير من المَعلمات). تستهلك النماذج الكبيرة جدًا موارد حوسبة أكبر في وقت الاستدلال مقارنةً بالنماذج الأصغر. ومع ذلك، يمكن للنماذج الكبيرة جدًا عادةً استنتاج طلبات أكثر تعقيدًا من النماذج الأصغر. يحدد تسلسل النماذج مدى تعقيد طلب الاستنتاج، ثم يختار النموذج المناسب لتنفيذ الاستنتاج. الهدف الأساسي من استخدام النماذج المتتالية هو تقليل تكاليف الاستدلال من خلال اختيار نماذج أصغر بشكل عام، واختيار نموذج أكبر للاستعلامات الأكثر تعقيدًا فقط.
لنفترض أنّ نموذجًا صغيرًا يعمل على هاتف، وأنّ إصدارًا أكبر من هذا النموذج يعمل على خادم بعيد. يؤدي التتالي الجيد للنماذج إلى خفض التكلفة ووقت الاستجابة من خلال السماح للنموذج الأصغر بمعالجة الطلبات البسيطة واستدعاء النموذج البعيد لمعالجة الطلبات المعقّدة فقط.
يمكنك الاطّلاع أيضًا على موجه النماذج.
التوازي على مستوى النموذج
طريقة لتوسيع نطاق التدريب أو الاستدلال من خلال وضع أجزاء مختلفة من نموذج واحد على أجهزة مختلفة تتيح ميزة "التوازي بين النماذج" استخدام نماذج كبيرة جدًا لا يمكن استيعابها على جهاز واحد.
لتنفيذ التوازي بين النماذج، ينفّذ النظام عادةً ما يلي:
- تقسيم النموذج إلى أجزاء أصغر
- توزّع تدريب هذه الأجزاء الأصغر على معالِجات متعددة. يدرّب كل معالج جزءًا خاصًا به من النموذج.
- يجمع النتائج لإنشاء نموذج واحد.
يؤدي التوازي بين النماذج إلى إبطاء عملية التدريب.
يمكنك الاطّلاع أيضًا على التوازي بين البيانات.
نموذج جهاز التوجيه
الخوارزمية التي تحدّد النموذج المثالي للاستدلال في النماذج المتتالية عادةً ما يكون موجّه النماذج نموذجًا لتعلُّم الآلة يتعلّم تدريجيًا كيفية اختيار أفضل نموذج لبيانات إدخال معيّنة. في المقابل، قد يكون موجه النماذج في بعض الأحيان خوارزمية أبسط لا تستند إلى تعلُّم الآلة.
تدريب النموذج
عملية تحديد النموذج الأفضل
MOE
اختصار مزيج الخبراء
الزخم
خوارزمية متطورة للنزول التدرّجي تعتمد فيها خطوة التعلّم ليس فقط على المشتق في الخطوة الحالية، ولكن أيضًا على مشتقات الخطوات التي سبقتها مباشرةً. تتضمّن طريقة "الزخم" احتساب متوسط متحرك مرجّح أُسّيًا للتدرّجات بمرور الوقت، وهو ما يشبه الزخم في الفيزياء. يمنع الزخم أحيانًا التعلّم من أن يعلق في الحد الأدنى المحلي.
Mostly Basic Python Problems (MBPP)
مجموعة بيانات لتقييم كفاءة نموذج لغوي كبير في إنشاء رمز Python البرمجي يوفّر موقع Mostly Basic Python Problems حوالي 1,000 مشكلة برمجة من مصادر جماعية. يحتوي كل سؤال في مجموعة البيانات على ما يلي:
- وصف المهمة
- رمز الحلّ
- ثلاث حالات اختبار مبرمَجة
MT
اختصار الترجمة الآلية
التعاون بين وكلاء متعددين
إطار عمل يتفاعل فيه عدّة وكلاء ذكاء اصطناعي متخصّصين أو يتناقشون أو يتبادلون المهام لحلّ مشكلة معقّدة
التصنيف المتعدّد الفئات
في التعلّم المُوجّه، تكون هناك مشكلة تصنيف حيث تحتوي مجموعة البيانات على أكثر من فئتَين من التصنيفات. على سبيل المثال، يجب أن تكون التصنيفات في مجموعة بيانات Iris إحدى الفئات الثلاث التالية:
- Iris setosa
- Iris virginica
- Iris versicolor
النموذج الذي تم تدريبه على مجموعة بيانات Iris والذي يتوقّع نوع Iris استنادًا إلى أمثلة جديدة، يؤدي عملية تصنيف متعدد الفئات.
في المقابل، فإنّ مشاكل التصنيف التي تميّز بين فئتَين فقط هي نماذج تصنيف ثنائي. على سبيل المثال، نموذج البريد الإلكتروني الذي يتوقّع ما إذا كانت الرسالة غير مرغوب فيها أو مرغوب فيها هو نموذج تصنيف ثنائي.
في مشاكل التجميع، يشير التصنيف المتعدد الفئات إلى أكثر من مجموعتين.
لمزيد من المعلومات، يمكنك الاطّلاع على الشبكات العصبية: التصنيف المتعدد الفئات في "دورة مكثّفة عن تعلّم الآلة".
الانحدار اللوجستي المتعدد الفئات
استخدام الانحدار اللوجستي في مشاكل التصنيف المتعدد الفئات
الاهتمام الذاتي المتعدد الرؤوس
هي امتداد لآلية الاهتمام الذاتي التي تطبّق آلية الاهتمام الذاتي عدة مرات لكل موضع في التسلسل المدخل.
قدّمت المحوّلات آلية الانتباه الذاتي المتعدد الرؤوس.
متعدد الوسائط ومعدَّل حسب التعليمات
النموذج المضبوط على التعليمات هو نموذج يمكنه معالجة أنواع من الإدخالات تتجاوز النصوص، مثل الصور والفيديوهات والمقاطع الصوتية.
النموذج المتعدد الوسائط
نموذج تتضمّن مدخلاته أو مخرجاته أو كليهما أكثر من طريقة. على سبيل المثال، لنفترض أنّ هناك نموذجًا يتضمّن صورة وتعليقًا نصيًا (نوعان من البيانات) كميزات، ويعرض نتيجة تشير إلى مدى ملاءمة التعليق النصي للصورة. لذلك، تكون مدخلات هذا النموذج متعددة الوسائط ويكون الناتج أحادي الوسائط.
تصنيف متعدّد الفئات
مرادف للتصنيف المتعدّد الفئات
الانحدار المتعدد الحدود
مرادف الانحدار اللوجستي المتعدد الفئات
Multi-sentence Reading Comprehension (MultiRC)
مجموعة بيانات لتقييم قدرة نموذج اللغة الكبير على الإجابة عن تمارين الخيارات المتعدّدة يحتوي كل مثال في مجموعة البيانات على ما يلي:
- فقرة سياقية
- سؤال حول تلك الفقرة
- تمثّل هذه السمة إجابات متعدّدة عن السؤال. يتم تصنيف كل إجابة على أنّها صحيحة أو خاطئة. قد تكون إجابات متعدّدة صحيحة.
على سبيل المثال:
فقرة السياق:
أرادت سوزان إقامة حفلة عيد ميلاد. اتصلت بجميع أصدقائها. لديها خمسة أصدقاء. قالت والدتها إنّ بإمكان سوزان دعوة الجميع إلى الحفلة. لم تتمكّن صديقتها الأولى من الذهاب إلى الحفلة لأنّها كانت مريضة. كانت صديقتها الثانية ستسافر. لم تكن صديقتها الثالثة متأكدة مما إذا كان والداها سيسمحان لها بذلك. أجاب الصديق الرابع بـ "ربما". يمكن للصديق الخامس الذهاب إلى الحفلة بالتأكيد. شعرت سوزان ببعض الحزن. في يوم الحفلة، حضر الأصدقاء الخمسة جميعًا. أحضر كل صديق هدية لسوزان. كانت سوزان سعيدة وأرسلت إلى كل صديق بطاقة شكر في الأسبوع التالي.
السؤال: هل تعافى صديق سوزان المريض؟
إجابات متعدّدة:
- نعم، تعافت. (صحيح)
- لا (خطأ)
- نعم. (صحيح)
- لا، لم تتعافَ. (خطأ)
- نعم، كانت في حفلة سوزان. (صحيح)
MultiRC هي أحد مكوّنات مجموعة SuperGLUE.
لمزيد من التفاصيل، يُرجى الاطّلاع على Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences.
تنفيذ مهام متعددة
إحدى تقنيات تعلُّم الآلة التي يتم فيها تدريب نموذج واحد لتنفيذ عدة مهام.
يتم إنشاء نماذج المهام المتعددة من خلال التدريب على بيانات مناسبة لكل مهمة من المهام المختلفة. يتيح ذلك للنموذج تعلُّم كيفية مشاركة المعلومات بين المهام، ما يساعده على التعلّم بشكل أكثر فعالية.
النموذج المُدرَّب على مهام متعددة غالبًا ما يتمتع بقدرات تعميم محسّنة ويمكن أن يكون أكثر فعالية في التعامل مع أنواع مختلفة من البيانات.
لا
Nano
نموذج Gemini صغير نسبيًا مصمَّم للاستخدام على الجهاز فقط. لمزيد من التفاصيل، يمكنك الاطّلاع على Gemini Nano.
يمكنك أيضًا الاطّلاع على Pro وUltra.
فخ القيم غير المعرَّفة كأرقام
عندما يصبح أحد الأرقام في النموذج NaN أثناء التدريب، يؤدي ذلك إلى أن تصبح العديد من الأرقام الأخرى في النموذج أو جميعها في النهاية NaN.
NaN هو اختصار ليس رقمًا.
معالجة اللغات الطبيعية
هو مجال يهدف إلى تعليم أجهزة الكمبيوتر كيفية معالجة ما يقوله المستخدم أو يكتبه باستخدام قواعد لغوية. تعتمد جميع عمليات معالجة اللغات الطبيعية الحديثة تقريبًا على تعلُّم الآلة.فهم اللغات الطبيعية
مجموعة فرعية من معالجة اللغات الطبيعية تحدّد النوايا من الكلام أو الكتابة. يمكن أن يتجاوز فهم اللغات الطبيعية معالجة اللغات الطبيعية ليشمل جوانب معقّدة من اللغة، مثل السياق والسخرية والمشاعر.
فئة سالبة
في التصنيف الثنائي، يُطلق على إحدى الفئتَين اسم إيجابية ويُطلق على الأخرى اسم سلبية. الفئة الإيجابية هي الشيء أو الحدث الذي يختبره النموذج، والفئة السلبية هي الاحتمال الآخر. على سبيل المثال:
- قد تكون الفئة السلبية في اختبار طبي هي "ليس ورمًا".
- قد تكون الفئة السلبية في نموذج تصنيف الرسائل الإلكترونية هي "ليست رسالة غير مرغوب فيها".
يجب التمييز بينها وبين الفئة الموجبة.
أخذ العيّنات السلبية
مرادف تحليل العينات المُحتملة
Neural Architecture Search (NAS)
إحدى التقنيات التي تتيح تصميم بنية شبكة عصبية تلقائيًا. يمكن أن تقلّل خوارزميات NAS مقدار الوقت والموارد اللازمة لتدريب شبكة عصبية.
تستخدم أجهزة NAS عادةً ما يلي:
- مساحة البحث، وهي مجموعة من التصاميم المحتملة
- دالة لياقة، وهي مقياس لمدى جودة أداء بنية معيّنة في مهمة محدّدة
غالبًا ما تبدأ خوارزميات NAS بمجموعة صغيرة من التصاميم المحتملة، ثم توسّع تدريجيًا مساحة البحث مع تعلّم الخوارزمية المزيد عن التصاميم الفعّالة. تستند دالة اللياقة البدنية عادةً إلى أداء البنية على مجموعة تدريب، ويتم عادةً تدريب الخوارزمية باستخدام أسلوب التعلم المعزّز.
وقد أثبتت خوارزميات NAS فعاليتها في العثور على بنى عالية الأداء لمجموعة متنوعة من المهام، بما في ذلك تصنيف الصور وتصنيف النصوص والترجمة الآلية.
شبكة عصبونية
نموذج يحتوي على طبقة مخفية واحدة على الأقل. الشبكة العصبية العميقة هي نوع من الشبكات العصبية يحتوي على أكثر من طبقة مخفية واحدة. على سبيل المثال، يعرض المخطط التالي شبكة عصبية عميقة تحتوي على طبقتَين مخفيتَين.
يتصل كل عصبون في الشبكة العصبية بجميع العُقد في الطبقة التالية. على سبيل المثال، في الرسم البياني السابق، لاحظ أنّ كل عصبون من الأعصاب الثلاثة في الطبقة المخفية الأولى يرتبط بشكل منفصل بكل من العصبونين في الطبقة المخفية الثانية.
تُعرف الشبكات العصبونية التي يتم تنفيذها على أجهزة الكمبيوتر أحيانًا باسم الشبكات العصبونية الاصطناعية للتمييز بينها وبين الشبكات العصبونية الموجودة في الدماغ والجهاز العصبي.
يمكن لبعض الشبكات العصبية محاكاة العلاقات غير الخطية المعقّدة للغاية بين الميزات المختلفة والتصنيف.
راجِع أيضًا الشبكة العصبونية الالتفافية والشبكة العصبونية المتكرّرة.
يمكنك الاطّلاع على الشبكات العصبونية في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات.
عصبون
في تعلُّم الآلة، هي وحدة مميّزة ضمن طبقة مخفية في شبكة عصبونية. تنفّذ كل خلية عصبية الإجراء المكوّن من خطوتَين التاليتَين:
- تحسب هذه الدالة المجموع المرجّح لقيم الإدخال مضروبة في الأوزان المقابلة.
- تمرِّر المجموع المرجّح كمدخل إلى دالة التنشيط.
تقبل إحدى الخلايا العصبية في الطبقة المخفية الأولى مدخلات من قيم الميزات في طبقة الإدخال. تتلقّى الخلية العصبية في أي طبقة مخفية بعد الطبقة الأولى مدخلات من الخلايا العصبية في الطبقة المخفية السابقة. على سبيل المثال، تقبل إحدى الخلايا العصبية في الطبقة المخفية الثانية المدخلات من الخلايا العصبية في الطبقة المخفية الأولى.
توضّح الصورة التالية خليتَين عصبيتين ومدخلاتهما.
تحاكي الخلية العصبية في الشبكة العصبونية سلوك الخلايا العصبية في الدماغ وأجزاء أخرى من الجهاز العصبي.
N-gram
تسلسل مُرتب من N كلمة على سبيل المثال، بجنون هي ثنائية كلمات. بما أنّ الترتيب مهم، فإنّ madly truly هي ثنائية مختلفة عن truly madly.
| لا | أسماء هذا النوع من وحدات N-gram | أمثلة |
|---|---|---|
| 2 | ثنائي الحروف أو ثنائي الأجزاء | الذهاب إلى، تناول الغداء، تناول العشاء |
| 3 | ثلاثي الحروف أو 3-غرام | أكلتُ كثيرًا، وعشتُ بسعادة أبدية، ودقّت الأجراس |
| 4 | 4-gram | walk in the park, dust in the wind, the boy ate lentils |
تعتمد العديد من نماذج فهم اللغة الطبيعية على N-grams لتوقّع الكلمة التالية التي سيكتبها المستخدم أو سيقولها. على سبيل المثال، لنفترض أنّ أحد المستخدمين كتب عاشا بسعادة. من المرجّح أن يتوقّع نموذج فهم اللغة الطبيعية المستند إلى ثلاثيات الحروف أنّ المستخدم سيكتب الكلمة بعد.
تختلف N-grams عن حقيبة الكلمات، وهي مجموعات غير مرتبة من الكلمات.
يمكنك الاطّلاع على النماذج اللغوية الكبيرة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
معالجة اللغات الطبيعية
اختصار معالجة اللغات الطبيعية
فهم اللغات الطبيعية
اختصار فهم اللغات الطبيعية
عقدة (شجرة القرار)
في شجرة القرار، أي شرط أو عقدة طرفية
يمكنك الاطّلاع على أشجار القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
عقدة (شبكة عصبونية)
عصبون في طبقة مخفية
يمكنك الاطّلاع على الشبكات العصبونية في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات.
عقدة (الرسم البياني في TensorFlow)
عملية في رسم بياني في TensorFlow
الضجيج
بشكل عام، أي شيء يحجب الإشارة في مجموعة البيانات. يمكن إدخال التشويش إلى البيانات بعدة طرق. على سبيل المثال:
- يقع المقيمون في أخطاء أثناء تصنيف المحتوى.
- يسجّل البشر والأدوات قيم السمات بشكل خاطئ أو يحذفونها.
حالة غير ثنائية
شرط يحتوي على أكثر من نتيجتَين محتملتَين. على سبيل المثال، يتضمّن الشرط غير الثنائي التالي ثلاث نتائج محتملة:
اطّلِع على أنواع الشروط في دورة "أشجار القرار" للحصول على مزيد من المعلومات.
غير حتمية
نظام لا يضمن عرض النتيجة نفسها عند تكرار الطلبات نفسها. النماذج اللغوية الكبيرة غير حتمية بشكل عام، أي أنّها تنشئ عادةً ردودًا مختلفة على الطلب نفسه.
بشكل عام، يصعب اختبار الأنظمة غير الحتمية أكثر من الأنظمة الحتمية.
يمكنك الاطّلاع أيضًا على احتمالية.
غير خطي
يشير ذلك المصطلح إلى علاقة بين متغيّرَين أو أكثر لا يمكن تمثيلها فقط من خلال الجمع والضرب. يمكن تمثيل العلاقة الخطية بخط، بينما لا يمكن تمثيل العلاقة غير الخطية بخط. على سبيل المثال، لنفترض أنّ لديك نموذجين يرتبط كل منهما بميزة واحدة وتصنيف واحد. النموذج على اليمين خطي، والنموذج على اليسار غير خطي:
راجِع الشبكات العصبية: العُقد والطبقات المخفية في "دورة مكثّفة عن تعلّم الآلة" لتجربة أنواع مختلفة من الدوال غير الخطية.
الانحياز لعدم الإجابة
اطّلِع على الانحياز في الاختيار.
عدم الثبات
سمة تتغيّر قيمها على مستوى سمة واحدة أو أكثر، وعادةً ما تكون هذه السمة هي الوقت. على سبيل المثال، إليك بعض الأمثلة على عدم الثبات:
- يختلف عدد ملابس السباحة التي يتم بيعها في متجر معيّن حسب الموسم.
- كمية الفاكهة المعيّنة التي يتم حصادها في منطقة معيّنة تكون صفرًا خلال معظم أوقات السنة، ولكنها تكون كبيرة لفترة قصيرة.
- بسبب تغيّر المناخ، تتغيّر متوسطات درجات الحرارة السنوية.
تتعارض مع الثبات.
لا توجد إجابة صحيحة واحدة (NORA)
طلب يتضمّن عدة ردود صحيحة على سبيل المثال، لا يوجد إجابة صحيحة واحدة للطلب التالي:
أريد سماع نكتة مضحكة عن الأفيال.
تقييم الردود على الأسئلة التي لا تتضمّن إجابة صحيحة واحدة يكون عادةً أكثر ذاتية من تقييم الأسئلة التي تتضمّن إجابة صحيحة واحدة. على سبيل المثال، يتطلّب تقييم نكتة عن الفيل طريقة منهجية لتحديد مدى طرافتها.
NORA
اختصار لا توجد إجابة صحيحة واحدة
التسوية
بشكل عام، تشير إلى عملية تحويل النطاق الفعلي لقيم أحد المتغيّرات إلى نطاق قياسي من القيم، مثل:
- من -1 إلى +1
- من 0 إلى 1
- الدرجات المعيارية (من -3 إلى +3 تقريبًا)
على سبيل المثال، لنفترض أنّ النطاق الفعلي لقيم ميزة معيّنة هو 800 إلى 2,400. كجزء من هندسة الخصائص، يمكنك تسوية القيم الفعلية إلى نطاق عادي، مثل من -1 إلى +1.
التسوية هي مهمة شائعة في هندسة الخصائص. تتدرب النماذج عادةً بشكل أسرع (وتنتج توقعات أفضل) عندما يكون لكل ميزة رقمية في متّجه الميزات النطاق نفسه تقريبًا.
راجِع أيضًا التسوية باستخدام الدرجة المعيارية.
لمزيد من المعلومات، راجِع البيانات الرقمية: التسوية في "دورة مكثّفة عن تعلّم الآلة".
NotebookLM
أداة مستندة إلى Gemini تتيح للمستخدمين تحميل المستندات ثم استخدام الطلبات لطرح أسئلة حول هذه المستندات أو تلخيصها أو تنظيمها. على سبيل المثال، يمكن لمؤلف تحميل عدة قصص قصيرة والطلب من NotebookLM العثور على المواضيع المشتركة بينها أو تحديد القصة التي يمكن تحويلها إلى فيلم.
رصد الحالات الجديدة
عملية تحديد ما إذا كان مثال جديد (مبتكر) يأتي من التوزيع نفسه الذي تأتي منه مجموعة التدريب بمعنى آخر، بعد التدريب على مجموعة التدريب، يحدّد رصد الحالات الجديدة ما إذا كان المثال الجديد (أثناء الاستدلال أو أثناء التدريب الإضافي) قيمة متطرفة.
التباين مع رصد القيم الشاذة
البيانات الرقمية
الميزات الممثَّلة كأعداد صحيحة أو أرقام ذات قيم حقيقية على سبيل المثال، من المحتمل أن يعرض نموذج تقييم منزل مساحة المنزل (بالقدم المربع أو المتر المربع) كبيانات بالأرقام. يشير تمثيل إحدى السمات كبيانات بالأرقام إلى أنّ قيم السمة لها علاقة رياضية بالتصنيف. أي أنّ عدد الأمتار المربعة في المنزل يرتبط على الأرجح رياضيًا بقيمة المنزل.
لا يجب تمثيل جميع بيانات الأعداد الصحيحة كبيانات بالأرقام. على سبيل المثال، الرموز البريدية في بعض أنحاء العالم هي أعداد صحيحة، ولكن لا يجب تمثيل الرموز البريدية التي تتضمّن أعدادًا صحيحة كبيانات بالأرقام في النماذج. ذلك لأنّ الرمز البريدي 20000 ليس ضعف (أو نصف) فعالية الرمز البريدي 10000. بالإضافة إلى ذلك، على الرغم من أنّ الرموز البريدية المختلفة مرتبطة بقيم مختلفة للعقارات، لا يمكننا افتراض أنّ قيم العقارات في الرمز البريدي 20000 هي ضعف قيم العقارات في الرمز البريدي 10000.
بدلاً من ذلك، يجب تمثيل الرموز البريدية على أنّها بيانات فئوية.
يُطلق على الميزات الرقمية أحيانًا اسم الميزات المستمرة.
لمزيد من المعلومات، راجِع التعامل مع البيانات الرقمية في "دورة مكثّفة عن تعلّم الآلة".
NumPy
مكتبة رياضية مفتوحة المصدر توفّر عمليات فعّالة على الصفائف في Python، وتم إنشاء مكتبة pandas استنادًا إلى NumPy.
O
هدف
مقياس تحاول الخوارزمية تحسينه.
دالة الهدف
الصيغة الرياضية أو المقياس الذي يهدف النموذج إلى تحسينه. على سبيل المثال، تكون دالة الهدف في الانحدار الخطي عادةً متوسط الخطأ التربيعي. لذلك، عند تدريب نموذج انحدار خطي، يهدف التدريب إلى تقليل متوسط الخطأ التربيعي.
في بعض الحالات، يكون الهدف هو زيادة دالة الهدف إلى أقصى حد. على سبيل المثال، إذا كانت دالة الهدف هي الدقة، يكون الهدف هو زيادة الدقة إلى أقصى حد.
يمكنك الاطّلاع أيضًا على الخسارة.
الشرط المائل
في شجرة القرار، شرط يتضمّن أكثر من ميزة. على سبيل المثال، إذا كان الارتفاع والعرض كلاهما من السمات، يكون الشرط التالي شرطًا مائلاً:
height > width
يجب التمييز بينها وبين الشرط المتوافق مع المحور.
اطّلِع على أنواع الشروط في دورة "أشجار القرار" للحصول على مزيد من المعلومات.
مراقبة
مرحلة في حلقة الوكيل يفحص فيها الوكيل أو يقيّم جانبًا من جوانب تقدّمه. على سبيل المثال، لنفترض أنّ مرحلة التنفيذ تنشئ بعض الرموز. نتيجةً لذلك، قد تنفّذ مرحلة المراقبة اختبارات على الرمز البرمجي الذي تم إنشاؤه.
بلا إنترنت
مرادف لكلمة ثابت
الاستنتاج المؤخَّر
تشير إلى عملية إنشاء نموذج لمجموعة من التوقّعات ثم تخزين هذه التوقّعات مؤقتًا (حفظها). وبعد ذلك، يمكن للتطبيقات الوصول إلى التوقّع المستنتَج من ذاكرة التخزين المؤقت بدلاً من إعادة تشغيل النموذج.
على سبيل المثال، لنفترض أنّ هناك نموذجًا ينشئ توقّعات أحوال الطقس المحلية (توقّعات) مرة كل أربع ساعات. بعد كل عملية تشغيل للنموذج، يخزّن النظام مؤقتًا جميع توقّعات الطقس المحلية. تسترجع تطبيقات الطقس التوقعات من ذاكرة التخزين المؤقت.
يُطلق على الاستنتاج المؤخَّر أيضًا اسم الاستدلال الثابت.
يختلف ذلك عن الاستنتاج الحي. يمكنك الاطّلاع على أنظمة تعلُّم الآلة الخاصة بالإنتاج: الاستنتاج الثابت مقابل الاستنتاج الديناميكي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
الترميز الأحادي
تمثيل البيانات الفئوية كمتّجه حيث:
- يتم ضبط أحد العناصر على 1.
- ويتم ضبط جميع العناصر الأخرى على 0.
يُستخدَم الترميز أحادي بشكل شائع لتمثيل السلاسل أو المعرّفات التي تتضمّن مجموعة محدودة من القيم المحتملة.
على سبيل المثال، لنفترض أنّ هناك ميزة فئوية معيّنة باسم Scandinavia لها خمس قيم محتملة:
- "الدنمارك"
- "السويد"
- "النرويج"
- فنلندا ("Finland")
- "آيسلندا"
يمكن أن يمثّل الترميز الأحادي الساخن كل قيمة من القيم الخمس على النحو التالي:
| البلد | المتّجه | ||||
|---|---|---|---|---|---|
| "الدنمارك" | 1 | 0 | 0 | 0 | 0 |
| "السويد" | 0 | 1 | 0 | 0 | 0 |
| "النرويج" | 0 | 0 | 1 | 0 | 0 |
| فنلندا ("Finland") | 0 | 0 | 0 | 1 | 0 |
| "آيسلندا" | 0 | 0 | 0 | 0 | 1 |
بفضل الترميز الأحادي الساخن، يمكن للنموذج التعرّف على روابط مختلفة استنادًا إلى كل بلد من البلدان الخمسة.
تمثيل ميزة كبيانات بالأرقام هو بديل للترميز الأحادي. للأسف، لا يُعد تمثيل البلدان الإسكندنافية رقميًا خيارًا جيدًا. على سبيل المثال، ضع في اعتبارك التمثيل الرقمي التالي:
- "الدنمارك" هي 0
- "السويد" هي 1
- "النرويج" هي 2
- "فنلندا" هي 3
- "آيسلندا" هي 4
باستخدام الترميز الرقمي، سيفسّر النموذج الأرقام الأولية رياضيًا وسيحاول التدريب على هذه الأرقام. ومع ذلك، لا يبلغ عدد سكان آيسلندا ضعف عدد سكان النرويج (أو نصفه)، لذا سيخلص النموذج إلى بعض الاستنتاجات الغريبة.
لمزيد من المعلومات، يُرجى الاطّلاع على البيانات الفئوية: المفردات والترميز أحادي في "دورة مكثّفة عن تعلّم الآلة".
إجابة صحيحة واحدة (ORA)
طلب يتضمّن إجابة صحيحة واحدة على سبيل المثال، فكِّر في الطلب التالي:
صواب أم خطأ: كوكب زحل أكبر من كوكب المريخ.
الرد الصحيح الوحيد هو صحيح.
يُرجى الرجوع إلى لا توجد إجابة صحيحة.
التعلُّم بفرصة واحدة
نهج لتعلُّم الآلة يُستخدم غالبًا لتصنيف العناصر، وهو مصمَّم لتعلُّم نموذج تصنيف فعّال من مثال تدريبي واحد.
يمكنك أيضًا الاطّلاع على التعلّم ببضع فُرَص والتعلّم بدون فُرَص.
التلقين بمثال واحد
طلب يتضمّن مثالاً واحدًا يوضّح طريقة استجابة النموذج اللغوي الكبير. على سبيل المثال، يتضمّن الطلب التالي مثالاً واحدًا يوضّح للنموذج اللغوي الكبير كيفية الإجابة عن طلب بحث.
| أجزاء من طلب واحد | ملاحظات |
|---|---|
| ما هي العملة الرسمية للبلد المحدّد؟ | السؤال الذي تريد أن تجيب عنه النماذج اللغوية الكبيرة |
| فرنسا: يورو | إليك مثالاً. |
| الهند: | طلب البحث الفعلي |
قارِن بين الطلب لمرة واحدة والمصطلحات التالية:
واحد-مقابل-الكل
في مشكلة التصنيف التي تتضمّن N فئة، يكون الحل عبارة عن نموذج تصنيف ثنائي منفصل يتضمّن N فئة، أي نموذج تصنيف ثنائي لكل نتيجة محتملة. على سبيل المثال، إذا كان لديك نموذج يصنّف الأمثلة على أنّها حيوان أو نبات أو معدن، سيقدّم الحلّ الذي يعتمد على استراتيجية "واحد مقابل الكل" نماذج التصنيف الثنائي المنفصلة الثلاثة التالية:
- حيوان أو ليس حيوانًا
- خضار أو غير خضار
- معدني مقابل غير معدني
online
مرادف لكلمة ديناميكي
الاستنتاج الحي
إنشاء توقعات عند الطلب على سبيل المثال، لنفترض أنّ تطبيقًا يمرّر بيانات إلى نموذج ويصدر طلبًا للحصول على توقع. يستجيب النظام الذي يستخدم الاستنتاج الحي للطلب من خلال تشغيل النموذج (وعرض التوقّع للتطبيق).
يختلف ذلك عن الاستنتاج المؤخَّر.
يمكنك الاطّلاع على أنظمة تعلُّم الآلة الخاصة بالإنتاج: الاستنتاج الثابت مقابل الاستنتاج الديناميكي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
العملية (op)
في TensorFlow، أي إجراء ينشئ Tensor أو يعدّله أو يتلفه. على سبيل المثال، ضرب المصفوفات هو عملية تتلقّى موترَين كمدخلات وتنتج موترًا واحدًا كمخرجات.
Optax
مكتبة لمعالجة التدرّجات وتحسينها في JAX تسهّل Optax عملية البحث من خلال توفير وحدات أساسية يمكن إعادة دمجها بطرق مخصّصة لتحسين النماذج المَعلمية، مثل الشبكات العصبية العميقة. تشمل الأهداف الأخرى ما يلي:
- توفير عمليات تنفيذ سهلة القراءة ومختبَرة جيدًا وفعّالة للمكوّنات الأساسية
- تحسين الإنتاجية من خلال إتاحة إمكانية دمج المكوّنات ذات المستوى المنخفض في أدوات تحسين مخصّصة (أو مكوّنات أخرى لمعالجة التدرّج).
- تسريع اعتماد الأفكار الجديدة من خلال تسهيل مساهمة أي شخص
مُحسِّن
هي تنفيذ محدّد لخوارزمية الانحدار التدريجي. تشمل أدوات التحسين الشائعة ما يلي:
- AdaGrad، وهي اختصار لعبارة ADAptive GRADient descent (خوارزمية انحدار التدرّج التكيّفي).
- Adam، وهو اختصار لعبارة ADAptive with Momentum
ORA
الاختصار إجابة صحيحة واحدة
الانحياز للتشابه خارج المجموعة
الميل إلى اعتبار أعضاء المجموعة الخارجية أكثر تشابهًا من أعضاء المجموعة الداخلية عند مقارنة المواقف والقيم والسمات الشخصية وغيرها من الخصائص يشير مصطلح داخل المجموعة إلى الأشخاص الذين تتفاعل معهم بانتظام، بينما يشير مصطلح خارج المجموعة إلى الأشخاص الذين لا تتفاعل معهم بانتظام. إذا أنشأت مجموعة بيانات من خلال الطلب من المشاركين تقديم سمات حول المجموعات الخارجية، قد تكون هذه السمات أقل دقة وأكثر نمطية من السمات التي يدرجها المشاركون للأشخاص في مجموعتهم الداخلية.
على سبيل المثال، قد يصف سكان ليليبوت منازل بعضهم البعض بتفصيل كبير، مع الإشارة إلى اختلافات بسيطة في الأساليب المعمارية والنوافذ والأبواب والأحجام. ومع ذلك، قد يزعم الأقزام أن جميع العمالقة يعيشون في منازل متطابقة.
الانحياز للتشابه خارج المجموعة هو شكل من أشكال الانحياز لتشابه المجموعة.
يمكنك أيضًا الاطّلاع على الانحياز لأفراد المجموعة.
رصد القيم الشاذة
عملية تحديد القيم الشاذة في مجموعة التدريب
يختلف ذلك عن رصد العناصر الجديدة.
الذي حقق أداءً مختلفًا
القيم البعيدة عن معظم القيم الأخرى في التعلّم الآلي، تُعدّ أي من الحالات التالية قيمًا شاذة:
- إدخال بيانات تكون قيمها أكبر من 3 انحرافات معيارية تقريبًا عن المتوسط
- الأوزان ذات القيم المطلقة العالية
- القيم المتوقّعة البعيدة نسبيًا عن القيم الفعلية
على سبيل المثال، لنفترض أنّ widget-price هي إحدى ميزات طراز معيّن.
لنفترض أنّ المتوسط widget-price هو 7 يورو مع انحراف معياري يبلغ 1 يورو. وبالتالي، فإنّ الأمثلة التي تحتوي على widget-price بقيمة 12 يورو أو 2 يورو ستُعتبر قيمًا متطرفة لأنّ كل سعر من هذين السعرين يبتعد بمقدار خمسة انحرافات معيارية عن المتوسط.
غالبًا ما تحدث القيم الشاذة بسبب أخطاء إملائية أو أخطاء أخرى في الإدخال. في حالات أخرى، لا تكون القيم الشاذة أخطاءً، فمن النادر أن تكون القيم بعيدة عن المتوسط بمقدار خمسة انحرافات معيارية، ولكن هذا ليس مستحيلاً.
تتسبب القيم الشاذة غالبًا في حدوث مشاكل في تدريب النماذج. القص هو إحدى طرق إدارة القيم الشاذة.
لمزيد من المعلومات، راجِع التعامل مع البيانات الرقمية في "دورة مكثّفة عن تعلّم الآلة".
التقييم خارج المجموعة (OOB)
آلية لتقييم جودة غابة القرارات من خلال اختبار كل شجرة قرارات مقابل الأمثلة غير المستخدَمة أثناء التدريب على شجرة القرارات هذه. على سبيل المثال، في المخطّط البياني التالي، لاحظ أنّ النظام يدرب كل شجرة قرار على حوالي ثلثَي الأمثلة، ثم يقيّمها باستخدام الثلث المتبقي من الأمثلة.
التقييم خارج المجموعة هو تقريب محافظ وفعّال من الناحية الحسابية لآلية التحقّق المتبادل. في التصديق المتقاطع، يتم تدريب نموذج واحد لكل جولة من جولات التصديق المتقاطع (على سبيل المثال، يتم تدريب 10 نماذج في عملية تصديق متقاطع من 10 أجزاء). باستخدام التقييم خارج النطاق، يتم تدريب نموذج واحد. بما أنّ التجميع يحجب بعض البيانات عن كل شجرة أثناء التدريب، يمكن أن يستخدم تقييم OOB هذه البيانات لتقريب التحقّق من الصحة المتبادل.
يمكنك الاطّلاع على التقييم خارج المجموعة في دورة "أشجار القرارات" للحصول على مزيد من المعلومات.
الطبقة النهائية
الطبقة "النهائية" في الشبكة العصبية تحتوي الطبقة النهائية على التوقّع.
يوضّح الرسم التوضيحي التالي شبكة عصبية عميقة صغيرة تتضمّن طبقة إدخال وطبقتَين مخفيتَين والطبقة النهائية:
المطابقة بشكل مفرط
إنشاء نموذج يطابق بيانات التدريب بشكل كبير جدًا، ما يؤدي إلى عدم قدرة النموذج على تقديم توقّعات صحيحة بشأن البيانات الجديدة
يمكن أن يؤدي التسوية إلى الحدّ من الإفراط في التكيّف. يمكن أن يؤدي التدريب على مجموعة تدريب كبيرة ومتنوعة أيضًا إلى تقليل الإفراط في التكيّف.
يمكنك الاطّلاع على الإفراط في التخصيص في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
أخذ عيّنات زائدة
إعادة استخدام أمثلة لفئة أقل تمثيلاً في مجموعة بيانات غير متوازنة الفئات من أجل إنشاء مجموعة تدريب أكثر توازنًا
على سبيل المثال، لنفترض أنّ لديك مشكلة تصنيف ثنائي يكون فيها معدّل الفئة الأكبر إلى الفئة الأصغر هو 5,000:1. إذا كانت مجموعة البيانات تحتوي على مليون مثال، فإنّها لن تحتوي إلا على 200 مثال تقريبًا من الفئة الأقل تمثيلاً، وهو عدد قليل جدًا من الأمثلة للتدريب الفعّال. للتغلّب على هذا النقص، يمكنك إعادة استخدام هذه الأمثلة الـ 200 عدة مرات، ما قد يؤدي إلى توفير أمثلة كافية للتدريب المفيد.
يجب توخّي الحذر بشأن المطابقة بشكل مفرط عند إجراء عملية أخذ عينات زائدة.
يختلف ذلك عن نقص أخذ العيّنات.
P
البيانات المضغوطة
نهج لتخزين البيانات بشكل أكثر كفاءة
تخزّن البيانات المضغوطة البيانات إما باستخدام تنسيق مضغوط أو بطريقة أخرى تتيح الوصول إليها بشكل أكثر كفاءة. تؤدي البيانات المضغوطة إلى تقليل مقدار الذاكرة والحسابات المطلوبة للوصول إليها، ما يؤدي إلى تدريب أسرع واستنتاج أكثر كفاءة للنماذج.
يتم غالبًا استخدام البيانات المضغوطة مع تقنيات أخرى، مثل توسيع البيانات و التسوية، ما يؤدي إلى تحسين أداء النماذج بشكل أكبر.
PaLM
اختصار نموذج Pathways اللغوي
باندا
واجهة برمجة تطبيقات لتحليل البيانات موجّهة نحو الأعمدة، تم إنشاؤها استنادًا إلى numpy. تتيح العديد من أُطر تعلُّم الآلة، بما في ذلك TensorFlow، استخدام بنى بيانات pandas كمدخلات. لمزيد من التفاصيل، يُرجى الاطّلاع على مستندات pandas.
مَعلمة
الأوزان والانحيازات التي يتعلّمها النموذج أثناء التدريب على سبيل المثال، في نموذج الانحدار الخطي، تتألف المَعلمات من الانحياز (b) وجميع الأوزان (w1 وw2 وما إلى ذلك) في الصيغة التالية:
في المقابل، المَعلمات الفائقة هي القيم التي توفّرها أنت (أو خدمة ضبط المَعلمات الفائقة) للنموذج. على سبيل المثال، معدّل التعلّم هو معلَمة فائقة.
الضبط الفعّال من حيث المعلَمات
مجموعة من الأساليب لضبط نموذج لغوي كبير مدرَّب مسبقًا (PLM) بشكل أكثر فعالية من الضبط الدقيق الكامل. تتيح عملية الضبط الدقيق الفعّالة من حيث عدد المَعلمات ضبط عدد أقل بكثير من المَعلمات مقارنةً بعملية الضبط الدقيق الكامل، ولكنها تنتج بشكل عام نموذجًا لغويًا كبيرًا يؤدي الوظيفة نفسها (أو الوظيفة نفسها تقريبًا) التي يؤديها النموذج اللغوي الكبير الذي تم إنشاؤه من خلال عملية الضبط الدقيق الكامل.
مقارنة الضبط الفعّال من حيث المَعلَمات بما يلي:
يُعرف الضبط الفعّال من حيث المَعلمات أيضًا باسم الضبط الدقيق الفعّال من حيث المَعلمات.
خادم المَعلمات (PS)
مهمة تتتبّع مَعلمات نموذج في إعداد موزّع.
تعديل المَعلمة
عملية تعديل المَعلمات الخاصة بنموذج أثناء التدريب، وعادةً ما يتم ذلك في تكرار واحد من النزول التدريجي
مشتقة جزئية
مشتقّ يُعتبر فيه كل المتغيّرات ثابتة باستثناء متغيّر واحد على سبيل المثال، المشتقة الجزئية للدالة f(x, y) بالنسبة إلى x هي مشتقة f التي يتم اعتبارها دالة في x فقط (أي مع إبقاء y ثابتة). يركّز الاشتقاق الجزئي للدالة f بالنسبة إلى x على كيفية تغيّر x فقط ويتجاهل جميع المتغيرات الأخرى في المعادلة.
انحياز المشاركة
مرادف لانحياز عدم الاستجابة اطّلِع على الانحياز في الاختيار.
استراتيجية التجزئة
الخوارزمية التي يتم من خلالها تقسيم المتغيّرات على خوادم المَعلمات
pass at k (pass@k)
مقياس لتحديد جودة الرمز (مثل Python) الذي ينشئه نموذج لغوي كبير وبشكل أكثر تحديدًا، يخبرك مقياس "النجاح عند k" باحتمالية أن تجتاز مجموعة واحدة على الأقل من الرموز البرمجية التي تم إنشاؤها من بين k مجموعة من الرموز البرمجية جميع اختبارات الوحدة.
غالبًا ما تواجه النماذج اللغوية الكبيرة صعوبة في إنشاء رموز برمجية جيدة للمشاكل البرمجية المعقّدة. يتكيّف مهندسو البرمجيات مع هذه المشكلة من خلال مطالبة النموذج اللغوي الكبير بإنشاء حلول متعدّدة (k) للمشكلة نفسها. بعد ذلك، يختبر مهندسو البرامج كل حلّ باستخدام اختبارات الوحدات. يعتمد احتساب "اجتياز عند k" على نتيجة اختبارات الوحدات:
- إذا نجح واحد أو أكثر من هذه الحلول في اختبار الوحدة، يعني ذلك أنّ النموذج اللغوي الكبير اجتاز تحدّي إنشاء الرمز البرمجي هذا.
- إذا لم ينجح أي من الحلول في اجتياز اختبار الوحدة، يفشل النموذج اللغوي الكبير في تحدي إنشاء الرمز البرمجي.
صيغة "النجاح عند k" هي كما يلي:
\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]
بشكل عام، تؤدي القيم الأعلى k إلى تحقيق نتائج أعلى في اختبارات النجاح عند k، ولكن تتطلب القيم الأعلى k المزيد من موارد النماذج اللغوية الكبيرة واختبارات الوحدات.
نموذج Pathways اللغوي (PaLM)
نموذج قديم ونسخة سابقة من نماذج Gemini
Pax
إطار عمل برمجي مصمّم لتدريب نماذج الشبكات العصبونية الواسعة النطاق التي تكون كبيرة جدًا لدرجة أنّها تمتد على شرائح وحدات معالجة الموتّرات شرائح تسريع أو شرائح أو لوحات.
يستند Pax إلى Flax، الذي يستند إلى JAX.
البرسبترون
نظام (أو جهاز أو برنامج) يتلقّى قيمة إدخال واحدة أو أكثر، ويشغّل دالة على المجموع المرجّح للمدخلات، ويحسب قيمة إخراج واحدة. في تعلُّم الآلة، تكون الدالة عادةً غير خطية، مثل ReLU أو sigmoid أو tanh. على سبيل المثال، تعتمد الشبكة العصبية التالية على الدالة السينية لمعالجة ثلاث قيم إدخال:
في الرسم التوضيحي التالي، يستقبل البيرسبترون ثلاث مدخلات، يتم تعديل كل منها بواسطة وزن قبل إدخاله إلى البيرسبترون:
تُعدّ وحدات الإدراك خلايا عصبية في الشبكات العصبونية.
الأداء
مصطلح مُحمّل بالمعاني التالية:
- المعنى العادي ضمن هندسة البرمجيات وهي: ما مدى سرعة (أو كفاءة) تشغيل هذا البرنامج؟
- المعنى في سياق تعلُّم الآلة في هذه الحالة، يجيب الأداء عن السؤال التالي: ما مدى صحة هذا النموذج؟ أي، ما مدى دقة التوقعات التي يقدّمها النموذج؟
أهمية المتغيرات في التبديل
أحد أنواع أهمية المتغير التي تقيّم الزيادة في خطأ التوقّع للنموذج بعد تبديل قيم الميزة. أهمية المتغيرات في التبديل هي مقياس مستقل عن النموذج.
مقياس الارتباك
مقياس لمدى نجاح النموذج في إنجاز مهمته. على سبيل المثال، لنفترض أنّ مهمتك هي قراءة الأحرف القليلة الأولى من كلمة يكتبها المستخدم على لوحة مفاتيح الهاتف، وتقديم قائمة بالكلمات المحتملة التي يمكن إكمالها. إنّ مقياس الارتباك، P، لهذه المهمة هو تقريبًا عدد التخمينات التي عليك تقديمها لكي تتضمّن قائمتك الكلمة الفعلية التي يحاول المستخدم كتابتها.
يرتبط مقياس الارتباك بالإنتروبيا المتداخلة على النحو التالي:
مسار
البنية الأساسية المحيطة بخوارزمية تعلُّم الآلة تتضمّن عملية إنشاء مسار التعلّم جمع البيانات ووضعها في ملفات بيانات التدريب وتدريب نموذج واحد أو أكثر وتصدير النماذج إلى مرحلة الإنتاج.
لمزيد من المعلومات، راجِع مسارات تعلُّم الآلة في دورة "إدارة مشاريع تعلُّم الآلة".
التنفيذ المتزامن
أحد أشكال التوازي على مستوى النموذج، حيث يتم تقسيم معالجة النموذج إلى مراحل متتالية ويتم تنفيذ كل مرحلة على جهاز مختلف. أثناء معالجة مرحلة ما لإحدى الدفعات، يمكن للمرحلة السابقة معالجة الدفعة التالية.
اطّلِع أيضًا على التدريب على مراحل.
pjit
هي دالة JAX تقسّم الرمز البرمجي ليتم تنفيذه على عدة شرائح تسريع. يُمرِّر المستخدم دالة إلى pjit، تعرض دالة لها الدلالات المكافئة ولكن يتم تجميعها في عملية حسابية XLA يتم تنفيذها على عدة أجهزة (مثل وحدات معالجة الرسومات أو نوى TPU).
تتيح هذه الميزة للمستخدمين تقسيم العمليات الحسابية بدون إعادة كتابتها باستخدام أداة التقسيم SPMD.
اعتبارًا من مارس 2023، تم دمج pjit مع jit. يُرجى الرجوع إلى
المصفوفات الموزّعة والتوازي التلقائي
لمزيد من التفاصيل.
plan-and-solve
إستراتيجية قائمة على الوكالة حيث يضع النموذج أولاً خطة واضحة ومتعددة الخطوات قبل محاولة تنفيذ أي إجراءات
PLM
اختصار النموذج اللغوي المدرَّب مسبقًا
المكوّن الإضافي
أداة موحّدة ونمطية يمكن ربطها بسهولة بأحد الوكلاء لتوسيع إمكاناته. على سبيل المثال، تتيح إضافة GitHub للوكلاء تنفيذ إجراءات مثل قراءة المشاكل في GitHub وإنشاء طلبات سحب.
pmap
دالة JAX تنفّذ نُسخًا من دالة إدخال على أجهزة متعددة أساسية (وحدات معالجة مركزية أو وحدات معالجة الرسومات أو وحدات TPU)، مع قيم إدخال مختلفة. تعتمد دالة pmap على SPMD.
في التعلّم التعزيزي، يكون الوكيل عبارة عن عملية ربط احتمالية بين الحالات والإجراءات.
اختزال
تقليل حجم مصفوفة (أو مصفوفات) تم إنشاؤها بواسطة طبقة التفافية سابقة إلى مصفوفة أصغر تتضمّن عملية الاختزال عادةً أخذ القيمة القصوى أو المتوسطة في المنطقة المجمّعة. على سبيل المثال، لنفترض أنّ لدينا مصفوفة 3x3 التالية:
تعمل عملية التجميع، تمامًا مثل عملية الالتفاف، على تقسيم هذه المصفوفة إلى شرائح ثم تمرير عملية الالتفاف هذه بمقدار خطوات. على سبيل المثال، لنفترض أنّ عملية التجميع تقسّم مصفوفة الالتفاف إلى شرائح 2x2 بخطوة 1x1. كما يوضّح الرسم البياني التالي، يتم تنفيذ أربع عمليات اختزال. لنفترض أنّ كل عملية تجميع تختار القيمة القصوى من القيم الأربع في تلك الشريحة:
تساعد عملية التجميع في فرض الثبات الانتقالي في مصفوفة الإدخال.
يُعرف التجميع لتطبيقات الرؤية بشكل أكثر رسمية باسم الاختزال المكاني. تشير تطبيقات السلاسل الزمنية عادةً إلى التجميع باسم التجميع الزمني. يُطلق على التجميع بشكل غير رسمي اسم أخذ العينات أو تقليل عدد العينات.
الترميز الموضعي
أسلوب لإضافة معلومات حول موضع الرمز المميّز في تسلسل إلى تضمين الرمز المميّز تستخدم نماذج المحوّل الترميز الموضعي لفهم العلاقة بين الأجزاء المختلفة من التسلسل بشكل أفضل.
يستخدم التنفيذ الشائع للترميز الموضعي دالة جيبية. (على وجه التحديد، يتم تحديد معدّل التكرار والسعة للدالة الجيبية من خلال موضع الرمز المميز في التسلسل). تتيح هذه التقنية لنموذج Transformer التعرّف على كيفية الانتباه إلى أجزاء مختلفة من التسلسل استنادًا إلى موضعها.
فئة موجبة
الصف الذي تجري الاختبار فيه
على سبيل المثال، قد تكون الفئة الموجبة في نموذج السرطان هي "ورم". قد تكون الفئة الإيجابية في نموذج تصنيف للرسائل الإلكترونية هي "رسائل غير مرغوب فيها".
يجب التمييز بينها وبين الفئة السلبية.
المعالجة اللاحقة
تعديل ناتج النموذج بعد تشغيله يمكن استخدام المعالجة اللاحقة لفرض قيود الإنصاف بدون تعديل النماذج نفسها.
على سبيل المثال، يمكن تطبيق المعالجة اللاحقة على نموذج التصنيف الثنائي من خلال ضبط عتبة التصنيف، وذلك للحفاظ على تكافؤ الفرص لبعض السمات من خلال التأكّد من أنّ معدل الموجب الصحيح هو نفسه لجميع قيم تلك السمة.
نموذج محسَّن بعد التدريب
مصطلح غير محدّد بدقة يشير عادةً إلى نموذج مُدرَّب مسبقًا خضع لبعض عمليات المعالجة اللاحقة، مثل واحدة أو أكثر من العمليات التالية:
المساحة تحت منحنى الدقة والاستدعاء (PR AUC)
المساحة تحت منحنى الدقة والاستدعاء الذي تم الحصول عليه من خلال رسم نقاط (الاستدعاء، الدقة) لقيم مختلفة لعتبة التصنيف
Praxis
مكتبة أساسية وعالية الأداء لتعلُّم الآلة في Pax يُطلق على Praxis غالبًا اسم "مكتبة الطبقات".
لا يحتوي Praxis على تعريفات لفئة Layer فحسب، بل يتضمّن أيضًا معظم المكوّنات المتوافقة معها، بما في ذلك:
- مدخلات البيانات
- مكتبات الإعدادات (HParam وFiddle)
- أدوات التحسين
توفّر Praxis تعريفات لفئة النموذج.
الدقة
مقياس لنماذج التصنيف يجيب عن السؤال التالي:
عندما توقّع النموذج الفئة الموجبة، ما هي النسبة المئوية للتوقّعات الصحيحة؟
في ما يلي الصيغة:
where:
- تشير النتيجة الإيجابية الصحيحة إلى أنّ النموذج توقّع بشكل صحيح الفئة الإيجابية.
- تعني النتيجة الموجبة الخاطئة أنّ النموذج توقّع بشكل خاطئ الفئة الموجبة.
على سبيل المثال، لنفترض أنّ نموذجًا قدّم 200 توقّع إيجابي. من بين هذه التوقّعات الإيجابية البالغ عددها 200:
- كانت 150 منها نتائج موجبة صحيحة.
- كانت 50 منها نتائج موجبة خاطئة.
في هذه الحالة:
يجب التمييز بينه وبين الدقة واكتمال التوقعات الإيجابية.
يمكنك الاطّلاع على التصنيف: الدقة ومقياس المراجعة ومقياس صحة النموذج والمقاييس ذات الصلة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
الدقة عند k (precision@k)
مقياس لتقييم قائمة مرتبة من العناصر. تحدّد الدقة عند k الجزء من أول k عنصر في تلك القائمة الذي يكون "ملائمًا". والمقصود:
\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]
يجب أن تكون قيمة k أقل من أو تساوي طول القائمة التي تم إرجاعها. يُرجى العلم أنّ طول القائمة التي يتم عرضها ليس جزءًا من عملية الاحتساب.
غالبًا ما يكون مدى الصلة بالموضوع أمرًا شخصيًا، وحتى المقيّمون البشريون الخبراء يختلفون في كثير من الأحيان بشأن العناصر ذات الصلة بالموضوع.
المقارنة بـ:
منحنى الدقة والاستدعاء
منحنى مقياس صحة النموذج مقابل مقياس المراجعة عند عتبات التصنيف المختلفة.
التوقّع
ناتج النموذج على سبيل المثال:
- يكون التوقّع الذي يقدّمه نموذج التصنيف الثنائي إما الفئة الإيجابية أو الفئة السلبية.
- يكون التوقّع الذي يقدّمه نموذج التصنيف المتعدد الفئات فئة واحدة.
- توقّع نموذج الانحدار الخطي هو رقم.
انحياز التوقّعات
تشير هذه القيمة إلى مدى اختلاف متوسط التوقعات عن متوسط التصنيفات في مجموعة البيانات.
يجب عدم الخلط بينها وبين مصطلح الانحياز في نماذج تعلُّم الآلة أو الانحياز في الأخلاق والعدالة.
تعلُّم الآلة القائم على التوقّعات
أي نظام تعلُّم آلي عادي ("كلاسيكي")
لا يوجد تعريف رسمي لمصطلح التعلم الآلي التوقعي. بل إنّ هذا المصطلح يميز فئة من أنظمة تعلُّم الآلة لا تستند إلى الذكاء الاصطناعي التوليدي.
التكافؤ التوقّعي
مقياس الإنصاف يتحقّق مما إذا كانت معدّلات مقياس صحة النموذج متساوية للمجموعات الفرعية قيد الدراسة في نموذج التصنيف معيّن.
على سبيل المثال، إذا كان هناك نموذج يتوقّع قبول الطلاب في الكلية، سيحقّق هذا النموذج تكافؤ التوقّعات بالنسبة إلى الجنسية إذا كان معدّل دقته متساويًا بالنسبة إلى الأشخاص من ليليبوت وبروبدينغناغ.
يُطلق على ميزة "تطابق الأسعار التوقّعية" أحيانًا اسم تطابق الأسعار التوقّعية.
يمكنك الاطّلاع على "تعريفات العدالة مشروحة" (الفقرة 3.2.1) للحصول على مناقشة أكثر تفصيلاً بشأن التكافؤ التوقعي.
ميزة "تساوي الأسعار التوقّعي"
اسم آخر للتكافؤ التوقعي
المعالجة المُسبَقة
معالجة البيانات قبل استخدامها لتدريب نموذج يمكن أن تكون المعالجة المسبقة بسيطة مثل إزالة الكلمات من مجموعة نصوص باللغة الإنجليزية غير متوفرة في قاموس اللغة الإنجليزية، أو معقّدة مثل إعادة التعبير عن نقاط البيانات بطريقة تزيل أكبر عدد ممكن من السمات المرتبطة بالسمات الحسّاسة. يمكن أن تساعد المعالجة المُسبقة في استيفاء قيود الإنصاف.نموذج مدرَّب مسبقًا
على الرغم من أنّ هذا المصطلح يمكن أن يشير إلى أي نموذج أو متّجه تضمين تم تدريبه، يشير النموذج المُدرَّب مسبقًا الآن عادةً إلى نموذج لغوي كبير أو شكل آخر من أشكال الذكاء الاصطناعي التوليدي المُدرَّب.
يمكنك أيضًا الاطّلاع على النموذج الأساسي والنموذج الأولي.
التدريب المسبق
التدريب الأوّلي للنموذج على مجموعة بيانات كبيرة بعض النماذج المدرَّبة مسبقًا هي نماذج ضخمة وغير دقيقة، ويجب عادةً تحسينها من خلال تدريب إضافي. على سبيل المثال، قد يدرّب خبراء تعلُّم الآلة نموذج لغوي كبير مسبقًا على مجموعة بيانات نصية ضخمة، مثل جميع صفحات ويكيبيديا باللغة الإنجليزية. بعد التدريب المُسبَق، يمكن تحسين النموذج الناتج بشكل أكبر من خلال أي من التقنيات التالية:
الاعتقاد المسبق
ما تعتقده بشأن البيانات قبل البدء في التدريب عليها على سبيل المثال، تعتمد تسوية L2 على اعتقاد مسبق بأنّ الأوزان يجب أن تكون صغيرة وموزّعة بشكل طبيعي حول الصفر.
Pro
نموذج Gemini يتضمّن عددًا أقل من المَعلمات مقارنةً بنموذج Ultra، ولكن عددًا أكبر من المَعلمات مقارنةً بنموذج Nano. يمكنك الاطّلاع على مقالة Gemini Pro لمزيد من التفاصيل.
احتمالي
بشكل عام، أي موقف يتم فيه اتخاذ القرارات استنادًا إلى الاحتمالات أو الفرص. النماذج اللغوية الكبيرة هي أنظمة احتمالية، فهي تنشئ الكلمة أو الجملة التالية في رد استنادًا إلى الاحتمالات.
إذا كانت درجة العشوائية منخفضة نسبيًا، سيختار النموذج اللغوي الكبير الكلمات أو الجمل التي يُرجّح استخدامها تاليًا. إذا كانت درجة العشوائية مرتفعة نسبيًا، سيكون النموذج اللغوي الكبير أكثر "إبداعًا"، وسيختار أحيانًا كلمات أو جملًا ذات احتمالات أقل.
نموذج الانحدار الاحتمالي
نموذج انحدار يستخدم الأوزان لكل سمة، بالإضافة إلى عدم اليقين بشأن هذه الأوزان. ينشئ نموذج الانحدار الاحتمالي قيمة متوقّعة ومقدار عدم اليقين المرتبط بهذه القيمة. على سبيل المثال، قد يعطي نموذج الانحدار الاحتمالي قيمة متوقّعة تبلغ 325 بانحراف معياري يبلغ 12. لمزيد من المعلومات حول نماذج الانحدار الاحتمالي، يُرجى الاطّلاع على هذا المستند على Colab في tensorflow.org.
دالة الكثافة الاحتمالية
دالة تحدّد عدد مرات تكرار عيّنات البيانات التي تتضمّن بالضبط قيمة معيّنة. عندما تكون قيم مجموعة البيانات عبارة عن أرقام نقطة عائمة مستمرة، نادرًا ما تحدث تطابقات تامة. ومع ذلك، يؤدي تكامل دالة كثافة الاحتمال من القيمة x إلى القيمة y إلى الحصول على التكرار المتوقّع لعيّنات البيانات بين x وy.
على سبيل المثال، لنفترض أنّ لدينا توزيعًا عاديًا بمتوسط 200 وانحراف معياري يبلغ 30. لتحديد التكرار المتوقّع لعينات البيانات التي تقع ضمن النطاق من 211.4 إلى 218.7، يمكنك دمج دالة كثافة الاحتمال للتوزيع الطبيعي من 211.4 إلى 218.7.
الذاكرة الإجرائية
في الوكلاء، تشير إلى المعرفة بكيفية تنفيذ إجراء معيّن. على سبيل المثال، قد يطوّر الوكيل ذاكرة إجرائية لكيفية البحث على الويب، ثم يعرض أهم ثلاثة مواقع إلكترونية.
prompt
أي نص يتم إدخاله كمدخل إلى نموذج لغوي كبير لإعداد النموذج ليعمل بطريقة معيّنة. يمكن أن تكون الطلبات قصيرة مثل عبارة أو طويلة بشكل عشوائي (على سبيل المثال، النص الكامل لرواية). تندرج الطلبات ضمن فئات متعددة، بما في ذلك الفئات الموضّحة في الجدول التالي:
| فئة الطلب | مثال | ملاحظات |
|---|---|---|
| السؤال | ما هي سرعة طيران الحمام؟ | |
| مدرسة تعليم | اكتب قصيدة مضحكة عن المراجحة. | طلب يطلب من النموذج اللغوي الكبير تنفيذ إجراء معيّن. |
| مثال | ترجمة رمز Markdown إلى HTML على سبيل المثال:
Markdown: * عنصر قائمة HTML: <ul> <li>عنصر قائمة</li> </ul> |
الجملة الأولى في مثال الطلب هذا هي تعليمات. ويشكّل الجزء المتبقي من الطلب المثال. |
| الدور | اشرح سبب استخدام خوارزمية النزول التدرّجي في تدريب تعلُّم الآلة لشخص حاصل على دكتوراه في الفيزياء. | الجزء الأول من الجملة هو تعليمات، أما العبارة "للحصول على درجة الدكتوراه في الفيزياء" فهي جزء الدور. |
| إدخال جزئي لإكماله من قِبل النموذج | يسكن رئيس وزراء المملكة المتحدة في | يمكن أن ينتهي طلب الإدخال الجزئي بشكل مفاجئ (كما هو الحال في هذا المثال) أو ينتهي بشرطة سفلية. |
يمكن لنموذج الذكاء الاصطناعي التوليدي الاستجابة لطلب باستخدام نص أو رمز برمجي أو صور أو تضمينات أو فيديوهات أو أي شيء آخر تقريبًا.
التعلّم المستند إلى الطلبات
إحدى إمكانات بعض النماذج التي تتيح لها تعديل سلوكها استجابةً لإدخال نص عشوائي (طلبات). في نموذج التعلّم النموذجي المستند إلى الطلبات، يستجيب النموذج اللغوي الكبير لطلب من خلال إنشاء نص. على سبيل المثال، لنفترض أنّ المستخدم يُدخل الطلب التالي:
لخِّص قانون "نيوتن" الثالث للحركة.
لا يتم تدريب النموذج القادر على التعلّم المستند إلى الطلبات بشكل خاص للإجابة عن الطلب السابق. بدلاً من ذلك، "يعرف" النموذج الكثير من الحقائق حول الفيزياء، والكثير حول قواعد اللغة العامة، والكثير حول ما يشكّل إجابات مفيدة بشكل عام. هذه المعرفة كافية لتقديم إجابة (نأمل أن تكون) مفيدة. تتيح الملاحظات الإضافية من المستخدمين ("كانت الإجابة معقّدة جدًا" أو "ما هو التفاعل؟") لبعض أنظمة التعلّم المستندة إلى الطلبات تحسين فائدة إجاباتها تدريجيًا.
سلسلة الطلبات
استخدام ناتج طلب كمدخل لطلب آخر التحفيز من الأقل إلى الأكثر هو شكل شائع من أشكال تسلسل الطلبات.
تصميم الطلبات
مرادف لهندسة الطلبات
هندسة الطلبات
فن إنشاء طلبات تؤدي إلى الحصول على الردود المطلوبة من نموذج لغوي كبير يُجري البشر عملية هندسة الطلبات. تُعد كتابة طلبات منظَّمة بشكل جيد جزءًا أساسيًا من ضمان الحصول على ردود مفيدة من نموذج لغوي كبير. تعتمد هندسة الطلبات على العديد من العوامل، بما في ذلك:
- مجموعة البيانات المستخدَمة في التدريب الأوّلي وربما التحسين للنموذج اللغوي الكبير
- تمثّل هذه السمة درجة العشوائية وغيرها من مَعلمات فك الترميز التي يستخدمها النموذج لإنشاء الردود.
تصميم الطلبات هو مرادف لهندسة الطلبات.
يمكنك الاطّلاع على مقدمة حول تصميم الطلبات لمزيد من التفاصيل حول كتابة طلبات مفيدة.
مجموعة الطلبات
مجموعة من الطلبات لتقييم نموذج لغوي كبير على سبيل المثال، يوضّح الرسم التوضيحي التالي مجموعة طلبات تتألف من ثلاثة طلبات:
تتألف مجموعات الطلبات الجيدة من مجموعة "واسعة" بما يكفي من الطلبات لتقييم سلامة النماذج اللغوية الكبيرة ومدى فائدتها بشكل شامل.
يمكنك الاطّلاع أيضًا على مجموعة الردود.
ضبط الطلبات
آلية ضبط فعّال للمَعلمات تتعلّم "بادئة" يضيفها النظام قبل الطلب الفعلي.
إحدى طرق تعديل الطلبات، والتي تُعرف أحيانًا باسم تعديل البادئة، هي إضافة البادئة في كل طبقة. في المقابل، لا تضيف معظم عمليات تحسين الطلبات سوى بادئة إلى طبقة الإدخال.
provenance
بيانات توضّح كيفية إنشاء قطعة من محتوى الوسائط الرقمية أو تغييرها
الوكيل (السمات الحسّاسة)
سمة مستخدَمة كبديل لسمة حساسة على سبيل المثال، يمكن استخدام الرمز البريدي الخاص بفرد كبديل للدخل أو العِرق أو الأصل الإثني.تصنيفات تقريبية
البيانات المستخدَمة لتقريب التصنيفات غير المتوفّرة مباشرةً في مجموعة البيانات
على سبيل المثال، لنفترض أنّه عليك تدريب نموذج لتوقّع مستوى الإجهاد لدى الموظفين. تحتوي مجموعة البيانات على الكثير من الميزات التنبؤية، ولكنها لا تتضمّن تصنيفًا باسم مستوى الإجهاد. لم يثنِك ذلك، فاخترت "حوادث في مكان العمل" كبديل لمستوى التوتر. ففي النهاية، يتعرّض الموظفون الذين يعانون من ضغط كبير إلى حوادث أكثر من الموظفين الذين يتمتعون بالهدوء. أم أنّها كذلك؟ ربما تزداد حوادث العمل وتنخفض لأسباب متعددة.
كمثال ثانٍ، لنفترض أنّك تريد أن تكون هل تمطر؟ تصنيفًا منطقيًا لمجموعة البيانات، ولكنّ مجموعة البيانات لا تحتوي على بيانات حول المطر. إذا كانت الصور الفوتوغرافية متاحة، يمكنك إنشاء تصنيف بديل لـ هل تمطر؟ من خلال عرض صور لأشخاص يحملون مظلات. هل هذا تصنيف تقريبي جيد؟ من المحتمل ذلك، ولكن قد يميل الأشخاص في بعض الثقافات إلى حمل المظلات للحماية من الشمس أكثر من الحماية من المطر.
غالبًا ما تكون التصنيفات التقريبية غير مثالية. عند الإمكان، اختَر التصنيفات الفعلية بدلاً من التصنيفات التقريبية. مع ذلك، عند عدم توفّر تصنيف فعلي، يجب اختيار التصنيف البديل بعناية فائقة، مع الحرص على اختيار التصنيف البديل الأقل سوءًا.
لمزيد من المعلومات، اطّلِع على مجموعات البيانات: التصنيفات في "دورة مكثّفة عن تعلُّم الآلة".
دالة خالصة
دالة تستند مخرجاتها فقط إلى مدخلاتها، وليس لها أي آثار جانبية. على وجه التحديد، لا تستخدم الدالة النقية أي حالة عامة أو تغيّرها، مثل محتوى ملف أو قيمة متغيّر خارج الدالة.
يمكن استخدام الدوال النقية لإنشاء رمز برمجي آمن للاستخدام المتزامن، وهو أمر مفيد عند تقسيم رمز النموذج على عدة شرائح تسريع.
تتطلّب طرق تحويل الدوال في JAX أن تكون الدوال المُدخَلة دوالاً خالصة.
Q
دالة Q
في التعلم المعزّز، هي الدالة التي تتوقّع العائد المتوقّع من اتّخاذ إجراء في حالة معيّنة ثم اتّباع سياسة معيّنة.
تُعرف دالة Q أيضًا باسم دالة قيمة حالة الإجراء.
Q-learning
في التعلم المعزز، تستخدم الخوارزمية عنصرًا يتعلّم دالة Q المثالية لعملية اتخاذ قرار ماركوف من خلال تطبيق معادلة بيلمان. تضع نماذج عملية اتخاذ القرار في ماركوف بيئة.
التجزيء
كل مجموعة في تقسيم البيانات إلى شرائح كمية
تقسيم البيانات إلى حزمات حسب الكمية
توزيع قيم إحدى السمات على حِزم بحيث تحتوي كل حزمة على العدد نفسه (أو العدد نفسه تقريبًا) من الأمثلة على سبيل المثال، يقسّم الشكل التالي 44 نقطة إلى 4 مجموعات، تحتوي كل منها على 11 نقطة. ولكي يحتوي كل جزء في الشكل على العدد نفسه من النقاط، تمتد بعض الأجزاء على عرض مختلف من قيم x.
لمزيد من المعلومات، يمكنك الاطّلاع على البيانات الرقمية: التقسيم إلى فئات في "دورة مكثّفة عن تعلُّم الآلة".
التكميم
مصطلح مُحمَّل بشكل زائد يمكن استخدامه بأي من الطرق التالية:
- تنفيذ تحويل القيم حسب الكمية على ميزة معيّنة
- تحويل البيانات إلى أصفار وآحاد لتسريع عمليات التخزين والتدريب والاستنتاج بما أنّ البيانات المنطقية أكثر مقاومة للتشويش والأخطاء من التنسيقات الأخرى، يمكن أن يؤدي التكميم إلى تحسين صحة النموذج. تشمل تقنيات التكميم التقريب والاقتطاع والتصنيف.
تقليل عدد وحدات البت المستخدَمة لتخزين المَعلمات الخاصة بنموذج على سبيل المثال، لنفترض أنّ مَعلمات أحد النماذج يتم تخزينها كأرقام نقطة عائمة 32 بت. يحوّل التكميم هذه المَعلمات من 32 بت إلى 4 أو 8 أو 16 بت. يؤدي التكميم إلى تقليل ما يلي:
- استخدام الحوسبة والذاكرة والقرص والشبكة
- حان الوقت لاستنتاج تنبؤ
- استهلاك الطاقة
ومع ذلك، تؤدي عملية التكميم أحيانًا إلى تقليل صحة التوقعات التي يقدّمها النموذج.
قائمة المحتوى التالي
عملية TensorFlow تنفّذ بنية بيانات قائمة الانتظار. يُستخدَم عادةً في عمليات الإدخال والإخراج.
R
التوليد المعزّز بالاسترجاع (RAG)
اختصار للتوليد المعزّز بالاسترجاع
الغابة العشوائية
مجموعة موحدة من أشجار القرارات يتم تدريب كل شجرة قرارات فيها باستخدام تشويش عشوائي محدد، مثل التجميع.
الغابات العشوائية هي نوع من غابات القرارات.
يمكنك الاطّلاع على الغابة العشوائية في دورة "أشجار القرارات" للحصول على مزيد من المعلومات.
سياسة عشوائية
في التعلم المعزّز، سياسة تختار إجراءً بشكل عشوائي.
الترتيب (الترتيبية)
الترتيب التسلسلي لفئة في مشكلة تعلّم آلي تصنّف الفئات من الأعلى إلى الأدنى. على سبيل المثال، يمكن لنظام ترتيب السلوك أن يرتب مكافآت الكلاب من الأعلى (شريحة لحم) إلى الأدنى (كرنب مجعد ذابل).
الترتيب (المتّجه)
عدد السمات في Tensor على سبيل المثال، يكون ترتيب العدد القياسي 0، وترتيب المتّجه 1، وترتيب المصفوفة 2.
يجب عدم الخلط بينها وبين الترتيب (الترتيب العددي).
الترتيب
نوع من التعلّم الموجّه يهدف إلى ترتيب قائمة من العناصر.
مُصنِّف
هو شخص يقدّم تصنيفات لأمثلة. "المعلِّق" هو اسم آخر للمقيّم.
لمزيد من المعلومات، اطّلِع على البيانات الفئوية: المشاكل الشائعة في "دورة مكثّفة عن تعلّم الآلة".
مجموعة بيانات الفهم أثناء القراءة باستخدام الاستدلال المنطقي (ReCoRD)
مجموعة بيانات لتقييم قدرة نموذج لغوي كبير على إجراء استدلال منطقي سليم يحتوي كل مثال في مجموعة البيانات على ثلاثة عناصر:
- فقرة أو فقرتان من مقالة إخبارية
- طلب بحث يتم فيه إخفاء أحد الكيانات المحدّدة بشكل صريح أو ضِمني في الفقرة.
- الإجابة (اسم العنصر الذي ينتمي إلى القناع)
يمكنك الاطّلاع على ReCoRD للحصول على قائمة شاملة بالأمثلة.
ReCoRD هو أحد مكوّنات مجموعة SuperGLUE.
RealToxicityPrompts
مجموعة بيانات تحتوي على مجموعة من بدايات الجمل التي قد تتضمّن محتوًى سامًا. استخدِم مجموعة البيانات هذه لتقييم قدرة نموذج لغوي كبير على إنشاء نص غير سام لإكمال الجملة. عادةً، يتم استخدام Perspective API لتحديد مدى جودة أداء النموذج اللغوي الكبير في هذه المهمة.
لمزيد من التفاصيل، يمكنك الاطّلاع على مقالة RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models.
السبب
مرحلة في حلقة الوكيل يحدّد فيها الوكيل الإجراءات التي يجب اتّخاذها. على سبيل المثال، قد يحدّد الوكيل أنّه يجب إرسال طلب بيانات من واجهة برمجة التطبيقات.
تذكُّر الإعلان
مقياس لنماذج التصنيف يجيب عن السؤال التالي:
عندما كانت الحقيقة الأساسية هي الفئة الموجبة، ما هي النسبة المئوية للتوقّعات التي حدّدها النموذج بشكل صحيح على أنّها الفئة الموجبة؟
في ما يلي الصيغة:
\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]
where:
- تشير النتيجة الإيجابية الصحيحة إلى أنّ النموذج توقّع بشكل صحيح الفئة الإيجابية.
- يعني السلبي الخاطئ أنّ النموذج توقّع بشكل خاطئ الفئة السلبية.
على سبيل المثال، لنفترض أنّ نموذجك قدّم 200 توقّع بشأن أمثلة كانت الحقيقة الأساسية فيها هي الفئة الموجبة. من بين هذه التوقعات الـ 200:
- كانت 180 منها نتائج موجبة صحيحة.
- كانت 20 منها نتائج سلبية خاطئة.
في هذه الحالة:
\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]
يمكنك الاطّلاع على التصنيف: الدقة ومقياس المراجعة ومقياس صحة النموذج والمقاييس ذات الصلة للحصول على مزيد من المعلومات.
معدّل التذكّر عند k (recall@k)
مقياس لتقييم الأنظمة التي تعرض قائمة مرتبة (منظَّمة) من العناصر. يشير مقياس "الاسترجاع عند k" إلى نسبة العناصر ذات الصلة في أول k عنصر في تلك القائمة من إجمالي عدد العناصر ذات الصلة التي تم عرضها.
\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]
التباين مع الدقة عند k
التعرّف على الاستلزام النصي (RTE)
مجموعة بيانات لتقييم قدرة نموذج لغوي كبير على تحديد ما إذا كان يمكن استنتاج فرضية (استنتاج منطقي) من مقطع نصي. يتألف كل مثال في تقييم بيئة التنفيذ الغنية (RTE) من ثلاثة أجزاء:
- فقرة، عادةً من مقالات إخبارية أو مقالات ويكيبيديا
- الفرضية
- الإجابة الصحيحة، وهي إحدى القيمتين التاليتين:
- صحيح، ما يعني أنّه يمكن استنتاج الفرضية من الفقرة
- False، ما يعني أنّه لا يمكن استنتاج الفرضية من المقطع
على سبيل المثال:
- المقطع: اليورو هو عملة الاتحاد الأوروبي.
- الفرضية: تستخدم فرنسا اليورو كعملة.
- الاستلزام: صحيح، لأنّ فرنسا جزء من الاتحاد الأوروبي.
RTE هو أحد مكوّنات مجموعة SuperGLUE.
نظام الاقتراحات
نظام يختار لكل مستخدم مجموعة صغيرة نسبيًا من العناصر المرغوبة من مجموعة كبيرة من النصوص. على سبيل المثال، قد يقترح نظام اقتراحات الفيديوهات فيديوهَين من مجموعة تضم 100,000 فيديو، فيختار كازابلانكا وقصة فيلادلفيا لمستخدم واحد، والمرأة الخارقة والنمر الأسود لمستخدم آخر. قد يستند نظام اقتراح الفيديوهات إلى عوامل مثل:
- الأفلام التي قيّمها أو شاهدها مستخدمون لديهم اهتمامات مشابهة
- النوع والمخرجون والممثلون والفئة الديمغرافية المستهدَفة...
يمكنك الاطّلاع على دورة أنظمة الاقتراحات التدريبية لمزيد من المعلومات.
ReCoRD
الاختصار الخاص بـ مجموعة بيانات الفهم أثناء القراءة باستخدام الاستدلال المنطقي
وحدة خطية مصحَّحة (ReLU)
دالّة تفعيل ذات السلوك التالي:
- إذا كان الإدخال سالبًا أو صفرًا، يكون الناتج 0.
- إذا كان الإدخال موجبًا، يكون الناتج مساويًا للإدخال.
على سبيل المثال:
- إذا كان المدخل -3، يكون الناتج 0.
- إذا كان المدخل +3، يكون الناتج 3.0.
في ما يلي رسم بياني لدالة ReLU:
ReLU هي دالّة تفعيل شائعة جدًا. على الرغم من سلوكها البسيط، تتيح دالة ReLU للشبكة العصبية تعلُّم العلاقات غير الخطية بين الميزات والتصنيف.
شبكة عصبونية متكرّرة
الشبكة العصبونية التي يتم تشغيلها عمدًا عدة مرات، حيث يتم إدخال أجزاء من كل عملية تشغيل في عملية التشغيل التالية. على وجه التحديد، توفّر الطبقات المخفية من عملية التشغيل السابقة جزءًا من الإدخال إلى الطبقة المخفية نفسها في عملية التشغيل التالية. تُعدّ الشبكات العصبونية المتكرّرة مفيدة بشكل خاص في تقييم التسلسلات، ما يتيح للطبقات المخفية التعلّم من عمليات التشغيل السابقة للشبكة العصبونية على الأجزاء السابقة من التسلسل.
على سبيل المثال، يعرض الشكل التالي شبكة عصبية متكررة تعمل أربع مرات. لاحظ أنّ القيم التي تم تعلّمها في الطبقات المخفية من التشغيل الأول تصبح جزءًا من الإدخال إلى الطبقات المخفية نفسها في التشغيل الثاني. وبالمثل، تصبح القيم التي تم التعرّف عليها في الطبقة المخفية في التشغيل الثاني جزءًا من الإدخال إلى الطبقة المخفية نفسها في التشغيل الثالث. بهذه الطريقة، يتم تدريب الشبكة العصبية المتكررة تدريجيًا وتتوقع معنى التسلسل بأكمله بدلاً من معنى الكلمات الفردية فقط.
النص المرجعي
ردّ خبير على طلب على سبيل المثال، إذا كان الطلب كما يلي:
ترجِم السؤال "ما اسمك؟" من الإنجليزية إلى الفرنسية.
قد يكون ردّ الخبير على النحو التالي:
Comment vous appelez-vous?
تقيس مقاييس مختلفة (مثل ROUGE) مدى تطابق النص المرجعي مع النص الذي أنشأه نموذج تعلُّم الآلة.
التأمّل
استراتيجية لتحسين جودة سير العمل المستند إلى وكيل من خلال فحص (التفكير في) ناتج إحدى الخطوات قبل تمرير هذا الناتج إلى الخطوة التالية
غالبًا ما يكون المدقّق هو LLM نفسه الذي أنشأ الرد (مع أنّه قد يكون نموذجًا لغويًا كبيرًا مختلفًا). كيف يمكن للنموذج اللغوي الكبير نفسه الذي أنشأ الرد أن يكون حكمًا عادلاً على رده؟ يكمن "الحل" في وضع النموذج اللغوي الكبير في حالة ذهنية نقدية (تأملية). تشبه هذه العملية الكاتب الذي يستخدم عقلية إبداعية لكتابة مسودة أولية ثم ينتقل إلى عقلية نقدية لتعديلها.
على سبيل المثال، تخيَّل سير عمل قائمًا على الذكاء الاصطناعي الوكيل تكون خطوته الأولى هي إنشاء نص لأكواب القهوة. قد يكون الطلب لهذه الخطوة كما يلي:
أنت شخص مبدع. أنشئ نصًا فكاهيًا أصليًا يتألف من أقل من 50 حرفًا ومناسبًا لكوب قهوة.
تخيّل الآن مطالبة التأمّل التالية:
أنت من محبّي القهوة. هل تجد الردّ السابق مضحكًا؟
بعد ذلك، قد لا تسمح سير العمل إلا بمرور النصوص التي تحصل على درجة انعكاس عالية إلى المرحلة التالية.
نموذج الانحدار
بشكل غير رسمي، هو نموذج ينشئ توقّعات رقمية. (في المقابل، ينشئ نموذج التصنيف توقعًا للفئة). على سبيل المثال، جميع ما يلي هي نماذج انحدار:
- نموذج يتوقّع قيمة منزل معيّن باليورو، مثل 423,000.
- نموذج يتوقّع متوسط العمر المتوقّع لشجرة معيّنة بالسنوات، مثل 23.2
- نموذج يتوقّع كمية الأمطار التي ستتساقط بالبوصة في مدينة معيّنة خلال الساعات الست القادمة، مثل 0.18.
في ما يلي نوعان شائعان من نماذج الانحدار:
- الانحدار الخطي: يجد هذا النموذج الخط الذي يطابق قيم التصنيفات مع الميزات على أفضل وجه.
- الانحدار اللوجستي، الذي ينشئ احتمالية تتراوح بين 0.0 و1.0، ثم يربطها النظام عادةً بتوقّع فئة.
ليس كل نموذج يعرض توقّعات رقمية هو نموذج انحدار. في بعض الحالات، يكون التوقّع الرقمي مجرّد نموذج تصنيف يحتوي على أسماء فئات رقمية. على سبيل المثال، النموذج الذي يتوقّع رمزًا بريديًا رقميًا هو نموذج تصنيف، وليس نموذج انحدار.
التسوية
أي آلية تقلّل من المطابقة بشكل مفرط. تشمل الأنواع الشائعة من التسوية ما يلي:
- L1 regularization
- التسوية 2
- تسوية الإسقاط
- إيقاف مبكر (هذه ليست طريقة تسوية رسمية، ولكن يمكن أن تحدّ بشكل فعّال من المطابقة بشكل مفرط)
يمكن أيضًا تعريف التسوية على أنّها العقوبة المفروضة على تعقيد النموذج.
لمزيد من المعلومات، يُرجى الاطّلاع على المطابقة بشكل مفرط: تعقيد النموذج في "دورة مكثّفة عن تعلّم الآلة".
معدّل التسوية
رقم يحدّد الأهمية النسبية للتسوية أثناء التدريب. تؤدي زيادة معدّل التسوية إلى الحدّ من المطابقة بشكل مفرط، ولكنها قد تقلّل من قدرة النموذج على التوقّع. في المقابل، يؤدي خفض معدّل التسوية أو إغفاله إلى زيادة الملاءمة الزائدة.
لمزيد من المعلومات، يمكنك الاطّلاع على المطابقة بشكل مفرط: التسوية L2 في "دورة مكثّفة عن تعلّم الآلة".
التعلّم المعزَّز (RL)
هي مجموعة من الخوارزميات التي تتعلّم سياسة مثالية، هدفها تحقيق الحد الأقصى من العائد عند التفاعل مع بيئة. على سبيل المثال، المكافأة النهائية في معظم الألعاب هي الفوز. يمكن أن تصبح أنظمة التعلّم المعزّز خبيرة في لعب ألعاب معقّدة من خلال تقييم تسلسلات الحركات السابقة التي أدّت في النهاية إلى الفوز، وتسلسلات الحركات التي أدّت في النهاية إلى الخسارة.
التعلّم المعزّز من الردود البشرية (RLHF)
استخدام ملاحظات من مقيّمين بشريين لتحسين جودة ردود النموذج على سبيل المثال، يمكن لآلية RLHF أن تطلب من المستخدمين تقييم جودة ردّ النموذج باستخدام إيموجي 👍 أو 👎. يمكن للنظام بعد ذلك تعديل ردوده المستقبلية استنادًا إلى هذه الملاحظات.
ReLU
اختصار الوحدة الخطية المصحَّحة
مخزن إعادة التشغيل المؤقت
في الخوارزميات المشابهة لـ DQN، تشير الذاكرة التي يستخدمها العامل إلى تخزين انتقالات الحالة لاستخدامها في إعادة تجربة.
نسخة مطابقة
نسخة (أو جزء من) مجموعة تدريب أو نموذج، يتم تخزينها عادةً على جهاز آخر على سبيل المثال، يمكن أن يستخدم النظام الاستراتيجية التالية لتنفيذ التوازي في البيانات:
- وضع نُسخ طبق الأصل من نموذج حالي على أجهزة متعددة
- أرسِل مجموعات فرعية مختلفة من مجموعة التدريب إلى كل نسخة طبق الأصل.
- تجميع تعديلات المَعلمة
يمكن أن تشير النسخة المتطابقة أيضًا إلى نسخة أخرى من خادم الاستدلال. تؤدي زيادة عدد النسخ المتماثلة إلى زيادة عدد الطلبات التي يمكن للنظام معالجتها في وقت واحد، ولكنها تؤدي أيضًا إلى زيادة تكاليف العرض.
الانحياز لتكرار التقارير
إنّ معدّل تكرار كتابة الأشخاص عن إجراءات أو نتائج أو سمات معيّنة لا يعكس معدّل تكرارها في الواقع أو مدى ارتباط سمة معيّنة بفئة من الأفراد. يمكن أن يؤثر الانحياز لتكرار التقارير في تركيبة البيانات التي تتعلّم منها أنظمة تعلُّم الآلة.
على سبيل المثال، في الكتب، تكون الكلمة ضحك أكثر شيوعًا من الكلمة تنفس. من المحتمل أن يحدّد نموذج تعلُّم الآلة الذي يقدّر التكرار النسبي للضحك والتنفس من مجموعة نصوص في كتاب أنّ الضحك أكثر شيوعًا من التنفس.
لمزيد من المعلومات، راجِع الإنصاف: أنواع التحيز في "دورة مكثّفة عن تعلّم الآلة".
التمثيل
عملية ربط البيانات بميزات مفيدة
إعادة الترتيب
المرحلة الأخيرة من نظام الاقتراحات، والتي قد يتم فيها إعادة تقييم العناصر التي تم تسجيلها وفقًا لخوارزمية أخرى (عادةً ما تكون غير مستندة إلى تعلُّم الآلة). تعمل عملية إعادة الترتيب على تقييم قائمة العناصر التي تم إنشاؤها في مرحلة التسجيل، وتتّخذ إجراءات مثل:
- استبعاد العناصر التي سبق أن اشتراها المستخدم
- زيادة نقاط العناصر الأحدث
يمكنك الاطّلاع على إعادة الترتيب في دورة "أنظمة الاقتراحات" التدريبية لمزيد من المعلومات.
رد
النصوص أو الصور أو المقاطع الصوتية أو الفيديوهات التي يستنتجها نموذج الذكاء الاصطناعي التوليدي بعبارة أخرى، الطلب هو المعلومات التي يتم إدخالها في نموذج الذكاء الاصطناعي التوليدي، والرد هو النتيجة.
مجموعة الردود
مجموعة الردود التي يعرضها النموذج اللغوي الكبير استجابةً لمجموعة طلبات
التوليد المعزّز بالاسترجاع
يشير ذلك إلى أسلوب لتحسين جودة النتائج التي تقدّمها النماذج اللغوية الكبيرة من خلال ربطها بمصادر المعلومات التي تم استرجاعها بعد تدريب النموذج. يحسّن التوليد المعزّز بالاسترجاع دقة ردود النماذج اللغوية الكبيرة من خلال منح النموذج اللغوي الكبير المدرَّب إمكانية الوصول إلى المعلومات التي يتم استرجاعها من قواعد المعرفة أو المستندات الموثوقة.
تشمل الدوافع الشائعة لاستخدام التوليد المعزّز بالاسترجاع ما يلي:
- زيادة الدقة الواقعية للردود التي ينشئها النموذج
- منح النموذج إذن الوصول إلى معلومات لم يتم تدريبه عليها
- تغيير المعرفة التي يستخدمها النموذج
- تمكين النموذج من الاستشهاد بالمصادر
على سبيل المثال، لنفترض أنّ تطبيقًا للكيمياء يستخدم واجهة برمجة التطبيقات PaLM لإنشاء ملخّصات ذات صلة بطلبات بحث المستخدمين. عندما يتلقّى الخلفية في التطبيق طلب بحث، تقوم الخلفية بما يلي:
- يبحث عن البيانات ذات الصلة بطلب بحث المستخدم ("يسترجعها").
- إضافة بيانات الكيمياء ذات الصلة إلى طلب بحث المستخدم
- يطلب من النموذج اللغوي الكبير إنشاء ملخّص استنادًا إلى البيانات الملحقة.
العودة
في التعلّم المعزّز، عند توفّر سياسة وحالة معيّنتَين، يكون العائد هو مجموع كل المكافآت التي يتوقّع الوكيل الحصول عليها عند اتّباع السياسة من الحالة إلى نهاية الحلقة. يأخذ الوكيل في الاعتبار الطبيعة المتأخرة للمكافآت المتوقّعة من خلال خصم المكافآت وفقًا لعمليات الانتقال بين الحالات المطلوبة للحصول على المكافأة.
لذلك، إذا كان عامل الخصم هو \(\gamma\)، و \(r_0, \ldots, r_{N}\) يشير إلى المكافآت حتى نهاية الحلقة، يكون احتساب العائد على النحو التالي:
مكافأة
في التعلّم التعزيزي، النتيجة الرقمية لاتّخاذ إجراء في حالة، كما يحدّدها البيئة
التسوية التربيعية
مرادف التسوية2 يُستخدَم مصطلح التسوية التربيعية بشكل متكرر أكثر في سياقات الإحصاء البحت، بينما يُستخدَم مصطلح التسوية باستخدام 2 بشكل متكرر أكثر في سياقات تعلّم الآلة.
RNN
اختصار الشبكات العصبونية المتكرّرة
منحنى الأمثلة الإيجابية
رسم بياني لمعدّل الموجب الصحيح مقابل معدّل الموجب الخاطئ لقيم مختلفة لحدود التصنيف في التصنيف الثنائي.
يشير شكل منحنى ROC إلى قدرة نموذج التصنيف الثنائي على فصل الفئات الإيجابية عن الفئات السلبية. لنفترض مثلاً أنّ نموذج تصنيف ثنائي يفصل تمامًا بين جميع الفئات السلبية وجميع الفئات الإيجابية:
يبدو منحنى ROC للنموذج السابق على النحو التالي:
في المقابل، يوضح الرسم البياني التالي قيم الانحدار اللوجستي الأولية لنموذج سيئ لا يمكنه الفصل بين الفئات السلبية والفئات الإيجابية على الإطلاق:
يبدو منحنى ROC لهذا النموذج على النحو التالي:
في الوقت نفسه، في العالم الحقيقي، تفصل معظم نماذج التصنيف الثنائي بين الفئات الإيجابية والسلبية إلى حد ما، ولكن ليس بشكل مثالي عادةً. لذا، يقع منحنى ROC النموذجي في مكان ما بين الحدّين الأقصى والأدنى:
تحدّد النقطة الأقرب إلى (0.0,1.0) على منحنى ROC نظريًا عتبة التصنيف المثالية. ومع ذلك، تؤثر العديد من المشاكل الأخرى في العالم الحقيقي على اختيار عتبة التصنيف المثلى. على سبيل المثال، قد تتسبّب النتائج السلبية الخاطئة في مشاكل أكثر من النتائج الإيجابية الخاطئة.
يلخّص مقياس عددي يُسمى AUC منحنى ROC في قيمة واحدة ذات فاصلة عائمة.
التلقين حسب الدور
الطلب هو عبارة عن إدخال يبدأ عادةً بالضمير أنت، ويطلب من نموذج الذكاء الاصطناعي التوليدي التظاهر بأنه شخص معيّن أو يؤدي دورًا معيّنًا عند إنشاء الرد. يمكن أن يساعد الطلب بتحديد الدور نموذج الذكاء الاصطناعي التوليدي في اتّخاذ "العقلية" المناسبة من أجل إنشاء ردّ أكثر فائدة. على سبيل المثال، قد تكون أي من الطلبات التالية المتعلقة بالأدوار مناسبة حسب نوع الرد الذي تبحث عنه:
أنت حاصل على درجة الدكتوراه في علوم الكمبيوتر.
أنت مهندس برامج تحب تقديم شروحات صبورة حول لغة Python للطلاب الجدد في مجال البرمجة.
أنت بطل أفلام أكشن ولديك مجموعة محدّدة جدًا من مهارات البرمجة. أريد التأكّد من أنّك ستعثر على عنصر معيّن في قائمة Python.
الجذر
العقدة الأولية (الشرط الأول) في شجرة القرار تضع المخططات عادةً الجذر في أعلى شجرة القرارات. على سبيل المثال:
الدليل الجذري
الدليل الذي تحدّده لاستضافة الأدلة الفرعية لملفات نقاط التحقّق والأحداث في TensorFlow الخاصة بنماذج متعدّدة
جذر الخطأ التربيعي المتوسّط (RMSE)
الجذر التربيعي للخطأ التربيعي المتوسّط
الثبات الدوراني
في مشكلة تصنيف الصور، تشير إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عند تغيير اتجاه الصورة. على سبيل المثال، يمكن للخوارزمية التعرّف على مضرب تنس سواء كان متجهًا للأعلى أو للأسفل أو إلى الجانب. يُرجى العِلم أنّ الثبات الدوراني ليس مرغوبًا فيه دائمًا، فمثلاً، لا يجب تصنيف الرقم 9 المقلوب على أنّه 9.
راجِع أيضًا الثبات الانتقالي والثبات الحجمي.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
مجموعة من المقاييس التي تقيّم نماذج التلخيص التلقائي والترجمة الآلية. تحدّد مقاييس ROUGE مدى تطابق النص المرجعي مع النص الذي أنشأه نموذج تعلُّم الآلة. يقيس كل مقياس من مقاييس عائلة ROUGE التداخل بطريقة مختلفة. تشير نتائج ROUGE الأعلى إلى تشابه أكبر بين النص المرجعي والنص الذي تم إنشاؤه مقارنةً بنتائج ROUGE الأقل.
ينتج عادةً كل فرد من عائلة مقاييس ROUGE المقاييس التالية:
- الدقة
- التذكُّر
- F1
للاطّلاع على التفاصيل والأمثلة، يُرجى مراجعة:
ROUGE-L
أحد مقاييس عائلة ROUGE يركّز على طول أطول تسلسل فرعي مشترك في النص المرجعي والنص الذي تم إنشاؤه. تحسب الصيغ التالية مقياسَي المراجعة ومقياس صحة النموذج لمقياس ROUGE-L:
يمكنك بعد ذلك استخدام F1 لتجميع مقياسَي ROUGE-L recall وROUGE-L precision في مقياس واحد:
يتجاهل مقياس ROUGE-L أي أسطر جديدة في النص المرجعي والنص الذي تم إنشاؤه، لذا يمكن أن يتضمّن أطول تسلسل فرعي مشترك عدة جمل. عندما يتضمّن النص المرجعي والنص الذي تم إنشاؤه جملًا متعددة، يكون مقياس ROUGE-Lsum، وهو صيغة من مقياس ROUGE-L، أفضل بشكل عام. تحدّد مقياس ROUGE-Lsum أطول تسلسل فرعي مشترك لكل جملة في فقرة، ثم يحسب متوسط أطول التسلسلات الفرعية المشتركة.
ROUGE-N
مجموعة من المقاييس ضمن عائلة ROUGE تقارن بين N-grams المشتركة بحجم معيّن في النص المرجعي والنص الذي تم إنشاؤه. على سبيل المثال:
- يقيس مقياس ROUGE-1 عدد الرموز المميزة المشتركة في النص المرجعي والنص الذي تم إنشاؤه.
- يقيس مقياس ROUGE-2 عدد ثنائيات الحروف (2-grams) المشتركة بين النص المرجعي والنص الذي تم إنشاؤه.
- يقيس مقياس ROUGE-3 عدد الثلاثيات المشتركة (3-grams) في النص المرجعي والنص الذي تم إنشاؤه.
يمكنك استخدام الصيغ التالية لاحتساب مقياس المراجعة ROUGE-N ومقياس صحة النموذج ROUGE-N لأي عنصر من عناصر عائلة ROUGE-N:
يمكنك بعد ذلك استخدام F1 لتجميع مقياس المراجعة ومقياس صحة النموذج في ROUGE-N في مقياس واحد:
ROUGE-S
شكل متسامح من ROUGE-N يتيح مطابقة skip-gram. أي أنّ مقياس ROUGE-N لا يحتسب سوى N-grams التي تتطابق تمامًا، ولكن مقياس ROUGE-S يحتسب أيضًا N-grams المفصولة بكلمة واحدة أو أكثر. على سبيل المثال، يمكنك القيام بما يلي:
- النص المرجعي: غيوم بيضاء
- النص الذي تم إنشاؤه: سُحب بيضاء متطايرة
عند احتساب مقياس ROUGE-N، لا يتطابق المقطع الثنائي غيوم بيضاء مع غيوم بيضاء منتفخة. ومع ذلك، عند احتساب مقياس ROUGE-S، تتطابق الغيوم البيضاء مع الغيوم البيضاء المتصاعدة.
وكيل جهاز التوجيه
هو برنامج يصنّف طلب بحث أرسله مستخدم ثم يستدعي البرنامج الأنسب للتعامل معه.
معامل التحديد
مقياس الانحدار الذي يشير إلى مقدار التباين في تصنيف بسبب ميزة فردية أو مجموعة الخصائص. قيمة R^2 هي قيمة بين 0 و1، ويمكن تفسيرها على النحو التالي:
- تشير قيمة R-squared البالغة 0 إلى أنّ أيًا من الاختلافات في الوسم لا يعود إلى مجموعة الخصائص.
- يشير معامل التحديد البالغ 1 إلى أنّ كل التباين في الوسم يرجع إلى مجموعة الخصائص.
- يشير معامل تحديد بين 0 و1 إلى مدى إمكانية توقّع تباين الوسم من ميزة معيّنة أو مجموعة الخصائص. على سبيل المثال، يعني معامل التحديد البالغ 0.10 أنّ %10 من التباين في الوسم يرجع إلى مجموعة الخصائص، ويعني معامل التحديد البالغ 0.20 أنّ %20 من التباين يرجع إلى مجموعة الخصائص، وهكذا.
معامل تحديد (R-squared) هو مربع معامل ارتباط بيرسون بين القيم التي توقّعها النموذج والحقيقة الأساسية.
RTE
اختصار التعرّف على الاستلزام النصي
S
انحياز في جمع العيّنات
اطّلِع على الانحياز في الاختيار.
جمع العيّنات مع الاستبدال
طريقة لاختيار عناصر من مجموعة من العناصر المرشّحة، حيث يمكن اختيار العنصر نفسه عدة مرات. تعني عبارة "مع الإحلال" أنّه بعد كل عملية اختيار، يتم إرجاع العنصر المحدّد إلى مجموعة العناصر المرشّحة. أما الطريقة المعاكسة، أي أخذ العيّنات بدون استبدال، فتعني أنّه لا يمكن اختيار عنصر مرشّح إلا مرة واحدة.
على سبيل المثال، ضع في اعتبارك مجموعة الفاكهة التالية:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}لنفترض أنّ النظام يختار fig عشوائيًا كعنصر أول.
في حال استخدام أخذ العيّنات مع الاستبدال، يختار النظام العنصر الثاني من المجموعة التالية:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}نعم، إنّها المجموعة نفسها كما في السابق، لذا قد يختار النظام fig مرة أخرى.
في حال استخدام أخذ العيّنات بدون استبدال، لا يمكن اختيار عيّنة مرة أخرى بعد اختيارها. على سبيل المثال، إذا اختار النظام عشوائيًا fig كأول عيّنة، لا يمكن اختيار fig مرة أخرى. لذلك، يختار النظام العيّنة الثانية من المجموعة التالية (المخفَّضة):
fruit = {kiwi, apple, pear, cherry, lime, mango}SavedModel
التنسيق المقترَح لحفظ نماذج TensorFlow واستردادها SavedModel هو تنسيق تسلسل قابل للاسترداد ومستقل عن اللغة، ما يتيح للأنظمة والأدوات ذات المستوى الأعلى إنشاء نماذج TensorFlow واستهلاكها وتحويلها.
راجِع قسم الحفظ والاستعادة في دليل مبرمجي TensorFlow للحصول على التفاصيل الكاملة.
موفّر
عنصر TensorFlow المسؤول عن حفظ نقاط التحقّق من النموذج
الكمية القياسية
عدد واحد أو سلسلة واحدة يمكن تمثيلها على شكل متّجه متعدّد الأبعاد برتبة 0. على سبيل المثال، ينشئ كل سطر من سطور الرمز البرمجي التالية قيمة عددية واحدة في TensorFlow:
breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)التحجيم
أي تحويل أو أسلوب رياضي يغيّر نطاق تصنيف أو قيمة ميزة أو كليهما. بعض أشكال القياس مفيدة جدًا في عمليات التحويل، مثل التسوية.
تشمل الأشكال الشائعة للتوسيع المفيدة في تعلُّم الآلة ما يلي:
- القياس الخطي الذي يستخدم عادةً مزيجًا من الطرح والقسمة لاستبدال القيمة الأصلية برقم يتراوح بين -1 و+1 أو بين 0 و1
- القياس اللوغاريتمي، الذي يستبدل القيمة الأصلية بلوغاريتمها
- التسوية باستخدام النتيجة المعيارية، والتي تستبدل القيمة الأصلية بقيمة نقطة عائمة تمثّل عدد الانحرافات المعيارية عن متوسط هذه السمة
scikit-learn
منصة شائعة مفتوحة المصدر لتعلُّم الآلة يمكنك الاطّلاع على scikit-learn.org.
تسجيل النتائج
الجزء من نظام الاقتراحات الذي يقدّم قيمة أو ترتيبًا لكل عنصر تم إنتاجه في مرحلة إنشاء المرشّحين.
الانحياز في الاختيار
أخطاء في الاستنتاجات المستخلَصة من البيانات المستندة إلى عيّنات بسبب عملية اختيار تؤدي إلى اختلافات منهجية بين العيّنات المرصودة في البيانات والعيّنات غير المرصودة تتوفّر أشكال التحيز في الاختيار التالية:
- انحياز في التغطية: لا تتطابق المجموعة الإحصائية الممثلة في مجموعة البيانات مع المجموعة الإحصائية التي يتنبأ بها نموذج تعلُّم الآلة.
- انحياز في جمع العيّنات: لا يتم جمع البيانات بشكل عشوائي من المجموعة المستهدَفة.
- الانحياز لعدم الإجابة (يُعرف أيضًا باسم تحيّز المشاركة): يختار المستخدمون من مجموعات معيّنة عدم المشاركة في الاستطلاعات بمعدلات مختلفة عن المستخدمين من مجموعات أخرى.
على سبيل المثال، لنفترض أنّك بصدد إنشاء نموذج تعلُّم آلي يتوقّع مدى استمتاع الأشخاص بفيلم معيّن. لجمع بيانات التدريب، يمكنك توزيع استطلاع على جميع الأشخاص في الصف الأمامي من قاعة سينما تعرض الفيلم. قد تبدو هذه الطريقة معقولة لجمع مجموعة بيانات، ولكن قد يؤدي هذا النوع من جمع البيانات إلى حدوث أشكال الانحياز في الاختيار التالية:
- انحياز في التغطية: من خلال أخذ عيّنات من مجموعة من الأشخاص الذين اختاروا مشاهدة الفيلم، قد لا تكون توقّعات نموذجك قابلة للتعميم على الأشخاص الذين لم يعبّروا عن هذا المستوى من الاهتمام بالفيلم.
- انحياز في جمع العيّنات: بدلاً من أخذ عيّنات عشوائية من المجموعة المستهدَفة (جميع الأشخاص في السينما)، أخذت عيّنات من الأشخاص في الصف الأمامي فقط. من المحتمل أنّ الأشخاص الجالسين في الصف الأمامي كانوا أكثر اهتمامًا بالفيلم من الأشخاص الجالسين في الصفوف الأخرى.
- الانحياز لعدم الإجابة: بشكل عام، يميل الأشخاص الذين لديهم آراء قوية إلى الرد على الاستطلاعات الاختيارية بشكل متكرر أكثر من الأشخاص الذين لديهم آراء معتدلة. بما أنّ استطلاع الأفلام اختياري، من المرجّح أن تشكّل الردود توزيعًا ثنائي المنوال بدلاً من التوزيع الطبيعي (على شكل جرس).
الاهتمام الذاتي (يُعرف أيضًا باسم طبقة الاهتمام الذاتي)
طبقة شبكة عصبية تحوّل تسلسلاً من عمليات التضمين (مثل عمليات تضمين الرموز المميزة) إلى تسلسل آخر من عمليات التضمين. يتم إنشاء كل تضمين في التسلسل الناتج من خلال دمج المعلومات من عناصر التسلسل المدخل من خلال آلية انتباه.
يشير الجزء الذاتي من الانتباه الذاتي إلى تسلسل الانتباه إلى نفسه بدلاً من سياق آخر. تُعدّ آلية الانتباه الذاتي إحدى اللبنات الأساسية في المحوّلات، وتستخدم مصطلحات البحث في القاموس، مثل "الاستعلام" و"المفتاح" و "القيمة".
تبدأ طبقة الانتباه الذاتي بتسلسل من تمثيلات الإدخال، تمثيل واحد لكل كلمة. يمكن أن يكون تمثيل الإدخال لكلمة عبارة عن تضمين بسيط. بالنسبة إلى كل كلمة في تسلسل الإدخال، تقيِّم الشبكة مدى صلة الكلمة بكل عنصر في التسلسل الكامل للكلمات. تحدّد نتائج الصلة مدى تضمين التمثيل النهائي للكلمة لتمثيلات الكلمات الأخرى.
على سبيل المثال، فكِّر في الجملة التالية:
لم يعبر الحيوان الشارع لأنّه كان متعبًا جدًا.
يوضّح الرسم التوضيحي التالي (من Transformer: A Novel Neural Network Architecture for Language Understanding) نمط الانتباه في طبقة الانتباه الذاتي للضمير it، حيث يشير مدى عتامة كل خط إلى مقدار مساهمة كل كلمة في التمثيل:
تُبرز طبقة الانتباه الذاتي الكلمات ذات الصلة بـ "ذلك". في هذه الحالة، تعلّمت طبقة الانتباه تمييز الكلمات التي قد تشير إليها، مع إعطاء أعلى وزن لكلمة حيوان.
بالنسبة إلى تسلسل من n رموز مميزة، يحوّل الانتباه الذاتي تسلسلًا من عمليات التضمين n مرات منفصلة، مرة واحدة في كل موضع في التسلسل.
يمكنك أيضًا الرجوع إلى الانتباه والانتباه الذاتي المتعدد الرؤوس.
التصحيح الذاتي
قدرة الوكيل على رصد خطأ في الناتج الذي يقدّمه ثم تجربة أسلوب مختلف
التعلّم الذاتي الموجَّه
مجموعة من التقنيات لتحويل مشكلة تعلُّم الآلة غير المراقَب إلى مشكلة تعلُّم الآلة الموجَّه من خلال إنشاء تصنيفات بديلة من أمثلة غير مصنَّفة.
تستخدم بعض النماذج المستندة إلى Transformer، مثل BERT، التعلّم الذاتي الموجّه.
التدريب الذاتي الموجَّه هو أحد أساليب التعلّم شبه الموجَّه.
التدريب الذاتي
هي نوع من التعلّم الذاتي بإشراف جزئي، تكون مفيدة بشكل خاص عند استيفاء جميع الشروط التالية:
- نسبة الأمثلة غير المصنَّفة إلى الأمثلة المصنَّفة في مجموعة البيانات مرتفعة.
- هذه مشكلة تصنيف.
تعمل عملية التدريب الذاتي من خلال تكرار الخطوتَين التاليتَين إلى أن يتوقف النموذج عن التحسّن:
- استخدِم تعلُّم الآلة الموجَّه لتدريب نموذج على الأمثلة المصنَّفة.
- استخدِم النموذج الذي تم إنشاؤه في الخطوة 1 لإنشاء توقعات (تصنيفات) بشأن الأمثلة غير المصنَّفة، ونقْل الأمثلة التي تتضمّن درجة ثقة عالية إلى الأمثلة المصنَّفة مع التصنيف المتوقّع.
لاحظ أنّ كل تكرار للخطوة 2 يضيف المزيد من الأمثلة المصنّفة التي يمكن للخطوة 1 التدريب عليها.
الذاكرة الدلالية
المعلومات التي يتضمّنها نموذج اللغة الكبير عند انتهاء التدريب على سبيل المثال، تتضمّن الذاكرة الدلالية معرفة ممتازة بقواعد اللغة والمفردات والحقائق التي تم تدريبها عليها بشكل صريح.
لا تتضمّن الذاكرة الدلالية المعلومات التي يتم جمعها من خلال الجيل المعزّز بالاسترجاع.
قارِن بين الذاكرة الدلالية والذاكرة العرضية.
التعلّم شبه الموجَّه
تدريب نموذج على بيانات تتضمّن بعض الأمثلة التدريبية المصنَّفة وأخرى غير مصنَّفة تتمثّل إحدى تقنيات التعلّم شبه الموجَّه في استنتاج التصنيفات للأمثلة غير المصنَّفة، ثم التدريب على التصنيفات المستنتَجة لإنشاء نموذج جديد. يمكن أن يكون التعلّم شبه الموجَّه مفيدًا إذا كان الحصول على التصنيفات مكلفًا ولكن تتوفّر أمثلة غير مصنَّفة بكميات كبيرة.
التدريب الذاتي هو إحدى تقنيات التعلّم شبه الموجَّه.
سمة حسّاسة
سمة بشرية قد تُمنح اعتبارًا خاصًا لأسباب قانونية أو أخلاقية أو اجتماعية أو شخصيةتحليل المشاعر
استخدام خوارزميات إحصائية أو خوارزميات تعلُّم آلي لتحديد الموقف العام لمجموعة معيّنة، سواء كان إيجابيًا أو سلبيًا، تجاه خدمة أو منتج أو مؤسسة أو موضوع على سبيل المثال، باستخدام فهم اللغة الطبيعية، يمكن لخوارزمية إجراء تحليل للمشاعر بشأن الملاحظات النصية الواردة من دورة جامعية لتحديد مدى إعجاب الطلاب بالدورة أو عدم إعجابهم بها بشكل عام.
اطّلِع على دليل تصنيف النصوص للحصول على مزيد من المعلومات.
نموذج تسلسلي
نموذج تعتمد مدخلاته على بعضها البعض بشكل تسلسلي على سبيل المثال، توقّع الفيديو التالي الذي سيشاهده المستخدم من سلسلة فيديوهات شاهدها سابقًا.
مهمة من تسلسل إلى تسلسل
مهمة تحوّل تسلسل إدخال من الرموز المميزة إلى تسلسل إخراج من الرموز المميزة. على سبيل المثال، هناك نوعان شائعان من مهام التسلسل إلى التسلسل، وهما:
- المترجمون:
- تسلسل الإدخال النموذجي: "أحبك".
- تسلسل الناتج النموذجي: "Je t'aime".
- الإجابة عن الأسئلة:
- مثال على تسلسل الإدخال: "هل أحتاج إلى سيارتي في نيويورك؟"
- تسلسل الإخراج النموذجي: "لا، من الأفضل أن تترك سيارتك في المنزل".
حصة طعام
عملية إتاحة نموذج مُدرَّب لتقديم توقّعات من خلال الاستنتاج الحي أو الاستنتاج المؤخَّر.
الشكل (Tensor)
عدد العناصر في كل بُعد من الموتر. يتم تمثيل الشكل كقائمة من الأعداد الصحيحة. على سبيل المثال، يحتوي الموتر الثنائي الأبعاد التالي على شكل [3,4]:
[[5, 7, 6, 4], [2, 9, 4, 8], [3, 6, 5, 1]]
تستخدم TensorFlow تنسيق الصف الرئيسي (نمط C) لتمثيل ترتيب الأبعاد، ولهذا السبب يكون الشكل في TensorFlow هو [3,4] بدلاً من [4,3]. بعبارة أخرى، في TensorFlow Tensor ثنائي الأبعاد، يكون الشكل
هو [عدد الصفوف، عدد الأعمدة].
الشكل الثابت هو شكل موتر يكون معروفًا في وقت الترجمة البرمجية.
يكون الشكل الديناميكي غير معروف في وقت الترجمة البرمجية، وبالتالي يعتمد على بيانات وقت التشغيل. يمكن تمثيل هذا المتّجه متعدّد الأبعاد باستخدام بُعد عنصر نائب في TensorFlow، كما هو موضّح في [3, ?].
جزء
تقسيم منطقي لمجموعة التدريب أو النموذج عادةً، تنشئ بعض العمليات أجزاءً من خلال تقسيم الأمثلة أو المَعلمات إلى أجزاء متساوية الحجم (عادةً). بعد ذلك، يتمّ تعيين كل جزء إلى جهاز مختلف.
يُطلق على تقسيم النموذج اسم التوازي على مستوى النموذج، بينما يُطلق على تقسيم البيانات اسم التوازي على مستوى البيانات.
الانكماش
معلَمة فائقة في تعزيز التدرّج التي تتحكّم في المطابقة بشكل مفرط يشبه الانكماش في تعزيز التدرّج معدّل التعلّم في النزول المتدرّج. الانكماش هو قيمة عشرية تتراوح بين 0.0 و1.0. تؤدي قيمة الانكماش المنخفضة إلى تقليل التكيّف الزائد أكثر من قيمة الانكماش الكبيرة.
التقييم جنبًا إلى جنب
مقارنة جودة نموذجَين من خلال تقييم استجاباتهما للمطالبة نفسها على سبيل المثال، لنفترض أنّ الطلب التالي تم تقديمه إلى نموذجَين مختلفَين:
أنشِئ صورة لكلب ظريف يلهو بثلاث كرات.
في التقييم جنبًا إلى جنب، يختار المقيّم الصورة "الأفضل" (الأكثر دقة؟ أكثر جمالاً؟ ألطف؟).
الدالّة الإسية
دالة رياضية "تضغط" قيمة إدخال في نطاق محدود، عادةً من 0 إلى 1 أو من -1 إلى +1. وهذا يعني أنّه يمكنك تمرير أي رقم (اثنان أو مليون أو مليار سالب أو أي رقم آخر) إلى دالة Sigmoid وسيظل الناتج ضمن النطاق المحدود. يبدو الرسم البياني لدالة التنشيط السينية على النحو التالي:
تتعدّد استخدامات الدالة السينية في التعلّم الآلي، ومنها:
- تحويل الناتج الأوّلي لنموذج الانحدار اللوجستي أو نموذج الانحدار المتعدد الحدود إلى احتمالية
- العمل كدالة تنشيط في بعض الشبكات العصبية
مقياس التشابه
في خوارزميات التجميع، يشير ذلك المصطلح إلى المقياس المستخدَم لتحديد مدى التشابه بين أي مثالَين.
برنامج واحد / بيانات متعددة (SPMD)
يشير ذلك إلى أسلوب توازٍ يتم فيه تنفيذ عملية حسابية نفسها على بيانات إدخال مختلفة بشكل متوازٍ على أجهزة مختلفة. تهدف تقنية SPMD إلى الحصول على النتائج بشكل أسرع. وهو النمط الأكثر شيوعًا للبرمجة المتوازية.
الثبات الحجمي
في مشكلة تصنيف الصور، تشير إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عند تغيُّر حجم الصورة. على سبيل المثال، يمكن للخوارزمية التعرّف على قطة سواء كانت تستهلك مليوني بكسل أو 200 ألف بكسل. يُرجى العِلم أنّه حتى أفضل خوارزميات تصنيف الصور لا تزال لها حدود عملية بشأن ثبات الحجم. على سبيل المثال، من غير المرجّح أن تصنّف خوارزمية (أو شخص) صورة قطة بشكل صحيح إذا كانت تستهلك 20 بكسل فقط.
راجِع أيضًا الثبات الانتقالي والثبات الدوراني.
يمكنك الاطّلاع على دورة التجميع لمزيد من المعلومات.
الرسم
في تعلُّم الآلة غير المراقَب، يتم استخدام فئة من الخوارزميات التي تجري تحليلاً أوليًا لتحديد التشابه في الأمثلة. تستخدم خوارزميات التخطيط دالة تجزئة حساسة للموقع الجغرافي لتحديد النقاط التي من المحتمل أن تكون متشابهة، ثم يتم تجميعها في حِزم.
يقلّل التخطيط من العمليات الحسابية المطلوبة لاحتساب التشابه في مجموعات البيانات الكبيرة. بدلاً من حساب التشابه لكل زوج من الأمثلة في مجموعة البيانات، نحسب التشابه لكل زوج من النقاط داخل كل مجموعة فقط.
skip-gram
مخطط N-gram الذي قد يحذف (أو "يتخطّى") كلمات من السياق الأصلي، ما يعني أنّ الكلمات N قد لا تكون متجاورة في الأصل وبشكل أكثر دقة، فإنّ "k-skip-n-gram" هو n-gram يمكن فيه تخطّي ما يصل إلى k كلمة.
على سبيل المثال، تحتوي عبارة "the quick brown fox" على ثنائيات الحروف المحتملة التالية:
- "الكلب السريع"
- "quick brown"
- "ثعلب بني"
"1-skip-2-gram" هي عبارة عن زوج من الكلمات بينهما كلمة واحدة على الأكثر. لذلك، تحتوي عبارة "the quick brown fox" على ما يلي من 2-grams مع تخطّي كلمة واحدة:
- "the brown"
- "الثعلب السريع"
بالإضافة إلى ذلك، جميع الثنائيات هي أيضًا ثنائيات بمسافة فاصلة واحدة، لأنّه يمكن تخطّي أقل من كلمة واحدة.
تكون skip-grams مفيدة لفهم المزيد من السياق المحيط بكلمة معيّنة. في المثال، تم ربط الكلمة "fox" مباشرةً بالكلمة "quick" في مجموعة 1-skip-2-grams، ولكن ليس في مجموعة 2-grams.
تساعد skip-grams في تدريب نماذج تضمين الكلمات.
softmax
دالة تحدّد احتمالات كل فئة ممكنة في نموذج تصنيف متعدّد الفئات. ويجب أن يكون مجموع الاحتمالات 1.0. على سبيل المثال، يوضّح الجدول التالي كيف توزع دالة softmax الاحتمالات المختلفة:
| الصورة عبارة عن... | الاحتمالية |
|---|---|
| كلب | .85 |
| هرّ | .13 |
| حصان | .02 |
يُطلق على Softmax أيضًا اسم دالّة softmax الكاملة.
يختلف عن تحليل العينات المُحتملة.
لمزيد من المعلومات، يمكنك الاطّلاع على الشبكات العصبية: التصنيف المتعدد الفئات في "دورة مكثّفة عن تعلّم الآلة".
ضبط الطلبات الليّنة
هي تقنية تتيح تحسين نموذج لغوي كبير لأداء مهمة معيّنة، بدون الحاجة إلى تحسين مكثّف للموارد. بدلاً من إعادة تدريب جميع الأوزان في النموذج، تعمل ميزة "ضبط المطالبات السلس" تلقائيًا على تعديل مطالبة لتحقيق الهدف نفسه.
عند تقديم طلب نصي، تعمل عملية ضبط الطلب المرن عادةً على إلحاق تضمينات رموز مميزة إضافية بالطلب، وتستخدم الانتشار الخلفي لتحسين الإدخال.
يحتوي الطلب "الصعب" على رموز مميّزة فعلية بدلاً من تضمينات الرموز المميّزة.
خاصية متناثرة
ميزة تكون قيمها في الغالب صفرًا أو فارغة. على سبيل المثال، تكون الميزة التي تحتوي على قيمة واحدة تساوي 1 ومليون قيمة تساوي 0 متفرقة. في المقابل، تحتوي الميزة الكثيفة على قيم ليست صفرًا أو فارغة في الغالب.
في التعلّم الآلي، يكون عدد كبير من الميزات ميزات متفرقة. السمات الفئوية هي عادةً سمات متفرقة. على سبيل المثال، من بين 300 نوع ممكن من الأشجار في غابة، قد يحدّد مثال واحد شجرة قيقب فقط. أو من بين ملايين الفيديوهات المحتملة في مكتبة فيديوهات، قد يحدّد مثال واحد فقط "كازابلانكا".
في النموذج، يتم عادةً تمثيل الميزات المتفرقة باستخدام الترميز الأحادي. إذا كان التشفير الواحد الفعّال كبيرًا، يمكنك وضع طبقة تضمين فوق التشفير الواحد الفعّال لتحقيق كفاءة أكبر.
التمثيل المتناثر
تخزين مواضع العناصر غير الصفرية فقط في ميزة متفرقة
على سبيل المثال، لنفترض أنّ ميزة فئوية باسم species تحدّد 36 نوعًا من الأشجار في غابة معيّنة. افترض أيضًا أنّ كل مثال يحدّد نوعًا واحدًا فقط.
يمكنك استخدام متجه الترميز الأحادي لتمثيل أنواع الأشجار في كل مثال.
سيتضمّن المتجه ذو الترميز النشط الواحد 1 واحدًا (لتمثيل نوع الشجرة المحدّد في هذا المثال) و35 0 (لتمثيل أنواع الأشجار الـ 35 غير الموجودة في هذا المثال). لذا، قد يبدو التمثيل بترميز one-hot للرقم maple على النحو التالي:
بدلاً من ذلك، يمكن أن يحدّد التمثيل المتفرّق موضع النوع المعيّن. إذا كان maple في الموضع 24، سيكون التمثيل المتناثر لـ maple كما يلي:
24
لاحظ أنّ التمثيل المتفرّق أكثر إيجازًا من التمثيل بترميز "واحد ساخن".
لمزيد من المعلومات، راجِع استخدام البيانات الفئوية في دورة "التعلّم الآلي السريع".
متّجه متناثر
متّجه تكون قيمه في الغالب أصفارًا راجِع أيضًا الخاصية المتناثرة ومقياس التناثر.
مقياس التناثر
عدد العناصر التي تم ضبطها على صفر (أو قيمة فارغة) في متّجه أو مصفوفة مقسومًا على إجمالي عدد الإدخالات في هذا المتّجه أو المصفوفة على سبيل المثال، لنفترض أنّ لديك مصفوفة تتضمّن 100 عنصر، منها 98 خلية تحتوي على القيمة صفر. يتم احتساب مقياس التباين على النحو التالي:
تشير ندرة الخصائص إلى ندرة خطوط متجهة للخصائص، وتشير ندرة النماذج إلى ندرة أوزان النماذج.
الاختزال المكاني
اطّلِع على التجميع.
الترميز المواصفاتي
عملية كتابة ملف وصيانته بلغة بشرية (مثل الإنجليزية) يصف البرنامج. يمكنك بعد ذلك أن تطلب من نموذج ذكاء اصطناعي توليدي أو مهندس برمجيات آخر إنشاء البرنامج الذي يتوافق مع هذا الوصف.
يتطلّب الرمز البرمجي الذي يتم إنشاؤه تلقائيًا عادةً تكرارًا. في الترميز المحدّد، يمكنك تكرار ملف الوصف. في المقابل، في الترميز الحواري، يمكنك تكرار العملية داخل مربّع الطلب. في الواقع، يتضمّن إنشاء الرموز البرمجية تلقائيًا أحيانًا مزيجًا من كل من الترميز التحديدي والترميز الحواري.
تقسيم
في شجرة القرار، هو اسم آخر للشرط.
مقسِّم
أثناء تدريب شجرة القرارات، يتم استخدام الروتين (والخوارزمية) المسؤول عن العثور على أفضل شرط عند كل عقدة.
SPMD
اختصار برنامج واحد / بيانات متعددة
SQuAD
اختصار مجموعة بيانات ستانفورد للأسئلة والأجوبة، تم تقديمه في الورقة البحثية SQuAD: أكثر من 100,000 سؤال حول فهم الآلة للنصوص. تتضمّن مجموعة البيانات هذه أسئلة طرحها مستخدمون حول مقالات ويكيبيديا. تتضمّن بعض الأسئلة في مجموعة بيانات SQuAD إجابات، بينما لا تتضمّن أسئلة أخرى إجابات عن قصد. لذلك، يمكنك استخدام مجموعة بيانات SQuAD لتقييم قدرة نموذج لغوي كبير على تنفيذ ما يلي:
- أجِب عن الأسئلة التي يمكن الإجابة عنها.
- تحديد الأسئلة التي لا يمكن الإجابة عنها
المطابقة التامة مع F1 هما المقياسان الأكثر شيوعًا لتقييم النماذج اللغوية الكبيرة (LLM) مقارنةً بمجموعة بيانات SQuAD.
تربيع الخسارة المفصلية
مربّع الخسارة المفصلية تفرض الخسارة المفصلية المربّعة عقوبة على القيم الشاذة بشكل أكبر من الخسارة المفصلية العادية.
الخسارة التربيعية
مرادف الخسارة التربيعية2
التدريب على مراحل
أسلوب لتدريب نموذج في سلسلة من المراحل المنفصلة. يمكن أن يكون الهدف إما تسريع عملية التدريب أو تحقيق جودة أفضل للنموذج.
في ما يلي صورة توضيحية لأسلوب التجميع التدريجي:
- تحتوي المرحلة 1 على 3 طبقات مخفية، وتحتوي المرحلة 2 على 6 طبقات مخفية، وتحتوي المرحلة 3 على 12 طبقة مخفية.
- تبدأ المرحلة 2 التدريب باستخدام الأوزان التي تم تعلّمها في 3 طبقات مخفية من المرحلة 1. تبدأ المرحلة 3 التدريب باستخدام الأوزان التي تم تعلّمها في 6 طبقات مخفية من المرحلة 2.
اطّلِع أيضًا على تجميع الطلبات.
الولاية
في التعلّم المعزّز، تشير الحالة إلى قيم المَعلمات التي تصف الإعداد الحالي للبيئة، والتي يستخدمها العميل لاختيار إجراء.
دالة قيمة الحالة والإجراء
مرادف دالة Q
وكيل آلة الحالة
وكيل تكون مهام سير عمله مقيّدة بقواعد صارمة وعمومًا، ترتكب برامج الحالة المحدودة أخطاء أقل من البرامج المستقلة، لكنّها تفتقر إلى الحرية في التكيّف مع المواقف الخارجة عن نطاق قيودها.
ثابت
شيء يتم تنفيذه مرة واحدة بدلاً من تنفيذه بشكل مستمر المصطلحان ثابت وبلا إنترنت مترادفان. في ما يلي الاستخدامات الشائعة للبيانات الثابتة وغير المتصلة بالإنترنت في تعلّم الآلة:
- النموذج الثابت (أو النموذج بلا إنترنت) هو نموذج يتم تدريبه مرة واحدة ثم استخدامه لفترة من الوقت.
- التدريب الثابت (أو التدريب بلا اتصال بالإنترنت) هو عملية تدريب نموذج ثابت.
- الاستنتاج الثابت (أو الاستنتاج المؤخَّر) هو عملية ينشئ فيها النموذج دفعة من التوقّعات في كل مرة.
تتبايَن مع الصور الديناميكية.
الاستنتاج الثابت
مرادف الاستنتاج المؤخَّر
الثبات
سمة لا تتغيّر قيمها على مستوى سمة واحدة أو أكثر، وعادةً ما تكون هذه السمة هي الوقت. على سبيل المثال، تكون إحدى السمات ثابتة إذا كانت قيمها متشابهة تقريبًا في عامَي 2021 و2023.
في العالم الحقيقي، لا تتسم سوى عدد قليل جدًا من السمات بالثبات. حتى الميزات المرتبطة بالثبات (مثل مستوى سطح البحر) تتغير بمرور الوقت.
يختلف ذلك عن عدم الثبات.
بخطوة
عملية تمرير أمامي وعملية تمرير خلفي لمجموعة واحدة
يمكنك الاطّلاع على الانتشار العكسي لمزيد من المعلومات حول المرور الأمامي والمرور الخلفي.
حجم الخطوة
مرادف لمعدّل التعلّم.
النزول المتدرّج العشوائي (SGD)
خوارزمية نزول تدرّجي يكون فيها حجم الدفعة واحدًا. بعبارة أخرى، يتم تدريب SGD على مثال واحد يتم اختياره بشكل موحّد وعشوائي من مجموعة تدريب.
يمكنك الاطّلاع على الانحدار الخطي: المعلمات الفائقة في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.
قفزة
في عملية الالتفاف أو التجميع، تكون دلتا في كل بُعد من السلسلة التالية من شرائح الإدخال. على سبيل المثال، يوضّح الرسم المتحرّك التالي خطوة (1,1) أثناء عملية التفاف. لذلك، تبدأ شريحة الإدخال التالية بموضع واحد على يمين شريحة الإدخال السابقة. عندما تصل العملية إلى الحافة اليمنى، تكون الشريحة التالية في أقصى اليسار ولكن في موضع واحد للأسفل.
يوضّح المثال السابق خطوة ثنائية الأبعاد. إذا كانت مصفوفة الإدخال ثلاثية الأبعاد، سيكون التقدّم أيضًا ثلاثي الأبعاد.
تقليص المخاطر البنيوية (SRM)
خوارزمية توازن بين هدفين:
- الحاجة إلى إنشاء النموذج الأكثر قدرة على التوقّع (على سبيل المثال، أقل خسارة)
- الحاجة إلى إبقاء النموذج بسيطًا قدر الإمكان (على سبيل المثال، التنظيم القوي).
على سبيل المثال، الدالة التي تقلّل الخسارة+التسوية في مجموعة التدريب هي خوارزمية لتقليل المخاطر البنيوية.
يختلف ذلك عن تقليص المخاطر التجريبية.
وكيل فرعي
نموذج متخصص ومحدود النطاق يتم استدعاؤه من خلال وكيل مدير للتعامل مع مجموعة فرعية محددة من مشكلة أكبر. عادةً ما يكون لدى الوكلاء الفرعيين مساحة إجراء أضيق من الوكلاء.
جمع عيّنات جزئية
اطّلِع على التجميع.
الرمز المميز للكلمة الفرعية
في نماذج اللغة، الرمز المميّز هو سلسلة فرعية من كلمة، وقد يكون الكلمة بأكملها.
على سبيل المثال، قد يتم تقسيم كلمة مثل "itemize" إلى جزأين هما "item" (كلمة جذرية) و "ize" (لاحقة)، ويتم تمثيل كل جزء برمز مميز خاص به. يتيح تقسيم الكلمات غير الشائعة إلى أجزاء، تُعرف باسم الكلمات الفرعية، لنماذج اللغة التعامل مع الأجزاء المكوّنة الأكثر شيوعًا للكلمة، مثل البادئات واللاحقات.
في المقابل، قد لا يتم تقسيم الكلمات الشائعة، مثل "ذاهب"، وقد يتم تمثيلها برمز مميز واحد.
ملخّص
في TensorFlow، هي قيمة أو مجموعة من القيم يتم احتسابها في خطوة معيّنة، ويتم استخدامها عادةً لتتبُّع مقاييس النموذج أثناء التدريب.
SuperGLUE
مجموعة من مجموعات البيانات لتقييم قدرة النموذج اللغوي الكبير بشكل عام على فهم النصوص وإنشائها تتألف المجموعة الموحدة من مجموعات البيانات التالية:
- أسئلة منطقية (BoolQ)
- CommitmentBank (CB)
- اختيار البدائل المعقولة (COPA)
- فهم القراءة المتعددة الجمل (MultiRC)
- مجموعة بيانات فهم المقروء باستخدام الاستدلال المنطقي السليم (ReCoRD)
- التعرّف على الاستلزام النصي (RTE)
- الكلمات في السياق (WiC)
- تحدي مخطط وينوغراد (WSC)
لمزيد من التفاصيل، يُرجى الاطّلاع على SuperGLUE: معيار تقييم أكثر ثباتًا لأنظمة فهم اللغة للأغراض العامة.
تعلُّم الآلة الموجَّه
تدريب نموذج من الميزات والتصنيفات المقابلة يمكن تشبيه تعلُّم الآلة الموجَّه بتعلُّم موضوع معيّن من خلال دراسة مجموعة من الأسئلة والإجابات المقابلة لها. بعد إتقان الربط بين الأسئلة والأجوبة، يمكن للطالب تقديم إجابات عن أسئلة جديدة (لم يسبق له رؤيتها) حول الموضوع نفسه.
قارِن ذلك بتعلُّم الآلة غير المراقَب.
يمكنك الاطّلاع على التعلُّم الموجَّه في دورة "مقدمة في تعلُّم الآلة" للحصول على مزيد من المعلومات.
خاصية مصطنعة
ميزة غير متوفّرة بين الميزات المُدخَلة، ولكن تم تجميعها من ميزة واحدة أو أكثر من هذه الميزات تشمل طرق إنشاء الميزات الاصطناعية ما يلي:
- تحويل القيم خاصية مستمرة إلى حِزم نطاق
- إنشاء مضروب مجموعات الخصائص
- ضرب (أو قسمة) قيمة ميزة واحدة على قيم ميزات أخرى أو على نفسها على سبيل المثال، إذا كانت
aوbمن سمات الإدخال، ستكون الأمثلة التالية من السمات المصطنعة:- ab
- a2
- تطبيق دالة متسامية على قيمة سمة على سبيل المثال، إذا كانت
cهي ميزة إدخال، تكون الأمثلة التالية هي ميزات اصطناعية:- sin(c)
- ln(c)
لا تُعتبر الميزات التي يتم إنشاؤها من خلال التسوية أو التحجيم وحدها ميزات اصطناعية.
T
T5
نموذج التعلّم القائم على نقل المهام من نص إلى نص، تم طرحه من قِبل Google AI في عام 2020 T5 هو نموذج ترميز-فك ترميز يستند إلى بنية Transformer، وتم تدريبه على مجموعة بيانات كبيرة جدًا. وهو فعّال في مجموعة متنوعة من مهام معالجة اللغة الطبيعية، مثل إنشاء النصوص وترجمة اللغات والإجابة عن الأسئلة بطريقة حوارية.
يستمدّ نموذج T5 اسمه من أحرف T الخمسة في عبارة "Text-to-Text Transfer Transformer".
T5X
إطار عمل مفتوح المصدر لتعلُّم الآلة مصمَّم لإنشاء وتدريب نماذج معالجة اللغات الطبيعية (NLP) على نطاق واسع. يتم تنفيذ T5 على قاعدة بيانات T5X (المستندة إلى JAX وFlax).
التعلم المعزز المستند إلى جدول Q
في التعلم المعزّز، يتم تنفيذ التعلم المستند إلى Q باستخدام جدول لتخزين دوال Q لكل مجموعة من الحالات والإجراءات.
الاستهداف
مرادف للتصنيف
الشبكة المستهدَفة
في التعلّم العميق باستخدام Q، تكون الشبكة العصبية تقريبًا ثابتًا للشبكة العصبية الرئيسية، حيث تنفّذ الشبكة العصبية الرئيسية إما دالة Q أو سياسة. بعد ذلك، يمكنك تدريب الشبكة الرئيسية على قيم Q التي تتوقّعها الشبكة المستهدَفة. وبالتالي، يمكنك منع حلقة الملاحظات التي تحدث عندما تدرب الشبكة الرئيسية على قيم Q التي تتوقعها بنفسها. من خلال تجنُّب هذه الملاحظات، يزداد ثبات التدريب.
مهمة
مشكلة يمكن حلّها باستخدام تقنيات تعلُّم الآلة، مثل:
تقسيم المهام
تقسيم هدف كبير إلى خطوات صغيرة قابلة للتنفيذ تتعامل البرامج مع مشاكل معيّنة من خلال تقسيم المهام.
درجة الحرارة
المَعلمة الفائقة التي تتحكّم في درجة العشوائية في ردود النموذج. تؤدي درجات الحرارة المرتفعة إلى ناتج أكثر عشوائية، بينما تؤدي درجات الحرارة المنخفضة إلى ناتج أقل عشوائية.
يعتمد اختيار درجة العشوائية الأفضل على التطبيق المحدّد و/أو قيم السلسلة.
بيانات حسب فترة زمنية محدّدة
البيانات المسجّلة في نقاط زمنية مختلفة على سبيل المثال، مبيعات المعاطف الشتوية المسجّلة لكل يوم من أيام السنة هي بيانات حسب فترة زمنية محدّدة.
Tensor
بنية البيانات الأساسية في برامج TensorFlow الموترات هي هياكل بيانات متعددة الأبعاد (يمكن أن يكون عدد الأبعاد كبيرًا جدًا)، وهي غالبًا ما تكون كميات قياسية أو متجهات أو مصفوفات. يمكن أن تحتوي عناصر Tensor على قيم عددية صحيحة أو قيم نقطة عائمة أو قيم سلاسل.
TensorBoard
لوحة البيانات التي تعرض الملخّصات المحفوظة أثناء تنفيذ برنامج واحد أو أكثر من برامج TensorFlow
TensorFlow
منصة تعلُّم آلي موزّعة وواسعة النطاق يشير المصطلح أيضًا إلى طبقة واجهة برمجة التطبيقات الأساسية في حزمة TensorFlow، والتي تتيح إجراء عمليات حسابية عامة على رسومات بيانية لتدفّق البيانات.
على الرغم من أنّ TensorFlow تُستخدَم بشكل أساسي في تعلُّم الآلة، يمكنك أيضًا استخدامها في مهام أخرى لا تتعلّق بتعلُّم الآلة وتتطلّب إجراء عمليات حسابية رقمية باستخدام رسومات بيانية لتدفّق البيانات.
TensorFlow Playground
برنامج يعرض بشكل مرئي كيف تؤثر المَعلمات الفائقة المختلفة في تدريب النماذج (الشبكات العصبية بشكل أساسي). انتقِل إلى http://playground.tensorflow.org لتجربة TensorFlow Playground.
منصة TensorFlow للعرض
منصة لنشر النماذج المدرَّبة في مرحلة الإنتاج
وحدة معالجة الموتّرات (TPU)
شريحة مُدمَجة خاصة بالتطبيقات (ASIC) تعمل على تحسين أداء مهام معالجة تعلُّم الآلة. يتم نشر هذه الدوائر المتكاملة الخاصة بالتطبيقات على شكل شرائح TPU متعددة على جهاز TPU.
ترتيب المتّجه
اطّلِع على رتبة (متّجه متعدّد الأبعاد).
شكل المتّجه
عدد العناصر التي يحتوي عليها Tensor في مختلف السمات
على سبيل المثال، يحتوي [5, 10] Tensor على شكل 5 في أحد الأبعاد و10 في بعد آخر.
حجم المتّجه
تمثّل هذه السمة إجمالي عدد القيم العددية التي يحتوي عليها Tensor. على سبيل المثال، يبلغ حجم [5, 10] Tensor 50.
TensorStore
مكتبة لقراءة وكتابة المصفوفات الكبيرة المتعددة الأبعاد بكفاءة
شرط الإنهاء
في الذكاء الاصطناعي الوكيل، تشير المعايير المحدّدة مسبقًا إلى الوكيل للتوقّف عن التكرار. على سبيل المثال، إليك بعض شروط الإنهاء المحتملة:
- أكمل الوكيل الهدف بنجاح.
- لا يمكن للوكيل استخدام أي موارد أخرى.
- رصد human-in-the-loop مشكلة.
في التعلم المعزّز، الشروط التي تحدّد متى تنتهي الحلقة، مثل عندما يصل الوكيل إلى حالة معيّنة أو يتجاوز عددًا محددًا من انتقالات الحالة على سبيل المثال، في لعبة إكس أو، تنتهي الحلقة إما عندما يضع أحد اللاعبين علامة في ثلاث خانات متتالية أو عندما يتم وضع علامة في جميع الخانات.
اختبار
في شجرة القرار، هو اسم آخر للشرط.
الخسارة في مجموعة الاختبار
مقياس يمثّل الخسارة التي يتكبّدها النموذج مقارنةً بمجموعة الاختبار عند إنشاء نموذج، تحاول عادةً تقليل خسارة الاختبار. ويرجع ذلك إلى أنّ انخفاض مقياس القصور في مجموعة الاختبار هو إشارة جودة أقوى من انخفاض مقياس القصور في مجموعة التدريب أو انخفاض مقياس القصور في مجموعة التحقّق.
يشير الفرق الكبير بين خسارة الاختبار وخسارة التدريب أو خسارة التحقّق أحيانًا إلى ضرورة زيادة معدّل التسوية.
مجموعة الاختبار
مجموعة فرعية من مجموعة البيانات محجوزة لاختبار نموذج تم تدريبه.
عادةً، يتم تقسيم الأمثلة في مجموعة البيانات إلى المجموعات الفرعية الثلاث التالية المميّزة:
- مجموعة تدريب
- مجموعة التحقّق
- مجموعة اختبار
يجب أن ينتمي كل مثال في مجموعة البيانات إلى مجموعة فرعية واحدة فقط من المجموعات الفرعية السابقة. على سبيل المثال، يجب ألا ينتمي مثال واحد إلى كل من مجموعة التدريب ومجموعة الاختبار.
ترتبط مجموعة التدريب ومجموعة التحقّق ارتباطًا وثيقًا بتدريب النموذج. بما أنّ مجموعة الاختبار مرتبطة بشكل غير مباشر بالتدريب، فإنّ فقدان الاختبار هو مقياس أقل تحيزًا وأعلى جودةً من فقدان التدريب أو فقدان التحقّق من الصحة.
اطّلِع على مجموعات البيانات: تقسيم مجموعة البيانات الأصلية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
نطاق النص
نطاق فهرس المصفوفة المرتبط بقسم فرعي معيّن من سلسلة نصية
على سبيل المثال، تحتل الكلمة good في سلسلة Python النصية s="Be good now" نطاق النص من 3 إلى 6.
tf.Example
بروتوكول Protocol Buffers معياري لوصف البيانات المدخلة لتدريب نماذج تعلُّم الآلة أو الاستدلال.
tf.keras
هي تنفيذ Keras مدمج في TensorFlow.
الحدّ (لأشجار القرارات)
في الشرط المحاذي للمحور، تكون القيمة هي القيمة التي تتم مقارنة العنصر بها. على سبيل المثال، 75 هي قيمة الحد في الشرط التالي:
grade >= 75
يمكنك الاطّلاع على أداة التقسيم الدقيق للتصنيف الثنائي باستخدام الميزات الرقمية في دورة "أشجار القرار" التدريبية للحصول على مزيد من المعلومات.
تحليل المتسلسلات الزمنية
أحد المجالات الفرعية لتعلُّم الآلة والإحصاءات، وهو يحلّل بيانات حسب فترة زمنية محدّدة. تتطلّب العديد من أنواع مشاكل تعلُّم الآلة تحليل المتسلسلات الزمنية، بما في ذلك التصنيف والتجميع والتوقّع واكتشاف القيم الشاذة. على سبيل المثال، يمكنك استخدام تحليل المتسلسلات الزمنية لتوقّع المبيعات المستقبلية للمعاطف الشتوية حسب الشهر استنادًا إلى بيانات المبيعات السابقة.
الخطوة الزمنية
خلية "موسّعة" واحدة ضمن شبكة عصبية متكرّرة على سبيل المثال، يعرض الشكل التالي ثلاث خطوات زمنية (تمت تسميتها بالرموز الفرعية t-1 وt وt+1):
الرمز المميز
في النموذج اللغوي، يشير إلى الوحدة الأساسية التي يتدرب عليها النموذج ويضع التوقعات استنادًا إليها. يكون الرمز المميز عادةً أحد ما يلي:
- كلمة، على سبيل المثال، تتألف العبارة "الكلاب تحب القطط" من ثلاث وحدات رمزية للكلمات: "الكلاب" و"تحب" و "القطط".
- حرف، مثلاً، تتألف العبارة "bike fish" من تسعة رموز مميزة. (يُرجى العِلم أنّ المساحة الفارغة تُحتسب كإحدى الرموز المميزة).
- الكلمات الفرعية: يمكن أن تكون كلمة واحدة رمزًا مميزًا واحدًا أو رموزًا مميزة متعددة. تتألف الكلمة الفرعية من كلمة أصلية أو بادئة أو لاحقة. على سبيل المثال، قد ينظر نموذج اللغة الذي يستخدم الكلمات الفرعية كرموز إلى الكلمة "كلاب" على أنّها رمزان (الكلمة الجذر "كلب" ولاحقة الجمع "اب"). قد يرى نموذج اللغة نفسه الكلمة المفردة "أطول" على أنّها كلمتان فرعيتان (الكلمة الجذر "طويل" واللاحقة "أ").
في النطاقات خارج نماذج اللغة، يمكن أن تمثّل الرموز المميزة أنواعًا أخرى من الوحدات الذرية. على سبيل المثال، في مجال رؤية الكمبيوتر، قد يكون الرمز المميز مجموعة فرعية من صورة.
يمكنك الاطّلاع على النماذج اللغوية الكبيرة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
أداة تقسيم النص إلى رموز مميّزة
نظام أو خوارزمية تحوّل تسلسلاً من بيانات الإدخال إلى رموز مميزة.
معظم النماذج الأساسية الحديثة هي متعددة الوسائط. يجب أن يحوّل أداة الترميز لنظام متعدد الوسائط كل نوع من أنواع الإدخال إلى التنسيق المناسب. على سبيل المثال، إذا كانت البيانات المدخلة تتألف من نص ورسومات، قد يحوّل برنامج التقسيم إلى رموز مميّزة النص المدخل إلى كلمات فرعية ويحوّل الصور المدخلة إلى رقع صغيرة. بعد ذلك، يجب أن يحوّل أداة الترميز جميع الرموز المميزة إلى مساحة تضمين موحّدة واحدة، ما يتيح للنموذج "فهم" مجموعة من المدخلات المتعددة الوسائط.
دقة أعلى k
النسبة المئوية لعدد المرات التي يظهر فيها "تصنيف مستهدَف" ضمن أول k مواضع في القوائم التي تم إنشاؤها يمكن أن تكون القوائم اقتراحات مخصّصة أو قائمة بعناصر مرتّبة حسب softmax.
يُعرف مقياس "الدقة في أعلى k نتائج" أيضًا باسم الدقة عند k.
برج
أحد مكوّنات الشبكة العصبية العميقة، وهو عبارة عن شبكة عصبية عميقة في حد ذاته. في بعض الحالات، يقرأ كل برج من مصدر بيانات مستقل، وتبقى هذه الأبراج مستقلة إلى أن يتم دمج ناتجها في طبقة نهائية. في حالات أخرى، (على سبيل المثال، في برج المشفّر وبرج فك التشفير الخاصَين بالعديد من محوّلات الترميز)، تتضمّن الأبراج روابط متبادلة.
لغة غير لائقة
درجة إساءة المحتوى أو تهديده أو إهانته يمكن للعديد من نماذج تعلُّم الآلة تحديد مستوى السمية وقياسه وتصنيفه. تحدّد معظم هذه النماذج مستوى السمية وفقًا لمعايير متعددة، مثل مستوى اللغة المسيئة ومستوى اللغة التي تتضمّن تهديدات.
TPU
اختصار وحدة معالجة الموتّرات
شريحة TPU
هي أداة تسريع قابلة للبرمجة خاصة بالجبر الخطي، وتتضمّن ذاكرة عالية النطاق الترددي على الشريحة، وهي محسّنة لتناسب مهام معالجة تعلُّم الآلة. يتم نشر شرائح TPU متعددة على جهاز TPU.
جهاز TPU
لوحة دوائر مطبوعة (PCB) تحتوي على عدة رقائق TPU، وواجهات شبكة ذات نطاق ترددي عالٍ، وأجهزة تبريد للنظام.
عقدة وحدة معالجة الموتّرات
مورد لوحدة معالجة الموتّرات على Google Cloud بنوع وحدة معالجة موتّرات محدّد. تتصل عقدة TPU بشبكة VPC من شبكة VPC نظيرة. عُقد TPU هي موارد محدّدة في Cloud TPU API.
حزمة TPU
هي إعدادات محدّدة لأجهزة TPU في أحد مراكز بيانات Google. تكون جميع الأجهزة في وحدة TPU Pod متصلة ببعضها البعض عبر شبكة مخصّصة عالية السرعة. وحدة TPU Pod هي أكبر إعداد لأجهزة TPU متاح لإصدار معيّن من TPU.
مورد TPU
كيان لوحدة معالجة الموتّرات (TPU) على Google Cloud يمكنك إنشاؤه أو إدارته أو استخدامه على سبيل المثال، عُقد وحدات معالجة الموتّرات وأنواع وحدات معالجة الموتّرات هي موارد لوحدات معالجة الموتّرات.
شريحة TPU
شريحة وحدة معالجة الموتّرات (TPU) هي جزء كسري من أجهزة TPU في حزمة TPU. جميع الأجهزة في شريحة وحدة معالجة الموتّرات متصلة ببعضها البعض عبر شبكة مخصّصة عالية السرعة.
نوع وحدة معالجة الموتّرات
إعداد لجهاز واحد أو أكثر من أجهزة TPU مع إصدار محدّد من أجهزة TPU يمكنك اختيار نوع وحدة معالجة الموتّرات عند إنشاء
عقدة وحدة معالجة الموتّرات على Google Cloud. على سبيل المثال، v2-8نوع وحدة معالجة الموتّرات هو جهاز TPU v2 واحد مزوّد بـ 8 نوى. يحتوي v3-2048 نوع وحدة معالجة الموتّرات على 256 جهاز TPU v3 متصل بشبكة و2048 نواة إجمالاً. أنواع وحدات معالجة الموتّرات هي موارد
محدّدة في
Cloud TPU API.
عامل TPU
عملية يتم تنفيذها على جهاز مضيف وتنفّذ برامج تعلُّم الآلة على أجهزة TPU
التدريب
تشير إلى عملية تحديد المَعلمات المثالية (الأوزان والانحيازات) التي يتألف منها النموذج. أثناء التدريب، يقرأ النظام أمثلة ويعدّل المَعلمات تدريجيًا. يستخدم التدريب كل مثال من بضع مرات إلى مليارات المرات.
يمكنك الاطّلاع على التعلُّم الموجَّه في دورة "مقدمة في تعلُّم الآلة" للحصول على مزيد من المعلومات.
فقدان التدريب
المقياس الذي يمثّل الخسارة التي يتكبّدها النموذج خلال عملية تدريب معيّنة. على سبيل المثال، لنفترض أنّ دالة الخسارة هي الخطأ التربيعي المتوسّط. على سبيل المثال، قد يكون فقدان التدريب (متوسط الخطأ التربيعي) في التكرار العاشر هو 2.2، بينما يكون فقدان التدريب في التكرار المئة هو 1.9.
يعرض مخطّط الخسارة الخسارة أثناء التدريب مقابل عدد التكرارات. تقدّم منحنى الخسارة التلميحات التالية حول التدريب:
- يشير الميل الهبوطي إلى أنّ النموذج يتحسّن.
- يشير الميل المتزايد إلى أنّ النموذج يزداد سوءًا.
- يشير الميل المسطّح إلى أنّ النموذج قد بلغ حالة التقارب.
على سبيل المثال، يوضّح منحنى الخسارة المثالي إلى حد ما ما يلي:
- ميل حادّ نحو الأسفل خلال التكرارات الأولية، ما يشير إلى تحسُّن سريع في النموذج
- انحدار يتسطّح تدريجيًا (ولكنّه يظلّ متّجهًا للأسفل) إلى أن يقترب من نهاية التدريب، ما يشير إلى تحسّن مستمرّ في النموذج بوتيرة أبطأ بعض الشيء من الوتيرة التي كانت سائدة خلال التكرارات الأولية
- ميلان مستوٍ نحو نهاية التدريب، ما يشير إلى التقارب
على الرغم من أهمية فقدان التدريب، يمكنك أيضًا الاطّلاع على التعميم.
اختلاف بين بيانات التدريب وبيانات العرض
الفرق بين أداء النموذج أثناء التدريب وأداء النموذج نفسه أثناء العرض
مجموعة التدريب
مجموعة فرعية من مجموعة البيانات المستخدَمة لتدريب نموذج
عادةً، يتم تقسيم الأمثلة في مجموعة البيانات إلى ثلاث مجموعات فرعية مميزة كما يلي:
- مجموعة تدريب
- مجموعة التحقّق
- مجموعة اختبار
يُفضّل أن ينتمي كل مثال في مجموعة البيانات إلى مجموعة فرعية واحدة فقط من المجموعات الفرعية السابقة. على سبيل المثال، يجب ألا ينتمي مثال واحد إلى كل من مجموعة التدريب ومجموعة التحقّق.
اطّلِع على مجموعات البيانات: تقسيم مجموعة البيانات الأصلية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
المسار
في التعلم المعزّز، يكون التسلسل عبارة عن مجموعات تمثّل تسلسل عمليات انتقال الحالة للعنصر، حيث تتوافق كل مجموعة مع الحالة والإجراء والمكافأة والحالة التالية لعملية انتقال حالة معيّنة.
التعلّم القائم على نقل المهام
نقل المعلومات من مهمة تعلُّم آلي إلى أخرى على سبيل المثال، في عملية التعلّم المتعدد المهام، يحلّ نموذج واحد مهام متعددة، مثل نموذج عميق الذي يتضمّن عُقد إخراج مختلفة للمهام المختلفة. قد تتضمّن عملية التعلّم القائم على نقل المهام نقل المعرفة من حلّ مهمة أبسط إلى مهمة أكثر تعقيدًا، أو نقل المعرفة من مهمة تتوفّر فيها بيانات أكثر إلى مهمة تتوفّر فيها بيانات أقل.
تحلّ معظم أنظمة تعلُّم الآلة مهمة واحدة. التعلّم القائم على نقل المهام هو خطوة أولى نحو الذكاء الاصطناعي، إذ يمكن لبرنامج واحد حل مهام متعددة.
المحوّل
بنية شبكة عصبية تم تطويرها في Google وتعتمد على آليات الاهتمام الذاتي لتحويل تسلسل من عمليات التضمين المدخلة إلى تسلسل من عمليات التضمين الناتجة بدون الاعتماد على الالتفافات أو الشبكات العصبية المتكررة. يمكن اعتبار Transformer مجموعة من طبقات الانتباه الذاتي.
يمكن أن يتضمّن المحوّل أيًّا مما يلي:
- برنامج ترميز
- برنامج فك الترميز
- كل من برنامج الترميز وفك الترميز
يحوّل برنامج الترميز تسلسلاً من عمليات التضمين إلى تسلسل جديد من عمليات التضمين بالطول نفسه. يتضمّن برنامج الترميز N طبقة متطابقة، يحتوي كل منها على طبقتَين فرعيتَين. يتم تطبيق هاتين الطبقتين الفرعيتين على كل موضع من مواضع تسلسل التضمين الأول، ما يؤدي إلى تحويل كل عنصر من عناصر التسلسل إلى تضمين جديد. تجمع الطبقة الفرعية الأولى من أداة الترميز المعلومات من تسلسل الإدخال بأكمله. تحوّل الطبقة الفرعية الثانية من برنامج الترميز المعلومات المجمّعة إلى تضمين إخراج.
يحوّل برنامج الترميز تسلسلاً من عمليات التضمين المدخلة إلى تسلسل من عمليات التضمين الناتجة، وقد يكون طولها مختلفًا. يتضمّن برنامج الترميز أيضًا N طبقات متطابقة مع ثلاث طبقات فرعية، اثنتان منها تشبهان الطبقات الفرعية لبرنامج الترميز. تأخذ الطبقة الفرعية الثالثة من أداة فك الترميز ناتج أداة الترميز وتطبّق آلية الانتباه الذاتي لجمع المعلومات منها.
تقدّم مشاركة المدوّنة Transformer: A Novel Neural Network Architecture for Language Understanding مقدمة جيدة عن Transformers.
يمكنك الاطّلاع على النماذج اللغوية الكبيرة: ما هو النموذج اللغوي الكبير؟ في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.
الثبات الانتقالي
في مشكلة تصنيف الصور، تشير إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عند تغيير موضع العناصر داخل الصورة. على سبيل المثال، يمكن للخوارزمية التعرّف على كلب، سواء كان في وسط الإطار أو في الطرف الأيسر منه.
راجِع أيضًا الثبات الحجمي والثبات الدوراني.
توجيه شجرة الأفكار (ToT)
استراتيجية طلب متطورة تشجّع النموذج اللغوي الكبير على البحث عن الحلول الوسيطة الواعدة وتحسينها، والتخلّي عن الباقي. يستخدم أسلوب توجيه الطلبات عبر "شجرة الأفكار" خوارزمية مثل ما يلي:
- قسِّم المشكلة المعقّدة إلى فروع مختلفة (استراتيجيات محتملة)، يتضمّن كل منها خطوات متعددة.
- اطلب من النموذج اللغوي الكبير العمل على كل فرع بشكل مستقل.
- اطلب من النموذج اللغوي الكبير تقييم جودة الحلّ لكل فرع بعد كل خطوة.
- مواصلة تحسين الفروع الواعدة والتخلّي عن الباقي
- إذا لم تنجح إحدى الخطوات الواعدة في النهاية، عليك التراجع وتجربة خطوات واعدة أخرى.
trigram
مخطط ثلاثي حيث N=3
الإجابة عن أسئلة المعلومات العامة
مجموعات البيانات لتقييم قدرة نموذج اللغة الكبير على الإجابة عن أسئلة المعلومات العامة تحتوي كل مجموعة بيانات على أزواج من الأسئلة والأجوبة من تأليف محبّي المسابقات الترفيهية. تستند مجموعات البيانات المختلفة إلى مصادر مختلفة، بما في ذلك:
- بحث الويب (TriviaQA)
- Wikipedia (TriviaQA_wiki)
لمزيد من المعلومات، يُرجى الاطّلاع على TriviaQA: مجموعة بيانات كبيرة الحجم للتحدّي بإشراف عن بُعد حول فهم المقروء.
سالب صحيح (TN)
مثال يوضّح كيف يتنبأ النموذج بشكل صحيح بالفئة السلبية. على سبيل المثال، يستنتج النموذج أنّ رسالة إلكترونية معيّنة ليست غير مرغوب فيها، وأنّ هذه الرسالة الإلكترونية ليست غير مرغوب فيها بالفعل.
موجب صحيح (TP)
مثال يوضح كيف يتنبأ النموذج بشكل صحيح بالفئة الإيجابية. على سبيل المثال، يستنتج النموذج أنّ رسالة إلكترونية معيّنة هي رسالة غير مرغوب فيها، وتكون هذه الرسالة الإلكترونية في الواقع رسالة غير مرغوب فيها.
معدّل الموجب الصحيح (TPR)
مرادف لكلمة استدعاء والمقصود:
معدل الموجب الصحيح هو المحور الصادي في منحنى ROC.
TTL
اختصار مدة البقاء
Typologically Diverse Question Answering (TyDi QA)
مجموعة بيانات كبيرة لتقييم مدى إتقان نموذج لغوي كبير للإجابة عن الأسئلة تحتوي مجموعة البيانات على أزواج من الأسئلة والأجوبة بلغات عديدة.
للحصول على التفاصيل، يُرجى الاطّلاع على TyDi QA: معيار لتقييم أداء أنظمة الإجابة عن الأسئلة المتعلقة بالبحث عن المعلومات في لغات متنوعة من الناحية التصنيفية.
U
UCR
الاختصار الخاص بمعدّل الادعاءات غير المستندة إلى أساس
Ultra
نموذج Gemini الذي يتضمّن أكبر عدد من المَعلمات لمزيد من التفاصيل، يُرجى الاطّلاع على مقالة Gemini Ultra.
يمكنك الاطّلاع أيضًا على Pro وNano.
عدم الوعي (بإحدى السمات الحسّاسة)
حالة تتوفّر فيها سمات حسّاسة، ولكنّها غير مضمّنة في بيانات التدريب. بما أنّ السمات الحساسة غالبًا ما تكون مرتبطة بسمات أخرى خاصة ببيانات المستخدم، فإنّ النموذج الذي تم تدريبه بدون معرفة سمة حساسة قد يظل له تأثير غير متناسب فيما يتعلق بهذه السمة، أو ينتهك قيود العدالة الأخرى.
فرط التعميم
إنتاج نموذج بقدرة توقّع ضعيفة لأنّ النموذج لم يستوعب بشكل كامل مدى تعقيد بيانات التدريب يمكن أن تؤدي مشاكل عديدة إلى حدوث نقص في الملاءمة، بما في ذلك:
- التدريب على مجموعة خاطئة من الميزات
- التدريب لعدد قليل جدًا من الحقبات أو بمعدّل التعلّم منخفض جدًا
- التدريب بمعدّل تسوية مرتفع جدًا
- توفير عدد قليل جدًا من الطبقات المخفية في شبكة عصبونية عميقة
يمكنك الاطّلاع على الإفراط في التخصيص في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
جمع عيّنات جزئية
إزالة أمثلة من الفئة الأكثر تمثيلاً في مجموعة بيانات غير متوازنة الفئات من أجل إنشاء مجموعة تدريب أكثر توازنًا.
على سبيل المثال، لنفترض مجموعة بيانات تكون فيها نسبة الفئة الأكثر تمثيلاً إلى الفئة الأقل تمثيلاً هي 20:1. للتغلّب على عدم توازن الفئات هذا، يمكنك إنشاء مجموعة تدريبية تتألف من جميع أمثلة الفئة الأقل تمثيلاً وعُشر أمثلة الفئة الأكثر تمثيلاً فقط، ما يؤدي إلى إنشاء نسبة فئات في مجموعة التدريب تبلغ 2:1. وبفضل عملية تقليل عدد العيّنات، قد تؤدي مجموعة التدريب الأكثر توازنًا إلى إنشاء نموذج أفضل. بدلاً من ذلك، قد تحتوي مجموعة التدريب الأكثر توازناً هذه على أمثلة غير كافية لتدريب نموذج فعّال.
يختلف ذلك عن أخذ العيّنات الزائد.
أحادي الاتجاه
نظام يقيّم النص الذي يسبق قسمًا مستهدفًا من النص. في المقابل، يقيّم النظام الثنائي الاتجاه النص الذي يسبق النص المستهدف والنص الذي يليه. لمزيد من التفاصيل، يُرجى الاطّلاع على ثنائي الاتجاه.
نموذج لغوي أحادي الاتجاه
نموذج لغوي يستند في احتمالاته إلى الرموز المميزة التي تظهر قبل الرموز المميزة المستهدَفة، وليس بعدها. يختلف عن نموذج اللغة الثنائي الاتجاه.
مثال غير مصنّف
مثال يتضمّن ميزات ولكن بدون تصنيف على سبيل المثال، يعرض الجدول التالي ثلاثة أمثلة غير مصنَّفة من نموذج لتقييم المنازل، ويتضمّن كل مثال ثلاث سمات ولكن بدون قيمة للمنزل:
| عدد غرف النوم | عدد الحمّامات | عمر المنزل |
|---|---|---|
| 3 | 2 | 15 |
| 2 | 1 | 72 |
| 4 | 2 | 34 |
في تعلُّم الآلة الموجَّه، يتم تدريب النماذج على أمثلة مصنَّفة، ويتم إجراء توقعات على أمثلة غير مصنَّفة.
في التعلّم شبه الموجَّه وغير الموجَّه، يتم استخدام أمثلة غير مصنَّفة أثناء التدريب.
قارِن المثال غير المصنّف بالمثال المصنّف.
تعلُّم الآلة غير المراقَب
تدريب نموذج للعثور على أنماط في مجموعة بيانات، وعادةً ما تكون مجموعة بيانات غير مصنَّفة
إنّ الاستخدام الأكثر شيوعًا لتعلُّم الآلة غير المراقَب هو تجميع البيانات في مجموعات من الأمثلة المتشابهة. على سبيل المثال، يمكن لخوارزمية تعلّم آلي غير مراقَب تجميع الأغاني استنادًا إلى خصائص مختلفة للموسيقى. ويمكن أن تصبح المجموعات الناتجة مدخلاً لخوارزميات أخرى لتعلُّم الآلة (على سبيل المثال، لخدمة اقتراحات موسيقية). يمكن أن يساعد التجميع العنقودي عندما تكون التصنيفات المفيدة نادرة أو غير متوفّرة. على سبيل المثال، في مجالات مثل مكافحة إساءة الاستخدام والاحتيال، يمكن أن تساعد المجموعات البشر في فهم البيانات بشكل أفضل.
يختلف عن تعلُّم الآلة الموجَّه.
يمكنك الاطّلاع على ما هو تعلُّم الآلة؟ في دورة "مقدمة إلى تعلُّم الآلة" التعليمية للحصول على مزيد من المعلومات.
معدّل المطالبات غير الصالحة (UCR)
النسبة المئوية للمطالبات في ردّ غير مستندة إلى معلومات أساسية على سبيل المثال، إذا تضمّن ردّ النموذج اللغوي الكبير 10 ادّعاءات، وكان ادّعاء واحد فقط يستند إلى مصادر، تكون نسبة الادّعاءات المستندة إلى مصادر 90%.
يشير ارتفاع معدّل UCR إلى أنّ نموذج اللغة الكبير يهلوس بشكل متكرّر جدًا.
راجِع أيضًا دقة الاقتباس واكتمال الاقتباس.
نمذجة التحسين
أسلوب لوضع النماذج شائع الاستخدام في التسويق، وهو يضع نموذجًا "للتأثير السببي" (المعروف أيضًا باسم "التأثير المتزايد") "للمعالجة" على "فرد". وإليك مثالان:
- قد يستخدم الأطباء أسلوب وضع النماذج لتحسين الأداء من أجل توقّع انخفاض معدّل الوفيات (التأثير السببي) نتيجة إجراء طبي (علاج) استنادًا إلى عمر المريض (الفرد) وتاريخه الطبي.
- قد تستخدم جهات التسويق نماذج زيادة الإحالات الناجحة لتوقّع الزيادة في احتمال إجراء عملية شراء (التأثير السببي) بسبب إعلان (المعالجة) على شخص (فرد).
يختلف نموذج تحسين الاستجابة عن التصنيف أو الانحدار في أنّ بعض التصنيفات (على سبيل المثال، نصف التصنيفات في المعالجات الثنائية) تكون دائمًا غير متوفّرة في نموذج تحسين الاستجابة. على سبيل المثال، يمكن للمريض تلقّي العلاج أو عدم تلقّيه، وبالتالي، يمكننا ملاحظة ما إذا كان المريض سيشفى أو لن يشفى في إحدى هاتين الحالتين فقط (وليس في كلتيهما). تتمثّل الميزة الرئيسية لنموذج التحسّن في أنّه يمكنه إنشاء توقّعات للحالة غير المرصودة (الواقع الافتراضي) واستخدامها لاحتساب التأثير السببي.
زيادة الوزن
تطبيق وزن على الفئة المخفضة يساوي العامل الذي تم بناءً عليه تخفيض عدد العينات.
مصفوفة المستخدمين
في أنظمة الاقتراحات، متّجه التضمين هو متّجه تم إنشاؤه من خلال تحليل المصفوفات ويحتوي على إشارات كامنة حول تفضيلات المستخدم. يحتوي كل صف في مصفوفة المستخدمين على معلومات حول القوة النسبية لمختلف الإشارات الكامنة لمستخدم واحد. على سبيل المثال، لنفترض أنّ لديك نظامًا لاقتراح الأفلام. في هذا النظام، قد تمثّل الإشارات الكامنة في مصفوفة المستخدمين اهتمام كل مستخدم بأنواع معيّنة، أو قد تكون إشارات يصعب تفسيرها وتتضمّن تفاعلات معقّدة على مستوى عوامل متعدّدة.
تحتوي مصفوفة المستخدمين على عمود لكل ميزة كامنة وصف لكل مستخدم. أي أنّ مصفوفة المستخدمين تتضمّن عدد الصفوف نفسه الذي تتضمّنه المصفوفة المستهدَفة التي يتم تحليلها. على سبيل المثال، إذا كان لديك نظام اقتراحات للأفلام يضم 1,000,000 مستخدم، ستحتوي مصفوفة المستخدمين على 1,000,000 صف.
V
الإثبات
التقييم الأوّلي لجودة النموذج تتحقّق عملية التحقّق من صحة البيانات من جودة توقّعات النموذج من خلال مقارنتها بمجموعة التحقّق من صحة البيانات.
بما أنّ مجموعة التحقّق تختلف عن مجموعة التدريب، يساعد التحقّق في الحماية من المطابقة بشكل مفرط.
يمكنك اعتبار تقييم النموذج استنادًا إلى مجموعة التحقّق بمثابة الجولة الأولى من الاختبار، وتقييم النموذج استنادًا إلى مجموعة الاختبار بمثابة الجولة الثانية من الاختبار.
فقدان التحقّق من الصحة
مقياس يمثّل الخسارة التي يتكبّدها النموذج على مجموعة التحقّق خلال تكرار معيّن من التدريب.
اطّلِع أيضًا على منحنى التعميم.
مجموعة التحقّق
مجموعة فرعية من مجموعة البيانات التي تجري تقييمًا أوليًا مقارنةً بنموذج تم تدريبه. عادةً، يتم تقييم النموذج المدرَّب استنادًا إلى مجموعة التحقّق عدة مرات قبل تقييم النموذج استنادًا إلى مجموعة الاختبار.
عادةً، يتم تقسيم الأمثلة في مجموعة البيانات إلى المجموعات الفرعية الثلاث التالية المميّزة:
- مجموعة تدريب
- مجموعة التحقّق
- مجموعة اختبار
يُفضّل أن ينتمي كل مثال في مجموعة البيانات إلى مجموعة فرعية واحدة فقط من المجموعات الفرعية السابقة. على سبيل المثال، يجب ألا ينتمي مثال واحد إلى كل من مجموعة التدريب ومجموعة التحقّق.
اطّلِع على مجموعات البيانات: تقسيم مجموعة البيانات الأصلية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
تقدير القيمة
عملية استبدال قيمة مفقودة بقيمة بديلة مقبولة عندما تكون إحدى القيم مفقودة، يمكنك إما تجاهل المثال بأكمله أو استخدام تقدير القيمة لإنقاذ المثال.
على سبيل المثال، لنفترض أنّ لديك مجموعة بيانات تحتوي على ميزة temperature من المفترض تسجيلها كل ساعة. ومع ذلك، لم تتوفّر قراءة درجة الحرارة لساعة معيّنة. في ما يلي قسم من مجموعة البيانات:
| الطابع الزمني | درجة الحرارة |
|---|---|
| 1680561000 | 10 |
| 1680564600 | 12 |
| 1680568200 | غير متاحة |
| 1680571800 | 20 |
| 1680575400 | 21 |
| 1680579000 | 21 |
يمكن للنظام إما حذف المثال المفقود أو إدخال درجة الحرارة المفقودة على أنّها 12 أو 16 أو 18 أو 20، وذلك حسب خوارزمية إدخال البيانات.
مشكلة التدرّج المتلاشي
هي ميل تدرّجات الطبقات المخفية المبكرة في بعض الشبكات العصبية العميقة إلى أن تصبح مسطّحة (منخفضة) بشكل مفاجئ. تؤدي التدرّجات المنخفضة بشكل متزايد إلى تغييرات أصغر بشكل متزايد في الأوزان على العُقد في شبكة عصبية عميقة، ما يؤدي إلى تعلّم ضئيل أو معدوم. تصبح النماذج التي تعاني من مشكلة تضاؤل التدرّج صعبة التدريب أو مستحيلة. تعالج خلايا الذاكرة الطويلة قصيرة الأمد هذه المشكلة.
قارِن ذلك بمشكلة التدرّج المتفجّر.
أهمية المتغيرات
مجموعة من النتائج تشير إلى الأهمية النسبية لكل سمة في النموذج.
على سبيل المثال، لنفترض أنّ لديك شجرة قرارات تقدّر أسعار المنازل. لنفترض أنّ شجرة القرار هذه تستخدم ثلاث سمات: الحجم والعمر والأسلوب. إذا تم حساب مجموعة من أهمية المتغيرات للميزات الثلاث على النحو التالي: {size=5.8, age=2.5, style=4.7}، فإنّ الحجم أكثر أهمية لشجرة القرار من العمر أو النمط.
تتوفّر مقاييس مختلفة لأهمية المتغيّرات، ويمكن أن تفيد خبراء تعلُّم الآلة بشأن جوانب مختلفة من النماذج.
الترميز التلقائي المتغيّر (VAE)
نوع من المشفّرات التلقائية التي تستفيد من التناقض بين المدخلات والمخرجات لإنشاء إصدارات معدّلة من المدخلات. تُعدّ برامج الترميز التلقائي المتغيرة مفيدة في الذكاء الاصطناعي التوليدي.
تستند نماذج VAE إلى الاستدلال المتغير، وهو أسلوب لتقدير مَعلمات نموذج الاحتمالية.
المتّجه
مصطلح عام جدًا يختلف معناه باختلاف المجالات الرياضية والعلمية. في إطار تعلُّم الآلة، يتضمّن المتّجه خاصيتَين:
- نوع البيانات: تحتوي المتجهات في تعلُّم الآلة عادةً على أرقام الفاصلة العائمة.
- عدد العناصر: هذا هو طول المتّجه أو بعده.
على سبيل المثال، لنفترض متجه ميزات يتضمّن ثمانية أرقام نقطة عائمة. يبلغ طول أو حجم متجه الميزات هذا ثمانية. يُرجى العِلم أنّ متّجهات تعلُّم الآلة غالبًا ما تحتوي على عدد كبير من الأبعاد.
يمكنك تمثيل العديد من أنواع المعلومات المختلفة كمتجه. على سبيل المثال:
- يمكن تمثيل أي موضع على سطح الأرض كمتّجه ثنائي الأبعاد، حيث يمثّل أحد البُعدَين خط العرض والآخر خط الطول.
- يمكن تمثيل الأسعار الحالية لكل سهم من 500 سهم كمتّجه ذي 500 بُعد.
- يمكن تمثيل توزيع الاحتمالات على عدد محدود من الفئات كمتّجه. على سبيل المثال، يمكن لنظام التصنيف المتعدد الفئات الذي يتوقّع أحد ألوان الإخراج الثلاثة (الأحمر أو الأخضر أو الأصفر) أن يُخرج المتّجه
(0.3, 0.2, 0.5)ليعنيP[red]=0.3, P[green]=0.2, P[yellow]=0.5.
يمكن ربط المتجهات ببعضها، وبالتالي يمكن تمثيل مجموعة متنوعة من الوسائط المختلفة كمتجه واحد. تعمل بعض النماذج مباشرةً على تسلسل العديد من عمليات الترميز الواحد الفعّال.
تم تحسين المعالِجات المتخصّصة، مثل وحدات معالجة الموتّرات، لتنفيذ العمليات الرياضية على المتّجهات.
الذروة
منصة Google Cloud للذكاء الاصطناعي وتعلُّم الآلة توفّر Vertex أدوات وبنية تحتية لإنشاء تطبيقات الذكاء الاصطناعي وتفعيلها وإدارتها، بما في ذلك إمكانية الوصول إلى نماذج Gemini.البرمجة الوصفية
إدخال طلب إلى نموذج ذكاء اصطناعي توليدي لإنشاء برنامج أي أنّ الطلبات التي تقدّمها تصف الغرض من البرنامج وميزاته، ويحوّلها نموذج الذكاء الاصطناعي التوليدي إلى رمز مصدر. لا يتطابق الرمز البرمجي الذي تم إنشاؤه دائمًا مع نواياك، لذا تتطلّب البرمجة الوصفية عادةً تكرارًا.
صاغ أندريه كارباثي مصطلح "ترميز الأجواء" في منشور X هذا. في منشور X، وصفها كارباثي بأنّها "نوع جديد من الترميز... حيث تستسلم تمامًا للأجواء...". لذلك، كان المصطلح يشير في الأصل إلى نهج متساهل عن قصد في إنشاء البرامج، حيث قد لا يتم حتى فحص الرمز البرمجي الذي تم إنشاؤه. ومع ذلك، تطوّر هذا المصطلح بسرعة في العديد من الأوساط ليصبح يشير الآن إلى أي شكل من أشكال الترميز من إنشاء الذكاء الاصطناعي.
للحصول على وصف أكثر تفصيلاً حول البرمجة الوصفية، يمكنك الاطّلاع على المقالة ما هي البرمجة الوصفية؟
بالإضافة إلى ذلك، قارِن بين البرمجة الوصفية و:
واط
فقدان Wasserstein
إحدى دوال الخسارة الشائعة الاستخدام في الشبكات التوليدية الخصومية، استنادًا إلى مسافة نقل التربة بين توزيع البيانات التي تم إنشاؤها والبيانات الحقيقية
الوزن
قيمة يضربها النموذج في قيمة أخرى. التدريب هو عملية تحديد الأوزان المثالية للنموذج، أما الاستدلال فهو عملية استخدام تلك الأوزان التي تم تعلّمها لإجراء التوقعات.
يمكنك الاطّلاع على الانحدار الخطي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
طريقة المربّعات الصغرى المتناوبة المرجّحة (WALS)
خوارزمية لتقليل دالة الهدف أثناء تحليل المصفوفة في أنظمة الاقتراحات، ما يسمح بتقليل وزن الأمثلة الناقصة. تخفّض طريقة المربّعات الصغرى المرجّحة الخطأ التربيعي المرجّح بين المصفوفة الأصلية وإعادة الإنشاء من خلال التبديل بين تثبيت تحليل الصفوف وتحليل الأعمدة. يمكن حلّ كلّ من عمليات تحسين الدالّة المحدّبة هذه باستخدام طريقة المربّعات الصغرى. لمزيد من التفاصيل، يُرجى الاطّلاع على دورة أنظمة الاقتراحات.
المجموع الموزون
مجموع كل قيم الإدخال ذات الصلة مضروبًا في الأوزان المقابلة لها على سبيل المثال، لنفترض أنّ المدخلات ذات الصلة تتألف مما يلي:
| قيمة الإدخال | وزن الإدخال |
| 2 | -1.3 |
| -1 | 0.6 |
| 3 | 0.4 |
وبالتالي، يكون المجموع المرجّح كما يلي:
weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0
المجموع المرجّح هو وسيطة الإدخال إلى دالة التنشيط.
WiC
اختصار الكلمات في السياق
نموذج واسع
نموذج خطي يتضمّن عادةً العديد من سمات الإدخال المتفرقة. نطلق على هذا النوع من النماذج اسم "واسع" لأنّه نوع خاص من الشبكات العصبية يتضمّن عددًا كبيرًا من المدخلات التي تتصل مباشرةً بعقدة الإخراج. غالبًا ما يكون من الأسهل تصحيح أخطاء النماذج الواسعة وفحصها مقارنةً بالنماذج العميقة. على الرغم من أنّ النماذج الواسعة لا يمكنها التعبير عن العلاقات غير الخطية من خلال الطبقات المخفية، يمكنها استخدام عمليات تحويل مثل تداخل الميزات والتجميع في فئات لنمذجة العلاقات غير الخطية بطرق مختلفة.
يختلف عن النموذج العميق.
العرض
عدد الخلايا العصبية في طبقة معيّنة من شبكة عصبية
WikiLingua (wiki_lingua)
مجموعة بيانات لتقييم قدرة نموذج لغوي كبير على تلخيص المقالات القصيرة WikiHow هي موسوعة تضم مقالات تشرح كيفية تنفيذ مهام مختلفة، وهي مصدر المحتوى الذي كتبه الإنسان لكل من المقالات والملخّصات. يتألف كل إدخال في مجموعة البيانات مما يلي:
- مقال، يتم إنشاؤه من خلال إضافة كل خطوة من النسخة النثرية (فقرة) من القائمة المرقمة، باستثناء الجملة الافتتاحية لكل خطوة.
- ملخّص لتلك المقالة يتألف من الجملة الافتتاحية لكل خطوة في القائمة المرقمة
لمزيد من التفاصيل، يُرجى الاطّلاع على WikiLingua: مجموعة بيانات جديدة لقياس أداء التلخيص الاستخلاصي المتعدد اللغات.
تحدّي مخطط وينوغراد (WSC)
تنسيق (أو مجموعة بيانات متوافقة مع هذا التنسيق) لتقييم قدرة نموذج لغوي كبير على تحديد العبارة الاسمية التي يشير إليها الضمير.
يتألف كل إدخال في تحدي Winograd Schema مما يلي:
- مقطع قصير يحتوي على ضمير مستهدف
- ضمير الهدف
- عبارات اسمية مرشّحة، متبوعة بالإجابة الصحيحة (قيمة منطقية). إذا كان الضمير المستهدَف يشير إلى هذا المرشّح، تكون الإجابة "صحيح". إذا لم يشِر الضمير المستهدَف إلى هذا المرشّح، تكون الإجابة False.
على سبيل المثال:
- مقتطف: أخبر "مارك" "بيت" العديد من الأكاذيب عن نفسه، وقد أدرجها "بيت" في كتابه. كان عليه أن يكون أكثر صدقًا.
- الضمير المستهدَف: هو
- عبارات اسمية مرشّحة:
- الإجابة: صحيحة، لأنّ الضمير المستهدَف يشير إلى "مارك"
- بيتر: خطأ، لأنّ الضمير المستهدف لا يشير إلى بيتر
يشكّل تحدّي Winograd Schema جزءًا من مجموعة SuperGLUE.
حكمة الجموع
تشير إلى فكرة أنّ احتساب متوسط آراء أو تقديرات مجموعة كبيرة من الأشخاص (أي "الجمهور") غالبًا ما يؤدي إلى نتائج جيدة بشكل مدهش. على سبيل المثال، لنفترض أنّ هناك لعبة يخمّن فيها المشاركون عدد حبّات الحلوى الهلامية المعبّأة في مرطبان كبير. مع أنّ معظم التخمينات الفردية ستكون غير دقيقة، تبيّن تجريبيًا أنّ متوسط جميع التخمينات يكون قريبًا بشكل مدهش من العدد الفعلي لحبات الحلوى الهلامية في المرطبان.
المجموعات هي نظير برمجي لـ "حكمة الجموع". حتى إذا كانت النماذج الفردية تقدّم توقّعات غير دقيقة بشكل كبير، فإنّ حساب متوسط التوقّعات الناتجة عن العديد من النماذج يؤدي غالبًا إلى توقّعات جيدة بشكل مدهش. على سبيل المثال، على الرغم من أنّ شجرة القرار الفردية قد تقدّم تنبؤات غير دقيقة، إلا أنّ غابة القرار غالبًا ما تقدّم تنبؤات دقيقة جدًا.
WMT
بشكل غريب، هو اختصار لمؤتمر حول الترجمة الآلية. (الاختصار هو WMT لأنّ الاسم الأصلي كان Workshop on Machine Translation). يركّز المؤتمر على التطورات في أنظمة الترجمة الآلية.
تضمين الكلمات
تمثيل كل كلمة في مجموعة كلمات ضمن متجه تضمين، أي تمثيل كل كلمة كمتجه من قيم النقطة العائمة بين 0.0 و1.0 تكون تمثيلات الكلمات ذات المعاني المتشابهة أكثر تشابهًا من تمثيلات الكلمات ذات المعاني المختلفة. على سبيل المثال، سيكون لكل من الجزر والكرفس والخيار تمثيلات متشابهة نسبيًا، وستكون مختلفة تمامًا عن تمثيلات الطائرة والنظارات الشمسية ومعجون الأسنان.
الكلمات في السياق (WiC)
مجموعة بيانات لتقييم مدى جودة استخدام نموذج لغوي كبير للسياق من أجل فهم الكلمات التي لها معانٍ متعددة. يحتوي كل إدخال في مجموعة البيانات على ما يلي:
- جملتان تحتوي كل منهما على الكلمة المستهدَفة
- الكلمة المستهدَفة
- الإجابة الصحيحة (قيمة منطقية)، حيث:
- تعني القيمة "صحيح" أنّ الكلمة المستهدَفة تحمل المعنى نفسه في الجملتَين
- تعني القيمة False أنّ الكلمة المستهدَفة لها معنى مختلف في الجملتين
على سبيل المثال:
- جملتان:
- هناك الكثير من القمامة في قاع النهر.
- أضع كوبًا من الماء بجانب سريري عندما أنام.
- الكلمة المستهدَفة: سرير
- الإجابة الصحيحة: خطأ، لأنّ الكلمة المستهدَفة لها معنى مختلف في الجملتين.
لمزيد من التفاصيل، يُرجى الاطّلاع على WiC: مجموعة بيانات Word-in-Context لتقييم تمثيلات المعاني الحساسة للسياق.
Words in Context هي أحد مكوّنات مجموعة SuperGLUE.
WSC
اختصار تحدّي مخطط وينوغراد
X
XLA (الجبر الخطي المسرَّع)
برنامج تجميع مفتوح المصدر لتعلُّم الآلة مخصّص لوحدات معالجة الرسومات ووحدات المعالجة المركزية ومسرّعات تعلُّم الآلة
يأخذ برنامج التجميع XLA النماذج من أُطر تعلُّم الآلة الشائعة، مثل PyTorch وTensorFlow وJAX، ويحسّنها لتحقيق أداء عالٍ على مختلف منصات الأجهزة، بما في ذلك وحدات معالجة الرسومات ووحدات المعالجة المركزية ومسرّعات تعلُّم الآلة.
XL-Sum (xlsum)
مجموعة بيانات لتقييم كفاءة نموذج لغوي كبير في تلخيص النصوص تقدّم XL-Sum إدخالات بلغات عديدة. يحتوي كل إدخال في مجموعة البيانات على ما يلي:
- مقالة مأخوذة من هيئة الإذاعة البريطانية (BBC)
- تمثّل هذه السمة ملخّصًا للمقالة كتبه مؤلفها. يُرجى العِلم أنّ هذا الملخّص يمكن أن يحتوي على كلمات أو عبارات غير واردة في المقالة.
لمزيد من التفاصيل، يُرجى الاطّلاع على XL-Sum: تلخيص تجريدي متعدد اللغات على نطاق واسع لـ 44 لغة.
xsum
اختصار Extreme Summarization
Z
التعلّم بلا أمثلة
نوع من تدريب تعلُّم الآلة حيث يستنتج النموذج توقّعًا لمَهمّة لم يتم تدريبه عليها بشكل محدّد. بعبارة أخرى، لا يتلقّى النموذج أي أمثلة تدريبية خاصة بالمهمة، ولكن يُطلب منه إجراء استنتاج لهذه المهمة.
التلقين بلا أمثلة
طلب لا يقدّم مثالاً على الطريقة التي تريد أن يردّ بها النموذج اللغوي الكبير. على سبيل المثال:
| أجزاء من طلب واحد | ملاحظات |
|---|---|
| ما هي العملة الرسمية للبلد المحدّد؟ | السؤال الذي تريد أن تجيب عنه النماذج اللغوية الكبيرة |
| الهند: | طلب البحث الفعلي |
قد يردّ النموذج اللغوي الكبير بأي مما يلي:
- روبية
- INR
- ر.ه.
- الروبية الهندية
- الروبية
- الروبية الهندية
جميع الإجابات صحيحة، ولكن قد تفضّل تنسيقًا معيّنًا.
قارِن بين الطلب بدون أمثلة والمصطلحات التالية:
التسوية باستخدام درجة Z
التحجيم هو أسلوب يستبدل قيمة سمة أولية بقيمة فاصلة عائمة تمثّل عدد الانحرافات المعيارية عن متوسط تلك السمة. على سبيل المثال، لنفترض أنّ هناك ميزة متوسطها 800 وانحرافها المعياري 100. يوضّح الجدول التالي كيف يمكن أن يؤدي التوحيد القياسي لنتائج Z إلى ربط القيمة الأولية بنتيجة Z الخاصة بها:
| قيمة أساسية | الدرجة المعيارية |
|---|---|
| 800 | 0 |
| 950 | +1.5 |
| 575 | -2.25 |
بعد ذلك، يتم تدريب نموذج تعلُّم الآلة على قيم Z الخاصة بهذه الميزة بدلاً من القيم الأولية.
يمكنك الاطّلاع على البيانات الرقمية: التسوية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.